ASPseek

Screenshot der Software:
ASPseek
Softwarebeschreibung:
Version: 1.2.10
Upload-Datum: 3 Jun 15
Entwickler: SWsoft
Lizenz: Frei
Popularität: 4

Rating: nan/5 (Total Votes: 0)

ASPseek ist ein von SWsoft entwickelte und als freie Software unter der GNU GPL lizenziert Internet Suchmaschinen-Software.
ASPseek besteht aus einem Schaltroboter, der Suche Daemon und einem CGI Suche Frontend. Es kann Index nicht weniger als ein paar Millionen URLs und die Suche nach Wörtern und Phrasen, die Verwendung von Platzhaltern, und machen Sie einen Boolean-Suche. Die Suchergebnisse können nach Zeitraum gegeben, Website oder Web-Space (Satz von Sites) werden und nach Relevanz sortiert begrenzt werden (PageRank benutzt wird) oder Datum.
ASPseek wird für mehrere Standorte optimiert (Gewinde Index, asynchrone DNS-Lookups, Gruppierung Ergebnisse von Website, Web Leerzeichen), kann aber für die Suche einer Website als auch verwendet werden. ASPseek kann mit mehreren Sprachen / Codierungen auf einmal (einschließlich Multibyte-Kodierungen wie Chinesisch) aufgrund von Unicode Speichermodus zu arbeiten. Weitere Features sind Stoppwörter und ispell-Unterstützung, einen Zeichensatz und Sprache guesser, HTML-Templates für Suchergebnisse, Auszüge und Abfragewörtern Hervorhebung.
ASPseek ist in C ++ geschrieben mit dem STL-Bibliothek und verwendet Mischung aus SQL-Datenbank und Binärdateien für die Lagerung.
Hier sind einige der wichtigsten Features von "ASPseek":
Fähigkeit, Index und Suche über mehrere Millionen von Dokumenten
 
· Mit ASPseek, können Sie eine Datenbank aufzubauen und die Suche durch viele Seiten, und die Ergebnisse für jede Abfrage wird schnell zurückgegeben werden, auch wenn Sie ein paar Millionen von Dokumenten indexiert haben. Natürlich hängt dies von Hardware, also nicht erwarten, "gute alte" i486 Maschine, um jeden Ort in .com-Domain zu behandeln. Alles hängt von CPU (s), Speicher, Plattengeschwindigkeit usw. So machen Sie Ihre eigenen Tests, bevor Sie kaufen spezielle Hardware.
 
· Dass ASPseek ist für hohe Volumina optimiert sollte Sie nicht davon abhalten Sie es zu Ihrer eigenen Website, die einige hundert von Dokumenten enthält zu suchen - es funktioniert auch dort.
 
Sehr gut Relevanz der Ergebnisse
 
· Das Ziel der Suchmaschine ist es, herauszufinden, welche Benutzer möchte. Es können Tausende von URLs als Ergebnis der Suche ', aber es kann alles irrelevant sein, also Benutzer unzufrieden sein.
 
· Ausgangs Ergebnisse in ASPseek werden von Relevanz (oder Rang) sortiert, aber Rang Berechnung ist keine leichte Aufgabe. Entwickler versuchten ihr Bestes, größten und neuesten Techniken in ASPseek Motor zu integrieren, während die Erhaltung der Suchgeschwindigkeit.
 
Ispell Unterstützung
 
· Wenn ASPseek mit ispell Träger verwendet wird, searchd (1) können wahlweise alle Formen für alle angegebenen Wörter finden (Beispiel: Erstellen -> erstellen oder erstellt oder erstellt). So ermöglicht es Ihnen, das Wort in allen verschiedenen Formen zu finden.
 
Unicode Speichermodus
 
· ASPseek Informationen über Dokumente in Unicode zu speichern, wodurch möglich ist, eine mehrsprachige Suchmaschinen zu implementieren. So können Sie indizieren und zu durchsuchen die Dokumente in Englisch, Russisch und sogar Chinesisch, alle in einer Datenbank.
 
HTTP, HTTPS, HTTP-Proxy, FTP (via Proxy) Protokolle
 
· Wie ASPseek ist eine Web-Suchmaschine, verwendet er das HTTP-Protokoll zu indizieren Websites. ASPseek unterstützt auch sichere https: // Protokoll. FTP-Protokoll wird nicht direkt unterstützt, aber Sie können Proxy (wie squid) und Index-FTP-Sites über Proxy zu verwenden.
 
· ASPseek unterstützt "Grundgenehmigungs" -Funktion von HTTP, so können Sie index passwortgeschützte Bereiche (zum Beispiel private Informationen im Intranet).
 
Text / html und text / plain Dokumenttypen unterstützen
 
· ASPseek können Dokumente in HTML geschrieben und Nur-Text-Dokumente zu verstehen. Dies sind die gängigsten Formate im Internet.
 
· Andere Formate wie PDF, RTF, usw., können mit Hilfe von einem externen Programm / Skript, das in der Lage, zu konvertieren, dass Formate in HTML oder Nur-Text unterstützt wird.
 
Multithreaded-Design, asynchrone DNS-Resolver etc
 
· ASPseek verwendet POSIX-Threads, das bedeutet, dass ein Prozess haben viele Threads gleichzeitig aktiv sind. So Index Downloads Dokumente von vielen Websites und Such Daemon verarbeitet viele Suchanfragen gleichzeitig. Dies hilft nicht nur, um ASPseek auch auf SMP (Multi-Prozessor-Systeme) zu skalieren, sondern verbessert auch die Indexierungsgeschwindigkeit, denn bei einem Thread meiste Zeit wird auf Warten auf Daten vom Netzwerk ausgegeben werden.
 
· Eine Sache, die langsam Indizierung unten eine Menge ist, DNS-Lookup (ein Prozess der Ermittlung IP-Adresse über den Servernamen). Um Verzögerungen zu vermeiden, werden asynchrone Lookups (Lookup durch separate dedizierte Prozesse durchgeführt) und die IP-Adress-Cache implementiert.
 
Stoppwörter
 
· Stoppwörter sind ein Worten, die keine Bedeutung an sich haben. Beispiele: wird, sind, auf, dies. Auf der Suche nach in ist nutzlos, so wie Worte aus Suchabfrage ausgeschlossen. Stoppwörter sind auch aus der Datenbank bei der Indizierung ausgeschlossen, so Datenbank wird kleiner und schneller.
 
· Es gibt keine "eingebaute" Stoppwörter in ASPseek, sie während des Hochfahrens aus Dateien geladen werden. Viele Stoppwortdateien für verschiedene Sprachen kommt mit ASPseek.
 
Charset guesse
 
· Einige defekte oder falsch konfigurierte Server nicht sagen Kunden den Zeichensatz, in dem sie liefern Inhalte. Wenn Sie die Indizierung wie Servern oder mit ASPseek indizieren FTP-Server (FTP-Protokoll nicht wissen nichts über Zeichensätze) können charset guesser verwendet werden, um damit umzugehen. Charset guesser nutzt Worthäufigkeitstabellen (genannt langmaps), um die korrekte Zeichensatz zu bestimmen.
 
Robot Exclusion Standard (robots.txt) Unterstützung
 
· ASPseek unterstützt diesen Standard. Es ist für die Website für Autoren erzählen die Roboter soll (zum Beispiel ASPseek-Index (1)) zu überspringen Indizierung einige Verzeichnisse ihrer Websites.
 
· Weitere Informationen finden Sie http://www.robotstxt.org/wc/robots.html
 
Einstellungen zur Netzwerkbandbreite und Webserver Last zu steuern
 
· Sie können genau steuern Netzwerkbandbreite, dass Index (1) verwendet. Genau kann die Bandbreite (in Bytes pro Sekunde ausgedrückt) durch einen Index (1) zur gegebenen Zeit der Tage verwendet begrenzen. Beispielsweise können Sie die Bandbreite während der Geschäftszeiten zu begrenzen, damit die Menschen in Ihrem Büro wird langsam Internet nicht zu erleben.
 
(1) · Sie können auch die minimale Zeit zwischen zwei Anfragen an den gleichen Web-Server eingerichtet, so dass es nicht überladen und machte sich an die Knie, während Sie index laufen.
 
Echtzeit asynchron Indexierungs
 
· Einige Suchmaschinen erfordert, dass die Suche sollte für die Zeit der Datenbankaktualisierung gestoppt werden. ASPseek braucht es nicht, so können Sie non-stop suchen können.
 
· Mehr zu sagen, es ist eine besondere Art der Indexierung als "real-time" Indizierung. Sie können es für kleine Anzahl von Dokumenten zu verwenden, und soweit ein solches Dokument heruntergeladen und verarbeitet werden, sind Änderungen sofort in Suchoberfläche sichtbar. Diese Funktion ist eine große Hilfe, wenn Sie bauen Suchmaschine für Seiten mit rasch wechselnden Inhalten wie Online-Nachrichten usw.
 
· Man beachte, dass Anzahl der Dokumente in "real-time" Datenbank begrenzt ist. Es ist etwa 1000 auf unserer Hardware (die Leistung kann variieren) und die weitere Dokumente, die Sie in "Echtzeit" Datenbank haben, desto langsamer wird Geschwindigkeit der Indizierung in diesem (und nur dieser) Datenbank sein. Dies hat keinen Einfluss auf die Suchgeschwindigkeit though.
 
· Dokumente von "real-time" Datenbank werden in den normalen Datenbank nach dem Laufindex (1) in einer normalen Weise bewegt.
 
Ergebnisse nach Relevanz sortiert oder nach Datum
 
· Suchmaschinen in der Regel liefert die relevantesten Ergebnisse zuerst. Aber wenn Sie sich für die neuesten Seiten suchen, können Sie sagen, ASPseek Ergebnisse sortiert nach Datum der letzten Änderung, so zuletzt geändert (oder erstellt) Seiten werden zuerst angezeigt.
 
Auszüge, Suchwörter Hervorheben
· Auszug ist ein Stück gefunden Dokument mit Worten nach hervorgehoben, nur um eine Vorstellung von dem, was das Dokument zu geben. Sie können die Anzahl der Auszüge die Anzeige und ihre Länge anpassen. Wenn Sie Auszüge deaktivieren, wird der Anfang des Dokuments angezeigt.
 
· Jedes gefundene Dokument wird mit der "Cache" link begleitet. ASPseek hält eine lokale komprimierte Kopie jedes Dokuments bearbeitet, so dass Benutzer die das gesamte Dokument mit (optional) sehen markierten Wörter, die gesucht wurden, auch wenn sie von der ursprünglichen Website entfernt worden (das passiert manchmal).
 
Gruppieren Ergebnisse von Website
 
· Ergebnisse von einem Standort zusammengefasst werden. Wenn die Gruppierung von Webseiten ist, werden nur zwei Ergebnisse aus der gleichen Website standardmäßig angezeigt, und Benutzer kann anderen Seiten aus dem gleichen Ort, indem Sie ein "Mehr Ergebnisse von ..." link sehen.
 
Clones
 
· Clones sind identisch Dokumente an verschiedenen Standorten. Sie erfaßt und zusammen gruppiert, so dass der Anwender nicht mit einer Seite voller URLs auf die identischen Dokumenten vorgestellt.
 
· Clone Erkennung wird normalerweise von einer Website (so identische Dokumente aus verschiedenen Websites gelten nicht als Klone gezählt) beschränkt, sondern können Sie dies durch erneutes Kompilieren ASPseek mit --disable-Klone-by-Site-Option ändern.
 
Räume und Teilmengen
 
· Raum ist die Menge der Seiten. Also, wenn Sie, um die Suche zu einem gewissen Bereich verengt zur Verfügung stellen möchten, können Sie einen Raum zu schaffen und die Suche in diesem Raum. Nur ganze Websites (zB http://www.mysite.com/) dürfen im Raum aufgenommen werden.
 
· Subsets können auch verwendet werden, um die Suche einzuschränken. Sie können Untergruppe erstellen und URL-Maske (wie http://www.mysite.com/mydir/%) in das, und dann begrenzen Suchbereich, um nur bestimmten Teilmenge.
 
· Sie können Suchbereiche, nicht nur eine, sondern mehrere Teilmengen zu beschränken oder Leerzeichen.
 
HTML-Templates für easy-to-customize-Suchergebnisse
 
· Sie können Ihre Suche Seiten anpassen, so dass sie aussehen und sich nahtlos mit dem Rest Ihrer Website integrieren. Dies wird durch einfaches Editieren der Suchvorlage Datei.
Installation
gzip -dc aspseek-1.2.10.tar.gz | tar xf -
cd aspseek-1.2.10. / konfigurieren
machen
su
make install

Andere Software von Entwickler SWsoft

Plesk for Windows
Plesk for Windows

22 Sep 15

OpenVZ kernel
OpenVZ kernel

2 Jun 15

OpenVZ Live CD
OpenVZ Live CD

2 Jun 15

Kommentare zu ASPseek

Kommentare nicht gefunden
Kommentar hinzufügen
Schalten Sie auf die Bilder!