Die Methabot Software ist eine geschwindigkeitsoptimierte, skriptfähig und hochgradig konfigurierbare Web-, FTP- und lokalen Dateisystem-Crawler. Es unterstützt scripted filetype Parsing, eine Vielzahl von Anpassungsoptionen und lässt sich leicht so konfiguriert, anyones besonderen Anforderungen.
Mit dem Einsatz des Moduls System und Skriptsprache, werden die Benutzer in der Lage, vollständige oder teilweise die Kontrolle über die Crawling und entscheiden jedoch Methabot sollten Web-Daten, Statistiken und vieles mehr zu speichern.
Nur indem Methabot von der Kommandozeile Sie können configure benutzerdefinierte Dateitypen, Filterung Ausdrücke, Verhalten, und vieles mehr, so dass Sie nicht haben, um ein Scripter sein
Eigenschaften :
- Es ist schnell, aus dem Boden Geschwindigkeit-Optimierung konzipiert und up.
- Script über Javascript mit E4X
- Benutzerdefinierte Dateityp-Filterung (nach MIME-Typ, Dateierweiterung oder UMEX Ausdruck)
- Multi-threaded
- In hohem Maße konfigurierbar von der Kommandozeile
- Extensible Modulsystem, unterstützt benutzerdefinierte Daten-Parser und Filter.
- Einfache, aber leistungsstarke Filterung von URLs durch UMEX.
- Automatische Herunterladen
- Unterstützung für Automatische Cookiebehandlung beim Lauf über HTTP
- zuverlässig, fehlertolerante Netzwerke
- Tragbare, mit Erfolg auf 32-bit / 64-bit Linux 2.6 getestet, 32-bit / 64-bit FreeBSD 6.x / 7.0, Windows XP und Mac OS X. Sollte funktionieren auf fast jedem Unix-ähnlichen Betriebssystems.
Was ist neu in dieser Pressemitteilung:
- Bugfix, wenn externe-peek verwendet wurde die Tiefengrenze war durcheinander.
- Speichernutzung Bereinigung fixes
- dynamic-url-Option wird nicht mehr standardmäßig auf Lookup, da es auf der kriechen deutlich verlangsamt
- Build System erstellt und installiert einige Header-Dateien, die Module können nun bei der Verknüpfung
- metha-config-Werkzeug hinzugefügt
- lmm_mysql bewegt außerhalb dieses Pakets
Was ist neu in Version 1.5.0:
- Änderungen und neuen Funktionen:
- Unterstützung für das Lesen intial Puffer von der Standardeingabe
- - Befehlszeilen-Optionen Art und --base-URL hinzugefügt, zusammen mit dem initial_filetype Option im Konfigurationsdateien
- Cookies und DNS-Informationen ist nun korrekt zwischen Arbeitnehmern geteilt bei der Ausführung von Multithread
- Hinzugefügt einige Beispiel Nutzung Befehle an --examples
- Big Verbesserungen an der inter-thread Kommunikation, jetzt schneller und organisiert
- Unterstützung für 'init' Funktionen um Skripte. Lesen Sie mehr über init-Funktionen bei http://bithack.se/projects/methabot/docs/e4x/init_functions.html
- libmetha friert nicht, wenn dabei mehrere gleichzeitige HTTP HEAD-Anfragen mehr. Der Grund für die friert es einen Bug in libcurl, die nun behoben ist. Einige Problemumgehungen zu libmetha, die friert von auftretenden verhindern, wenn mit Hilfe der Defekt libcurl Versionen aswell hinzugefügt.
- Unterstützung für ältere Versionen libcurl 7.17.x und 7.16.x
- Neue Informationen finden Sie in der & quot; Dieses & quot; Ziel der JavaScript-Parser, Content-Type und Transfer-Statuscode. Lesen Sie mehr bei http://bithack.se/projects/methabot/docs/e4x/this.html
- - verbose Option mit --silent ersetzt, da ausführlichen Modus ist nun standardmäßig
- Die erste Unterstützung für FTP-Crawling und die Option ftp_dir_url Raupen
- Tiefenbegrenzung ist jetzt Raupenspezifische
- Hinzugefügt die Befehlszeilenoptionen --crawler und --filetype
- Unterstützung für die Verlängerung und vorrangige bereits definiert Crawler und Dateitypen
- Unterstützung für die Kopie Stichwort in Konfigurationsdateien
- Unterstützung für dynamische Umschalten der aktiven Crawler, können Sie damit verschiedene Websites in einer Sitzung kriechen kriechen auf ganz unterschiedliche Weise. Lesen Sie mehr über Raupenschalt bei http://bithack.se/projects/methabot/docs/crawler_switching.html
- libev Version aktualisieren, um 3.51
- Die Include-Direktive in Konfigurationsdateien nun sorgt die mitgelieferte Konfigurationsdatei nicht bereits geladen wird, um zu verhindern, schließen-Schlingen und Mehrfachdateityp / Crawler Definitionen.
- Verschiedene Spidermonkey Garbage Collection-Fixes, libmetha nicht mehr abstürzen, wenn Aufräumarbeiten nach einem Multithread-Sitzung
- Hinzugefügt einige zusätzliche Informationen an die --info Option
- Die "externe" Option ist jetzt behoben und wieder freigegeben
- Neue Option --spread-workers
- New libmetha API-Funktion lmetha_global_setopt () erlaubt die Änderung der globalen Fehler / Meldung / Warnung Reporter
- Hinzugefügt ersten Implementierung der Testsuite für Entwickler
- Bessere Fehlermeldungen beim Laden von Konfigurationsdateien
- Bugfix, wenn ein HTTP-Server hat kein Content-Type-Header nach einer HEAD-Anfrage zurück
- Bugfix beim Sortieren von URLs nach mehreren HTTP HEAD-Anforderungen
- Bugfix im HTML in XML-Konverter, wenn die HTML-Seite nicht über eine & lt; html & gt; tag
- Bugfix die Option extless-url hat nicht funktioniert
- Bugfix, HTML in XML-Konverter nicht mehr Drosseln auf Byte-Order-Noten oder anderen Text vor dem eigentlichen HTML
- Bugfix, verhindert libmetha von dem Versuch, URLs der Protokolle zugreifen, die nicht unterstützt werden
- Bugfix beim Herunterfahren nach einem Fehler.
- Bugfix, unresolvable URLs nicht ausbrechen der Wiederholungsschleife nach drei Wiederholungen
- Sehr experimentell und instabile Unterstützung für Win32, hauptsächlich für Entwickler gedacht
- Neue Konfigurationsdateien:
- google.conf, um Google-Suchen durchführen
- youtube.conf, youtube Suche
- meta.conf, Drucke Meta-Informationen wie Stichwörter in die Beschreibung, HTML-Seiten
- title.conf, druckt den Titel der HTML-Seiten
- ftp.conf, für das Crawlen FTP-Server
Was ist neu in Version 1.4.1:
- Configure nicht finden konnte jsapi.h auf einigen Systemen , diese Kosten festzusetzen.
- Die Konfigurationsdateien sind nun in der Lage, Crawler und Dateityp Flags ändern, fügte die Optionen 'externen' und 'external_peek'
- Bugfix, Methabot manchmal abstürzen, wenn die Säuberung leere URLs nach mehreren HTTP HEAD
- Ein Absturz beim Ausführen synchron aufgetreten.
- Build-System gehören fix, wenn jsconfig.h konnte nicht gefunden werden.
Anforderungen :
- Spidermonkey-Header
- cURL
Kommentare nicht gefunden