Apache Nutch-Projekt ist ein Open Source, skalierbar, sehr dehnbar und kostenlose Web-basierte Web-Crawler-Software, die auf Apache Lucene (Java-Version) Bibliothek baut.
Es fügt Web Besonderheiten, wie ein Raupen, einen Link-Graph-Datenbank, Parser für HTML und andere Dokumentformate, etc. Es wird von der Apache Foundation, sie zwei getrennte Zweige entwickelt und vertrieben.
Als modular und steckbar, hat Apache Nutch seinen Nutzen, indem erweiterbare Schnittstellen wie Parse, Index und ScoringFilter für kundenspezifische Implementierungen, wie Apache Tika zum Parsen.
Außerdem Apache Nutch ist entworfen, um auf einer einzelnen Maschine laufen, aber es ist stärker, wenn in einem Hadoop Cluster ausgeführt. Steckbare Indexierung besteht für Elastic Suche, Apache Solr, usw.
Was ist neu in dieser Pressemitteilung:.
- Nutch-1779 Bewerben Formatieren mit dem Code (lewismc)
- Nutch-1907 Falsche Ausgang outlinks zu Hosts innerhalb HostDbUpdateReducer (lewismc)
- Nutch-1856 Document webpage.avsc und host.avsc (lewismc)
- Nutch-1834 GeneratorMapper Verhalten hängt von Log-Level (Gerhard Gossen über snagel)
- Nutch-1899 Upgrade Restlet lib zu bauen Ausfall (Talat) zu verhindern
- Nutch-1797 Entfernen Sie nicht verwendete Paket oanhtml (Saurabh Chhajed über snagel)
- Nutch-1888 Geben HTMLMapper in TikaParser (Halil Simsek über jnioche) verwenden
- Nutch-1897 Einfacher Debuggen von XML-Plugin-Fehler (markus)
- Nutch-1823 Upgrade auf elasticsearch 1.4.1 (Phu Kieu, markus, lewismc)
- Nutch-1829 Generator: unfähig, echte Fehler zu unterscheiden (Mathieu Bouchard, jnioche, snagel)
- Nutch-1778 Generator nicht im Batch korrekt Anmeldung Anzahl der URLs (jnioche über snagel)
- Nutch-1877 Suffix URL-Filter, um Abfrage-Zeichenfolge standardmäßig zu ignorieren (markus über snagel)
- Nutch-1825-Protokoll-http kann für bestimmte Web-Seiten zu hängen (Phu Kieu über snagel)
- Nutch-1483 kann nicht krabbeln Dateisystem mit Protokoll-Datei Plugin (Rogerio Pereira Araujo, Mengying Wang, snagel)
- Nutch-1885-Protokoll-Datei sollte symbolische Links wie Weiterleitungen (Mengying Wang, snagel) zu behandeln
- Nutch-1880 URLUtil sollten nicht zusätzliche Schrägstriche für die Datei-URLs hinzufügen (snagel)
- Nutch-1879 Regex URL Normalizer sollten mehrere Schrägstriche nach der Datei zu entfernen: Protokoll (snagel)
- Nutch-1820 entfernen Feld & quot; orig & quot; welche dupliziert & quot; ID & quot; (lewismc, snagel)
- Nutch-1843 Upgrade auf Gora 0,5 (Talat, lewismc, Kiril Menschikow, drazzib)
- Nutch-1883 bin / crawl: Verwendung Funktion bin / Nutch laufen und überprüfen Sie die Ausfahrt Wert (snagel)
- Nutch-1882 ant eclipse Ziel Ausgang Weg, um src / test (snagel)
- Nutch-1827-Port Nutch-1467 und Nutch-1561 bis 2.x (snagel)
- Nutch-1876 Upgrade auf Raupen Commons 0.5 (jnioche)
- Nutch-1866 ant eclipse Ziel sollte nicht zur Laufzeit löschen (nimafl über lewismc)
- Nutch-1859 Stellen Nutch Webapp-Port konfigurierbar (Nima Falaki über lewismc)
- Nutch-1848 Bug in DashboardPage.html Fällen Zähler (Nima Falaki über lewismc)
- Nutch-841 erstellen Wicket-basierte Web-Anwendung für Nutch (Fjodor Vershinin über lewismc)
- Nutch-1832 Stellen Nutch Arbeit ohne Indexer (Mattmann über lewismc)
- Nutch-1840 beschreiben Funktion in SolrIndexWriter ist nicht korrekt (kaveh minooie über jnioche)
- Nutch-1837 Upgrade auf Tika 1.6 (lewismc)
- Nutch-1829 Generator: unfähig, echte Fehler zu unterscheiden (Mathieu Bouchard über jnioche)
- Nutch-1828 bin / crawl: falsche Handhabung von Nutch Fehler (Mathieu Bouchard über jnioche)
- Nutch-1693 TextMD5Signature auf Textinhalte (Tien Nguyen Manh, markus über snagel) berechnet
- Nutch-1409 entfernen veraltet Eigenschaften db. {default, max} .fetch.interval, generate.max.per.host.by.ip (Matthias Agethle über snagel)
- Nutch-1819 BatchID in GeneratorJob (Fjodor Vershinin über lewismc)
- Nutch-1708 Verwendung derselben ID, wenn die Indizierung und Löschen von Weiterleitungen (snagel)
- Nutch-1817 entfernen pom.xml von der Quelle (jnioche)
- Nutch-1811 bin / Nutch JUnit JUnit 4 Test-Runner (snagel) verwenden
- Nutch-1776 Log falsche plugin.folder Dateipfad (Diaa über snagel)
- Nutch-1566 bin / Nutch, um Leerzeichen in Pfaden (tejasp, snagel) erlauben
- Nutch-1605 MIME-Typ-Detektor erkennt xlsx als Zip-Datei (snagel)
- Nutch-385 Verbesserung der Beschreibung des Themas bezogenen Konfiguration für Abruf (jnioche, Lufeng)
- Nutch-1798 Crawl-Skript nicht telefonieren index Befehl korrekt (Aaron Bedward über jnioche)
- Nutch-1769 REST API Refactoring (Fjodor Vershinin über lewismc)
- Nutch-1633 slf4j wird von Hadoop vorgesehen und sollte nicht in der Job-Datei (kaveh minooie über jnioche) aufgenommen werden
- Nutch-1787-Update und vollständige API doc Übersichtsseite (snagel)
- Nutch-1767 entfernen, spezielle Behandlung der & quot; params & quot; in relative Links (snagel)
- Nutch-1718 neu zu definieren http.robots.agent als & quot; zusätzliches Mittel Namen & quot; (snagel, Tejas Patil, Daniel Kugel)
- Nutch-1796 Stellen Sie sicher, Gora Objektbauer werden als zu widersetzen, um leere Bauer (snagel über lewismc)
- Nutch-1590 [SICHERHEIT] Rahmen Injection-Schwachstelle veröffentlicht in Javadoc (jnioche)
- Nutch-1736 können nicht abgerufen Seite, wenn HTTP-Antwort-Header Transfer-Encoding: Chunked (ysc über jnioche)
- Nutch-1782 NodeWalker zum aktuellen Knoten (markus) zurück
- Nutch-1781-Update gora - * - mapping.xml und gora.proeprties um Gora 0,4 reflektieren (lewismc)
- Nutch-1768 Upgrade auf ElasticSearch 1.1.0 (jnioche)
- Nutch-1634 ReadDb -stats zeigt das Ergebnis zweimal (kaveh minooie über jnioche)
- Nutch-1780 TTL- und gc_grace_seconds Attribute aus gora-cassandra-mapping.xml Datei fehlt (kaveh minooie über lewismc)
- Nutch-1676 hinzufügen rudimentäre Unterstützung für SSL-Protokoll http (jnioche, markus)
- Nutch-1674 Verwenden BatchID Filter zu aktivieren Scan (GORA-119) für Fetch, Parse, Update, Index (Tien Nguyen Manh und Alparslan Avci über jnioche)
- Nutch-1714 Upgrade auf Gora 0,4 (Alparslan Avci über jnioche)
- Nutch-1752 Cache robots.txt Regeln laut Protokoll: Host: Port (snagel)
- Nutch-1613 Timeouts in Protokoll-Httpclient beim Crawlen gleichen Host mit & gt; 2 Threads (brian44 über jnioche)
- Nutch-1182 Abholer zum Anmelden blockierte Threads (snagel)
- Nutch-1618 Schalten spekulative Ausführung off für das Abrufen (Talat)
- Nutch-1657 ORIGINAL_CHAR_ENCODING und CHAR_ENCODING_FOR_CONVERSION nie in HTMLParser (Talat) gesetzt
- Nutch-1725 CleaningJob der Druckminderer nicht begehen gelöschte Dokumente. (ilhamikalkan über Talat)
- Nutch-1728 Indexer-solr Plugin nicht docs von Solr löschen (ilhamikalkan über Talat)
- Nutch-1753 Eclipse-dependecy Problem für 2.x (Talat)
- Nutch-1720 Doppelte Linien in HttpBase.java (Walter Tietze über jnioche)
- Nutch-797 URL nicht richtig aufgebaut, wenn Link-Ziel beginnt mit einem & quot;? & quot; (Doug Cook, Robert Hohmann, Stondet, ab über snagel)
- Nutch-1759 Upgrade auf Raupen Commons 0.4 (jnioche)
- Nutch-1700 Remove veraltet Code in src / plugin / Creative / build.xml (lewismc)
- Nutch-1761 Crawl-Skript fehlschlägt, um Job-Datei zu finden, wenn nicht von innen bin dir begonnen (David Hosking, jnioche)
- Nutch-1603 ZIP-Parser beschwert sich über abgeschnittene PDF-Datei (snagel über lewismc)
- Nutch-1743 parsechecker zu zeigen outlinks (snagel)
- Nutch-1732 Bessere cmd Zeilen-Parsing für NutchServer (Fjodor Vershinin über lewismc)
- Nutch-1751 Leere Anker sollte nicht Index (Sertac turkel über lewismc)
- Nutch-1733 Parse-html, um HTML5 charset Definitionen (snagel)
- Nutch-1727 Konfigurierbare Länge für TLDs (Sertac turkel über lewismc)
- Nutch-1738 Expose Anzahl von URLs in GeneratorJob (Talat UYARER über ewismc) erzeugt pro Charge
- Nutch-1671 indexchecker verdauen Feld (snagel, Lufeng) hinzufügen
- Nutch-1645 JUnit-Testfall für Adaptive holen Schedule Klasse (Yasin Kilinc, Lufeng, Sertac Urkel über snagel)
- Nutch-1478 Parse-Metatags und index Metadaten-Plugin für Nutch 2.x-Serie (Kiran, Nguyen Anh Tien, Talat UYARER, Vangelis Karvounis über lewismc)
- Nutch-1729 Upgrade auf Tika 1.5 (jnioche)
- Nutch-1721 Upgrade auf Crawler gemeinsam 0,3 (tejasp)
- ausfällt Nutch-1719 DomainStatistics in 2.x weil URL wird nicht seitenrichtiges (Gerhard Gossen über lewismc)
- Nutch-1253 incompatable neko und xerces Versionen (snagel, lewismc, Talat UYARER)
- Nutch-1715 RobotRulesParser fügt zusätzliche '*' auf den Namen Robotern (tejasp)
- Nutch-356 Plugin-Repository-Cache kann zu Speicherverlust führen (Enrico Triolo, Dogacan Guney über markus)
- Nutch-1164 Write JUnit-Tests für protokoll http (Sertac turkel über tejasp)
- Nutch-1710 gora Add Paketprotokollierung zu log4j.properties (lewismc)
- Nutch-1655 Indexer Plugin für Elastic Suche (Talat UYARER über lewismc)
- Nutch-1699 Tika Parser - Bild Parse Bug (Mehmet Zahid Yuzuguldu, snagel über lewismc)
- Nutch-1568-Anschluss steckbare Indexierung Architektur auf 2.x (Talat UYARER über lewismc)
- Nutch-1672 Inlinks werden zweimal in DbUpdateReducer (Tien Nguyen Manh über lewismc) hinzugefügt
- Nutch-1667 updatedb immer ignorieren BatchID (Tien Nguyen Manh über lewismc)
- Nutch-1695 NutchDocument.toString () (markus über lewismc)
- Nutch-1696 aktivieren Nutzung (Gora) SNAPSHOT Abhängigkeiten (lewismc)
- Nutch-1681 In URLUtil.java, ToUnicode Methode funktioniert nicht richtig (A
Kommentare nicht gefunden