Apache Nutch

Screenshot der Software:
Apache Nutch
Softwarebeschreibung:
Version: 2.3
Upload-Datum: 1 Mar 15
Lizenz: Frei
Popularität: 36

Rating: 3.0/5 (Total Votes: 1)

Apache Nutch wurde auf gebaut Apache Lucene , ein leistungsfähiges Java-Suchmaschine.
Nutch Entwicklern modifiziert die Lucene-Codebasis, die Umwandlung der Daten-unabhängige Lucene Codebasis in ein Projekt für die Suche nach Daten im Web gezielt gewidmet.
Diese Technologie kann verwendet werden, um auf Ihrer eigenen Web-Seiten als integrierte Search-Server zu suchen, oder durchsuchen das Web auf der Suche nach Daten zu analysieren und zu kratzen in Ihre Datenbank werden.
Nutch kann auf einer Maschine laufen, aber funktioniert besser in Hadoop Cluster.
Verschiedene Plugins sind für den Ausbau der Einsatzspektrum verfügbar

Was ist neu in dieser Pressemitteilung:.

  • Stellen Sie sicher, doppelte Tags existieren nicht in Mikroformat-reltag Tag Set.
  • Eine bessere Ausweichwert für Datumsfeld.
  • Sie sich von der gefürchteten.
  • befreien
  • Upgrade auf Hadoop 1.2.0.
  • Upgrade auf Tika 1.3.

Was ist neu in der Version 2.0:.

  • umbenannt HTMLParseFilter in ParseFilter
  • Entfernen verbleibenden Roboter / IP-Sperrcode in lib-http.
  • Port-Protokollierung zu SLF4J.
  • Externe Parser Codierungsattribut.
  • Ivy Konfigurationseinstellungen enthalten keine Gora.
  • Injector sollten die Metadaten vor dem Aufruf injectedScore hinzuzufügen.
  • Port Nutch Benchmark Nutchbase.
  • Fügen Parse-html zurück.
  • MoreIndexingFilter fehlenden Datumsformat.
  • Timeout für Parser.
  • Wiederholungsintervall in kriechen Datum auf 0 gesetzt wird.
  • Erstellen Sie Protokollausgabe für solr Indexer und dedup.
  • Verbesserte NutchConfiguration.
  • SolrDeleteDuplicates muss die SolrRecord Objekte klonen.
  • Native Hadoop-Bibliotheken nicht durch Maven zur Verfügung.
  • Trennen Sie die Build-und Laufzeitumgebungen.

Was ist neu in der Version 1.5:

  • Diese Version enthält eine Reihe von Verbesserungen, einschließlich Upgrades von mehreren wichtigen Komponenten, einschließlich tika 1,1 und Hadoop 1.0.0 Verbesserungen LinkRank und WebGraph Elemente sowie eine Anzahl von neuen Plugins abdeckt schwarze Liste, Filtern und Analysieren ein paar zu nennen.

Was ist neu in der Version 1.4:.

  • hinzugekommen Solr 4x (Stamm) Beispielschema
  • hinzugefügt "/ runtime" svn ignorieren.
  • Anwendung / xhtml + xml sollte in plugin.xml des Parse-html aktiviert sein; damit mehrere MIME-Typen für plugin.xml.
  • Feste Parse-tika und analysieren-html, um relative URL Auflösung pro RFC-3986 zu verwenden.
  • wird Tika 0,10 Upgrade. HINWEIS:. Tika das neue RTF-Parser kann mehr Text in fehlerhaften Dokumente als bisher ignoriert - siehe TIKA-748 für Details
  • hinzugekommen Sonar Ziele Ant build.xml.
  • Verbesserte SolrJ auf Version 3.4.0.
  • Ant pmd Ziel ist kaputt.
  • Verbesserte Solr-Schema in der Version 1.4.

Was ist neu in der Version 1.3:

  • Diese Version enthält eine Reihe von Verbesserungen (verbessertes RSS Parsen Unterstützung, enger Integration mit Apache Tika, externe Analyse-Unterstützung, verbesserte Sprachidentifikation und eine Größenordnung kleiner Source-Version Tarball -. nur ca. 2 MB)

Was ist neu in der Version 1.2:.

  • index mehr Plug-In konfiguriert werden
  • Konfigurierbare Dateiprotokoll übergeordnete Verzeichnis Crawling.
  • Timeout für Parser.
  • Website noch Lucene gebrandmarkt.
  • Wiederholungsintervall in kriechen Datum auf 0 gesetzt wird.

Was ist neu in der Version 1.0:.

  • Lassen Parser mehrere Parse Objekte zurück
  • Entfernt redundante commons-logging jar von Ontologie-Plugin.
  • Bug in SegmentReader verursacht Endlosschleife.
  • Scoring Filter sollte verteilen Punktzahl für alle outlinks auf einmal.
  • Reduzieren Sie die Anzahl der Warnungen in nutch Kern.

Ähnliche Software

pyelasticsearch
pyelasticsearch

20 Jul 15

jquery-filter
jquery-filter

13 May 15

Elastica
Elastica

6 Mar 16

Andere Software von Entwickler Apache Software Foundation

Apache Knox
Apache Knox

12 May 15

Apache Allura
Apache Allura

10 Feb 16

Apache Marmotta
Apache Marmotta

1 Mar 15

Apache uimaFIT
Apache uimaFIT

18 Jul 15

Kommentare zu Apache Nutch

Kommentare nicht gefunden
Kommentar hinzufügen
Schalten Sie auf die Bilder!