Apache Tika

Screenshot der Software:
Apache Tika
Softwarebeschreibung:
Version: 1.9 Aktualisiert
Upload-Datum: 20 Jul 15
Lizenz: Frei
Popularität: 89

Rating: 5.0/5 (Total Votes: 1)

Apache Tika wurde als ein Low-Level-Toolkit für die Suche Inhalt in andere Dateien entwickelt.
Tika nicht viel von sich, eine einfache Bibliothek zu tun, aber es kann in leistungsfähigere Werkzeuge wie Suchmaschinen, Digital-Asset-Management-Systemen oder CMS integriert werden, um eine voll funktionsfähige in-Datei-Suchsystem.
Die Bibliothek kann nur Header der Datei für eine schnelle Gesamtdateiinformationen zuzugreifen, oder es wirklich tief gehen und suchen selbst im Körper der Datei für die verschiedenen Arten von Daten, Text-oder Binär-Format.
Eine breite Palette von Dateitypen werden unterstützt und Tika kann auch mit anderen Programmiersprachen dank einer Reihe von Drittanbieter-Bindungen und Verpackungen verwendet werden.

Was ist neu in diesem Release :

  • Diese Version enthält Bugfixes und neuen Features, einschließlich einer neuen Tesseract OCR Parser; eine neue GDAL Parser; in Tika Stabilität mehr unterstützte Formate, und die allgemeine Verbesserungen.

Was ist neu in Version 1.8:

  • Diese Version enthält Bugfixes und neuen Features, einschließlich einer neuen Tesseract OCR Parser; eine neue GDAL Parser; in Tika Stabilität mehr unterstützte Formate, und die allgemeine Verbesserungen.

Was ist neu in Version 1.7:

  • Diese Version enthält Bugfixes und neuen Features, einschließlich einer neuen Tesseract OCR Parser; eine neue GDAL Parser; in Tika Stabilität mehr unterstützte Formate, und die allgemeine Verbesserungen.

Was ist neu in Version 1.6:

  • Diese Version enthält Bugfixes und neuen Funktionen, darunter eine neue Übersetzung API, mehr unterstützte Formate, und die allgemeine Verbesserung der Tika Stabilität.

Was ist neu in der Version 1.5:.

  • Fixed bug in der Handhabung von Embedded-Dateiverarbeitung in PDFs
  • Added SourceCodeParser um Java-Unterstützung, Groovy, C ++ Dateien.
  • Aktualisiert Tika Server auf multipart / form-data-Nutzlasten zu unterstützen.
  • Aktualisiert Tika Server zu CXF 2.7.8.
  • Aktualisiert Tika Server auf Anfragen über Wildcard-Adressen akzeptiert.
  • Option hinzugefügt, um alternative NonSequentialPDFParser zu verwenden.
  • Inhalt von PDF AcroForms wird nun extrahiert.
  • Feste ungültige Sternchen vom Folienmaster in PPT.
  • Hinzugefügt Testfälle, um die Handhabung von Auto-Datum in PPT und PPTX zu bestätigen.

Was ist neu in der Version 1.4:

  • Entfernt ein Test-HTML-Datei mit einem schlecht gewählt GPL Text in es.
  • Improvements to tika-Server, damit sie text / html und text / xml Inhalte zu produzieren.
  • Es wurden Verbesserungen an den Kompressor Parser gemacht g'zipped Dateien, die die Option decompressConcatenated auf true gesetzt erfordern behandeln.
  • Adressiert einen typografischen Fehler, der von der Erkennung von awk Dateien verhindert wurde.

Was ist neu in der Version 1.2:

  • Apache Tika 1.2 enthält eine Reihe von Verbesserungen und Fehlerbehebungen.

Was ist neu in der Version 1.0:

  • Apache Tika 1.0 enthält eine Reihe von Verbesserungen und Fehlerbehebungen.

Was ist neu in Version 0.9:.

  • Diese Version enthält einige wichtige Bugfixes und neuen Features

Was ist neu in Version 0.8:

  • Sprachidentifikation ist jetzt dynamisch konfigurierbare, über eine Konfigurationsdatei verwaltet aus dem Klassenpfad geladen.
  • Tika unterstützt jetzt Parsing-Feeds durch Umwickeln des zugrunde liegenden Rom Bibliothek.
  • Eine Kurzanleitung für Tika Parsen wurde beigetragen.
  • Ein Ansatz für Sanitär durch XHTML Attribute hinzugefügt wurde.
  • Medientyp Hierarchieinformationen wird nun berücksichtigt werden, wenn die Auswahl der besten Parser für eine gegebene Eingabedokument übernommen.
  • Unterstützung für das Parsen von gemeinsamen wissenschaftlichen Daten-Formate, einschließlich netCDF und HDF4 / 5 hinzugefügt wurde.
  • Unit-Tests für Windows wurden behoben, so dass TestParsers, um abzuschließen.

Was ist neu in Version 0.7:

  • MP3-Datei-Analyse wurde verbessert, einschließlich Channel und Sample Extraktion und ID3v2 Unterstützung. Ferner wurde Audio-Parsing-mime Erkennung auch für die MIDI-Format verbessert.
  • Tika beruht nicht mehr auf X11 für die RTF-Parsing-Funktionalität.
  • eine Thread-sichere Bug in der AutoDetectParser wurde entdeckt und angesprochen.
  • Upgrade auf PDFBox 1.0.0. Die neue Version verbessert PDFBox PDF Parsing-Leistung und behebt eine Reihe von Text-Extraktion Fragen.

Anforderungen :

  • Java 6 oder höher

Ähnliche Software

Parker
Parker

10 Dec 15

Mongrel
Mongrel

21 Jul 15

DynCSS
DynCSS

13 Apr 15

getSize
getSize

10 Feb 16

Andere Software von Entwickler Apache Software Foundation

Apache log4net
Apache log4net

9 Feb 16

Apache NiFi
Apache NiFi

18 Apr 16

Apache Marmotta
Apache Marmotta

1 Mar 15

Kommentare zu Apache Tika

Kommentare nicht gefunden
Kommentar hinzufügen
Schalten Sie auf die Bilder!