Apache Tika ist ein Open Source-Toolkit entwickelt, um zu erkennen und zu extrahieren Metadaten, sowie strukturierte Text-Inhalte von mehreren Dokumenten, mit nichts als bestehende Parser Bibliotheken.
Apache Tika unterstützt die folgenden Dateiformate: Hypertext Markup Language (HTTP), XML und abgeleitete Formate Microsoft Office-Dokument-Formate, Opendocument-Format (ODF), Portable Document Format (PDF), Elektronische Publikation Format (EPF), Rich Text Format (RTF ), Druck- und Verpackungsformate, Text / Audio / Bild / Video-Formate, die Mbox-Format und Java-Klassendateien und Archiven.
Zuvor war Apache Tika ein Teilprojekt des Apache Lucene Software-Bibliothek. Jetzt ist es als Standalone-Paket von der Apache Software Foundation verteilt
Was ist neu in dieser Pressemitteilung:.
- Entfernt ein Test-HTML-Datei mit einem schlecht gewählt GPL Text in ihm (TIKA-1129).
- Improvements to tika-Server, damit sie text / html und text / xml Inhalt (TIKA-1126, TIKA-1127) zu produzieren.
- Es wurden Verbesserungen an den Kompressor Parser, um g'zipped Dateien, die die Möglichkeit decompressConcatenated auf true (TIKA-1096) eingestellt erfordern behandeln.
- Adressiert eine typografische Fehler, der von der Erkennung von awk-Dateien (TIKA-1081). verhindert wurde
- Es wurde eine neue Endpunkt zu Tika die JAX-RS-REST-Server, der nur die Medien-Typ auf der Basis eines kleinen Teil der eingereichten (TIKA-1047) Dokument erkannt wird.
- RTF:. Geordnete und ungeordnete Listen werden nun extrahiert (TIKA-1062)
- MP3: Der Ton Dauer wird nun extrahiert (TIKA-991)
- Java Class-Dateien:. Zum Parsen der Java-Bytecode (TIKA-1053) ein Upgrade von ASM zu ASM 3.1 4.1
- Mime-Typen: Begriffe erweitert, um optional auch Link (URL) und Harnwegsinfektionen, zusammen mit Details für mehrere gängige Formate (TIKA-1012 / TIKA-1083)
- Ausnahmen beim Parsen OLE10 eingebettete Dokumente, bei der Analyse von zusammenfassende Informationen aus Office-Dokumenten, und beim Speichern eingebettet documennts in TikaCLI nun anstelle eines Abbruchs Extraktion angemeldet (TIKA-1074)
- MS Word: Linie tabellarischen Charakter ist jetzt mit Zeilenumbruch (TIKA-1128) ersetzt
- XML: ElementMetadataHandlers können nun optional akzeptieren Duplikat und leere Werte (TIKA-1133) .
Anforderungen :
- Java 2 Standard Edition Runtime Environment
Kommentare nicht gefunden