Apache Tika

Screenshot der Software:
Apache Tika
Softwarebeschreibung:
Version: 1.4
Upload-Datum: 20 Feb 15
Lizenz: Frei
Popularität: 6

Rating: nan/5 (Total Votes: 0)

Apache Tika ist ein Open Source-Toolkit entwickelt, um zu erkennen und zu extrahieren Metadaten, sowie strukturierte Text-Inhalte von mehreren Dokumenten, mit nichts als bestehende Parser Bibliotheken.
Apache Tika unterstützt die folgenden Dateiformate: Hypertext Markup Language (HTTP), XML und abgeleitete Formate Microsoft Office-Dokument-Formate, Opendocument-Format (ODF), Portable Document Format (PDF), Elektronische Publikation Format (EPF), Rich Text Format (RTF ), Druck- und Verpackungsformate, Text / Audio / Bild / Video-Formate, die Mbox-Format und Java-Klassendateien und Archiven.
Zuvor war Apache Tika ein Teilprojekt des Apache Lucene Software-Bibliothek. Jetzt ist es als Standalone-Paket von der Apache Software Foundation verteilt

Was ist neu in dieser Pressemitteilung:.

  • Entfernt ein Test-HTML-Datei mit einem schlecht gewählt GPL Text in ihm (TIKA-1129).
  • Improvements to tika-Server, damit sie text / html und text / xml Inhalt (TIKA-1126, TIKA-1127) zu produzieren.
  • Es wurden Verbesserungen an den Kompressor Parser, um g'zipped Dateien, die die Möglichkeit decompressConcatenated auf true (TIKA-1096) eingestellt erfordern behandeln.
  • Adressiert eine typografische Fehler, der von der Erkennung von awk-Dateien (TIKA-1081).
  • verhindert wurde
  • Es wurde eine neue Endpunkt zu Tika die JAX-RS-REST-Server, der nur die Medien-Typ auf der Basis eines kleinen Teil der eingereichten (TIKA-1047) Dokument erkannt wird.
  • RTF:. Geordnete und ungeordnete Listen werden nun extrahiert (TIKA-1062)
  • MP3: Der Ton Dauer wird nun extrahiert (TIKA-991)
  • Java Class-Dateien:. Zum Parsen der Java-Bytecode (TIKA-1053) ein Upgrade von ASM zu ASM 3.1 4.1
  • Mime-Typen: Begriffe erweitert, um optional auch Link (URL) und Harnwegsinfektionen, zusammen mit Details für mehrere gängige Formate (TIKA-1012 / TIKA-1083)
  • Ausnahmen beim Parsen OLE10 eingebettete Dokumente, bei der Analyse von zusammenfassende Informationen aus Office-Dokumenten, und beim Speichern eingebettet documennts in TikaCLI nun anstelle eines Abbruchs Extraktion angemeldet (TIKA-1074)
  • MS Word: Linie tabellarischen Charakter ist jetzt mit Zeilenumbruch (TIKA-1128)
  • ersetzt
  • XML: ElementMetadataHandlers können nun optional akzeptieren Duplikat und leere Werte (TIKA-1133)
  • .

Anforderungen :

  • Java 2 Standard Edition Runtime Environment

Andere Software von Entwickler The Apache Software Foundation

Apache Ambari
Apache Ambari

18 Jul 15

Apache Lucy
Apache Lucy

20 Feb 15

Kommentare zu Apache Tika

Kommentare nicht gefunden
Kommentar hinzufügen
Schalten Sie auf die Bilder!