Softwarebeschreibung:
Version: 2.6.0
Upload-Datum: 20 Feb 15
Lizenz: Shareware
Preis: 1900.00 $
Popularität: 63
PDFTextStream Projekt ist ein PDF-Text und Metadaten-Extraktion Bibliothek für Java, Python und .NET zur Verfügung.
Es unterstützt alle Versionen des PDF-Dokuments Spezifikation (einschließlich v1.6 von Acrobat 7 verwendet), Entnahme von Text kodiert mit Double-Byte-Zeichensätzen (einschließlich Chinesisch, Japanisch und Koreanisch), Entschlüsselung von 40-Bit- und 128- Bit verschlüsselte Dokumente und Extraktion aller Dokument-Metadaten von PDF-Dokumenten (einschließlich Formulardaten, Lesezeichen und Anmerkungen) zur Verfügung gestellt.
Einfache Integration in Jakarta Lucene ist im Lieferumfang enthalten
Was ist neu in dieser Pressemitteilung:.
- Diese Version enthält eine Vielzahl von Korrekturen vorgenommen um sicherzustellen, PDFTextStream ist in der Lage Extrahieren von Text aus PDF-Dokumenten, die nicht-konforme an die PDF-Spezifikation.
- Es enthält auch eine Reihe von Leistungsverbesserungen.
Was ist neu in Version 2.3.0:
- Added eine .isStruckThrough () -Methode com. snowtide.pdf.TextUnit, der angibt, ob ein Zeichen eine durchgestrichen durchgezogen.
- Verbesserte Unterstützung PDFTextStream für eingebettete Zeichenzuordnungen.
- Die Berechnung der Leerzeichen zwischen Wörtern, wurde behoben richtig machen Leerzeichen, die in den Quell PDF-Dokumenten explizit kodiert wird.
- Verbesserte PDFTextStream Die Verarbeitung von Composite-Content-Kodierungen, die zuvor konnte was in einigen Bereichen von PDF-Inhalten, die 'ignoriert' während der Extraktion nicht.
- ein Fehler in VisualOutputTarget wenn Text aus einer einzigen Zeile würde über mehrere aufgeteilt werden, Fest
- Verbesserte vertikale Ausrichtung von Text extrahiert mit VisualOutputTarget
- Verbesserte VisualOutputTarget-hergestellten Extrakte, um störende zusätzliche Leerzeichen zwischen eng benachbarten Wörtern beseitigen
Was ist neu in Version 2.2.5:
- Diese Version unterstützt zum Extrahieren XFA-Formulare Daten XML.
- Sie deutlich die Leistung der Textextraktion mit VisualOutputTarget verbessert. Unterstützung für PDF-Dokumente größer als 2GB.
- Ein Fix für einen Bug, wo die Codierungen von Embedded-Type1-Schriften waren bisher nicht richtig in einigen Fällen angewendet.
- Ein Update für ein Problem in dem neueren Inhalt in PDF-Dokumenten aktualisiert wurde manchmal ignoriert werden.
- Ein Update für ein Problem, wo PDFDocEncoding-kodierte Lesezeichen und Metadaten wurden nicht korrekt dekodiert.
- Ein .getDestinationName () -Methode in com.snowtide.pdf.Bookmark.
Anforderungen :
- Apache Lucene
Kommentare nicht gefunden