PDFTextStream

Screenshot der Software:
PDFTextStream
Softwarebeschreibung:
Version: 2.6.0
Upload-Datum: 20 Feb 15
Lizenz: Shareware
Preis: 1900.00 $
Popularität: 2

Rating: nan/5 (Total Votes: 0)

PDFTextStream Projekt ist ein PDF-Text und Metadaten-Extraktion Bibliothek für Java, Python und .NET zur Verfügung.
Es unterstützt alle Versionen des PDF-Dokuments Spezifikation (einschließlich v1.6 von Acrobat 7 verwendet), Entnahme von Text kodiert mit Double-Byte-Zeichensätzen (einschließlich Chinesisch, Japanisch und Koreanisch), Entschlüsselung von 40-Bit- und 128- Bit verschlüsselte Dokumente und Extraktion aller Dokument-Metadaten von PDF-Dokumenten (einschließlich Formulardaten, Lesezeichen und Anmerkungen) zur Verfügung gestellt.
Einfache Integration in Jakarta Lucene ist im Lieferumfang enthalten

Was ist neu in dieser Pressemitteilung:.

  • Diese Version enthält eine Vielzahl von Korrekturen vorgenommen um sicherzustellen, PDFTextStream ist in der Lage Extrahieren von Text aus PDF-Dokumenten, die nicht-konforme an die PDF-Spezifikation.
  • Es enthält auch eine Reihe von Leistungsverbesserungen.

Was ist neu in Version 2.3.0:

  • Added eine .isStruckThrough () -Methode com. snowtide.pdf.TextUnit, der angibt, ob ein Zeichen eine durchgestrichen durchgezogen.
  • Verbesserte Unterstützung PDFTextStream für eingebettete Zeichenzuordnungen.
  • Die Berechnung der Leerzeichen zwischen Wörtern, wurde behoben richtig machen Leerzeichen, die in den Quell PDF-Dokumenten explizit kodiert wird.
  • Verbesserte PDFTextStream Die Verarbeitung von Composite-Content-Kodierungen, die zuvor konnte was in einigen Bereichen von PDF-Inhalten, die 'ignoriert' während der Extraktion nicht.
  • ein Fehler in VisualOutputTarget wenn Text aus einer einzigen Zeile würde über mehrere aufgeteilt werden, Fest
  • Verbesserte vertikale Ausrichtung von Text extrahiert mit VisualOutputTarget
  • Verbesserte VisualOutputTarget-hergestellten Extrakte, um störende zusätzliche Leerzeichen zwischen eng benachbarten Wörtern beseitigen

Was ist neu in Version 2.2.5:

  • Diese Version unterstützt zum Extrahieren XFA-Formulare Daten XML.
  • Sie deutlich die Leistung der Textextraktion mit VisualOutputTarget verbessert. Unterstützung für PDF-Dokumente größer als 2GB.
  • Ein Fix für einen Bug, wo die Codierungen von Embedded-Type1-Schriften waren bisher nicht richtig in einigen Fällen angewendet.
  • Ein Update für ein Problem in dem neueren Inhalt in PDF-Dokumenten aktualisiert wurde manchmal ignoriert werden.
  • Ein Update für ein Problem, wo PDFDocEncoding-kodierte Lesezeichen und Metadaten wurden nicht korrekt dekodiert.
  • Ein .getDestinationName () -Methode in com.snowtide.pdf.Bookmark.

Anforderungen :

  • Apache Lucene

Kommentare zu PDFTextStream

Kommentare nicht gefunden
Kommentar hinzufügen
Schalten Sie auf die Bilder!