Jericho HTML Parser

Screenshot der Software:
Jericho HTML Parser
Softwarebeschreibung:
Version: 3.4
Upload-Datum: 10 Dec 15
Entwickler: Martin Jericho
Lizenz: Frei
Popularität: 105

Rating: 5.0/5 (Total Votes: 1)

Es kann serverseitige und clientseitige Tags bearbeiten, während der Wiedergabe wörtlich nicht erfasste oder ungültige HTML.

Es bietet auch High-Level HTML-Formular Manipulationsfunktionen

Eigenschaften .

  • Die Anwesenheit von realen Welt & quot; falsch formatierte HTML nicht mit dem Parsen der Rest des Dokuments, das die Bibliothek ideal für die Verwendung mit & quot macht stören; HTML-Parser, die anderen Drosseln.
  • ASP, JSP, PSP, PHP und Mason-Server-Tags sind ausdrücklich durch den Parser anerkannt. Dies bedeutet, dass normale HTML noch richtig analysiert, auch wenn es Server-Tags in ihnen, die beispielsweise üblich ist, wenn dynamisch Einstellung Elementattribute.
  • Eine neue Strom basiert Parsing-Option mit der StreamedSource Klasse, die Speicher effiziente Verarbeitung großer Dateien über ein Ereignis Iterator erlaubt. Dies ist im Wesentlichen ein StAX Alternative mit der Fähigkeit, HTML und nicht-validierenden XML, sowie mehrere andere Funktionen in anderen Streaming-Parser nicht verfügbar verarbeiten.
  • In der Standardausführung ist es weder ein Ereignis noch Baumbasierte Parser, sondern verwendet eine Kombination von einfachen Textsuche, effiziente tag Anerkennung und einem Tag-Position-Cache. Der Text des gesamten Quelldokument wird zuerst in den Speicher geladen, und dann durchsucht nur die relevanten Segmente für die entsprechenden Zeichen jeder Suchvorgang.
  • Im Vergleich zu einem Baum basierte Parser wie DOM, die Speicher- und Ressourcenbedarf kann viel besser sein, wenn nur kleine Teile des Dokumentes müssen analysiert oder verändert werden. Fehlerhafte oder falsch formatierte HTML können einfach ignoriert werden, im Gegensatz zu Baum basierten Parser, die jeden Knoten in dem Dokument von oben nach unten zu identifizieren muss.
  • Vergleich zu einem Ereignis basiert Parser wie SAX ist die Schnittstelle auf einem viel höheren Niveau und intuitiver und eine Baumdarstellung des Dokumentelements Hierarchie wird einfach erzeugt, wenn erforderlich.
  • Die Anfangs- und Endpositionen in dem Quelldokument aller Segmente geparst zugänglich, um Änderungen von nur ausgewählte Abschnitte des Dokuments, ohne das gesamte Dokument von einem Baum zu rekonstruieren.
  • Die Zeilen- und Spaltennummer der einzelnen Positionen im Quelldokument sind leicht zugänglich.
  • Bietet eine einfache, aber umfassende Schnittstelle für die Analyse und Manipulation von HTML-Formular-Steuerelemente, einschließlich der Gewinnung und Bevölkerung von Anfangswerten, und die Umwandlung in oder Datenanzeigemodus schreibgeschützt. Die Analyse der Formular-Steuerelemente erlaubt auch Daten aus dem Formular empfangen, um gespeichert und in geeigneter Weise dargestellt werden.
  • Integrierte Funktionalität, um den gesamten Text aus HTML-Markup, geeignet zur Einspeisung in ein Textsuchmaschine wie Apache Lucene extrahieren.
  • Built-in Funktionen in HTML-Markup mit einfachen Text-Formatierungen wiedergegeben.
  • Integrierte Funktionalität für HTML-Quellcode, die Elemente entsprechend ihrer Tiefe in der Dokumentelementhierarchie rückt zu formatieren. (Klicken Sie hier für eine Online-Demonstration)
  • Integrierte Funktionalität kompakte HTML-Quellcode, indem Sie alle unnötigen Leerraum.
  • Benutzerdefinierte Tag-Typen können einfach definiert und für die Anerkennung durch den Parser registriert werden.

Was ist neu in dieser Pressemitteilung:.

  • Added Quelle (Datei) Konstruktor
  • Added OutputDocument.getSegment () -Methode.
  • Added OutputDocument.remove (int beginnen, int end) Methode.
  • Added Renderer.setHRLineLength () -Methode.
  • Added RenderToText.jsp Webapp Probe.
  • Added Segment.getRowColumnVector () -Methode.
  • Encoding Erkennung ignoriert jetzt in Meta-Tags, die eine Codeeinheit-Größe mit der vorläufigen Codierung nicht kompatibel haben angegeben gemeinsamen Kodierungen.

Was ist neu in Version 3.1:

  • Bug Fixes:
  • Endlosschleife auf Segment.getAllStartTags ()
  • Endlosschleife auf Segment.getAllElements ()
  • Segment.getFirst * Methoden zurückgegeben Segmente außerhalb des Begrenzungssegment.
  • Segment.getAllElements Methoden nicht alle eingeschlossenen Elemente unter Umständen zurück.
  • Feste Dokumentationsfehler in Segment.getAllElements Methoden.
  • Added StreamedSource Klasse.
  • Änderungen, die das Verhalten der bestehenden Programme beeinflussen könnten:
  • geändert ParseText von Klasse zu kommunizieren.
  • Segment.getNodeIterator () gibt jetzt Zeichenreferenzen als separate Knoten.
  • -Tag Hinzugefügt Suchmethoden basierend auf Attributwert regulären Ausdrücken.
  • -Tag Hinzugefügt Suchmethoden auf Basis von HTML-Klassenattribut.
  • Hinzugefügt statische Source.LegacyNodeIteratorCompatabilityMode Eigenschaft vorübergehend Segment.getNodeIterator () Funktionalität der von früheren Versionen wiederherzustellen.
  • Entfernt char [] basierten Suchmethoden in ParseText.
  • Added CharacterReference.appendCharTo (Appendable) -Methode.
  • Added OutputDocument (Segment) Konstruktor.
  • Added StreamedSourceCopy Beispielprogramm.

Ähnliche Software

Baker
Baker

1 Mar 15

LESS
LESS

13 May 15

Pleeease
Pleeease

10 Dec 15

Andere Software von Entwickler Martin Jericho

Kommentare zu Jericho HTML Parser

Kommentare nicht gefunden
Kommentar hinzufügen
Schalten Sie auf die Bilder!