Jericho HTML Parser

Screenshot der Software:
Jericho HTML Parser
Softwarebeschreibung:
Version: 3.3
Upload-Datum: 20 Feb 15
Entwickler: Martin Jericho
Lizenz: Frei
Popularität: 56

Rating: nan/5 (Total Votes: 0)

Jerich HTML-Parser ist ein Open Source, einfache, aber leistungsfähige Bibliothek komplett in Java geschrieben.
Es ermöglicht Programmierern zu manipulieren und Teile einer HTML-Dokument analysieren.
Jerich HTML Parser enthält auch High-Level HTML Form Manipulationsfunktionen

Was ist neu in dieser Pressemitteilung:.

  • Bug Fixes:
  • [3581664] CharacterReference.decode () nicht dekodieren Einheiten enthalten Ziffern - & frac12; & Frac14; & Frac34; & Sup1; & Sup2; & Sup3; & There4;
  • [3311286] SourceCompactor nicht respektiert AREA
  • [3519131] Renderer Ausgang falsch, wenn mit einem Element-Objekt gebaut.
  • [3538829] Renderer Ausgabe des Schrift Dekoration auf Blockgrenzen falsch.
  • Segment.getAllStartTags (Name) und Segment.getFirstElement (Name) funktionieren nicht, wenn das Argument enthält Großbuchstaben.
  • Die Endekennung einer gemeinsamen Server-Tag innerhalb eines entgangen Server-Tag wird fälschlicherweise als Trennzeichen am Ende des entgangen Tag anerkannt.
  • Veränderungen, die die VERHALTEN bestehender Programme AUSWIRKEN KÖNNEN:
  • [3427073] Segment.getStyleURISegments () nun auch Stil-Element Inhalt und Stil Attributwerte.
  • [3427927] Segment.getURIAttributes () nun auch die Archiv-Attribute des Objekts und Applet-Elemente.
  • Kommentare im Voll sequentielle Parse nicht mehr innerhalb Skriptelemente erkannt. Zuvor waren sie für die Kompatibilität mit gängigen Browsern, aber modernen Browser Verhalten hat sich verändert anerkannt.
  • Changed die Protokollebene aller Parse-Fehler von INFO auf ERROR und die Protokollebene des Source.fullSequentialParse () Antwort-Text aus WARN auf INFO. Die frühere Niveau gab der beratende Nachricht einen höheren Schweregrad als die Analysefehler und verhindert Erfassungssysteme von versteckt die Hinweismeldung während zeigt Analysefehler. Zeichenkodierung Warnungen bleiben unverändert bei WARN Niveau.
  • Changed das Verhalten des Renderer.renderHyperlinkURL (startTag) Methode, so dass relative URLs werden nicht wiedergegeben.
  • Changed das Verhalten der Renderer damit Hyperlink Elementgehalt wird nicht wiedergegeben, wenn sie die gleiche wie die Hyperlink-URL ist, ohne Berücksichtigung http:. // Präfix oder / Suffix
  • EndTag.tidy () entfernt jetzt Leerzeichen vor der schließenden Klammer.
  • hinzugekommen Quelle (Datei) Konstruktor.
  • hinzugekommen OutputDocument.getSegment () -Methode.
  • hinzugekommen OutputDocument.remove (int beginnen, int end) Verfahren.
  • hinzugekommen Renderer.setHRLineLength () -Methode.
  • hinzugekommen RenderToText.jsp Webapp Probe.
  • hinzugekommen Segment.getRowColumnVector () -Methode.
  • Encoding Erkennung ignoriert jetzt in Meta-Tags, die eine Codeeinheit-Größe mit der vorläufigen Codierung nicht kompatibel haben angegeben gemeinsamen Kodierungen.
  • den folgenden Logger APIs Upgraded: slf4j-api-1.7.2, log4j-1.2.17

Was ist neu in Version 3.1:

  • Bug Fixes:
  • [2793556] Endlosschleife auf Segment.getAllStartTags ()
  • Endlosschleife auf Segment.getAllElements ()
  • Segment.getFirst * Methoden zurück Segmente außerhalb des Begrenzungssegment.
  • Segment.getAllElements Methoden nicht alle geschlossenen Elemente unter Umständen zurück.
  • Feste Dokumentationsfehler in Segment.getAllElements Methoden.
  • hinzugekommen StreamedSource Klasse.
  • Veränderungen, die die VERHALTEN bestehender Programme AUSWIRKEN KÖNNEN:
  • geändert ParseText von Klasse zu kommunizieren.
  • Segment.getNodeIterator () gibt jetzt Zeichenreferenzen als separate Knoten.
  • -Tag Hinzugefügt Suchmethoden basierend auf Attributwert regulären Ausdrücken.
  • -Tag Hinzugefügt Suchmethoden auf Basis von HTML-Klassenattribut.
  • Hinzugefügt statische Source.LegacyNodeIteratorCompatabilityMode Eigenschaft vorübergehend Segment.getNodeIterator () Funktionalität der von früheren Versionen wiederherzustellen.
  • Entfernt char [] basierend Suchmethoden in ParseText.
  • hinzugekommen CharacterReference.appendCharTo (Appendable) -Methode.
  • hinzugekommen OutputDocument (Segment) Konstruktor.
  • hinzugekommen StreamedSourceCopy Beispielprogramm.

Was ist neu in der Version 3.0:

  • Bug Fixes:
  • Zeichenreferenzen, die Unicode-Ergänzungszeichen wurden nicht korrekt in UTF-16 Code-Einheit Paare entschlüsselt.
  • [2188446] Element.getDepth () und Element.getParentElement () gab falsche Ergebnisse, wenn im Parse-on-Demand-Modus genannt.
  • Die Kommentarfunktion ist nun in & lt anerkannt; script & gt; Elemente.
  • API Änderungen, die nicht abwärtskompatibel sind:
  • geändert Paketnamen, um net.htmlparser.jericho
  • Attributwerte müssen nun String anstatt CharSequence sein.
  • Entfernt alle veralteten Methoden / Klassen von früheren Versionen.
  • Alle finden * Methoden für zu berechnen * Methoden, um eine einheitliche Namenskonvention für alle Tag-Suche Methoden gelten als veraltet.
  • Tag, Element und HTMLElements Klassen nicht mehr umsetzen HTMLElementName Schnittstelle. (Statische Import statt)
  • Alle Kollektionen jetzt stongly Verwendung von Generika eingegeben haben.
  • geändert FormControlOutputStyle Klasse Enum.
  • geändert FormControlType Klasse Enum.
  • hinzugekommen CharStreamSource.appendTo (Appendable) -Methode.
  • hinzugekommen Source.iterator () -Methode.
  • Quelle implementiert nun Iterable.
  • Intern verwendet Stringbuilder für eine bessere Leistung.
  • hinzugekommen Source.getNextStartTag (StartTagType) -Methode.
  • hinzugekommen Source.getNextEndTag (EndTagType) -Methode.
  • hinzugekommen Source.getPreviousStartTag (StartTagType) -Methode.
  • hinzugekommen Source.getPreviousEndTag (EndTagType) -Methode.
  • hinzugekommen Segment.getAllStartTags (StartTagType) -Methode.
  • Alle Hinzugefügt Segment.getFirst * Methoden.
  • hinzugekommen Renderer.renderHyperlinkURL (startTag) -Methode.
  • hinzugekommen HTMLSanitiser Beispielprogramm.
  • Verbesserte um SLF4J-api-1.5.6

Anforderungen :

  • Java 2 Standard Edition Runtime Environment

Ähnliche Software

Docmake
Docmake

14 Apr 15

AsmXml
AsmXml

20 Feb 15

scrap2rtf
scrap2rtf

20 Feb 15

Markdoc
Markdoc

11 May 15

Andere Software von Entwickler Martin Jericho

Kommentare zu Jericho HTML Parser

Kommentare nicht gefunden
Kommentar hinzufügen
Schalten Sie auf die Bilder!