Schöne Suppe Projekt ist ein Python-HTML / XML-Parser für schnellen Turnaround-Projekte wie Screen-Scraping konzipiert. Drei Eigenschaften machen es leistungsfähig:
Schöne Suppe nicht ersticken, wenn Sie schlechte Markup geben. Es führt zu einem Syntaxbaum, der ungefähr so viel Sinn wie das Originaldokument ermöglicht. Dieser ist in der Regel gut genug, um die benötigten Daten zu sammeln und zu fliehen.
Schöne Suppe bietet ein paar einfache Methoden und Pythonic Idiome zum Navigieren, Suchen und Ändern eines Parse-Baum: ein Toolkit zum Präparieren eines Dokuments und Extrahieren, was Sie brauchen. Sie verfügen nicht über ein benutzerdefiniertes Parser für jede Anwendung erstellen.
Schöne Suppe konvertiert automatisch eingehende Dokumente in Unicode und ausgehende Dokumente in UTF-8. Sie müssen sich keine Gedanken über Kodierungen denken, es sei denn, das Dokument nicht eine Codierung angeben und Schöne Suppe kann nicht automatisch erkennen ein. Dann müssen Sie nur noch die ursprüngliche Codierung angeben.
Schöne Suppe analysiert alles, was Sie es zu geben, und macht die Baumdurchlauf Sachen für Sie. Sie können sagen, dass es "Finden Sie alle Links" oder "Finden Sie alle Links der Klasse ExternalLink" oder "Finden Sie alle Verbindungen, deren URLs überein" foo.com "oder" Finden Sie die Tabellenüberschrift Das muss Fettschrift, dann geben mir, dass Text. "
Wertvolle Daten, die einst in schlecht gestaltete Websites gesperrt wurde nun in Ihrer Reichweite. . Projekte, die Stunden in Anspruch genommen hätte, nehmen nur wenige Minuten mit Schöne Suppe
Anforderungen :
- Python
Kommentare nicht gefunden