undefined
Blog > Web Scraping > Post

Wie extrahiert man Text aus HTML Datei?

Wednesday, September 14, 2022

 

Inhaltsverzeichnis
  - Extrahieren mit Programmierung
  - Extrahieren mit Scraping Tool
✽ Beispiel für HTML Extraktion

 

 

 

✽ Wie wird Text in HTML-Datei dargestellt?
Bevor Sie Text aus HTML Datei extrahieren, sollen Sie zuerst es genau wissen, wie Text oder andere Arten von Daten in HTML Datei dargestellt sind.
Der Hauptteil einer HTML Datei ist eine Reihe von Elementen, die nach einer bestimmten Regel als Code angeordnet sind, damit das Layout einer Website gestaltet wird.

 

Hier ist ein Beipiel aus einer HTML Datei.

 

<p>
This paragraph
contains a lot of lines
in the source code,
but the browser
ignores it.
</p>

 

Sie können das obige als ein Element betrachten. Die Zeichen <p> und </p> markieren das Textfelder, das oft zwischen <span> und </span> oder <h> und </h> steht.
Das Verständnis der Struktur einer HTML-Datei wäre hilfreich, wenn Sie nur ein bestimmtes Datenelement aus der HTML-Datei (oder der Webseite) extrahieren möchten. Und genau hier käme Xpath ins Spiel.- eine Abfragesprache zur Auswahl von Elementen aus einem XML/HTML-Dokument.

 

 

✽ Wie extrahiert man Text aus HTML?

 

Es gibt zwei Möglichkeiten, um Text aus HTML-Dateien zu extrahieren.

 

- Extrahieren mit Programmierung
Für einfache HTML-Datei kann man mit grundlegenden Programmierungskenntnissen ein Programm erstellen und ausführen. Es gibt viele Programmierungssprachen wie C#, Java, Python, JS, PHP, Go und NodeJs zur Verfügung.
Einige dieser Sprachen haben ihre eigenen Parser für HTML, die kostenlos erhältlich sind. Wenn Sie mehr über diese HTML-Parser erfahren, klicken Sie bitte hier: https://en.wikipedia.org/wiki/Comparison_of_HTML_parsers.

 

- Extrahieren mit Scraping Tool
Es gibt viele leistungsstarke Web Scraping Tools, wie z. B. Octoparse. Damit können Sie fast alles auf einer Webseite erfassen, einschließlich Text, Bilder, URL usw. Sie können alles, was Sie erhalten haben, in ein strukturiertes Datenformat umwandeln.
Mit Scraping Tool ist keine Programmierung erfordlich. Deswegen ist es sehr freundlich für die Benutzer*innen, die gar keine Erfahrungen beim Scraping haben. Hier ist Octoparse vorzustellen, das als Scraping Tool dient und sehr einfach zu verwenden ist. Was Sie tun müssen, ist nur Eingeben der gewünschten URL von Website und ein Klick auf "Run". Dann wird die Website mit Auto-Detektion Technik durchgesucht und alle Daten werden ausgelesen. Wenn die Aufgabe zum Schluss gekommen ist, können Sie die extrahierten Daten in verschiedene Datei, sowie Excel, CSV, JSON usw. exportieren lassen.

 

 

✽ Beispiel für HTML Extraktion

 

Wenn Sie nur Einsteiger bei Programmierung sind, aber die Daten aus bestimmten Websites extrahieren möchten, können Sie ein Scraping Tool wählen.
Der automatische Erkennungsalgorithmus von Octoparse macht das Daten-Scraping auch für Nicht-Programmierer sehr einfach. Die meisten Websites lassen sich in nur drei einfachen Schritten bearbeiten.
+ Eingeben Sie die Ziel-URL
+ Starten Sie die Auto-Detektion
+ Führen Sie die Aufgabe für Extraktion aus.

 

Hier wird die Datenextraktion aus Website https://www.amazon.de/gp/bestsellers mit Octoparse als Beispiel zum besseren Vertändnis genommen.
Wenn Sie für Octoparse intertessieren, können Sie es zuerst herunterladen und es kostenlos im Plan 14 Tage gratis probieren.

 

Schritt 1: Geben Sie die Ziel-URL ein
· Öffnen Sie Octoparse und geben die URL https://www.amazon.de/gp/bestsellers ins Suchfeld ein.
· Dann klicken Sie auf "Start".

 

Schritt 1: Geben Sie die Ziel-URL ein

 

· Klicken Sie auf "Auto-detect webpage data".

 

Schritt 2: Starten Sie die Auto-Detektion.

 

 

Schritt 2: Starten Sie die Auto-Detektion.

 

· Dann wird eine Aufgabe für Datenextraktion erstellt. Sie können den Workflow auf der rechten Seite überprüfen und die Daten im Vorschaufenster nach Bedarf umbenennen oder entfernen.

 

Schritt 2: Starten Sie die Auto-Detektion.

 

· Sie können die Aufgabe auf Ihrem Computer oder in der Cloud ausführen lassen.

 

Schritt 3: Führen Sie die Aufgabe für Extraktion aus.

 

 

Schritt 3: Führen Sie die Aufgabe für Extraktion aus.

 

Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschlägen geben möchten, kontaktieren Sie bitte uns per E-Mail (support@octoparse.com).

 

 

 

Autor*in: Das Octoparse Team

Laden Sie Octoparse herunter, um mit Web-Scraping zu beginnen, oder kontaktieren Sie uns
für die Fragen über Web Scraping!

Kontaktieren Sie uns Herunterladen
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen