logo
languageDEdown
menu

Wie extrahiert man Text aus HTML Datei?

3 Minuten lesen

Wie wird Text in HTML-Datei dargestellt?

Bevor Sie Text aus HTML Datei extrahieren, sollen Sie zuerst es genau wissen, wie Text oder andere Arten von Daten in HTML Datei dargestellt sind.

Der Hauptteil einer HTML Datei ist eine Reihe von Elementen, die nach einer bestimmten Regel als Code angeordnet sind, damit das Layout einer Website gestaltet wird.

Hier ist ein Beipiel aus einer HTML Datei.

Sehen Sie hier die Ressource: https://www.w3schools.com/html/tryit.asp?filename=tryhtml_paragraphs2

<p>
This paragraph
contains a lot of lines
in the source code,
but the browser
ignores it.
</p>

Sie können das obige als ein Element betrachten. Die Zeichen <p> und </p> markieren das Textfelder, das oft zwischen <span> und </span> oder <h> und </h> steht.

Das Verständnis der Struktur einer HTML-Datei wäre hilfreich, wenn Sie nur ein bestimmtes Datenelement aus der HTML-Datei (oder der Webseite) extrahieren möchten. Und genau hier käme Xpath ins Spiel.- eine Abfragesprache zur Auswahl von Elementen aus einem XML/HTML-Dokument.

Wie extrahiert man Text aus HTML? 

Es gibt zwei Möglichkeiten, um Text aus HTML-Dateien zu extrahieren.

Extrahieren mit Programmierung

F√ľr einfache HTML-Datei kann man mit grundlegenden Programmierungskenntnissen ein Programm erstellen und ausf√ľhren. Es gibt viele Programmierungssprachen wie C#, Java, Python, JS, PHP, Go und NodeJs zur Verf√ľgung.

Einige dieser Sprachen haben ihre eigenen Parser f√ľr HTML, die kostenlos erh√§ltlich sind. Wenn Sie mehr √ľber diese HTML-Parser erfahren, klicken Sie bitte hier: https://en.wikipedia.org/wiki/Comparison_of_HTML_parsers.

Extrahieren mit Scraping Tool

Es gibt viele leistungsstarke Web Scraping Tools, wie z. B. Octoparse. Damit können Sie fast alles auf einer Webseite erfassen, einschließlich Text, Bilder, URL usw. Sie können alles, was Sie erhalten haben, in ein strukturiertes Datenformat umwandeln.

Mit Scraping Tool ist keine Programmierung erfordlich. Deswegen ist es sehr freundlich f√ľr die Benutzer*innen, die gar keine Erfahrungen beim Scraping haben. Hier ist Octoparse vorzustellen, das als Scraping Tool dient und sehr einfach zu verwenden ist. Was Sie tun m√ľssen, ist nur Eingeben der gew√ľnschten URL von Website und ein Klick auf ‚ÄúRun‚ÄĚ. Dann wird die Website mit Auto-Detektion Technik durchgesucht und alle Daten werden ausgelesen. Wenn die Aufgabe zum Schluss gekommen ist, k√∂nnen Sie die extrahierten Daten in verschiedene Datei, sowie Excel, CSV, JSON usw. exportieren lassen.

Beispiel f√ľr HTML Extraktion

Wenn Sie nur Einsteiger bei Programmierung sind, aber die Daten aus bestimmten Websites extrahieren möchten, können Sie ein Scraping Tool wählen.

Der automatische Erkennungsalgorithmus von Octoparse macht das Daten-Scraping auch f√ľr Nicht-Programmierer sehr einfach. Die meisten Websites lassen sich in nur drei einfachen Schritten bearbeiten.

+ Eingeben Sie die Ziel-URL

+ Starten Sie die Auto-Detektion

+ F√ľhren Sie die Aufgabe f√ľr Extraktion aus.

Hier wird die Datenextraktion aus Website https://www.amazon.de/gp/bestsellers mit Octoparse als Beispiel zum besseren Vertändnis genommen.

Wenn Sie f√ľr Octoparse intertessieren, k√∂nnen Sie es zuerst herunterladen und es kostenlos im Plan 14 Tage gratis probieren.

Website: https://www.octoparse.de/

Herunterladen: https://www.octoparse.de/download/windows

Schritt 1: Geben Sie die Ziel-URL ein

Schritt 2: Starten Sie die Auto-Detektion.

  • Klicken Sie auf ‚ÄúAuto-detect webpage data‚ÄĚ.
  • Wenn die Auto-Detektion fertiggemacht wurde, klicken Sie dann auf ‚ÄúCreate workflow‚ÄĚ.
  • Dann wird eine Aufgabe f√ľr Datenextraktion erstellt. Sie k√∂nnen den Workflow auf der rechten Seite √ľberpr√ľfen und die Daten im Vorschaufenster nach Bedarf umbenennen oder entfernen.

Schritt 3: F√ľhren Sie die Aufgabe f√ľr Extraktion aus.

  • Sie k√∂nnen die Aufgabe auf Ihrem Computer oder in der Cloud ausf√ľhren lassen.
  • Wenn die Aufgaben fertig ist, k√∂nnen die extrahierten Daten in Excel, CSV; HTML oder JSON exportieren lassen.

Hier bekommen Sie Octoparse! ūü§©

Preis: $0~$249 pro Monat

Packet & Preise:Octoparse Premium-Preise & Verpackung

Kostenlose Testversion: 14-tägige kostenlose Testversion

Herunterladen:Octoparse f√ľr Windows und MacOs

Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschl√§gen geben m√∂chten, kontaktieren Sie bitte uns per E-Mail (support@octoparse.com). ūüí¨

Autor*in: Das Octoparse Team¬†‚̧ԳŹ

Themen untersuchen

Starten mit Octoparse heute

Download

Verwandte Artikel

  • avatarChristel Kiesel
    In diesem Artikel werden wir 3 Fragen beantworten: Wie können wir mit oder ohne Programmierkenntnisse einfach Echtzeit-Datenanalyse erledigen? Warum ist die Erfassung der Echtzeitdaten wichtig? Wie können Echtzeitanalyse das Unternehmenswachstum effektiv fördern?
    13. April 2023 · 4 Minuten lesen
  • avatarNeela Schmidt
    Seit Jahren kommt E-Commerce mit dem rasanten Wachstum der globalen Wirtschaft zu einem Schlagwort. Alle Unternehmen bestreben sich daran, das Online Gesch√§ft durch Amazon, eBay sowie Tiktok zu entwickeln und vergr√∂√üern. Und es ist auch ein dringender Trend, sich konkurrenzf√§higer als anderen zu machen. Aber wodurch kann man das Ziel erreichen? Hier gibt es eine L√∂sung: die Daten. Es ist so zu sagen, dass die Daten, die bei allen Veranstaltungen von Kaufen und Verkaufen auf Internet entstanden sind, zu dem Schl√ľssel geworden ist. Man kann durch Analysieren solcher Daten Marketingstrategie treffen und Gesch√§ft verbessern. In diesem Artikel erfahren Sie, wie man mit Hilfe der Web Scraping Tool die Daten aus E-Commerce Website extrahieren kann.
    10. Januar 2023 · 5 Minuten lesen
  • avatarChristel Kiesel
    In diesem Tutorial zeige ich Ihnen, wie Sie Twitter-Daten in 3 Minuten scrapen k√∂nnen, ohne die Twitter-API, Tweepy oder Python zu verwenden und keine einzige Zeile Code zu schreiben. Um Daten aus Twitter zu extrahieren, k√∂nnen Sie ein automatisiertes Web-Scraping-Tool verwenden - Octoparse. Octoparse simuliert die menschliche Interaktion mit einer Webseite, und erm√∂glicht Ihnen, alle Informationen auf einer beliebigen Website zu extrahieren, wie z. B. Twitter. So k√∂nnen Sie beispielsweise ganz einfach Tweets eines Benutzers, Tweets, die bestimmte Hashtags enthalten oder innerhalb eines bestimmten Zeitraums gepostet wurden, usw. extrahieren. Sie brauchen nur die URL Ihrer Zielwebseite zu erfassen und die in den in Octoparse integrierten Browser einzuf√ľgen. Mit ein paar Mausklicks k√∂nnen Sie einen Crawler von Grund auf selbst erstellen. Wenn die Extraktion abgeschlossen ist, k√∂nnen Sie die Daten in Excel-Tabellen, CSV, HTML oder SQL exportieren oder sie √ľber die Octoparse-APIs in Echtzeit in Ihre Datenbank exportieren.
    15. Dezember 2022 · 4 Minuten lesen
  • avatarNeela Schmidt
    Heutzutage wird PDF h√§ufig verwenden zum Lesen, Pr√§sentieren und f√ľr viele andere Zwecke. Viele Websites speichern Daten auch in einer PDF-Datei, die man herunterladen kann. Sie k√∂nnen PDF-Dateien ganz einfach anzeigen, speichern und drucken. Aber wenn Sie die PDF Datei extrahieren m√∂chten, ist es immer ein Problem. Daher ist es schwierig, eine PDF-Datei zu bearbeiten und Daten draus zu exportieren. Gl√ľcklicherweise gibt es einige L√∂sungen, um Daten aus PDF zu extrahieren, und wir werden die in diesem Beitrag vorstellen.
    12. Dezember 2022 · 2 Minuten lesen