Auf Websites werden viele Daten in einem Tabellenformat dargestellt. Es könnten jedoch zu einer schwierigen Aufgabe kommen, die Tabelledaten auf einem lokalen Computer zu speichern. Das Problem ist, dass die Daten in HTML eingebettet sind und nicht in einem strukturierten Format wie CSV heruntergeladen werden können. In diesem Fall ist Web Scraping der einfachste Weg, um die Daten zu erhalten.
Hier möchte ich Ihnen 3 Methoden vorstellen, damit Sie die Daten aus einer Tabelle einfach und schnell scrapen können.
Octoparse
Octoparse ist ein leistungsfähiges AI-Web-Scraping-Tool, mit dem Sie in kurzer Zeit Daten in großem Umfang extrahieren können. Octoparse ist einfach zu bedienen. Durch Ziehen und Ablegen können Sie ganz einfach einen Arbeitsablauf erstellen, der die benötigten Informationen von jeder beliebigen Website abruft.
Die Schritte zum Daten Scraping mit Octoparse sehen Sie darunter nach.
✅ Schritt 1: Klicken Sie auf “Neu”, um ein neues Projekt zu starten.
✅ Schritt 2: Geben Sie die Ziel-URL in das Feld ein und klicken Sie auf “Starten”, um die Website im integrierten Octoparse-Browser zu öffnen.
✅ Schritt 3: Erstellen Sie das Umblättern mit 3 Klicks:
- Klicken Sie auf “B” im Browser
- Klicken Sie in “Tipps” auf “Daten der Webseite automatisch detektieren”.
- Klicken Sie auf “Schleifenklick auf jede URL“ in “Aktionstipps”.
Jetzt können wir sehen, dass ein “Paginierungsschleife“ in der Workflow-Box erstellt wurde.
✅ Schritt 4: Konfigurieren Sie die Aufgabe
- Klicken Sie auf die erste Zelle in der ersten Zeile der Tabelle
- Klicken Sie auf das Erweiterungssymbol in “Tipps”, bis die gesamte Zeile grün hervorgehoben ist (normalerweise sollte das Tag TR sein).
- Klicken Sie auf “Alle Unterelemente auswählen” in “Tipps”, dann auf “Daten extrahieren“ und “Daten in der Schleife extrahieren”.
Die Schleife für das Scraping der Tabelle ist in den Workflow integriert.
✅ Schritt 5: Extrahieren und expotieren Sie die Daten
Mit den oben genannten 5 Schritten erhalten wir das folgende Ergebnis.
Mit Octoparse stehen Ihnen über 100 benutzerfreundliche Vorlagen zur Verfügung, um Daten schnell und einfach zu extrahieren. Darüber hinaus ermöglicht Ihnen die Octoparse-Vorlage die gezielte Extraktion der gewünschten Daten auf einfache Weise. Die Benutzerfreundlichkeit der Octoparse-Vorlage ist besonders hervorzuheben!
https://www.octoparse.de/template/email-social-media-scraper
Hier bekommen Sie Octoparse! 🤩
Preis: $0~$249 pro Monat
Packet & Preise: Octoparse Premium-Preise & Verpackung
Kostenlose Testversion: 14-tägige kostenlose Testversion
Herunterladen: Octoparse für Windows und MacOs
Google Sheets
In Google Sheets gibt es eine Funktion namens Import Html, mit der Daten aus einer Tabelle innerhalb einer HTML-Seite mit einem festen Ausdruck =ImportHtml (URL, “table”, num) extrahiert werden können.
✅ Schritt 1: Öffnen Sie ein neues Google Tabelle, und geben Sie den Ausdruck in ein leeres Feld ein. Es wird eine kurze Einführung in die Formel angezeigt.
✅ Schritt 2: Geben Sie die URL ein (Beispiel: https://en.wikipedia.org/wiki/Forbes%27_list_of_the_world%27s_highest-paid_athletes) und passen Sie das Indexfeld nach Bedarf an.
Mit den oben genannten 2 Schritten können wir die Daten aus einer Tabelle innerhalb von Minuten mit Google Tabelle scrapen. Allerdings gibt es eine offensichtliche Einschränkung. Wir müssen den Prozess mehrmals wiederholen, wenn wir planen, Tabellen von mehrere Seiten mit Google Tabelle zu scrapen. Daher brauchen Sie eine effizientere Methode, um den Prozess zu automatisieren.
Genaue Info finden Sie hier: 3 Methoden zum Exportieren einer HTML-Tabelle nach Excel
Sprache R (mit rvest-Paket)
In diesem Fall verwende ich auch diese Website (https://de.investing.com/currencies/single-currency-crosses) als Beispiel, um zu zeigen, wie man Tabellen mit rvest scrapen kann.
Bevor wir mit dem Schreiben des Codes beginnen, müssen wir einige grundlegende Grammatiken über das rvest-Paket kennen.
- html_nodes() : Auswahl eines bestimmten Teils in einem bestimmten Dokument. Wir können CSS-Selektoren verwenden, wie html_nodes(doc, “table td”), oder xpath-Selektoren, html_nodes(doc, xpath = “//table//td”)
- html_tag() : Extrahiert den Tag-Namen. Einige ähnliche sind html_text (), html_attr() und html_attrs()
- html_table() : Parsen HTML-Tabellen und extrahieren die in R Framework.
Darüber hinaus gibt es noch einige Funktionen zur Simulation des menschlichen Surfverhaltens. Zum Beispiel html_session(), jump_to(), follow_link(), back(), forward(), submit_form() und so weiter.
In diesem Fall müssen wir html_table() verwenden, um unser Ziel zu erreichen, also Daten aus einer Tabelle auszulesen.
Laden Sie zunächst R(https://cran.r-project.org/) herunter.
✅ Schritt 1: Installieren Sie rvest.
✅ Schritt 2: Beginnen Sie mit dem Schreiben von Codes, wie in der folgenden Abbildung gezeigt.
- Library(rvest) : Importieren Sie das rvest-Paket
- Library(magrittr) : Importieren Sie das Paket magrittr
- URL: Die Ziel-URL
- Read HTML : Zugriff auf die Informationen der Ziel-URL
- List: Lesen die Daten aus der Tabelle
✅ Schritt 3: Nachdem Sie den gesamten Code in das R-Penal geschrieben haben, klicken Sie auf “Enter”, um das Skript auszuführen. Jetzt können wir die Tabelleninformationen sofort erhalten.
Für die Menschen, die keine Programmierkenntnisse haben, ist die Programmierung mit einer steilen Lernkurve verbunden, die die Schwelle für den Einstieg in das Web Scraping erhöht. Es erschwert diese Menschen, einen Wettbewerbsvorteil bei der Nutzung von Webdaten zu erlangen.
Zusammenfassung
Dieser Artikel beschreibt drei Methoden, um Daten aus Webformularen zu extrahieren: Octoparse, die Funktion ImportHtml von Google Sheets und das rvest-Paket für die Sprache R. Der Artikel beschreibt die Schritte jeder Methode für Benutzer mit unterschiedlichen Kenntnissen, um einfach und effizient Daten aus Webseiten zu extrahieren.
Ich hoffe, dass das obige Tutorial Ihnen hilft, eine allgemeine Vorstellung davon zu bekommen, wie ein Web Scraping Tool Ihnen helfen kann, das gleiche Ergebnis wie ein Programmierer mühelos zu erreichen.
Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschlägen geben möchten, kontaktieren Sie bitte uns per E-Mail (support@octoparse.com). 💬
👍👍 Wenn Sie Interesse an Octoparse und Web Scraping haben, können Sie es zunächst 14 Tage lang kostenlos ausprobieren.
Autor*in: Das Octoparse Team ❤️