undefined
Blog > Web Scraping > Post

Einfaches Web-Scraping mit Google Tabellen (aktualisiert 2020)  

Monday, October 18, 2021

Ein Web-Scraping-Tool kann den Prozess der wiederholten Arbeiten des Kopierens und Einfügens automatisieren. Eigentlich kann man Google Tabellen als einen einfachen Web Scraper betrachten. Sie können eine spezielle Formel verwenden, damit Sie Daten aus einer Webseite extrahieren, dann die direkt in Google Tabellen importieren und die mit Ihren Freunden teilen können.

 

In diesem Artikel zeige ich Ihnen zunächst, wie man einen einfachen Web Scraper mit Google Tabellen erstellt. Anschließend werde ich die mit einem automatischen Web Scraper, Octoparse, vergleichen. Nach dem Lesen werden Sie eine klare Vorstellung davon haben, welches Web-Scraping-Tool Ihre eigenen Bedürfnisse an Web-Scraping besser erfüllen können.

 

Option#1: Erstellen Sie einen einfachen Web Scraper mit ImportXML in Google Spreadsheets

 

 

Schritt 1: Öffnen eine neue leere Google Tabelle.

 

Schritt 2: Öffnen die Ziel-Website mit Chrome. Zum Erklären nennen wir die Website „Steamspy“ als Beispiel. Klicken Sie mit der rechten Maustaste auf die Webseite und ein Dropdown-Menü wird angezeigt. Wählen Sie dann "Inspect". Drücken Sie eine Kombination aus drei Tasten: "Strg" + "Shift" + "C", um "Selektor" zu aktivieren. Das Inspektion-Panel wird dann die Informationen des ausgewählten Elements erhalten.

 web scraping with google sheet

 

Schritt 3:  Kopieren die Website-URL und fügen die in der Google Tabelle ein.

 

 

Option#2: Versuchen wir, die Preisdaten mit einer einfachen Formel zu erfassen: ImportXML

 

 

Schritt 1: Kopieren den Xpath des Elements. Wählen das Preis-Element aus, und klicken dann mit der rechten Maustaste, um das Dropdown-Menü aufzurufen. Wählen "Kopieren", dann "XPath kopieren".

  ImportXML

 

 

 

Schritt 2: Geben die folgende Formel in die Tabellenkalkulation ein.

 

=IMPORTXML(“URL”, “XPATH expression”) 

 

 

Beachten Sie, dass "Xpath expression" derjenige ist, den wir gerade aus Chrome kopiert haben. Vergessen Sie nicht, das doppelte Anführungszeichen "" innerhalb durch ein einfaches Anführungszeichen'' zu ersetzen.

 

  ImportXML

 

 

Option#3: Es gibt eine andere Formel, die Sie verwenden können: 

 

 

=IMPORTHTML(“URL”, “QUERY”, Index)

 

 

Mit dieser Formel können Sie die gesamte Tabelle extrahieren.

 extracted table

 

 

Jetzt Schauen wir uns an, wie die gleiche Scraping-Aufgabe mit einem Web Scraper, Octoparse, erledigt werden kann.

 

 

Schritt 1: Öffnen Sie Octoparse, und erstellen eine neue Aufgabe, indem Sie auf „+ Task“ unter dem „Advanced Mode“ klicken

 

Schritt 2: Wählen Sie eine Aufgabengruppe. Geben Sie dann die URL der Ziel-Website ein, dann klicken auf "Save URL". In diesem Fall können Sie die Website des Beispiels benutzen: http://steamspy.com/

 

Schritt 3: Beachten Sie, dass die Website jetzt in der interaktiven Ansicht von Octoparse angezeigt wird. Wir müssen eine Aktion „loop list“ erstellen, damit Octoparse die Daten der Liste scrapen kann.

 

1. Klicken auf eine Tabellenzeile (es kann eine beliebige Datei innerhalb der Tabelle sein) Octoparse wird dann ähnliche Elemente automatisch erkennen und sie rot hervorheben.

2. Wir sollen die Daten zeilenweise extrahieren, deswegen wählen wir "TR" (Table Row) im Bedienfeld.

3. Nachdem eine Zeile ausgewählt wurde, wählen Sie “Select all sub-element” im Tipps.

Wählen dann „Select All“, um alle Zeilen auszuwählen.

  ImportXML

 

 

Schritt 4: Wählen „Extract data in the loop“, um die Daten zu extrahieren.

 

Sie können die Daten in Excel, CSV, TXT oder andere gewünschte Formate exportieren. Octoparse  vermeidet das manuelle Kopieren und Einfügen, und automatisiert den Scraping-Prozess. Außerdem kann Octoparse Daten aus den dynamischen Websites mit AJAX-Technik oder reCaptcha besser scrapen.

 

 

Laden Sie Octoparse herunter, um mit Web-Scraping zu beginnen, oder kontaktieren Sie uns
für die Fragen über Web Scraping!

Kontaktieren Sie uns Herunterladen
btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen