Dies ist die letzte Lektion der Einführungsserie. Wir hoffen, Sie hatten Spaß daran, etwas Neues und Nützliches zu lernen. Um alle Puzzlestücke zusammenzufügen, lassen wir eine Zusammenfassung mit einer Schritt-für-Schritt-Anleitung machen, wie Sie eine Scraping-Aufgabe von Grund auf erstellen. Wir werden Sie durch den gesamten Prozess von der Eingabe der URL bis zum Herunterladen der extrahierten Daten führen. Fangen wir gleich damit an.

Als ein Beispiel werden wir Produktinformationen und Preise von ebay.com abrufen.

Schritt 1 Starten einer neuen Aufgabe

Öffnen Sie die Octoparse-App und geben Sie die Ziel-URL in die Suchleiste ein:

https://www.ebay.com/sch/i.html?_from=R40&_trksid=p2380057.m570.l1312.R1.TR11.TRC2.A0.H0.Xwireless.TRS1&_nkw=wireless+earbuds&_sacat=0

Dann klicken Sie auf „Start“, um eine neue Aufgabe zu erstellen.

Schritt 2 Durchführung der automatischen Detektion

Sobald die Webseite im integrierten Browser geladen ist, wählen Sie „Auto-detect web page data“ unter den Aktion-Tipps.Da wird Octoparse sofort mit der Detektion der Webseitendaten beginnen. Sie können den Fortschrittsbalken überprüfen und geduldig warten, bis er fertig ist.

Schritt 3 Vorschau Ihrer Daten

Als der automatische Detektionsprozess abgeschlossen ist, gehen Sie weiter und können Sie Ihre Daten im Vorschaubereich überprüfen. Sie können auf die Feldernamen doppelt klicken, um sie zu umbenennen oder beim Klicken diejenigen entfernen, die nicht benötigt werden.

Schritt 4 Speicherung der Einstellungen von Auto-Detektion

Nun können Sie zu „Tips“ zurückkehren und die Einstellungen überprüfen.

Prozess 1: Möchten Sie nach unten scrollen, um weitere Daten zu laden? → „Nein, diese Webseite braucht nicht es, gescrollt zu werden.“ Also deselektieren Sie das Kästchen, um nach unten zu scrollen.

Prozess 2: Wollen Sie mehrere Seiten scrapen?→ „Ja“, also aktivieren Sie das Kästchen für Paginierung.

Prozess 3: Haben Sie den richtigen Button für die nächste Seite ausgewählt?→ „Ja“, also überprüfen Sie es und den Button ist hervorgehoben.

Nachdem Sie alle Optionen unter „Tips“ ausgefüllt haben, klicken Sie auf „Create workflow“ und geduldig warten, während Octoparse den entsprechenden Workflow automatisch generiert. Es ist besonders wichtig, dass Sie sicherstellen, jede Einstellung korrekt konfiguriert zu sein, da diese exakten Einstellungen Octoparse zum Generieren der Scraping-Aufgabe verwenden lässt.

Sie möchten vielleicht mehrere Infomationen von der detaillierten Produktswebseite scrapen, deshalb bräuchten wir einen zusätzlichen Schritt an den Workflow erstellen, um sicherzustellen, dass Octoparse automatisch auf jedes Link des Produktes auf der Webseite klicken könnte.

Prozess 4: Klicken Sie auf „Click on link(s) to scrape the linked page(s)“.

Wählen Sie die Option „Click on an extracted data field“ aus und selektieren „produkt_url“ vom Dropdown Menü und klicken auf „Confirm“.

Notieren Sie es, wie ein zusätzlicher Schritt zum Workflow hinzugefügt wird, der „Click URL in the list“ darstellt.

Schritt 5 Wahlen der Daten von detaillierten Seiten

Sie werden zur Zeit auf die detaillierte Webseite ankommen. Nochmals wählen Sie „Auto-detect web page data“ unter dem Aktion-Tips. Der Prozess der automatischen Detektion wird automatisch starten. Sie können zwischen den erkannten Ergebnisse wechseln, bis die gewünschten Daten ausgewählt werden.

Klicken Sie auf „Create workflow“ und der aktualisierte Workflow sollte wie dies aussehen:

Sie können auch manuell die Information auf der Webseite auswählen, um sie zu scrapen:

Schritt 6 Reinigen der extrahierten Daten

Durch Beobachtung der extrahierten Daten könnten wir zu diesem Ergebnis gekommen sein, dass etwas gerne geändert würde. Zum Beispiel möchten wir im Feld von „Location“ die Präposition „from“ beseitigen, da brauchen wir diese Funktion „Clean data“ verwenden, um das Ziel zu verwirklichen.

Klicken Sie auf das Symbol „more“ in der rechten Ecke, die an der Spitze von der Seite steht, und wählen Sie „Clean data“.

Dann klicken Sie auf „Add step“ - „Replace“. Wir brauchen „from“ beseitigen und es sicherzustellen, alle Zeilen ihm zugeordnet werden können. Wir müssen dem Nichts „from“ ersetzen, wie das folgende GIF gezeigt wird:

Tipps!

Schauen Sie in diesem Tutorial mehrere Techniken über die Reinigung der extrahierten Daten an: Verfeinerung der gescrapten Daten (Ersetzung des Inhalt, Hinzufügen des Präfix...)

Schritt 7 Test - Ausführung der Aufgabe

Die Scraping-Aufgabe ist nun abgeschlossen. Wie bereits erwähnt ist es immer empfehlenswert, den Workflow Schritt für Schritt zu testen und sicherzustellen, dass jeder Schritt richtig eingestellt wird, z.B. die Webseite sollte im integrierten Browser problemlos geladen sein, wenn Sie auf „Go to Web Page“ klicken.

Starten Sie den Workflow und klicken Sie auf alle Schritte von oben nach unten und von innen nach außen für verschachtelte Schritte (wie Paginierung). Beobachten Sie, ob die Webseite wie erwartet reagiert. Die detaillierte Testmethodik finden Sie hier, schauen Sie sich diese bei Bedürfnissen an.

Schritt 8 Planung und Ausführung

Wenn Sie Ihre Aufgabe vollständig getestet haben und die gut funktioniert, können Sie durch Ausführung der Aufgabe in der Cloud viel schneller die Daten extrahieren, oder Sie können auch es planen, dass die Aufgabe regelmäßig ausgeführt wird.

1. Um eine Cloud-Datenextraktion zu starten, klicken Sie auf „Run Now“, was unter „Run in the Cloud“ steht.

2. Um die Aufgabe zu planen, klicken Sie auf „Schedule Local Runs“ oder „Schedule Cloud Runs“.

Wählen Sie die gewünschte Frequenz und legen Sie den Zeitpunkt (Tag und Uhrzeit) für die Ausführung fest.

Schritt 9 Export Ihrer Daten

Gehen Sie zum Dashboard und suchen Sie Ihre Aufgabe. Klicken Sie auf „open task status“, um die extrahierten Daten zu sehen. Danach klicken Sie auf „Export Data“ am unteren Rand und wählen Sie das Format, in dem Sie die Daten herunterladen möchten.

Tipps!

In diesem Schritt-für-Schritt-Tutorial erfahren Sie, wie Sie die extrahierten Daten exportieren können.

Herzlichen Glückwunsch! Sie haben die Einführung geschafft und sich zum fortgeschrittenen Scraping-Experten entwickelt. Wir hoffen, dass dies nicht das Ende Ihres Lernens ist, sondern der Anfang Ihrer Reise von Web Scraping.

Wenn Sie Fragen haben, egal ob die aufgabenbezogen, Web-Scraping-bezogen oder servicebezogen sind, lassen Sie uns helfen. Das Octoparse Team ist stolz darauf, Ihnen beim Web Scraping helfen zu können.

Verwandte Artikel

Lektion 2: Optimierung Ihrer Aufgabe

Scraping der Suchergebnisse von Google Search

Scraping der Produktdaten von Amazon

Scraping der Listendaten von XING

Scraping der Nachrichten von Bild.de