undefined

Lektion 7: Nachbereitung! Erstellen Sie Ihre erste Scraping-Aufgabe (Octoparse 8.4)

Wednesday, October 13, 2021 3:38 PM

Dies ist die letzte Lektion der Einführungsserie. Wir hoffen, Sie hatten Spaß daran, etwas Neues und Nützliches zu lernen. Um alle Puzzlestücke zusammenzufügen, haben eine Zusammenfassung mit einer Schritt-für-Schritt-Anleitung gemacht, wie Sie eine Scraping-Aufgabe von Grund auf erstellen. Wir werden Sie durch den gesamten Prozess von der Eingabe der URL bis zum Herunterladen der extrahierten Daten führen. Fangen wir gleich damit an.

 

In diesem Beispiel werden wir Produktinformationen und Preise von eBay.com abrufen

 

1. Starten Sie eine neue Aufgabe

Öffnen Sie die Octoparse-App und geben Sie die Ziel-URL (https://www.ebay.com/sch/i.html?_from=R40&_trksid=p2380057.m570.l1312.R1.TR11.TRC2.A0.H0.Xwireless.TRS1&_nkw=wireless+earbuds&_sacat=0) in die Suchleiste ein. Klicken Sie auf "Start", um eine neue Aufgabe zu erstellen

Picture1.png

 

2. Lassen Sie Octoparse die automatische Detektion durchführen

Sobald die Webseite im integrierten Browser geladen ist, beginnt Octoparse sofort mit der Detektion der Webseitendaten. Sie können den Fortschrittsbalken überprüfen und geduldig warten, bis er fertig ist.

tbtbtbt.gif

 

3. Vorschau der Daten

Wenn der automatische Detektionsprozess abgeschlossen ist, können Sie Ihre Daten im Vorschaubereich überprüfen. Sie können die Datenfelder umbenennen oder diejenigen entfernenmceclip0.png, die nicht benötigt werden.  

bgbgbgbg.gif

 

4. Einstellungen der automatische Detektion speichern

Gehen Sie nun zurück zu "Tipps" und überprüfen Sie die Einstellungen.

 

4.1 Möchten Sie nach unten scrollen, um weitere Daten zu laden → "Nein, diese Webseite muss nicht gescrollt werden", also deaktivieren Sie das Kontrollkästchen "Add a page scroll".

808080080880.png

 

4.2. Wollen Sie mehr Seiten scrapen?→ "Ja", also aktivieren Sie das Kästchen für Paginierung.

 j.png

 

4.3. Haben Sie den richtigen Button für die nächste Seite ausgewählt?→ "Ja", also überprüfen Sie es und den Button ist markiert.

rrrrr.png

 

Nachdem Sie alle Optionen unter "Tipps" ausgefüllt haben, klicken Sie auf "Einstellung speichern", damit Octoparse den entsprechenden Workflow automatisch generiert. Es ist wichtig, dass Sie sicherstellen, dass jede der Einstellungen korrekt konfiguriert ist, da dies genau die Einstellungen sind, die Octoparse zum Generieren der Scraping-Aufgabe verwenden wird.

mceclip1.png

 

Möglicherweise möchten Sie weitere Informationen von der Produktdetailseite scrapen. Daher müssen wir einen weiteren Schritt in den Workflow einfügen, um sicherzustellen, dass Octoparse automatisch auf jeden Produktlink auf der Seite klicken kann. 

 

4.4 Klicken "Click on link(s) to scrape the linked page(s) "

lplpp.png

 

 

 

Wählen Sie die Option Click on an extracted data field" und wählen Sie "product_url" aus dem Dropdown-Menü und klicken Sie auf "Confirm".

rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr.png

 

Beachten Sie, dass dem Arbeitsablauf ein zusätzlicher Schritt hinzugefügt wird, nämlich der Schritt "Click URL in the list".

 

mceclip2.png

 

 

5. Daten auf der Detailseite auswählen

Sie gelangen nun auf die Detailseite. Wählen Sie noch einmal "Auto-detect web page data" in den Aktionstipps. Der automatische Erkennungsprozess wird automatisch gestartet. Sie können zwischen den erkannten Ergebnissen wechseln, bis Sie die richtigen Daten ausgewählt haben. 

 

uyuyuyuyuyyu.gif

 

Klicken Sie auf "Create workflow" und der aktualisierte Workflow sollte wie folgt aussehen:

mceclip3.png

 

Sie können die Informationen auf der Webseite auch manuell auswählen, um sie zu scrapen:

extract_data.gif

 

 

 

6. Bereinigen der extrahierten Daten

Wenn wir uns die extrahierten Daten ansehen, gibt es etwas, das wir gerne ändern würden. Wir möchten zum Beispiel die Präposition "from" im Feld "Location" entfernen. Deswegen bereinigen wir die Daten.

 

Klicken Sie auf das Symbol "More" und wählen Sie "clean data".

0890.png

 

Klicken Sie auf “Add step”, dann auf "Replace". Wir möchten "from" entfernen und sicherstellen, dass alle Zeilen mit ihm übereinstimmen, deswegen wir ersetzen "from" durch nichts, wie dieses GIF unten gezeigt wird.

45645.gif

 

 

 

Tipps!

Sehen Sie sich hier für weitere Techniken zur Datenbereinigung an.

 

7. Ausführung der Aufgabe

Die Scraping-Aufgabe ist nun abgeschlossen. Wie bereits erwähnt, ist es immer empfehlenswert, den Workflow Schritt für Schritt zu testen und sicherzustellen, dass jeder Schritt richtig eingestellt wird. Wenn Sie z. B. auf "Go to Web Page" klicken, sollte die Webseite im integrierten Browser problemlos geladen werden.

Starten Sie den Workflow und klicken Sie sich durch alle Schritte von oben nach unten und von innen nach außen für verschachtelte Schritte (wie Paginierung). Beobachten Sie, ob die Webseite wie erwartet reagiert. Die detaillierte Testmethodik finden Sie hier, schauen Sie sich diese bei Bedürfnissen an.

994444444.gif

 

 

8. Planen und ausführen

Wenn Sie Ihre Aufgabe vollständig getestet haben und die funktioniert, können Sie versuchen, die Daten viel schneller zu extrahieren, indem Sie die Aufgabe in der Cloud ausführen, oder Sie können die Aufgabe auch so planen, dass sie in regelmäßigen Abständen ausgeführt wird.

 

Um eine Cloud-Extraktion zu starten, klicken Sie auf "Run" und wählen "Run task in the Cloud".

 

Um die Aufgabe zu planen, klicken Sie auf "Run" und wählen Sie Schedule task (Cloud).

blockblock.png

 

Wählen Sie die gewünschte Frequenz und legen Sie Tag und Uhrzeit für die Ausführung fest.

schedule4.png

 

9. Exportieren Sie Ihre Daten

Gehen Sie zum Dashboard und suchen Sie Ihre Aufgabe. Klicken Sie auf "Öffnen den Aufgabenstatus", um die extrahierten Daten zu sehen. Klicken Sie auf "Export Data" am unteren Rand und wählen Sie das Format, in dem Sie die Daten herunterladen möchten.

 exportdata4.png

 

Tipps!

In dieser Schritt-für-Schritt-Anleitung erfahren Sie, wie Sie die extrahierten Daten herunterladen können.

 

 

Herzlichen Glückwunsch! Sie haben die Einführung geschafft und sich zum nächsten Web-Scraping-Experten entwickelt. Wir hoffen, dass dies nicht das Ende Ihres Lernens ist, sondern der Anfang Ihrer Web Scraping-Reise.

Wenn Sie Fragen haben, egal ob die aufgabenbezogen, Web-Scraping-bezogen oder servicebezogen sind, lassen Sie uns helfen. Das Octoparse-Team ist stolz darauf, Ihnen beim Web Scraping helfen zu können.

 

Autor: Brian

Bearbeitet von: Lena

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen