undefined

Lektion 7: Nachbereitung! Erstellen Sie Ihre erste Scraping-Aufgabe

Thursday, May 27, 2021 10:37 AM

Dies ist die letzte Lektion der Einführungsserie. Wir hoffen, Sie hatten Spaß daran, etwas Neues und Nützliches zu lernen. Um alle Puzzlestücke zusammenzufügen, haben eine Zusammenfassung mit einer Schritt-für-Schritt-Anleitung gemacht, wie Sie eine Scraping-Aufgabe von Grund auf erstellen. Wir werden Sie durch den gesamten Prozess von der Eingabe der URL bis zum Herunterladen der extrahierten Daten führen. Fangen wir gleich damit an.

 

In diesem Beispiel werden wir Produktinformationen und Preise von eBay.com abrufen

 

1. Starten Sie eine neue Aufgabe

Öffnen Sie die Octoparse-App und geben Sie die Ziel-URL (https://www.ebay.com/sch/i.html?_from=R40&_trksid=p2380057.m570.l1312.R1.TR11.TRC2.A0.H0.Xwireless.TRS1&_nkw=wireless+earbuds&_sacat=0) in die Suchleiste ein. Klicken Sie auf "Start", um eine neue Aufgabe zu erstellen

Picture1.png

 

2. Lassen Sie Octoparse die automatische Detektion durchführen

Sobald die Webseite im integrierten Browser geladen ist, beginnt Octoparse sofort mit der Detektion der Webseitendaten. Sie können den Fortschrittsbalken überprüfen und geduldig warten, bis er fertig ist.

 m.gif

 

3. Vorschau der Daten

Wenn der automatische Detektionsprozess abgeschlossen ist, können Sie Ihre Daten im Vorschaubereich überprüfen. Sie können die Datenfelder umbenennen oder diejenigen entfernen, die nicht benötigt werden.  

 n.gif

 

4. Einstellungen der automatische Detektion speichern

Gehen Sie nun zurück zu "Tipps" und überprüfen Sie die Einstellungen.

 

4.1 Möchten Sie nach unten scrollen, um weitere Daten zu laden → "Ja, warum nicht?", also aktivieren Sie das Kästchen für "nach unten scrollen".

 k.png

 

4.2. Wollen Sie mehr Seiten scrapen?→ "Ja", also aktivieren Sie das Kästchen für Paginierung.

 j.png

 

4.3. Haben Sie den richtigen Button für die nächste Seite ausgewählt?→ "Ja", also überprüfen Sie es und den Button ist markiert.

 a5cbb8c93d7f6f006b6d03287160d28.png

 

Nachdem Sie alle Optionen unter "Tipps" ausgefüllt haben, klicken Sie auf "Einstellung speichern", damit Octoparse den entsprechenden Workflow automatisch generiert. Es ist wichtig, dass Sie sicherstellen, dass jede der Einstellungen korrekt konfiguriert ist, da dies genau die Einstellungen sind, die Octoparse zum Generieren der Scraping-Aufgabe verwenden wird.

 l.png

5. Daten auf der Detailseite auswählen

Sie gelangen nun auf die Detailseite. Der automatische Erkennungsprozess wird möglicherweise noch einmal gestartet, aber Sie können ihn abbrechen und stattdessen die manuelle Auswahl wählen. Die automatische Auswahl funktioniert am besten, wenn Sie eine Datenliste zu erfassen haben, während die manuelle Auswahl möglicherweise effizienter für die Auswahl einzelner Datenfelder ist.

 

 canceldetect.png

 

Klicken Sie auf die Daten, die Sie erfassen möchten, und wählen Sie dann unter "Tipps" die Option "Den Text des ausgewählten Elements extrahieren". Wiederholen Sie die gleichen Schritte für jedes Datenfeld.

 select1.gif

 

Prüfen Sie die Datenvorschau für die extrahierten Daten und benennen Sie die Felder bei Bedarf um.

 renamefield2.gif

 

6. Bereinigen der extrahierten Daten

Wenn wir uns die extrahierten Daten ansehen, gibt es etwas, das wir gerne ändern würden. Die Feedback-Daten sollen numerisch bleiben, damit sie in einer Excel-Tabelle leichter zu bearbeiten sind. Die Idee ist, die Worte "Positives Feedback" zu löschen, damit wir den Prozentwert ohne Worte behalten können. Deswegen bereinigen wir die Daten.

 

Klicken Sie auf das Symbol "Mehr anzeigen" und wählen Sie "Daten bereinigen".

 clean.png

 

Klicken Sie auf "Schritt hinzufügen", dann auf "Ersetzen".

 clean5.png

 

Ersetzen Sie die Wörter "Positives Feedback" durch nichts. Klicken Sie dann auf "Auswerten" und beobachten Sie, ob der ursprüngliche Text zu "100%" bereinigt wird. Klicken Sie abschließend auf "Bestätigen" und "OK".

 clean3.png

 

Die Vorschaudaten werden automatisch aktualisiert und zeigen die bereinigten Daten an.

 clean4.png

 

Tipps!

Sehen Sie sich hier für weitere Techniken zur Datenbereinigung an.

 

7. Ausführung der Aufgabe

Die Scraping-Aufgabe ist nun abgeschlossen. Wie bereits erwähnt, ist es immer empfehlenswert, den Workflow Schritt für Schritt zu testen und sicherzustellen, dass jeder Schritt richtig eingestellt wird. Wenn Sie z. B. auf "Zur Webseite gehen" klicken, sollte die Webseite im integrierten Browser problemlos geladen werden.

Starten Sie den Workflow und klicken Sie sich durch alle Schritte von oben nach unten und von innen nach außen für verschachtelte Schritte (wie Paginierung). Beobachten Sie, ob die Webseite wie erwartet reagiert. Die detaillierte Testmethodik finden Sie hier, schauen Sie sich diese bei Bedürfnissen an.

 testrun5.gif

 

Wenn Sie jeden Schritt getestet haben, ist jetzt die perfekte Zeit, die Aufgabe durchzuführen. Klicken Sie auf "Ausführen" und wählen Sie "Ausführen Aufgaben auf Ihrem Gerät".

 run2.png

 

Beobachten Sie, wie Ihre Daten extrahiert werden!

 local3.gif

 

8. Planen und ausführen

Wenn Sie Ihre Aufgabe vollständig getestet haben und die funktioniert, können Sie versuchen, die Daten viel schneller zu extrahieren, indem Sie die Aufgabe in der Cloud ausführen, oder Sie können die Aufgabe auch so planen, dass sie in regelmäßigen Abständen ausgeführt wird.

 

Um eine Cloud-Extraktion zu starten, klicken Sie auf "Ausführen" und wählen "Aufgabe in der Cloud ausführen".

 runcloud.png

 

Um die Aufgabe zu planen, klicken Sie auf "Ausführen" und wählen Sie "Aufgabe planen in der Cloud".

 schedule_cloud.png

 

Wählen Sie die gewünschte Frequenz und legen Sie Tag und Uhrzeit für die Ausführung fest.

 schedule4.png

 

9. Exportieren Sie Ihre Daten

Gehen Sie zum Dashboard und suchen Sie Ihre Aufgabe. Klicken Sie auf "Öffnen Sie den Aufgabenstatus", um die extrahierten Daten zu sehen. Klicken Sie auf "Daten exportieren" am unteren Rand und wählen Sie das Format, in dem Sie die Daten herunterladen möchten.

 exportdata4.png

 

Tipps!

In dieser Schritt-für-Schritt-Anleitung erfahren Sie, wie Sie die extrahierten Daten herunterladen können.

 

 

Herzlichen Glückwunsch! Sie haben die Einführung geschafft und sich zum nächsten Web-Scraping-Experten entwickelt. Wir hoffen, dass dies nicht das Ende Ihres Lernens ist, sondern der Anfang Ihrer Web Scraping-Reise.

Wenn Sie Fragen haben, egal ob die aufgabenbezogen, Web-Scraping-bezogen oder servicebezogen sind, lassen Sie uns helfen. Das Octoparse-Team ist stolz darauf, Ihnen beim Web Scraping helfen zu können.

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen