Alle Kollektionen
Octoparse 101
Lektion 1: Start mit Auto-Detektion
Lektion 1: Start mit Auto-Detektion
Vor über einer Woche aktualisiert

Jetzt haben Sie bereits Octoparse auf Ihr Gerät heruntergeladen und die Grundlagen kennengelernt. Darum ist es nun an der Zeit, Ihr eigenes Scraping-Projekt zu starten!

Die meisten Webseiten (Verzeichnisse, E-Commerce, Immobilienseiten usw.) haben ein ähnliches Layout, d.h. eine Seite mit vielen Elementen, die in einer Liste dargestellt sind. Schauen wir ein paar Beispiele an.

Bestbuy.com

bestbuy.jpg

Amazon.com

amazon.jpg

Der brandneue Auto-Detect-Algorithmus von Octoparse ist speziell für das Scrapen von Seiten dieser Art konzipiert. Er erkennt automatisch nach Auflistungsdaten (einschließlich Textelementen und Links), „Nächste Seite“-Button, „Mehr laden“-Button und Scrolldown einer Seite sowie generiert dann automatisch die Scraping-Aufgabe.

In dieser Lektion werden wir zusammen ansehen, wie man einfach durch intergrierte Auto-Detektionsfunktion Daten aus Webseiten scrapt.

Tipp: Octoparse Beginner's Guide bietet eine Reihe von Testseiten, mit denen Sie die Datenextraktion aus verschiedenen Webseiten üben können.


Schritt 1: Erstellung einer neuen Aufgabe

  • Geben Sie folgende Beispiel-URL in das oben auf der Startseite liegende Suchfeld ein.

  • Klicken Sie auf „Starten“, um selbst eine neue Aufgabe zu erstellen.

URL eingeben


Schritt 2: Datenextraktion per Auto-Detektion

  • Octoparse lädt die Webseite-URL in den integrierten Browser und wird automatisch alle Elemente detektieren.

  • Warten Sie bitte geduldig, bis der Prozess abgeschlossen ist und weitere Informationen unter Tipps-Platte angezeigt werden.

Auto Detektion

Tipp: Wenn die gewünschten Daten beim Laden der Seite nicht zugänglich sind, lesen Sie diese Tutorials zu kennen, wie Sie mit der Webseite interagieren können, bevor die Daten automatisch detektiert werden.


Schritt 3: Prüfung aller gescrapten Daten

  • Wenn die automatische Detektion fertig ist, folgen Sie den Anweisungen unter Tipps-Platte und überprüfen Sie Ihre Daten im Vorschaubereich. Sie können die Datenfelder:

    • Umbenennen

    • Kopieren

    • Entfernen, die nicht benötigt sind

    • XPath anpassen, um genau ein Element zu lokalisieren

  • Die erkannten Daten werden auch auf der Webseite für Sie hervorgehoben.

Datenfelder anpassen


Schritt 4: Bestätigung Ihrer Optionen

Gehen Sie nun zur Tipss-Platte und überprüfen Sie Ihre Optionen. Basierend auf der Art von den erkannten Daten werden Ihnen eine Reihe von Optionen zur Auswahl angeboten. In diesem Beispiel werden Listendaten erkannt, so dass Ihnen die folgenden Optionen zur Verfügung stehen:

  1. Daten in der Liste extrahieren - Diese Option ist standardmäßig ausgewählt, da Octoparse davon ausgeht, dass Sie dies auf jeden Fall tun müssen.

  2. Paginieren, um mehr Seiten zu scrapen - Anscheinend hat Octoparse einen Button „Nächst“ auf der Seite erkannt. Checken Sie diese Option, wenn Sie immer wiederholend diesen Button anklicken und weitere Infos scrapen möchten.

  3. Seitenblättern hinzufügen - Diese Option erscheint nicht immer. Wenn Sie sie ankreuzen, wird Octoparse automatisch einen Scrollen-Schritt einstellen.

Notiz: Um herauszufinden, ob der erkannte Button richtig ist, klicken Sie auf „Überprüfen“ und beobachten Sie, ob das entsprechende Element auf der Webseite hervorgehoben wird. Wenn Sie den Nächst-Button erneut auswählen müssen, klicken Sie auf „Bearbeiten“ und folgen Sie den Anweisungen unter Tipps.


Schritt 5: Erstellung eines Workflows

Nach der Bestätigung aller Einstellunge klicken Sie auf „Workflow erstellen“.

Octoparse würde automatisch einen Workflow auf der Grundlage der erkannten Daten und der gespeicherten Einstellungen generieren.

Sie können wählen, ob Sie die Aufgabe jetzt ausführen oder den Workflow manuell weiter bearbeiten.


Video Tutorial: Ein Beispiel zum Scraping der E-Commerce Webseite


Hat dies Ihre Frage beantwortet?