Lektion 1: Datenextraktion mit brandneuem Auto-Detect-Algorithmus
Tuesday, May 25, 2021 11:54 AMJetzt haben Sie bereits Octoparse auf Ihr Gerät heruntergeladen und die Grundlagen kennengelernt. Darum ist es nun an der Zeit, Ihr eigenes Scraping-Projekt zu starten!
Die meisten Webseiten (Verzeichnisse, E-Commerce, Immobilienseiten usw.) haben ein ähnliches Layout, d.h. eine Seite mit vielen Elementen, die in einer Liste dargestellt sind. Schauen wir ein paar Beispiele an.
Der brandneue Auto-Detect-Algorithmus von Octoparse ist speziell für das Scrapen von Seiten dieser Art konzipiert. Er erkennt automatisch nach Auflistungsdaten (einschließlich Textelementen und Links), Button „Next page“, Button „load more“ und Scrolldown einer Seite sowie generiert dann automatisch die Scraping-Aufgabe.
In dieser Lektion werden wir durchlaufen, wie man durch die Nutzung des Auto-Detect-Algorithmuses Daten aus Webseiten extrahieren könnte.
Tipps!
Octoparse Hello World bietet eine Reihe von Testseiten, mit denen Sie die Datenextraktion aus verschiedenen Webseiten üben können.
Schritt 1 Erstellen Sie eine neue Aufgabe
Treten Sie die Beispiel-URL „http://test-sites.octoparse.com/?product_cat=e-commerce-category-1“ in das Suchfeld oben auf der Startseite ein. Klicken Sie auf „Start“, um eine neue Aufgabe im fortgeschrittenen Modus zu erstellen.
Schritt 2 Datenextraktion per Auto-Detect
Octoparse lädt die URL der Webseite in den integrierten Browser und startet den Auto-Detect-Prozess automatisch. Warten Sie bitte geduldig, bis der Prozess abgeschlossen ist und weitere Informationen unter „Tips“ angezeigt werden.
Tipps!
Wenn die gewünschten Daten beim Laden der Seite nicht zugänglich sind, lesen Sie dieses Tutorial zu kennen, wie Sie mit der Webseite interagieren können, bevor die Daten automatisch detektiert werden.
Schritt 3 Prüfen Sie die Daten
Wenn die automatische Detektion fertig ist, folgen Sie den Anweisungen unter „Tipps“ und überprüfen Sie Ihre Daten im Vorschaubereich. Sie können die Datenfelder umbenennen oder diejenigen entfernen, die nicht benötigt sind. Die erkannten Daten werden auch auf der Webseite für Sie hervorgehoben.
Schritt 4 Bestätigen Sie Ihre Optionen
Gehen Sie nun zu „Tips“ und überprüfen Sie Ihre Optionen. Basierend auf der Art der erkannten Daten werden Ihnen eine Reihe von Optionen zur Auswahl angeboten. In diesem Beispiel werden Listendaten erkannt, so dass Ihnen die folgenden Optionen zur Verfügung stehen:

- Extract the data in the list - Auf Deutsch heißt es, dass die Daten in der Liste extrahiert werden. Diese Option ist standardmäßig ausgewählt, da Octoparse davon ausgeht, dass Sie dies auf jeden Fall tun müssen.
- Paginate to scrape more pages - Auf Deutsch heißt es, dass man auf den Button „Next“ klickt, um mehrere Seiten zu erfassen. Anscheinend hat Octoparse einen Button „Next“ auf der Seite erkannt. Checken Sie diese Option, wenn Sie möchten, dass Octoparse durch Klick auf den Button „Next“ Daten von weiteren Seiten erfassen kann.
Tipps!
Um herauszufinden, ob der erkannte Button der richtige ist, klicken Sie auf „Check“ und beobachten Sie, ob das entsprechende Element auf der Webseite hervorgehoben wird. Wenn Sie den Button „Next“ erneut auswählen müssen, klicken Sie auf „Edit“ und folgen Sie den Anweisungen unter „Tips“.
Schritt 5 Erstellen Sie einen Workflow
Nachdem Sie die Einstellungen bestätigt haben, klicken Sie auf „Create Workflow“.
Octoparse würde automatisch einen Workflow auf der Grundlage der erkannten Daten und der gespeicherten Einstellungen generieren. Sie können wählen, ob Sie die Aufgabe jetzt ausführen oder den Workflow manuell bearbeiten.
Um zu erfahren, wie Sie den Workflow der Aufgabe optimieren können, fahren Sie bitte fort mit >> Lektion 2: Optiemierung Ihrer Aufgabe
Autor*in: Das Octoparse Team