Lektion 1: Daten mit dem brandneuen Auto-Detect-Algorithmus extrahieren
Tuesday, October 12, 2021 6:28 PMJetzt haben Sie Octoparse auf Ihr Gerät heruntergeladen und die Grundlagen kennengelernt, Sie sind nun in der Lage, Ihr eigenes Web-Scraping-Projekt zu starten!
Die meisten Websites (Verzeichnisse, E-Commerce (Online-Shops), Immobilienseiten usw.) haben ein ähnliches Layout. Die meisen Website stellen die Elemente in einer Liste dar. Stellen wir nun ein paar Beispiele vor:
Bestbuy.com
Amazon.com
Der brandneue Auto-Detect-Algorithmus von Octoparse ist speziell für das Scrapen vonseiten dieser Art konzipiert. Er erkennt automatisch nach Auflistungsdaten (einschließlich Textelementen und Links), "Nächste Seite"-Knöpfe, "Mehr laden"-Knöpfe und das Scrollen einer Seite und generiert dann die Scraping-Aufgabe automatisch.
In dieser Lektion werden wir erläutern, wie man mit dem Auto-Detect-Algorithmus Webseiten-Daten scrapen kann.
Tipp! Octoparse Hello World bietet eine Reihe von Testseiten, mit denen Sie das Scrapen von Daten aus verschiedenen Webseiten üben können. |
1. Erstellen Sie eine neue Aufgabe
Geben Sie die Beispiel-URL "http://test-sites.octoparse.com/?product_cat=e-commerce-category-1" in das Suchfeld in der Mitte des Startbildschirms ein. Klicken Sie auf "Start", um eine neue Aufgabe im fortgeschrittenen Modus zu erstellen.
2. Daten per Auto-Detect erhalten
Octoparse lädt die URL der Webseite in den integrierten Browser und startet den Auto-Detect-Prozess automatisch. Warten Sie geduldig, bis der Prozess abgeschlossen ist und weitere Informationen unter "Tipps" angezeigt werden.
Tipps! Wenn die benötigten Daten beim Laden der Seite nicht zugänglich sind, lesen Sie das tutorial, wie Sie mit der Webseite interagieren können, bevor die Daten automatisch detektiert werden. |
3. Prüfen Sie die Daten
Wenn die automatische Detektion abgeschlossen ist, folgen Sie den Anweisungen unter "Tipps" und überprüfen Sie Ihre Daten im Vorschaubereich. Sie können die Datenfelder umbenennen oder diejenigen entfernen, die nicht benötigt werden. Die erkannten Daten werden auch auf der Webseite für Sie hervorgehoben.
4. Bestätigen Sie Ihre Optionen
Gehen Sie nun zu "Tipps" und überprüfen Sie Ihre Optionen. Basierend auf der Art der erkannten Daten werden Ihnen eine Reihe von Optionen zur Auswahl angeboten. In diesem Beispiel werden Listendaten erkannt, sodass Ihnen die folgenden Optionen zur Verfügung stehen:
- Extrahieren der Daten in der Liste - Diese Option ist standardmäßig ausgewählt, da Octoparse davon ausgeht, dass Sie dies auf jeden Fall tun müssen.
- Klicken Sie auf den Knopf "Next", um mehrere Seiten zu erfassen- Anscheinend hat Octoparse eine Schaltfläche "Weiter" auf der Seite erkannt. Aktivieren Sie diese Option, wenn Sie möchten, dass Octoparse auf die Schaltfläche "Next" klickt, um Daten von weiteren Seiten zu erfassen.
Hinweise: Um herauszufinden, ob der erkannte Knopf der richtige ist, klicken Sie auf "Prüfen" und beobachten Sie, wie sie auf der Webseite hervorgehoben wird. Wenn Sie die "Next"-Button erneut auswählen müssen, klicken Sie auf "Edit" und folgen Sie den Anweisungen unter "Tipps". |
5. Create Workflow
Nachdem Sie die Einstellungen bestätigt haben, klicken Sie auf "Create Workflow".
Octoparse würde automatisch einen Workflow auf der Grundlage der erkannten Daten und der gespeicherten Einstellungen generieren. Sie können wählen, ob Sie die Aufgabe jetzt ausführen oder den Workflow manuell bearbeiten möchten.
Um zu erfahren, wie Sie den Workflow der Aufgabe optimieren können, fahren Sie bitte fort mit >> Lesson 2: Optimize your task
Autor: Brian
Bearbeitet von: Lena