undefined

Lektion 1: Daten mit dem brandneuen Auto-detect-Algorithmus extrahieren

Tuesday, May 25, 2021 11:54 AM

Jetzt haben Sie Octoparse auf Ihr Gerät heruntergeladen und die Grundlagen kennengelernt, sind Sie in der Lage, Ihr eigenes Web-Scraping-Projekt zu starten!

 

Die meisten Websites (Verzeichnisse, E-Commerce, Immobilienseiten usw.) haben ein ähnliches Layout, d. h. eine Seite mit vielen Elementen, die in einer Liste dargestellt sind. Schauen wir uns ein paar Beispiele an.

 

bestbuy.com

bestbuy_2.jpg

 

Amazon.de

amazon_2.jpg

Der brandneue Auto-Detect-Algorithmus von Octoparse ist speziell für das Scrapen von Seiten dieser Art konzipiert. Er erkennt automatisch nach Auflistungsdaten (einschließlich Textelementen und Links), "Nächste Seite"-Button, "Mehr laden"-Button und Scrolldown einer Seite und generiert dann die Scraping-Aufgabe automatisch.

 

In dieser Lektion werden wir erläutern, wie man mit dem Auto-Detect-Algorithmus Webseiten-Daten scrapen kann.

 

Tipps.

"Octoparse Hello World" bietet eine Reihe von Testseiten, mit denen Sie das Scrapen von Daten aus verschiedenen Webseiten üben können.

 

1. Erstellen Sie eine neue Aufgabe

Geben Sie die Beispiel-URL "http://test-sites.octoparse.com/?product_cat=e-commerce-category-1" in das Suchfeld in der Mitte des Startbildschirms ein. Klicken Sie auf "Start", um eine neue Aufgabe im fortgeschrittenen Modus zu erstellen.

2.png

 

2. Daten per Auto-Detect erhalten

Octoparse lädt die URL der Webseite in den integrierten Browser und startet den Auto-Detect-Prozess automatisch. Warten Sie geduldig, bis der Prozess abgeschlossen ist und weitere Informationen unter "Tipps" angezeigt werden.

a.gif

 

Tipps!

Wenn die benötigten Daten beim Laden der Seite nicht zugänglich sind, lesen Sie das Tutorial, wie Sie mit der Webseite interagieren können, bevor die Daten automatisch detektiert werden.

 

3. Prüfen Sie die Daten

Wenn die automatische Detektion abgeschlossen ist, folgen Sie den Anweisungen unter "Tipps" und überprüfen Sie Ihre Daten im Vorschaubereich. Sie können die Datenfelder umbenennen oder diejenigen entfernen, die nicht benötigt werden. Die erkannten Daten werden auch auf der Webseite für Sie hervorgehoben.

 b.gif

 

4. Bestätigen Sie Ihre Optionen

Gehen Sie nun zu "Tipps" und überprüfen Sie Ihre Optionen. Basierend auf der Art der erkannten Daten werden Ihnen eine Reihe von Optionen zur Auswahl angeboten. In diesem Beispiel werden Listendaten erkannt, so dass Ihnen die folgenden Optionen zur Verfügung stehen:

c.png

 

1. Extrahieren der Daten in der Liste - Diese Option ist standardmäßig ausgewählt, da Octoparse davon ausgeht, dass Sie dies auf jeden Fall tun müssen.

2. Klicken Sie auf den Button"Next", um mehrere Seiten zu erfassen - Anscheinend hat Octoparse eine Schaltfläche "Weiter" auf der Seite erkannt. Aktivieren Sie diese Option, wenn Sie möchten, dass Octoparse auf die Schaltfläche "Next" klickt, um Daten von weiteren Seiten zu erfassen.

 

Hinweise: Um herauszufinden, ob der erkannte Button der richtige ist, klicken Sie auf "Prüfen" und beobachten Sie, wie sie auf der Webseite hervorgehoben wird. Wenn Sie die "Next"-Button erneut auswählen müssen, klicken Sie auf "Edit" und folgen Sie den Anweisungen unter "Tipps".

d.gif

 

5. Einstellungen der Aufgabe speichern

Nachdem Sie die Einstellungen bestätigt haben, klicken Sie auf "Create Workflow".

E.png

Octoparse würde automatisch einen Workflow auf der Grundlage der erkannten Daten und der gespeicherten Einstellungen generieren. Sie können wählen, ob Sie die Aufgabe jetzt ausführen oder den Workflow manuell bearbeiten möchten.

F.png

 

Um zu erfahren, wie Sie den Workflow der Aufgabe optimieren können, fahren Sie bitte fort mit >> Lektion 2: Optimieren Sie Ihre Aufgabe

 

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen