undefined

Lektion 1: Daten mit dem brandneuen Auto-Detect-Algorithmus extrahieren

Tuesday, October 12, 2021 6:28 PM

Jetzt haben Sie Octoparse auf Ihr Gerät heruntergeladen und die Grundlagen kennengelernt, Sie sind nun in der Lage, Ihr eigenes Web-Scraping-Projekt zu starten!

Die meisten Websites (Verzeichnisse, E-Commerce (Online-Shops), Immobilienseiten usw.) haben ein ähnliches Layout. Die meisen Website stellen die Elemente in einer Liste dar. Stellen wir nun ein paar Beispiele vor:

  

Bestbuy.com

bestbuy_2.jpg

 

Amazon.com

 

amazon_2.jpg

 

Der brandneue Auto-Detect-Algorithmus von Octoparse ist speziell für das Scrapen vonseiten dieser Art konzipiert. Er erkennt automatisch nach Auflistungsdaten (einschließlich Textelementen und Links), "Nächste Seite"-Knöpfe, "Mehr laden"-Knöpfe und das Scrollen einer Seite und generiert dann die Scraping-Aufgabe automatisch.

In dieser Lektion werden wir erläutern, wie man mit dem Auto-Detect-Algorithmus Webseiten-Daten scrapen kann.

 

Tipp!

Octoparse Hello World bietet eine Reihe von Testseiten, mit denen Sie das Scrapen von Daten aus verschiedenen Webseiten üben können.

 

 

1. Erstellen Sie eine neue Aufgabe

Geben Sie die Beispiel-URL "http://test-sites.octoparse.com/?product_cat=e-commerce-category-1" in das Suchfeld in der Mitte des Startbildschirms ein. Klicken Sie auf "Start", um eine neue Aufgabe im fortgeschrittenen Modus zu erstellen.

 

 

2.png

 

2. Daten per Auto-Detect erhalten

Octoparse lädt die URL der Webseite in den integrierten Browser und startet den Auto-Detect-Prozess automatisch. Warten Sie geduldig, bis der Prozess abgeschlossen ist und weitere Informationen unter "Tipps" angezeigt werden.

start.gif

 

 

Tipps!

Wenn die benötigten Daten beim Laden der Seite nicht zugänglich sind, lesen Sie das tutorial, wie Sie mit der Webseite interagieren können, bevor die Daten automatisch detektiert werden.

 

3. Prüfen Sie die Daten 

Wenn die automatische Detektion abgeschlossen ist, folgen Sie den Anweisungen unter "Tipps" und überprüfen Sie Ihre Daten im Vorschaubereich. Sie können die Datenfelder umbenennen oder diejenigen entfernen, die nicht benötigt werden. Die erkannten Daten werden auch auf der Webseite für Sie hervorgehoben.

edit.gif

 

 

4. Bestätigen Sie Ihre Optionen

Gehen Sie nun zu "Tipps" und überprüfen Sie Ihre Optionen. Basierend auf der Art der erkannten Daten werden Ihnen eine Reihe von Optionen zur Auswahl angeboten. In diesem Beispiel werden Listendaten erkannt, sodass Ihnen die folgenden Optionen zur Verfügung stehen:

options.png

 

  1. Extrahieren der Daten in der Liste - Diese Option ist standardmäßig ausgewählt, da Octoparse davon ausgeht, dass Sie dies auf jeden Fall tun müssen.
  2. Klicken Sie auf den Knopf "Next", um mehrere Seiten zu erfassen- Anscheinend hat Octoparse eine Schaltfläche "Weiter" auf der Seite erkannt. Aktivieren Sie diese Option, wenn Sie möchten, dass Octoparse auf die Schaltfläche "Next" klickt, um Daten von weiteren Seiten zu erfassen.

Hinweise:

Um herauszufinden, ob der erkannte Knopf der richtige ist, klicken Sie auf "Prüfen" und beobachten Sie, wie sie auf der Webseite hervorgehoben wird. Wenn Sie die "Next"-Button erneut auswählen müssen, klicken Sie auf "Edit" und folgen Sie den Anweisungen unter "Tipps".

 

check.gif

 

5. Create Workflow

Nachdem Sie die Einstellungen bestätigt haben, klicken Sie auf "Create Workflow".

create_workflow.png

 

Octoparse würde automatisch einen Workflow auf der Grundlage der erkannten Daten und der gespeicherten Einstellungen generieren. Sie können wählen, ob Sie die Aufgabe jetzt ausführen oder den Workflow manuell bearbeiten möchten.

 

mceclip1.png

 

Um zu erfahren, wie Sie den Workflow der Aufgabe optimieren können, fahren Sie bitte fort mit >> Lesson 2: Optimize your task

 

Autor: Brian

Bearbeitet von: Lena

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen