undefined

Wie extrahiert man Daten von den Websites mit Scrollen (Version 8.2)

Friday, July 09, 2021 5:56 PM

 

In manchen Websites werden neue Inhalte geladen, wenn die Seite nach unten scrollen, z.B. Twitter. Um Daten von solchen Webseiten zu extrahieren, ist die neue Funktion von Octoparse 8.2.2, Seite scrollen, sehr nützlich.

 

In den alten Versionen von Octoparse werden die Seiten zuerst zum Ende gescrollt und dann alle Daten auf einmal extrahiert werden. Wenn zum Beispiel die "Anzahl der Klicks" auf 20 eingestellt ist, wird die Seite zuerst 20 Mal nach unten scrollen. Danach extrahiert Octoparse auf einmal alle Daten. Weitere Informationen finden Sie hier: Umgang mit Paginierung (Endloses Scrollen).

 

Mit der neuen Funktion kann Octoparse 8.2.2 jetzt Daten während des Scrollens extrahieren. Wenn die Anzahl der Wiederholung auf 20 eingestellt sind, extrahiert Octoparse jedes Mal die neu geladenen Daten nach dem Scrollen der Seite. 

 

Mit Octoparse 8.2.2 wird der Prozess der Datenextraktion stabiler, was vermeidet, dass nach mehrmaligem Scrollen der Seite keine Daten erhalten werden.

 

Wie benutzt man die Funktion?

In diesem Tutorial erfahren Sie, wie Sie die oben erwähnte Funktion in Octoparse 8.2.2 verwenden können. Sie können zum üben diese URL verwenden, https://biomarket.com.ar/product-category/almacen/desayuno/.

 

1) Verwenden die Funktion „automatische Detektion“

 

2) Stellen das Seiten-Scrollen manuell ein

 

 

1) Verwenden die Funktion „automatische Detektion“

Schritt 1: Geben Sie die Ziel-URL(s) ein und klicken Sie auf "Start". Wählen Sie "Auto-detect web page data" in Tipps.

 

Octoparse beginnt mit der Detektion der Seitendaten und wartet, bis die abgeschlossen ist.

 Autodetct.gif

 

Schritt 2: Ändern Sie die Bildlaufeinstellungen

 

• Klicken Sie auf "Edit" unter "Add a page scroll".

Der Typ des Scrollens, die Anzahl der Wiederholung und die Wartezeit sind automatisch auf "bis zum Ende der Seite", "100" und "1s" eingestellt.  

"Stop scrolling when there's no more content to load" ist standardmäßig aktiviert, was bedeutet, dass Octoparse das Scrollen der Seite automatisch stoppt, wenn kein Inhalt mehr auf der aktuellen Webseite zu laden ist oder wenn die maximale Anzahl von Scrolls erreicht ist.

 

• Klicken Sie auf "Confirm", um die Einstellungen zu speichern, oder Sie können diese Parameter nach Bedarf bearbeiten. Achten Sie darauf, dass Sie genügend Anzahl des Scrollens und angemessene Intervalle dazwischen einrichten.

 editpagescroll.gif

 

Schritt 3: Erstellen Sie den Workflow mit den Einstellungen

Klicken Sie in Tipps auf "Create workflow", um den Workflow zu generieren. Sie können auch zu den Einstellungen von „Scroll Page“ gehen, und die Einstellungen bearbeiten, falls erforderlich.

 1.gif

 

Schritt 4: Speichern und Ausführen die Aufgabe

 

• Klicken Sie auf "Save" und "Run".

• Wählen Sie "Run on your device".

Sie werden feststellen, dass Octoparse jedes Mal nach einem Scrollen Daten scrapt.

 2.gif

 

2) Stellen das Seiten-Scrollen manuell ein

Schritt 1: Geben Sie die Ziel-URL(s) ein und klicken Sie auf "Start"

input.gif

 

 

Schritt 2: Fügen Sie manuell eine Aktion „Scroll Page“ hinzu

 

 Fügen Sie unter "Go to Web Page" eine Aktion „loop item“.

 Doppelklicken Sie auf „loop item“ oder klicken Sie auf , um "Scroll Page" auszuwählen.

 Stellen Sie den Typ des Scrollens , die Anzahl der Wiederholung und die Wartezeit nach Bedarf ein.

 Klicken Sie auf "OK".

 m1.gif

 

Schritt 3: Richten Sie wieder eine Aktion „loop item“ für die Datenextraktion ein und ziehen Sie es in die obige „loop item“ Aktion

 m2.gif

 

Schritt 4: Speichern und Ausführen der Aufgabe

 

Klicken Sie auf "Save" und "Run". Wählen Sie "Run on your device".

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen