undefined

Arbeitsprinzip von Octoparse - Wie arbeiten Aktionen in einem Workflow zusammen

Thursday, July 29, 2021 12:24 PM

Nachdem Sie die Einführungslektionen gelernt haben, sollten Sie die Grundlagen von Octoparse verstanden haben und ein paar Aufgaben erfolgreich erstellen können. In diesem Artikel helfe ich Ihnen, das Verständnis zu vertiefen, indem ich erläutere zuerst das Arbeitsprinzip von Octoparse und anschließend, wie die verschiedenen Aktionen in einem Workflow zusammenarbeiten. Ein gutes Verständnis der grundlegenden Prinzipien ist sehr hilfreich für die Erstellung erfolgreicher und komplexer Scraping-Aufgaben.

 

 

1.Wie Octoparse bei der Extraktion von Webdaten funktioniert

 

1.1 Octoparse simuliert menschliches Browsing-Verhalten

 

Octoparse simuliert das menschliche Surfverhalten in seinem integrierten Browser. Aktionen wie das Öffnen von Webseiten, das Anklicken von Seitenelementen, das Anklicken der Schaltfläche "Nächste Seite" oder das Herunterscrollen der Seite können alle in Octoparse ausgeführt werden. Der simulierte Scraping-Prozess ist identisch mit dem Zugriff auf die Webdaten in einem gewöhnlichen Browser. Deswegen kann jeder mit Octoparse eigene Scraing-Aufgabe ertellen, solange er weiß, wie im Internet zu surfen.

 

1.2 Octoparse extrahiert Daten automatisch durch einen Workflow

 

Wenn du eine Scraping-Aufgabe in Octoparse erstellst, erstellst du im Wesentlichen einen Scraping-Workflow, der aus einer Reihe von Anweisungen besteht, die Octoparse befolgt. Dieser Arbeitsablauf wird jedoch automatisch von Octoparse erstellt, während Sie mit dem integrierten Browser interagieren. Trotzdem können Sie in manchen Fällen den automatisch erstellten Arbeitsablauf nicht ändern und manchmals müssen Sie den Arbeitsablauf manuell erstellen bzw. eine Fehlersuche durchführen, wenn der Crawler nicht wie erwartet funktioniert. Aus diesem Grund sollten Sie sich mit den Grundlagen des Workflows vertraut machen, damit Sie präziser und genauer scrapen können.  

 

 

2. Verstehen das Workflow

 

Ein Workflow besteht aus einer Liste von Aktionen, die in einer bestimmten Reihenfolge zum Scrapen der Ziel-Webdaten zusammengestellt werden.

 

Die Schritte des Workflows sollten immer von oben nach unten und von innen nach außen gelesen werden. Werfen wir einen Blick auf einige Beispiele.

 

Beispiel 1 - Extrahieren Daten aus einer Liste

 mceclip4.png

Schritt 1: „Go to Web Page“- Gehe zu Webseite, um die Ziel-Webseite zu öffnen

 

Schritt 2: „Pagination“- Umblättern, um die Schaltfläche für die nächste Seite zu finden

 

Schritt 3: „Loop Item“, eine Aktion mehrmals wiederholen

 

Schritt 4: „Extract Data“-Daten extrahieren, um die benötigten Daten aus der Liste zu extrahieren

 

Schritt 5: „Click to Paginate“-Klicken auf die Schaltfläche "Nächste Seite" und gelangen zu Seite 2.

 

Schritt 6: Fahren Sie fort, Daten zu extrahieren, und klicken auf die Schaltfläche "Nächste Seite", bis Octoparse die letzte Seite erreicht hat.

 

Schritt 7: Auf der letzten Seite befindet sich keine Schaltfläche für die nächste Seite und der Arbeitsablauf ist beendet.

 

 

Beispiel 2 - Klicken Sie auf Elementen auf der Webseite und extrahieren Sie Daten von der Detailseite

 mceclip1.png

Schritt 1: „Go to Web Page“- Gehe zu Webseite, um die Ziel-Webseite zu öffnen

 

Schritt 2: „Pagination“- Umblättern, um die Schaltfläche für die nächste Seite zu finden

 

Schritt 3: „Loop Item“, eine Aktion mehrmals wiederholen

 

Schritt 4: „Click Item“, um die Elemente aus dem „Loop Item“ anzuklicken und die Detailseite aufzurufen

 

Schritt 5: „Extract Data“-Daten extrahieren, um die benötigten Daten aus der Detailseite zu extrahieren

 

Schritt 6: „Click to Paginate“-Klicken auf die Schaltfläche "Nächste Seite" und gelangen zu Seite 2.

 

Schritt 7: Klicken Sie weiterhin auf Elemente in „Loop“, extrahieren Sie Daten von der Detailseite und klicken Sie auf die Schaltfläche "Nächste Seite", bis Octoparse die letzte Seite erreicht hat. 

 

Schritt 8: Auf der letzten Seite befindet sich keine Schaltfläche für die nächste Seite und der Arbeitsablauf endet.

 

 

Beispiel 3 - Laden Sie mehr Elemente, indem Sie auf die Schaltfläche „Load More“ (Mehr laden) klicken, und extrahieren Sie Daten aus der Liste

 mceclip3.png

Schritt 1: „Go to Web Page“- Gehe zu Webseite, um die Ziel-Webseite zu öffnen

 

Schritt 2: „Pagination“- Umblättern, um die Schaltfläche "Load More" auf der Seite zu finden

 

Schritt 3: Klicken Sie auf die Schaltfläche „Load More“ (Mehr laden), um weitere Elemente auf die Seite zu laden.

 

Schritt 4: Klicken Sie weiter auf die Schaltfläche "Load More", bis sie verschwindet

 

Schritt 5: Loop Item, um die Liste der Elemente auf der Seite zu suchen

 

Schritt 6: Extract Data, um die Zieldaten aus der Liste der Elemente zu extrahieren

 

 

3. Testen des Workflows

 

Es ist wichtig, den Workflow Schritt für Schritt zu testen, bevor Sie die Aufgabe ausführen. Klicken Sie einfach auf einen Schritt im Workflow, um zu testen, ob die Aktion wie erwartet funktioniert, und Sie können sie entsprechend ändern. Wenn Sie z. B. auf „Go to Web Page“ klicken, lädt Octoparse automatisch die Webseite im eingebauten Browser.

 

Weitere Details zum Testen des Workflows können Sie hier nachlesen.

 

Tipps!

• Der Prozess, einen Workflow zu erstellen, ist nicht fest. Es gibt immer mehrere Methode, um einen Crawler einzurichten. Sie können beliebige Aktionen hinzufügen, solange sie logisch zusammenarbeiten.  

 

• Sie können „Loop-Item“ verwenden, um Daten von Listenseiten und Produktseiten von Verzeichnis-Websites zu erfassen.

 

• Sie können eine Aktion einfach an die richtige Stelle ziehen und verschieben.

 

workflow.gif

 

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen