Alle Kollektionen
Octoparse Performance
Grundkenntnisse des Workflows
Funktionvorstellung von funtionierender Logik des Workflows
Funktionvorstellung von funtionierender Logik des Workflows
Vor über einer Woche aktualisiert

Sie folgen jetzt einem Tutorial für die neueste Version von Octoparse. Wenn Sie zur Zeit eine ältere Version verwenden, empfehlen wir Ihnen kräftig es, ein Upgrade zu machen, weil sie schneller, leichter und stärker ist! Herunterladen und Installierung eines Upgrades hier, wenn Sie nicht so bereits machen!

Nach dem Lernen der Einführungslektionen sollten Sie bestimmt die Grundlage von Octoparse gekannt und einige Aufgaben erfolgreich erstellt haben. In diesem Artikel würde ich die weitere Information erklären, z.B. Wie läuft Octoparse, um die Daten aus beliebiger Website zu erhalten; Wie arbeiten alle Aktionen zusammen in einem Workflow. Ein gutes Verständnis dieser grundlegenden Prinzipien bildet das Rückgrat für die Erstellung erfolgreicher und komplexer Scraping-Aufgaben.


1. Wie kann Octoparse die Daten extrahieren?

  • Prinzip 1: Octoparse simuliert die menschlichen Browsing-Verhalten.

Octoparse arbeitet durch die Simulierung der menschlichen Browsing-Verhalten in seinem intergrierten Browser. Aktionen wie Öffnen der Websites, Klick auf Elemente der Seite, Klick auf den Button der nächsten Seite oder Scrollen auf der Seite können in Octoparse gemacht werden. Der simulierte Scraping- Prozess ist für die Datenextraktion identisch, die Sie in jedem Browser nehmen möchten.

  • Prinzip 2: Octoparse scrapt automatisch durch Workflow Daten.

Wenn Sie jetzt eine Aufgabe in Octoparse erstellen möchten, ist das Schaffen eines Scraping-Workflows lebenswichtig, die in eine Reihe von Anweisungen ungewandelt werden müssen, die Octoparse befolgen könnte. Der Workflow wird allerdings automatisch durch Octoparse erzeugt, während Sie mit dem integrierten Browser interagieren. In einigen Fällen sollten Sie vielleicht nicht den automatisch erzeugten Workflow modifizieren; Aber in anderen Fällen könnten Sie manuell den Workflow aufbauen oder bei der Fehlerbehebung lösen, wenn alles nicht wie gewünscht in Ordnung wären. In beiden Fällen emfehle ich Ihnen hart es, dass Sie die Vorkenntnisse des Workflows beherrschen sollten, sodass die Daten genauer und exacter erhalten werden.


2. Verstehen des Workflows

Ein Workflow enthält eine Reihe von Aktionen, die in einer speziellen Ordnung gestellt werden, um die Daten der Zielseite zu scrapen.

Die Schritte des Workflows sollten immer von oben bis unten, von innen bis außen gelesen werden. Ich würde einige Beispiele nennen, dass Sie ein besseres Verständnis über den Workflow haben könnten.

Beispiel 1: Datenextraktion von eine Liste der Elemente

Datenextraktion von eine Liste der Elemente

  • Schritt 1: „Go to Web Page“, um die Zielseite zu öffnen.

  • Schritt 2: „Pagination“, um den Button „Nächste Seite“ auf der Seite zu finden (Jetzt sind Sie auf der Seite 1).

  • Schritt 3: „Loop Item“, um die Liste der Elemente auf der Seite zu lokalisieren.

  • Schritt 4: „Extract Date“, um die genötigen Daten aus der Liste der Elemente zu erhalten.

  • Schritt 5: „Click to Paginate“, um auf den Button „Nächste Seite“ zu klicken, da könnte man zur Seite 2 gehen.

  • Schritt 6: Erhalten die Daten aus dem Loop weiter, und klicken Sie auf den Button „Nächste Seite“, bis Octoparse die Daten von der letzten Seite scrapt.

  • Schritt 7: Es gibt keinen „Nächste Seite“ Button auf der letzten Seite, sodass der Workflow endet.

Beispiel 2: Datenextraktion von detaillierten Seiten beim Klick auf Elemente auf der Seite

Datenextraktion von detaillierten Seiten

  • Schritt 1: „Go to Web Page“, um die Zielseite zu öffnen.

  • Schritt 2: „Pagination“, um den Button „Nächste Seite“ auf der Seite zu finden (Jetzt sind Sie auf der Seite 1).

  • Schritt 3: „Loop Item“, um die Liste der Elemente auf der Seite zu lokalisieren.

  • Schritt 4: „Click Item“, um auf die Elemente aus den Loop-Item zu klicken und zur detaillierten Seite zu gehen.

  • Schritt 5: „Extract Date“, um die genötigen Daten aus der detaillierten Seite zu erhalten.

  • Schritt 6: „Click to Paginate“, um auf den Button „Nächste Seite“ zu klicken, da könnte man zur Seite 2 gehen.

  • Schritt 7: Erhalten die Daten aus dem Loop weiter, scrapen Sie Daten aus detaillierten Seiten und klicken Sie auf den Button „Nächste Seite“, bis Octoparse die Daten von der letzten Seite scrapt.

  • Schritt 8: Es gibt keinen „Nächste Seite“ Button auf der letzten Seite, sodass der Workflow endet.

Beispiel 3: Datenextraktion von der Liste der Elemente beim Klick auf Button „Load More“

beim Klick auf Button „Load More“

  • Schritt 1: „Go to Web Page“, um die Zielseite zu öffnen.

  • Schritt 2: „Pagination“, um den Button „Load More“ auf der Seite zu lokalisieren.

  • Schritt 3: „Click to paginate“, um auf den Button „Load More“ zu klicken und mehrere Elemente auf der Seite zu laden.

  • Schritt 4: Klicken Sie auf „Load More“ weiter, bis der Button verschwunden ist.

  • Schritt 5: „Loop Item“, um die Liste der Elemente auf der Seite zu lokalisieren.

  • Schritt 6: „Extract Data“, um die Solldaten aus der Liste der Elemente zu scrapen.


3. Test des Workflows

Es ist bedeutend, die Ausführung des Workflows Schritt für Schritt zu prüfen, bevor die Aufgabe durchgeführt wird. Wenn Sie auf einen Schritt im Workflow klicken, wird Octoparse im intergrierten Browser die Aktion durchführen, um zu testen, ob sie wie gewünscht gut funktioniert. Gleichzeitig können Sie auch entsprechend sie modifizieren. Als Beispiel wird Octoparse automatisch im intergrierten Browser die Website laden, wenn „Go to Web Page“ geklickt ist.

Sie können mehrere Details über Prüfung des Workflows hier checken.

Tipps!

  • Es gibt keine feste Weisen, um einen Workflow zu erstellen. Das bedeutet, dass Sie jede Aktion hinzufügen können, solange die Aktionen logisch zusammen arbeiten könnten.

  • Sie können mehrmals auf die Aktionen oder Loop-Items klicken, um die Daten aus den Seiten der mehrfachen Ebenen zu scrapen. z.B. Listeseite und Seite des Produkts für Website-Verzeichnisse.

  • Sie können eine Aktion einfach an die richtige Stelle ziehen und verschieben.

Aktion ziehen und verschieben

Hat dies Ihre Frage beantwortet?