Alle Kollektionen
Octoparse Performance
Grundkenntnisse des Workflows
Funktionvorstellung von „Schleife“-Aktion
Funktionvorstellung von „Schleife“-Aktion
Vor über einer Woche aktualisiert

Wenn Sie eine Scraping-Aufgabe in Octoparse erstellen, werden Sie irgendwann während des Prozesses eine „Schleife“ brauchen. Die Aktion „Schleife“ wird häufig für die Erfassung einer Liste von Elementen oder zum Paginieren durch die verschiedenen Seiten einer Website verwendet. In diesem Artikel werde ich genau erklären, wie „Schleife“ in Octoparse funktioniert.


1. Was ist eine „Schleife“?

Eine Schleife ist eine Programmierfunktion, die eine Anweisung kontinuierlich wiederholt, bis eine bestimmte Bedingung erreicht ist. Das „Schleife“-Element in Octoparse ist wie ein Loop ganz ähnlich. Eine „Schleife“ wird normalerweise mit mehr als einer URL/einem Element erstellt, und dem Loop Item wird eine oder mehrere Aktion(en) hinzugefügt. Sobald eine Schleife erstellt wurde, wiederholt Octoparse die Aktionen für eine bestimmte Anzahl von Malen oder bis es keine Möglichkeit mehr gibt, die Aktionen zu wiederholen, z. B. wenn es keine nächste Seite mehr zum Umblättern gibt (wenn Sie die letzte Seite erreicht haben).

Lassen Sie uns ein Beispiel betrachten. Jetzt stellen wir uns vor, dass wir schon eine Liste von URLs erhalten und damit alle Daten scrapen möchten.

  • Zuerst erstellen wir eine „Schleife“-Aktion mit der Liste von URLs.

  • Dann fügen wir eine Aktion „Zur Webseite“ und eine Aktion „Daten extrahieren“ innerhalb des Loop Items ein.

  • Der Workflow würde wie folgt aussehen:

Dieser Workflow besteht aus einer Reihe von Anweisungen. Damit würde Octoparse danach durchführen: die erste URL der URL-Liste zu nehmen, die Seite mit der Aktion „Zur Webseite“ zu laden und dann die Daten mit der Aktion „Daten extrahieren“ zu scrapen. Dieselbe Aktion wird für alle URLs in der Liste wiederholt, bis die letzte URL genommen wurde, dann stoppt das Loop.


2. Einstellungen von „Schleife“-Aktion

Wenn Sie auf Schleifen klicken und Generell auswählen, werden Sie in das Einstellungsfenster übergeleitet. Lassen wir die verfügbaren Optionen sehen.

  • Aktionsname: Hier können Sie den Namen des jeweiligen Loop-Elements ändern. Die Einstellung eines eindeutigen Namens für eine „Schleife“ kann Ihnen bei der Sortierung helfen, wenn Sie mehr als eine „Schleife“ in Ihrem Workflow haben.

  • Schleifenmodus: Sie müssen den geeigneten Schleifenmodus wählen, damit eine „Schleife“-Aktion richtig funktioniert. Es gibt zusammen 6 Loop-Modi, deren Funktionen im Folgenden ausführlich erklärt wird.

  • Schleife verlassen: Neben dem automatischen Verlassen des Loops können Sie die Schleife auch vorzeitig beenden, indem Sie die Anzahl der Wiederholungen festlegen.

  • Warten vor der Aktion: Mit dieser Funktion können Sie eine Wartezeit zwischen den einzelnen Wiederholungen einstellen.


3. 6 Loop-Modi und wie sie zu verwenden?

Es gibt zusammen 6 Loop-Modi: Einzelnes Element, Feste Liste, Variable Liste, Liste der URLs, Textliste, Seite scrollen.

  • Einzelnes Element - um ein bestimmtes Element auf der Seite zu lokalisieren

Octoparse würde die Aktionen für dasselbe Element immer wieder ausführen, bis das Element nicht mehr auf der Seite gefunden wird. Eine häufige Verwendung für ein einzelnes Element ist, wenn Sie möchten, dass Octoparse die Schaltfläche „Nächste Seite“ wiederholt anklickt, bis Sie die letzte Seite erreicht haben (keine „Nächst“-Button mehr).

  • Variable Liste - um eine mit einzelner XPath-Abfrage verbundene Liste der Items zu lokalisieren

Octoparse würde die Aktionen auf die übereinstimmenden Elemente nacheinander ausführen, bis das letzte Element erreicht ist. Variable Liste sollte verwendet werden, wenn die Anzahl der Elemente, die in einem Loop durchlaufen werden sollen, in verschiedene Seiten ungleich ist.

  • Feste Liste - um eine Reihe von Items zu lokalisieren

Es ist ähnlich wie Variable Liste, aber Feste Liste stellt eine Liste von XPath-Abfragen dar, in der jeder XPath nur ein einziges Element auf der Website lokalisiert. Sie ist zu verwenden, wenn die Anzahl von Elemente auf alle Unterseiten gleich ist.

  • Liste der URLs - um eine Liste von URLs durchzulaufen

Octoparse würde die URLs nacheinander öffnen. Es gibt insgesamt vier Methoden, um die URLs einzugeben. Schauen Sie hier an, um die unterschiedlichen Methoden zu wissen.

  • Textliste - eine Liste von Zeichenketten

Wenn eine Texteliste verwendet wird, würde Octoparse die Zeichenketten auf der Seite Stück für Stück eingeben.

Textliste
  • Seite Scrollen - eine neue Weise vom Scrollen

Dieser Modus wird für diese Websites verwendet, die unendliches Scrollen brauchen sollten, um mehrere Informationen anzusehen. Diese Option kann es hilfen, während des Scrollen statt nach der Erledigung vom Scrollen die Daten scrapen.

NOTIZEN

  • Wenn Feste Liste, Liste der URLs und Textliste verwendet werden, können die Aufgabe weiter in verschiedene Unteraufgaben in der Cloud aufgeteilt werden. Damit wird der ganze Scraping-Prozess viel effizienter.

  • Die Variable Liste kann für schnellere Extraktionen in eine feste Liste umgewandelt werden.


4. Erstellung von Schleife-Aktion

Es hängt von Ihren Scraping-Bedürfnissen und spezieller Struktur der Website ab, welche Art der Schleife Sie benötigen. In den folgenden Tutorials erfahren Sie, wie Sie eine Schleife für verschiedene Fällen erstellen können.


5. Fehlerbehebung bei „Schleife“

Bei der Erstellung einer Schleife könnten Sie auf viele Fragen stoßen, wie fehlende Elemente, Überspringen von Seiten und so weiter. Die am häufigsten gestellten Fragen zur „Schleife“ sind unten aufgelistet:

Paginierung:

Fehlende Elemente:

Anders:

Hat dies Ihre Frage beantwortet?