undefined

Loop Item  

Monday, July 26, 2021 2:54 PM

Wenn Sie eine Scraping-Aufgabe in Octoparse erstellen, werden Sie irgendwann während des Prozesses ein "Loop Item" brauchen. Die Aktion "Loop Item" wird häufig für die Erfassung einer Liste von Elementen oder zum Paginieren durch die verschiedenen Seiten einer Website verwendet. In diesem Artikel werde ich genau erklären, wie "Loop Item" in Octoparse funktioniert.

 

 

1. Was ist ein "Loop Item"?

2. "Loop Item"-Einstellungen

3. 5 Loop-Modi und wie werden sie verwendet?

4. Wie man ein "Loop Item" erstellt

5. Fehlerbehebung bei "Loop Item"

 

 

1. Was ist ein "Loop Item"?

 

Ein Loop ist eine Programmierfunktion, die eine Anweisung kontinuierlich wiederholt, bis eine bestimmte Bedingung erreicht ist. Das „Loop Item“ in Octoparse ist wie ein Loop ähnlich. Ein „Loop Item“ wird normalerweise mit mehr als einer URL/einem Element erstellt, und dem Loop Item wird eine oder mehrere Aktion(en) hinzugefügt. Sobald ein „Loop Item“ erstellt wurde, wiederholt Octoparse die Aktionen für eine bestimmte Anzahl von Malen oder bis es keine Möglichkeit mehr gibt, die Aktionen zu wiederholen, z. B. wenn es keine nächste Seite mehr zum Umblättern gibt (wenn Sie die letzte Seite erreicht haben).

 

Lassen Sie uns ein Beispiel betrachten. Angenommen, wir haben eine Liste von URLs, aus der wir Daten extrahieren wollen. Zuerst erstellen wir ein „Loop Item“ mit der Liste der URLs, dann fügen wir eine Aktion "Go to Web Page" und eine Aktion "Extract Data" innerhalb des Loop Items ein. Der Workflow würde wie folgt aussehen:

 mceclip1.png

Dieser Arbeitsablauf besteht aus einer Reihe von Anweisungen, die Octoparse anweisen, die erste URL der URL-Liste zu nehmen, die Seite mit der Aktion "Go to Web Page" zu laden und dann die Daten mit der Aktion "Extract Data" zu scrapen. Dieselbe Aktion werden für alle URLs in der Liste wiederholt, bis die letzte URL genommen wurde, dann stoppt das Loop.

 

 

2. "Loop Item"-Einstellungen

 

Wenn Sie auf das "Loop Item" doppelklicken oder auf die mceclip1.png klicken, werden Sie in das Einstellungsfenster übergeleitet. Werfen wir einen Blick auf die verfügbaren Optionen.  

 Settings.png

1) Action name: Hier können Sie den Namen des jeweiligen Loop-Elements ändern. Die Einstellung eines eindeutigen Namens für ein "Loop Item" kann Ihnen bei der Sortierung helfen, wenn Sie mehr als ein "Loop Item" in Ihrem Workflow haben.

 

2) Loop Mode: Damit ein "Loop Item" richtig funktioniert, ist es wichtig, dass Sie den richtigen Loop-Modus ausgewählt haben. Es gibt insgesamt fünf Loop-Modi, deren Funktionen im Folgenden ausführlich erklärt wird.

 

3) Exit Loop: Neben dem automatischen Verlassen des Loops können Sie das Loop auch vorzeitig beenden, indem Sie die Anzahl der Wiederholungen festlegen.

 

4) Wait before action: Mit dieser Funktion können Sie eine Wartezeit zwischen den einzelnen Wiederholungen festlegen.

 

 

3. 5 Loop-Modi und wie werden sie verwendet?

 

 

Es gibt 5 Loop-Modi, nämlich Single Element, Variable List, Fixed List, List of URLs, und Text List.

 Loop_mode.png

 

• „Single Element wird verwendet, um ein bestimmtes Element auf der Seite zu lokalisieren. Octoparse würde die Aktionen für dasselbe Element immer wieder ausführen, bis das Element nicht mehr auf der Seite gefunden wird. Eine häufige Verwendung für ein einzelnes Element ist, wenn Sie möchten, dass Octoparse die Schaltfläche "Nächste Seite" wiederholt anklickt, bis Sie die letzte Seite erreicht haben (keine "Nächste Seite" mehr).

 Single.png

 „Variable List“ wird verwendet, um eine Liste von Elementen zu lokalisieren, die mit einem einzigen XPath-Ausdruck abgeglichen werden können. Octoparse würde die Aktionen auf die übereinstimmenden Elemente nacheinander ausführen, bis das letzte Element erreicht ist. „Variable List“ sollte verwendet werden, wenn die Anzahl der Elemente, die in einem Loop durchlaufen werden sollen, in verschiedene Seiten ungleich ist.

 variable_list.png

 

 „Fixed List“, ähnlich wie „Variable List“, lokalisiert ebenfalls eine Liste von Elementen, aber „Fixed List“ ist eine Liste von XPath-Ausdrücken, wobei jeder XPath ein eindeutiges Element auf der Seite lokalisiert. Sie wird verwendet, wenn die Anzahl der Elemente auf der Seite über alle Seiten hinweg gleich ist.

 Fixed.png

 

 „List of URLs“ wird verwendet, um eine Liste von URLs in einem Loop auszuführen, wobei Octoparse die URLs nacheinander öffnen würde. Es gibt vier Möglichkeiten, die URLs einzugeben. Sehen Sie sich die verschiedenen Möglichkeiten zur Eingabe der URL hier an.

 List_of_URLs.png

 

 „Text List“ ist eine Liste der Zeichenketten. Wenn „Text List“ verwendet wird, gibt Octoparse die Zeichenketten auf der Seite nacheinander ein.

 text_list.png

 

Tipps!

Die Aufgaben mit „Fixed List“, „List of URLs“ und „Text List“ können in der Cloud aufgeteilt werden, sodass die Extraktion beschleunigt wird.

 

Sie können „Variable List“ in „Fixed List“ für schnellere Extraktionen wechseln.

 

 

4. Wie man ein „Loop Item“ erstellt

 

Welche Art von „Loop Item“ Sie benötigen, hängt von Ihren Scraping-Bedürfnissen ab. In den folgenden Anleitungen (Englisch) erfahren Sie, wie Sie ein „Loop Item“ erstellen.

 

 

 

5. Fehlerbehebung bei "Loop Item"

 

Sie können viele Fragen über das "Loop Item" haben, wie z. B. fehlende Elemente, überspringende Seiten und so weiter. Die am häufigsten gestellten Fragen zu "Loop Item" sind unten aufgelistet:

 

Umblättern:

 

Fehlende Elemente:

 

Sonstiges:

 

 

Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen