undefined

Die Einstellung von „Branch condition“

Thursday, August 05, 2021 12:02 PM

Wenn Sie nicht alle, sondern teilweise Daten auf einer Webseite brauchen, können Sie die Funktion "Branch conditions" verwenden, um ein bedingungsbasiertes Scraping zu erreichen.

54345345.gif

 

Wann sollten Sie "Branch conditions" verwenden?

 

 

In den folgenden zwei Situationen ist die Funktion "Branch conditions" sehr nützlich.

1) Wenn Sie nur daran interessiert sind, Daten von bestimmten Seiten mit einem bestimmten Tag zu erhalten, wie z. B. "Neu", "Populär", "Im Angebot" usw.

2) Wenn die Daten auf der Seite in verschiedenen Formen angezeigt werden, d. h. manchmal als Text, manchmal als Bild.

 

In dem Beispiel unten extrahieren wir Informationen über Laptops, die im Angebot sind, indem wir das Symbol  als Testbedingung verwenden: Wenn das Element  auf der Artikelseite gefunden wird, erfassen wir die Produktinformationen; andernfalls überspringen wir die Seite/das Produkt.

 45634534534.gif

 

Schauen wir uns an, wie das geht! Zum Üben können Sie diese URL im Beispiel verwenden:

https://www.bestbuy.com/site/all-laptops/pc-laptops/pcmcat247400050000.c?id=pcmcat247400050000

 

1) Erstellen Sie ein „Loop item“, um jeden Link in der Liste anzuklicken (siehe englisches Tutorial)

2) Verwenden Sie "Branch conditions", um die Bedingung einzurichten, ob auf der Artikelseite vorhanden ist.

 

• Bewegen Sie die Maus über 6534534534534.png, wo Sie "Branch conditions" hinzufügen möchten

• Klicken Sie auf 46456456.png, um eine Aktion "Branch conditions" in „Loop item“ hinzuzufügen

 4565334534534534.png

456345345345.gif

 

• Klicken Sie auf mceclip0.png von "Branch conditions" auf der linken Seite und wählen Sie "Execute if the current page contains specific element".

• Geben Sie den XPath für das Element 15154161256.png ein: "//div[@class='pricing-price__savings']" (siehe englisches Tutorial: how to get the XPath ).

 

Tipps!

Wenn das Schreiben des XPaths zu schwierig ist, können Sie auf mceclip2.png klicken und das Element auf der Webseite auswählen. Octoparse generiert dann automatisch einen XPath.

 1.gif

 

• Klicken Sie auf "OK".

• Klicken Sie auf "Branch conditions" auf der rechten Seite und wählen Sie "Always execute the branch".

• Klicken Sie auf "OK".

 25619645615616151.gif

 

 

Tipps!

In Octoparse können Sie die Bedingung auf eine der folgenden Möglichkeiten einstellen:

 

1. Always execute the branch

Wenn diese Option ausgewählt ist, bewertet Octoparse die Verzweigung überhaupt nicht und führt die Aktionen innerhalb der Verzweigung sofort aus. Sie können diese Option nur für die Verzweigung auf der rechten Seite Wählen.

 

2. Execute if the page contains specific text

Wenn diese Option ausgewählt ist, sucht Octoparse auf der aktuellen Seite nach der angegebenen Textzeichenfolge.

 

3. Execute if the current page contains a specific element

Wenn diese Option ausgewählt ist, sucht Octoparse nach dem angegebenen Element (entsprechend dem eingegebenen XPath) auf der aktuellen Seite.

 

4. Execute if the current loop contains specific text

Wenn diese Option ausgewählt ist, sucht Octoparse in der aktuellen Schleife nach der angegebenen Textzeichenfolge.

 

5. Execute if the current loop contains a specific element

Wenn diese Option ausgewählt ist, sucht Octoparse innerhalb der aktuellen Schleife nach dem angegebenen Element (gemäß dem eingegebenen relativen XPath). Verwenden Sie diese Option nur, wenn Sie zwischen den Elementen in einer Schleife entscheiden müssen.

 

3) Klicken Sie auf die gewünschten Datenfelder von der Produktseite (wählen Sie ein Element aus der Schleife aus, das das Element 15154161256.png enthält), die erfasst werden sollen (Wie?). Benennen Sie die Felder bei Bedarf um.

 56262.gif

 

4) Ziehen Sie die Aktion "Extract Data" in "Branch conditions" auf der linken Seite

 651512561.gif

 

Jetzt haben wir Octoparse so konfiguriert, dass es auf der Seite nach dem Element 15154161256.png sucht. Wenn das Element gefunden wird, werden die gewünschten Daten erfasst, andernfalls wird das Produkt übersprungen.  

 41614561561.png

 

Tipps!

1. Wenn eine Bedingung als "whether an element is found" festgelegt ist, muss das bezeichnete Element einzig auf der Seite gefunden werden, sonst kann die Beurteilung nicht funktionieren.

 

2. Octoparse führt die Verzweigungen standardmäßig von links nach rechts. Wenn die Bedingung für die linke Verzweigung "Always execute the branch" lautet, wird Octoparse nicht mit der rechten Verzweigung fortfahren.

 

3. Wenn die Bedingung nicht erfüllt ist, können Sie die Verzweigung leer lassen, sodass keine Daten extrahiert werden.

 

4. Wenn eine Datenextraktionsaktion zu beiden Zweigen hinzugefügt wird, müssen sowohl die Anzahl der Datenfelder als auch der Name der Datenfelder gleich bleiben.

 

5. Sie können verschachtelte Zweigbeurteilungen verwenden, um die Aufgabe weiter zu verfeinern.

 

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen