undefined

Klicken auf jeden Link in einer Liste und scrapen Daten von Detailseite  

Tuesday, July 13, 2021 6:01 PM

 

Das Anklicken jedes Links in einer Liste und das Scrapen von Daten von Detailseite ist ein häufiges Bedürfnis beim Web Scraping. Dieses Tutorial zeigt Ihnen, wie Sie Daten auf einer Liste und die Daten auf der entsprechenden Detailseite extrahieren können. Solche Bedürfnisse kommen häufig bei der Extraktion von E-Commerce-Seiten (Amazon, eBay, usw.) und Branchenverzeichnissen (Yelp, Yellowpage, usw.) vor.

 web scraping with octoparse - extract from item page

 

 

Benutzen wir die URL zum Üben: https://www.ebay.com/b/Car-Audio-Amplifiers/18795/bn_887008.

 

1. Verwenden die Funktion „Auto-Detektion“, um den Workflow einzurichten

 

2. Stellen den Workflow manuell ein

 

 

1. Verwenden die Funktion „Auto-Detektion“, um den Workflow einzurichten

 

1) Nachdem Sie eine neue Aufgabe mit der Beispiel-URL erstellt haben, wählen Sie "Auto-detect web page data". Octoparse detektiert alle Daten auf der Seite, dann klicken Sie auf "Create workflow", um den Workflow zu generieren.

 3.gif

 

Tipps!

Sie können die detektierten Ergebnisse umschalten, wenn Octoparse nicht die richtigen Daten auswählt. Und wenn alle Ergebnisse nicht richtig sind, stellen Sie bitte die Aufgabe manuell.

 5.png

 

3) Klicken Sie auf "Click on link(s) to scrape the linked page(s)", dann auf "Click on an extracted data fields" und wählen Sie ein Datenfeld (hier wählen wir die Title_URL) aus dem Dropdown-Menü.

 4.gif

 

Oder Sie wählen "Click a web link on the web page " und wählen einen Link auf der Seite manuell aus.

 2020-07-28_19-15-08.png

 

Beachten Sie, dass Sie nur einen Link aus den detektierten Bereichen auswählen können.

 

4) Lassen Sie die Website erneut automatisch detektiert werden oder klicken Sie auf Zieldatenfelder wie Titel, Bewertung, Preis usw., um sie zu scrapen

 2020-07-28_19-31-33.png

 

 

2. Stellen den Workflow manuell ein

1) Klicken Sie auf den ersten Produkttitel, der die URL der Produktseite enthält.

 2020-07-28_19-44-59.png

 

 

Der ausgewählte Titel wird grün hervorgehoben, während alle anderen ähnlichen Produkttitel rot hervorgehoben werden.

 

2) Klicken Sie auf "Select all" in Tipps

 2020-07-28_19-47-52.png

 

Tipps!

Wenn nach der Auswahl der ersten URL keine Option "Select all" in Tipps vorhanden ist, wählen Sie bitte die zweite URL weiter, damit Octoparse die ähnlichen Elemente erkennen kann.

 

3) Wählen Sie "Loop click each URL". Beachten Sie, dass ein Schritt „Loop-click“ automatisch generiert und zum Workflow hinzugefügt wird.

 2020-07-28_19-48-53.png

 

 

Tipps!

Um alle Links in der Liste durchzuklicken, ist es wichtig, dass Sie das Ankerelement richtig auswählen. Octoparse identifiziert automatisch die Tags der ausgewählten Elemente. Wenn Sie also ein Element mit URL auswählen, wäre das ausgewählte Tag "A", das für einen Anker steht, der normalerweise eine Seite mit einer anderen verbindet.

 

Wenn Sie feststellen, dass Octoparse das A-Tag nicht findet, können Sie auf das "A" im Tipps-Panel klicken.

 2020-07-28_19-50-50.png

 

4) Klicken Sie auf Zieldatenfelder wie Titel, Bewertung, Preis usw., um sie zu scrapen

2020-07-28_19-31-33.png

 

Tipps!

Die Einstellung der Wartezeit in "Advanced Options" für Schritte wie "Click Item" oder "Extract Data" kann das Überspringen von Daten effektiv vermeiden (Das Laden der Website braucht Zeit. Wenn der Crawler zu schnell crawlen, werden die ungeladenen Daten übersprungen) und den Crawling-Prozess menschenähnlicher gestalten (Normalerweise funktionieren 2-5 Sekunden gut).

 mceclip1.png

 

Wenn Sie Probleme mit dem Extrahieren der Tabellendaten haben, senden Sie eine Anfrage an unser Support-Team! Wir werden uns innerhalb von 24 Stunden bei Ihnen melden.

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen