Klicken auf jeden Link in einer Liste und scrapen Daten von Detailseite
Tuesday, July 13, 2021 6:01 PM
Das Anklicken jedes Links in einer Liste und das Scrapen von Daten von Detailseite ist ein häufiges Bedürfnis beim Web Scraping. Dieses Tutorial zeigt Ihnen, wie Sie Daten auf einer Liste und die Daten auf der entsprechenden Detailseite extrahieren können. Solche Bedürfnisse kommen häufig bei der Extraktion von E-Commerce-Seiten (Amazon, eBay, usw.) und Branchenverzeichnissen (Yelp, Yellowpage, usw.) vor.
Benutzen wir die URL zum Üben: https://www.ebay.com/b/Car-Audio-Amplifiers/18795/bn_887008.
1. Verwenden die Funktion „Auto-Detektion“, um den Workflow einzurichten
2. Stellen den Workflow manuell ein
1. Verwenden die Funktion „Auto-Detektion“, um den Workflow einzurichten
1) Nachdem Sie eine neue Aufgabe mit der Beispiel-URL erstellt haben, wählen Sie "Auto-detect web page data". Octoparse detektiert alle Daten auf der Seite, dann klicken Sie auf "Create workflow", um den Workflow zu generieren.
Tipps!
Sie können die detektierten Ergebnisse umschalten, wenn Octoparse nicht die richtigen Daten auswählt. Und wenn alle Ergebnisse nicht richtig sind, stellen Sie bitte die Aufgabe manuell.
3) Klicken Sie auf "Click on link(s) to scrape the linked page(s)", dann auf "Click on an extracted data fields" und wählen Sie ein Datenfeld (hier wählen wir die Title_URL) aus dem Dropdown-Menü.
Oder Sie wählen "Click a web link on the web page " und wählen einen Link auf der Seite manuell aus.
Beachten Sie, dass Sie nur einen Link aus den detektierten Bereichen auswählen können.
4) Lassen Sie die Website erneut automatisch detektiert werden oder klicken Sie auf Zieldatenfelder wie Titel, Bewertung, Preis usw., um sie zu scrapen
2. Stellen den Workflow manuell ein
1) Klicken Sie auf den ersten Produkttitel, der die URL der Produktseite enthält.
Der ausgewählte Titel wird grün hervorgehoben, während alle anderen ähnlichen Produkttitel rot hervorgehoben werden.
2) Klicken Sie auf "Select all" in Tipps
Tipps!
Wenn nach der Auswahl der ersten URL keine Option "Select all" in Tipps vorhanden ist, wählen Sie bitte die zweite URL weiter, damit Octoparse die ähnlichen Elemente erkennen kann.
3) Wählen Sie "Loop click each URL". Beachten Sie, dass ein Schritt „Loop-click“ automatisch generiert und zum Workflow hinzugefügt wird.
Tipps!
Um alle Links in der Liste durchzuklicken, ist es wichtig, dass Sie das Ankerelement richtig auswählen. Octoparse identifiziert automatisch die Tags der ausgewählten Elemente. Wenn Sie also ein Element mit URL auswählen, wäre das ausgewählte Tag "A", das für einen Anker steht, der normalerweise eine Seite mit einer anderen verbindet.
Wenn Sie feststellen, dass Octoparse das A-Tag nicht findet, können Sie auf das "A" im Tipps-Panel klicken.
4) Klicken Sie auf Zieldatenfelder wie Titel, Bewertung, Preis usw., um sie zu scrapen
Tipps!
Die Einstellung der Wartezeit in "Advanced Options" für Schritte wie "Click Item" oder "Extract Data" kann das Überspringen von Daten effektiv vermeiden (Das Laden der Website braucht Zeit. Wenn der Crawler zu schnell crawlen, werden die ungeladenen Daten übersprungen) und den Crawling-Prozess menschenähnlicher gestalten (Normalerweise funktionieren 2-5 Sekunden gut).
Wenn Sie Probleme mit dem Extrahieren der Tabellendaten haben, senden Sie eine Anfrage an unser Support-Team! Wir werden uns innerhalb von 24 Stunden bei Ihnen melden.