Scraping der Daten von Walmart
Vor über einer Woche aktualisiert

Sie folgen jetzt einem Tutorial für die neueste Version von Octoparse. Wenn Sie zur Zeit eine ältere Version verwenden, empfehlen wir Ihnen kräftig es, ein Upgrade zu machen, weil sie schneller, leichter und stärker ist! Herunterladen und Installierung eines Upgrades hier, wenn Sie nicht so bereits machen!

Walmart ist ein großes Einzelhandelsunternehmen in den Vereinigten Staaten. In diesem Tutorial zeigen wir Ihnen, wie Sie Produktdaten von Walmart.com scrapen können.

Sie können einfach unsere "Aufgabenvorlage" für Walmart verwenden. Mit der Vorlage brauchen Sie keine Aufgabe selbst zu konfigurieren, sondern nur einige Parameter einzugeben. Für weitere Details können Sie hier finden: Aufgabenvorlagen

2021-09-26_9-37-48.png

Wenn Sie wissen möchten, wie Sie die Aufgabe von Grund auf selbst erstellen, können Sie das folgende Tutorial weiter lesen.

Nehmen wir an, dass wir spezifische Informationen über Kopfhörer scrapen möchten, und wir beginnen mit der Suchergebnisseite (https://www.walmart.com/search/?query=headphones). Wir werden Daten wie den Produkttitel, den Preis, die Produkt-ID und Bewertungen von der Produktdetailseite mit Octoparse scrapen.

Hier sind die wichtigsten Schritte in diesem Tutorial. [Aufgabendatei hier herunterladen]


Schritt 1: „Go To Web Page“ - Öffnen die Ziel-Webseite

  • Geben Sie die Beispiel-URL ein und klicken Sie auf "Start".

2.png
  • Klicken Sie auf den Suchkasten und dann klicken Sie auf „Enter Text“ auf die Tipps-Platte.

3.png

  • Geben Sie „Headphone“ ein und dann klicken Sie auf „Confirm“

4.png

  • Klicken Sie auf „Enter Text“ und stellen Sie ein, dass Sie die Enter/Return-Taste drücken, dann klicken Sie zur Bestätigung auf „Apply“.

5.png


Schritt 2: Erstellen einer Pagination - um die Daten aus mehreren Seiten zu scrapen

  • Klicken Sie auf den Nächste Seite Button und selektieren Sie dann „Loop click single element“, danach erstellen Sie „AJAX Timeout“ als 10s.

4.gif

Der automatisch generierte XPath für die Paginierung funktioniert in diesem Fall nicht immer, so dass wir den XPath ändern müssen, um alle Seiten zu scrapen.

  • Klicken Sie auf „Pagination“

  • Geben Sie den XPath //a[@aria-label="Next Page"] in den Matching-XPath Kasten

  • Klicken Sie auf „Apply“ zur Bestätigung

pagination_Xpath.jpg


Schritt 3: Daten Scraping aus der Produkteliste

  • Wählen Sie das erste Produkt (beachten, dass der ganze Produkteabschnitt´aufgenommen werden sollte)

  • Selektieren Sie alle Sub-elements

select_product.jpg

  • Wählen Sie „Select All“

select_all.jpg

  • Wählen Sie „Extact data“ aus.

Extract_data.jpg

Jetzt wird ein Loop-Item mit „Extract Data“ im Workflow erstellt.

Loop_Item.jpg

  • Klicken Sie doppelt auf den Feldname, um ihn umzubennen, oder klicken Sie einfach ... zum Löschen unerwarteter Datenfelder.

rename.jpg

Wenn alle gewünschten Daten aus der Listeseite gescrapt werden, können Sie direkt zum 6. Schritt gehen.


Schritt 4: Klicken in jeden Produkt-Link, um weitere Informationen zu scrapen

Einige Informationen wie Produktevorstellung können nur auf der Detailseite gescrapt werden. Wir sollten auf jeden Produkt-Link klicken, um die Daten zu erhalten.

  • Klicken Sie auf den ersten Produkt-Link.

  • Wählen Sie „Click URL“.

click_uRL.jpg

Ein Klick-Item würde in den Workflow erstellt.

click_item.jpg


Schritt 5: Extrahieren Daten von der Detailseite

  • Selektieren Sie Ihre gewünschten Daten.

  • Klicken Sie auf „Extract the text of the element“ oder „Extract the URL of the select image“.

6.gif

  • Klicken Sie doppelt auf den Feldname, um ihn umzubennen. Oder können Sie auf ... klicken zum Löschen des Feldes.

7.gif
  • Erstellen Sie die Wartezeit für „Extract Data“.

wait_time.jpg

Der automatisch generiert XPath der Datenfelder könnten nicht funktionieren, nachdem die Webseite aktualisiert hat. Wir sollten deshalb die XPaths der Felder modifizieren. In diesem Fall haben wir schon einige nützliche XPath für solche Webseiten vorbereitet.

  • Schalten Sie Ihre Datenvorschau zur „Vertical View“ um.

  • Klicken Sie doppelt auf den XPath zur Modifizierung.

  • Ersetzen Sie ihn mit einem der folgenden XPath

vertical.jpg

Product name: //h1

Price: //span[@itemprop="price"]

Product details: //h2[text()='Product details']/../following-sibling::div[1]

Specifications: //h2[text()='Specifications']/../following-sibling::div[1]


Schritt 6: Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

  • Klicken auf „Save“

  • Klicken auf „Run“ rechts oben

  • Wählen „Run on your device“, um die Aufgabe mit Ihrem lokalen Gerät auszuführen.

Notiz: Walmart-Aufgaben können wegen der CAPTCHA-Probleme nicht in der Cloud ausgeführt werden. Sie können nun nur sie auf Ihrem Gerät ausführen.

12.png


Hier sind die Beispieldaten.

13.png

Hat dies Ihre Frage beantwortet?