undefined

Scraping Produktinformationen von Target.com (Version 8)  

Thursday, June 10, 2021 2:45 PM

Target.com ist einer der größten Online-Händler in USA. In diesem Tutorial zeigen wir Ihnen, wie Sie die Produktinformationen von Target.com scrapen können.

 

Aufgrund der Struktur der Website müssen wir 2 Aufgaben erstellen, um das Scraping-Ziel zu erreichen. Wir werden zuerst in Aufgabe 1 alle URLs von Detailseiten scrapen und dann die detaillierten Produktinformationen, wie z. B. den Produkttitel, den Preis und die Beschreibung von der Produktdetail-Seite in Aufgabe 2 extrahieren. Indem wir die Aufgabe in zwei aufteilen, wird der Extraktionsprozess deutlich beschleunigen, insbesondere wenn wir Cloud-Extraktion verwenden.

 

Zum Nachvollziehen können Sie diese URL im Tutorial verwenden:

https://www.target.com/c/milk-substitutes-dairy-grocery/-/N-5xszh?lnk=MilkMilkSubstit

 

 

Hier sind die wichtigsten Schritte in diesem Tutorial:  [Aufgabendatei hier external-link-symbol-1.png herunterladen]

 

Aufgabe 1: Extrahieren alle URLs von Detailseiten auf den Suchergebnisseiten

 

1. "Go To Web Page" - Öffnen die Ziel-Webseite

2. Detektieren automatisch die Daten von der Webseite - Erstellen einen Workflow

3. Stellen AJAX-Wartezeit für die Aktion "Click to Paginate" ein

4. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

 

Aufgabe 2: Scrapen die Produktdaten aus den gescrapten URLs: [Aufgabendatei hier external-link-symbol-1.png herunterladen]

 

1. Geben die gescrapten URLs ein - Öffnen die Detailseiten

2. Extrahieren Daten - Wählen die Daten für die Extraktion

3. Stellen die Wartezeit ein, um das Scraping zu verlangsamen

4. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

 

 

Aufgabe 1: Extrahieren alle URLs von Detailseiten auf den Suchergebnisseiten

 

1. "Go To Web Page" - Öffnen die Ziel-Webseite

 

• Geben Sie die URL auf der Startseite ein und klicken Sie auf Start

 9614561561.png

 

2. Detektieren automatisch die Daten von der Webseite - Erstelleneinen Workflow

 

• Klicken auf "Auto-detect web page data" und warten, bis die Detektion abgeschlossen ist

 559595596.gif

 

• Überprüfen Sie die Datenfelder in der Datenvorschau, und Sie können auch die unerwünschten Felder löschen mceclip13.png oder Felder umbenennen mceclip14.png, falls erforderlich

2020-10-05_20-42-31.png

• Klicken auf "Create workflow"

 43543543.png

 

3. Stellen AJAX-Wartezeit für die Aktion "Click to Paginate"ein

 

Die Website verwendet die Technik „AJAX“, um die nächsten Seiten zu laden, daher müssen wir eine AJAX-Wartezeit einstellen.

 

• Öffnen die Einstellungen der Aktion "Click to Paginate"

• Wählen "Load with AJAX"

• Stellen die Wartezeit auf 7-10s ein

 3.1.gif

 

 

4. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

 

• Klicken auf "Save"

• Klicken auf "Run"

• Wählen "Run on your device", um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder Wählen "Run in the Cloud", um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer)

 9_59_25_6256.gif

 

 

Hier sind die Beispieldaten von Aufgabe 1.

56156156156.png

 

 

 

Aufgabe 2: Scrapen die Produktdaten aus den gescrapten URLs

 

1. Geben die gescrapten URLs ein - Öffnen die Detailseiten

 

In Aufgabe 1 haben wir bereits URLs von Detailseiten gescrapt.

 

• Klicken auf "New +", um Aufgabe 2 zu erstellen

• Wählen "Enter manually", und fügen Sie die gescrapten URLs ein

• Klicken auf "URL speichern"

 697689.gif

 

Tipps!

Es gibt drei Möglichkeiten, mehrere URLs in eine Aufgabe zu importieren (Die importierten URLs sollen nicht mehr als eine Million sein.).

Sie können auch die URLs aus der Aufgabe 1 kopieren und sie dann in den Textfeld "Website" einfügen. Weitere Informationen finden Sie hier: Importieren mehrere URLs

 

 

2. Extrahieren Daten - Wählen die Daten für die Extraktion

 

• Wählen Informationen auf der Webseite aus

• Wählen "Extract text of the selected element"

• Wiederholen die obigen Schritte, um alle benötigten Daten zu extrahieren

 43432432.gif

 

• Klicken auf mceclip14.png, um die Feldnamen zu ändern (Optional)

 322342.png

3. Stellen die Wartezeit ein, um das Scraping zu verlangsamen

 

• Öffnen die Einstellungen der Aktion "Extract Data"

• Markieren "Wait before action"

• Stellen die Wartezeit als 7-10s ein

 6.2.gif

 

 

4. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

 

• Klicken auf "Save"

• Klicken auf "Run"

• Wählen "Run on your device", um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder Wählen "Run in the Cloud", um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer)

 2323213.png

 

Hier sind die Beispieldaten.

 432432.png

 

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen