Scrapen Produktdaten von Canadian Tire
Wednesday, June 09, 2021 11:23 AMIn diesem Tutorial zeigen wir Ihnen, wie Sie Produktdaten von canadiantire.com mit Octoparse sammeln können.
In diesem Fall können Sie einfach unsere "Aufgabenvorlage" für Canadian Tire verwenden. Sie brauchen keine Aufgabe selbst zu konfigurieren, sondern nur einige Parameter einzugeben. Für weitere Details können Sie hier nachsehen: Aufgabenvorlagen
Wir werden den Titel, den Preis, den Bestand usw. von dieser Website scrapen. Zum Üben verwenden wir diese URL als Beispiel:
Hier sind die wichtigsten Schritte in diesem Tutorial: [Aufgabendatei hier herunterladen]
1. "Go To Web Page" - Öffnen die Ziel-Webseite
2. Detektieren automatisch die Daten von der Webseite - Erstellen einen Workflow
3. Klicken in jeden Produktlink, um detailliertere Informationen zu scrapen
4. Extrahieren Daten aus der Produkt-Detailseiten
5. Stellen eine Wartezeit ein, um die Scraping-Geschwindigkeit zu verlangsamen
6. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten
1. "Go To Web Page" - Öffnen die Ziel-Webseite
• Geben Sie die Beispiel-URL ein und klicken Sie auf "Start".
Tipps!
Wenn Sie Pop-up-Fenster auf der Webseite sehen, wechseln Sie bitte in den Browse-Modus, indem Sie auf klicken. Vergessen Sie nicht, den Browse-Modus danach wieder auszuschalten.
2. Detektieren automatisch die Daten von der Webseite - Erstellen einen Workflow
• Klicken auf "Auto-detect web page data" und warten, bis die Detektion abgeschlossen ist
(Es kann lange dauern, da die Webseite die Techinik „Unendliches Scrollen“ benutzt.)
• Klicken auf "Edit" unter "Click on a Load More button", um die Anzahl des Klicks zu ändern. Es hängt davon ab, wie viele Produkte Sie scrapen möchten (Die Voreinstellung ist "1" Mal.)
• Löschen unerwünschte Felder oder Benennen die Felder bei Bedarf um
• Klicken auf "Create workflow"
3. Klicken in jeden Produktlink, um detailliertere Informationen zu erhalten
• Wählen “Click on link(s) to scrape the linked page(s)”
• Wählen "Click on an extracted data field" und dann "Title_URL" from the drop-down menu
• Klicken auf "Confirm"
4. Extrahieren Daten aus der Produkt-Detailseiten
• Wählen Informationen auf der Webseite aus
• Wählen "Extract text of the selected element"
• Wiederholen die obigen Schritte, um alle benötigten Daten zu extrahieren
• Benennen die Felder bei Bedarf um
5. Stellen eine Wartezeit ein, um die Scraping-Geschwindigkeit zu verlangsamen
Die Website wendet die Anti-Scraping-Technik an und würde Ihren Zugriff verweigern, wenn Sie zu schnell scrapen. Wir müssen das Scraping verlangsamen, indem wir die Wartezeit einstellen.
• Doppelklicken auf "Extract Data1", um die Einstellung zu öffnen
• Wählen "Wait before action"
• Stellen die Wartezeit auf 7-10s ein
6. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten
• Klicken auf "Save"
• Klicken auf "Run"
• Wählen "Run on your device ", um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder Wählen "Run in the Cloud
", um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer)
Hier sind die Beispieldaten.