undefined

Scrapen von Produktinformationen aus Tokopedia (Version 8)

Friday, May 28, 2021 4:25 PM

In diesem Tutorial zeigen wir Ihnen, wie Sie Produktinformationen, wie z.B. Produkttitel, Preis und Bewertung auf Tokopedia (einer indonesischen E-Commerce-Seite) sammeln können. Es gibt zwei Möglichkeiten, dies mit Octoparse zu erledigen.

 

 

Option 1) Verwendung einer Aufgabenvorlage

Octoparse bietet vorgefertigte Vorlagen, mit denen Sie schnell Produkt-URLs und Produktdetails aus Tokopedia extrahieren können. Geben Sie einfach die Parameter ein und beginnen Sie sofort mit Scraping der Daten. Wenn Sie die Vorlagen verwenden, müssen Sie die Aufgabe nicht selbst zu erstellen.

 

Um auf die Tokopedia-Vorlagen zuzugreifen, klicken Sie auf der Startseite auf "Mehr" und wählen dann "Produkte". Dann können zwei Vorlagen für Tokopedia finden.

 mceclip2.png

Einfach gesagt, hilft Ihnen die Vorlage "Produkt-URL" dabei, die URLs der Produkt-Detailseiten aus den Suchergebnissen zu sammeln. Und die "Produktdaten"-Vorlage hilft Ihnen, detaillierte Produktinformationen von der zuvor erfassten URLs zu erfassen. Wählen Sie die Vorlage "Produkt-URL" für die Beispielaufgabe. In diesem Beitrag finden Sie eine Anleitung zur Verwendung einer Vorlage.

 

Tipps!

• Bei der Verwendung der Vorlagen ist die Reihenfolge wichtig. Um die Vorlage "Produktdaten" auszuführen, benötigen Sie zuerst eine Liste der Ziel-URLs der Produktseite. Verwenden Sie also zuerst die Vorlage "Produkt-URL", um die URLs für die interessierenden Produkte zu erhalten, und führen Sie dann die Vorlage "Produktdaten" mit den erfassten URLs für weitere Produktdetails aus.

• Die Vorlage von Tokopedia kann derzeit nur auf lokalem Gerät ausgeführt werden.

• Aufgrund der Beschaffenheit des Webs, verändern Webseiten sich ständig. Wenn Sie also feststellen, dass die Vorlagen veraltet sind oder nicht mehr funktionieren, lassen Sie es uns bitte wissen.

 

Option 2) Bauen Sie Ihren eigenen Tokopedia-Crawler

Wenn Sie die Vorlagen nicht mögen oder die Vorlagen nicht funktionieren, können Sie auch Ihren eigenen Scraping-Crawler einrichten.

Mit der automatischen Detektion von Octoparse ist die Erstellung eines eigenen Crawlers recht einfach. Lernen wir Schritt für Schritt, wie es gemacht wird.

Für dieses Beispiel haben wir zwei Scraping-Aufgaben erstellt, eine zur Erfassung der Produkt-URLs aus den Suchergebnissen, und die andere zum Erhalten der Produktdetails von jeder Produktseite.

Als Regel gilt es: Wenn Sie eine relativ große Datenmenge extrahieren möchten, insbesondere bei einer E-Commerce-Website, empfiehlt es sich normalerweise, den Job in zwei Aufgaben aufzuteilen. Das Scraping mit einer URL-Liste ist effizienter, wenn es in der Cloud ausgeführt wird. Außerdem wissen Sie, wenn Sie die URL-Liste zur Hand haben, ob irgendwelche Produkte ausgelassen wurden.

Wir verwenden die Suchergebnis-URL unten für das Beispiel.

https://www.tokopedia.com/search?st=product&q=usb

 

 

 

Aufgabe 1: Erstellen Sie eine Aufgabe, um die Produkt-URLs von der Suchergebnisseite zu scrapen

 

1. "Go To Web Page": Öffnen Sie der gewünschten Webseite

2. Erstellen Sie ein "Loop-Item"durch automatische Detektion der Webseitendaten

3. Erstellen Sie eine Paginieren-Loop: Scrapen Sie alle Daten von mehreren Seiten.

4. Ziehen Sie das "Loop-Item" in die "Paginieren", wenn es sich nicht an der richtigen Stelle befindet

5. Führen Sie die Aufgabe auf Ihrem Gerät aus und warten Sie, bis die Aufgabe beendet.

 

1. "Go To Web Page": Öffnen Sie der gewünschten Webseite

 

• Geben Sie die Ziel-URL in die Suchleiste ein und klicken Sie auf "Start".

mceclip1.png

 

2. Erstellen Sie ein "Loop-Item"durch automatische Detektion der Webseitendaten

 

• Klicken Sie auf "Automatisch Website detektieren" und warten Sie, bis die Detektion abgeschlossen ist

 2.png

 

• Modifizieren Sie die Einstellungen für den Seitenl-Scrollen und klicken Sie auf "Workflow erstellen"

 

 3.gif

 

 

3. Erstellen Sie eine Paginieren-Loop: Scrapen Sie alle Daten von mehreren Seiten.

• Scrollen Sie nach unten und klicken Sie auf den Button ">"  

• Klicken Sie in „Tipps“ auf „Loop klicken auf einzelnen Button“

 mceclip2.png

 

Da die Website „Tokopedia“ die AJAX-Technik verwendet, um den neuen Inhalt zu laden, müssen wir "AJAX laden" einrichten, damit Octoparse nicht stecken bleibt.

• Richten Sie "AJAX Timeout" ein (zur Demonstration stellen wir "10s" ein)

 

1.png

• Richten Sie „Scrollen nach unten“ in der "Klicken zu paginieren" Aktion

 2.gif

 

Tipps!

Möchten Sie mehr über AJAX erfahren, lesen Sie bitte nach:

• Umgang mit AJAX

• Warum hält Octoparse nach dem Klick auf "Weiter" an?

• Video: Octoparse: AJAX 101external-link-symbol-1.png

 

4. Ziehen Sie das "Loop-Item" in die "Paginieren", wenn es sich nicht an der richtigen Stelle befinden

Loop_item1.gif

 

 

5. Führen Sie die Aufgabe auf Ihrem Gerät aus und warten Sie, bis die Aufgabe beendet.

mceclip9.png

 

 

6. Exportieren Sie die Daten in eine Exceldatei

 mceclip11.png

 

Aufgabe 2: Scrapen Sie Produktdetails von jeder Produktseite

 

1. "Go To Web Page" - mit dem fortgeschrittenen Modus

2. Extrahieren Sie Daten von der Webseite

3. Benennen Sie die Datenfelder um und klicken Sie auf den Button"OK", um alle Änderungen zu speichern

4. Führen Sie die Aufgabe auf Ihrem Gerät aus

 

 

1. Gehen Sie zur Webseite - mit dem fortgeschrittenen Modus

 

• Starten Sie eine neue Aufgabe mit dem Button "Neu+".

mceclip12.png

 

• Kopieren Sie die URLs aus der exportierten Datendatei und fügen Sie die URL-Liste in das Website-Feld ein und klicken Sie auf Speichern

mceclip0.png

 

 

2. Extrahieren Sie Daten von der Webseite

 

• Klicken Sie auf einen beliebigen Text auf der Seite und wählen Sie "Extrahiere den Text des ausgewählten Elements"

 Extract_.gif

 

Tipps:

Um andere Datenformate zu extrahieren, können Sie lesen:

Elementtext/URL/Bild/HTML/Attribut extrahieren

 

3. Benennen Sie die Datenfelder um und klicken Sie auf den Button"OK", um alle Änderungen zu speichern

mceclip14.png

 

 

 

4. Führen Sie die Aufgabe auf Ihrem Gerät aus

Hier sind Daten für die Beispielaufgabe.

 mceclip5.png

 

 

 

Autor: Lesley

 

Herausgeber: Yina

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen