Octoparse

Yell ist das führende Online-Branchenbuch in Großbritannien. In diesem Tutorial zeigen wir Ihnen, wie Sie Geschäftsdetails aus Yell.com mit Octoparse scrapen können.

Zur Demonstration verwenden wir die folgende URL als Beispiel.  

<a href="https://www.yell.com/ucs/UcsSearchAction.do?scrambleSeed=627415385&amp;keywords=dentists&amp;location=London" rel="nofollow noopener noreferrer" target="_blank">https://www.yell.com/ucs/UcsSearchAction.do?scrambleSeed=627415385&amp;keywords=dentists&amp;location=London</a>

Wir werden Daten wie Titel, Adresse, Telefonnummer und Website von der Webseite scrapen.

In der rechten Seitenleiste sind die wichtigsten Schritte in diesem Tutorial. [Aufgabendatei <a href="https://drive.google.com/drive/folders/14zntu-V0oWMpMBxMbBr0Kb4jAbBeMJtR" rel="nofollow noopener noreferrer" target="_blank">hier</a> herunterladen]

___________________________________________________________

1. „Go To Web Page“ - Öffnen der Ziel-Webseite

Geben Sie die Beispiel-URL ein und klicken Sie auf „Start“.

- Geben Sie die Beispiel-URL ein und klicken Sie auf „Start“.

2. „Auto-detect web page data“ - um den Workflow zu erstellen

Klicken Sie auf „Auto-detect web page data“.

Warten Sie, bis die Detektion abgeschlossen ist.

- Klicken Sie auf „Auto-detect web page data“.
- Warten Sie, bis die Detektion abgeschlossen ist.

Gehen Sie zur Datenvorschau, um zu sehen, ob Sie mit dem aktuellen Output zufrieden sind.

- Sie können direkt die ungewünschten Datenfelder löschen, indem Sie auf „trash“-Button klicken.
- Sie können auch durch Klick auf „edit“-Button direkt die Datenfelder-Namen modifizieren.

- Gehen Sie zur Datenvorschau, um zu sehen, ob Sie mit dem aktuellen Output zufrieden sind.
 - Sie können direkt die ungewünschten Datenfelder löschen, indem Sie auf „trash“-Button klicken.
 - Sie können auch durch Klick auf „edit“-Button direkt die Datenfelder-Namen modifizieren.

Kreuzen Sie die Option von „Add a page scroll“ nicht an.

Klicken Sie auf „Create workflow“.

- Kreuzen Sie die Option von „Add a page scroll“ nicht an.
- Klicken Sie auf „Create workflow“.

Octoparse würde automatisch einen Workflow mit den Datenfelder generieren, die es detektiert hat.

3. „Extract data“ - Datenextraktion von Telefonnummern und Webseiten

Es gibt hier einige Information, die nicht durch der automatischen Erkennungsfunktion detektiert wird. Und wir können sie selektieren, um sie manuell zu scrapen.

Wählen Sie die Website der ersten Unternehmen auf der Webseite (notieren, dass Sie im in Rot hervorgehobenen Bereich dieses Datenfeld auswählen sollten).

Selektieren Sie „Extract the URL of the selected link“.

- Wählen Sie die Website der ersten Unternehmen auf der Webseite (notieren, dass Sie im in Rot hervorgehobenen Bereich dieses Datenfeld auswählen sollten).
- Selektieren Sie „Extract the URL of the selected link“.

Klicken Sie auf ... und modifizieren Sie den XPath der URL als //a[contains(text(),'Website')].

Klicken Sie auf „Apply“ zur Speicherung.

- Klicken Sie auf ... und modifizieren Sie den XPath der URL als //a[contains(text(),'Website')].
- Klicken Sie auf „Apply“ zur Speicherung.

Scraping der Telefonnummern ist in diesem Fall schwierig, da die Nummern nicht auf der Webseite sichtbar sind, sondern im HTML-Code gespeichert sind. Wir können ein Feld scrapen und den XPath des Feldes ändern, um die Telefonnummer zu erhalten.

Selektieren Sie den „Call“ Button auf der Seite und wählen Sie „Extract the text of the element“.

- Selektieren Sie den „Call“ Button auf der Seite und wählen Sie „Extract the text of the element“.

Klicken Sie auf ... und modifizieren Sie den XPath vom Feld: //span[@itemprop="telephone"]

- Klicken Sie auf ... und modifizieren Sie den XPath vom Feld: //span[@itemprop="telephone"]
- Klicken Sie auf „Apply“ zur Speicherung.

Tipps: Die E-Mail-Adresse können in diesem Fall gescrapt werden, weil diese Webseite keine E-Mail-Adresse in ihrem Code enthält. Klicken Sie auf den E-Mail Button, der Ihnen direkt Information erhalten lässt.

4. Starten der Extraktion - Ausführung der Aufgabe und Erhalten der Daten

Wählen Sie „Run on your device“, um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder Wählen „Run in the Cloud“, um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer)

- Klicken Sie auf „Save“.
- Klicken Sie auf „Run“.
- Wählen Sie „Run on your device“, um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder Wählen „Run in the Cloud“, um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer)

Sie können die Ergebnisdaten in angebotene Formate wie EXCEL, CVS, JSON order in Ihre Datenbank exportieren.

Scraping der Geschäftsdetails von Yell (V8.4)

Go to Octoparse.com

Octoparse DE

Octoparse FR

Octoparse ES

Octoparse JP

Download

Blog

API Docs

Finden Sie Antworten und erhalten Sie Hilfe vom Intercom-Support und von Community-Experten