Alle Kollektionen
Praktische Einführung
Lead-Generierung
Scraping der Geschäftsdetails von Yell (V8.4)
Scraping der Geschäftsdetails von Yell (V8.4)
Vor über einer Woche aktualisiert

Yell ist das führende Online-Branchenbuch in Großbritannien. In diesem Tutorial zeigen wir Ihnen, wie Sie Geschäftsdetails aus Yell.com mit Octoparse scrapen können.

Zur Demonstration verwenden wir die folgende URL als Beispiel.

Wir werden Daten wie Titel, Adresse, Telefonnummer und Website von der Webseite scrapen.

In der rechten Seitenleiste sind die wichtigsten Schritte in diesem Tutorial. [Aufgabendatei hier herunterladen]


1. „Go To Web Page“ - Öffnen der Ziel-Webseite

  • Geben Sie die Beispiel-URL ein und klicken Sie auf „Start“.

1.png


2. „Auto-detect web page data“ - um den Workflow zu erstellen

  • Klicken Sie auf „Auto-detect web page data“.

  • Warten Sie, bis die Detektion abgeschlossen ist.

2.png
  • Gehen Sie zur Datenvorschau, um zu sehen, ob Sie mit dem aktuellen Output zufrieden sind.

    • Sie können direkt die ungewünschten Datenfelder löschen, indem Sie auf „trash“-Button klicken.

    • Sie können auch durch Klick auf „edit“-Button direkt die Datenfelder-Namen modifizieren.

3.png
  • Kreuzen Sie die Option von „Add a page scroll“ nicht an.

  • Klicken Sie auf „Create workflow“.

4.png

Octoparse würde automatisch einen Workflow mit den Datenfelder generieren, die es detektiert hat.

5.png


3. „Extract data“ - Datenextraktion von Telefonnummern und Webseiten

Es gibt hier einige Information, die nicht durch der automatischen Erkennungsfunktion detektiert wird. Und wir können sie selektieren, um sie manuell zu scrapen.

  • Wählen Sie die Website der ersten Unternehmen auf der Webseite (notieren, dass Sie im in Rot hervorgehobenen Bereich dieses Datenfeld auswählen sollten).

  • Selektieren Sie „Extract the URL of the selected link“.

7.png
  • Klicken Sie auf ... und modifizieren Sie den XPath der URL als //a[contains(text(),'Website')].

  • Klicken Sie auf „Apply“ zur Speicherung.

_1.gif

Scraping der Telefonnummern ist in diesem Fall schwierig, da die Nummern nicht auf der Webseite sichtbar sind, sondern im HTML-Code gespeichert sind. Wir können ein Feld scrapen und den XPath des Feldes ändern, um die Telefonnummer zu erhalten.

  • Selektieren Sie den „Call“ Button auf der Seite und wählen Sie „Extract the text of the element“.

8.png
  • Klicken Sie auf ... und modifizieren Sie den XPath vom Feld: //span[@itemprop="telephone"]

  • Klicken Sie auf „Apply“ zur Speicherung.

_2.gif

Tipps: Die E-Mail-Adresse können in diesem Fall gescrapt werden, weil diese Webseite keine E-Mail-Adresse in ihrem Code enthält. Klicken Sie auf den E-Mail Button, der Ihnen direkt Information erhalten lässt.

  • Benennen Sie bei Bedarf die Felder um.

_3.gif


4. Starten der Extraktion - Ausführung der Aufgabe und Erhalten der Daten

  • Klicken Sie auf „Save“.

  • Klicken Sie auf „Run“.

  • Wählen Sie „Run on your device“, um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder Wählen „Run in the Cloud“, um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer)

Sie können die Ergebnisdaten in angebotene Formate wie EXCEL, CVS, JSON order in Ihre Datenbank exportieren.


Hier sind die Beispieldaten.

10.png

Hat dies Ihre Frage beantwortet?