Yell ist das führende Online-Branchenbuch in Großbritannien. In diesem Tutorial zeigen wir Ihnen, wie Sie Geschäftsdetails aus Yell.com mit Octoparse scrapen können.
Zur Demonstration verwenden wir die folgende URL als Beispiel.
https://www.yell.com/ucs/UcsSearchAction.do?scrambleSeed=627415385&keywords=dentists&location=London
Wir werden Daten wie Titel, Adresse, Telefonnummer und Website von der Webseite scrapen.
In der rechten Seitenleiste sind die wichtigsten Schritte in diesem Tutorial. [Aufgabendatei hier herunterladen]
1. „Go To Web Page“ - Öffnen der Ziel-Webseite
Geben Sie die Beispiel-URL ein und klicken Sie auf „Start“.
2. „Auto-detect web page data“ - um den Workflow zu erstellen
Klicken Sie auf „Auto-detect web page data“.
Warten Sie, bis die Detektion abgeschlossen ist.
Gehen Sie zur Datenvorschau, um zu sehen, ob Sie mit dem aktuellen Output zufrieden sind.
Sie können direkt die ungewünschten Datenfelder löschen, indem Sie auf „trash“-Button klicken.
Sie können auch durch Klick auf „edit“-Button direkt die Datenfelder-Namen modifizieren.
Kreuzen Sie die Option von „Add a page scroll“ nicht an.
Klicken Sie auf „Create workflow“.
Octoparse würde automatisch einen Workflow mit den Datenfelder generieren, die es detektiert hat.
3. „Extract data“ - Datenextraktion von Telefonnummern und Webseiten
Es gibt hier einige Information, die nicht durch der automatischen Erkennungsfunktion detektiert wird. Und wir können sie selektieren, um sie manuell zu scrapen.
Wählen Sie die Website der ersten Unternehmen auf der Webseite (notieren, dass Sie im in Rot hervorgehobenen Bereich dieses Datenfeld auswählen sollten).
Selektieren Sie „Extract the URL of the selected link“.
Klicken Sie auf ... und modifizieren Sie den XPath der URL als //a[contains(text(),'Website')].
Klicken Sie auf „Apply“ zur Speicherung.
Scraping der Telefonnummern ist in diesem Fall schwierig, da die Nummern nicht auf der Webseite sichtbar sind, sondern im HTML-Code gespeichert sind. Wir können ein Feld scrapen und den XPath des Feldes ändern, um die Telefonnummer zu erhalten.
Selektieren Sie den „Call“ Button auf der Seite und wählen Sie „Extract the text of the element“.
Klicken Sie auf ... und modifizieren Sie den XPath vom Feld: //span[@itemprop="telephone"]
Klicken Sie auf „Apply“ zur Speicherung.
Tipps: Die E-Mail-Adresse können in diesem Fall gescrapt werden, weil diese Webseite keine E-Mail-Adresse in ihrem Code enthält. Klicken Sie auf den E-Mail Button, der Ihnen direkt Information erhalten lässt.
Benennen Sie bei Bedarf die Felder um.
4. Starten der Extraktion - Ausführung der Aufgabe und Erhalten der Daten
Klicken Sie auf „Save“.
Klicken Sie auf „Run“.
Wählen Sie „Run on your device“, um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder Wählen „Run in the Cloud“, um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer)
Sie können die Ergebnisdaten in angebotene Formate wie EXCEL, CVS, JSON order in Ihre Datenbank exportieren.
Hier sind die Beispieldaten.