undefined

Scrapen Geschäftsdetails aus Yell  

Friday, June 11, 2021 11:09 AM

In diesem Tutorial zeigen wir Ihnen, wie Sie Geschäftsdetails aus Yell.com mit Octoparse scrapen können.

 

Zur Demonstration verwenden wir die folgende URL als Beispiel.  

https://www.yell.com/ucs/UcsSearchAction.do?scrambleSeed=627415385&keywords=dentists&location=London

 

Wir werden Daten wie Titel, Adresse, Telefonnummer und Website von der Webseite scrapen.

 

 

Hier sind die wichtigsten Schritte in diesem Tutorial:  [Aufgabendatei hier herunterladen]

 

1. "Go To Web Page" - Öffnen die Ziel-Webseite

2. Detektieren automatisch die Daten von der Webseite - Erstellen einen Workflow

3. Extrahieren Daten

4. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

 

 

 

1. "Go To Web Page" - Öffnen die Ziel-Webseite

 

• Geben Sie die Beispiel-URL ein und klicken Sie auf "Start".

 1.png

 

 

2. Detektieren automatisch die Daten von der Webseite - Erstelleneinen Workflow

 

• Klicken auf "Auto-detect web page data" und warten, bis die Detektion abgeschlossen ist

 2.gif

 

• Überprüfen Sie die Datenfelder in der Datenvorschau, und Sie können auch die unerwünschten Felder löschen mceclip13.png oder Felder umbenennen mceclip14.png, falls erforderlich.

 2.png

 

• Klicken auf "Create workflow"

 2.1.png

 

Octoparse wird automatisch einen Workflow mit den detektierten Datenfeldern generieren.

 mceclip0.png

 

 

3. Extrahieren Daten

 

Es könnte einige Informationen geben, die nicht von der automatischen Detektion detektiert werden, die wir manuell auswählen müssen.

 

• Wählen die "Website" des ersten Unternehmens auf der Suchergebnisseite aus (Beachten Sie, dass Sie nur Daten aus dem rot hervorgehobenen Bereich auswählen können)

• Wählen "Extract the URL of the selected link"

 3.1.png

 

• Öffnen die Einstellungen der Aktion "Extract Data" und geben den neuen XPath des Feldes ein //a[enthält(text(),'Website')]

 3.2.gif

  

Das Scraping von Telefonnummern ist in diesem Fall kompliziert, da die Nummern nicht auf der Webseite sichtbar sind, sondern im HTML-Code gespeichert sind. Wir können ein Feld scrapen und den XPath des Feldes ändern, um die Telefonnummer zu erhalten.

 

• Wählen die Schaltfläche "Call" und extrahieren den Text

 3.2.png

 

• Öffnen die Einstellungen der Aktion "Extract Data" und geben den neuen XPath ein //span[@itemprop="telephone"]

 3_1.gif

 

Tipps!

Die E-Mail-Adresse kann in diesem Fall nicht gescrapt werden, da die Webseite die E-Mail-Adresse nicht in ihrem Quellcode enthält. Ein Klick auf die E-Mail-Schaltfläche würde Sie auf eine Seite leiten, auf der Sie Nachrichten senden können.

 

• Benennen die Felder bei Bedarf um

 3.3.gif

 

 

4. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

 

• Klicken auf "Save"

• Klicken auf "Run"

• Wählen "Run on your device", um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder Wählen "Run in the Cloud", um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer)

 4.png

 

Sie können die Ergebnisdaten in Formate wie EXCEL, CVS, JSON oder in Ihre Datenbank exportieren.

 

Hier sind die Beispieldaten.

 mceclip0.png

 

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen