undefined

Scrapen Suchergebnisse von Bing  

Wednesday, June 09, 2021 12:27 PM

 In diesem Tutorial zeigen wir Ihnen, wie Sie Suchergebnisse von Bing.com scrapen können.

 

Für Bing können Sie unsere "Aufgabenvorlage" benutzen. Alles, was Sie brauchen, ist die Eingabe einiger Parameter und die Aufgabe ist fertig. Für weitere Details schauen Sie bitte hier nach: Aufgabenvorlagen external-link-symbol-1.png.

 mceclip0.png

 

Zum Nachvollziehen können Sie diese URL im Tutorial verwenden:

http://www.bing.com/search?q=Web+scraping&form=QBLHVN&sp=-1&pq=web+scraping&sc=8-12&qs=n&sk=&cvid=0F966DDFA0C4442CA6957B085350A50D

 

Wir werden Daten wie den Titel, die URL und die Beschreibung aus der Suchergebnisliste mit Octoparse scrapen.

 

Hier sind die wichtigsten Schritte in diesem Tutorial: [Aufgabendatei hier  herunterladen]

 

1. "Go To Web Page" - Öffnen die Ziel-Webseite

2. Erstellen ein „Paginierung-Loop“ - Scrapen alle Ergebnisse von mehreren Seiten

3. Extrahieren Daten - Scrapen bestimmte Elemente aus jeder Seite

4. Führen Sie Ihre Aufgabe aus - Erhalten die gewünschten Daten

 

 

 

1. "Go To Web Page" - Öffnen die Ziel-Webseite

 

• Geben Sie die Beispiel-URL ein und klicken Sie auf "Start".

 mceclip0.png

 

 

2. Erstellen ein „Paginierung-Loop“- Scrapen alle Ergebnisse von mehreren Seiten

 

• Scrollen nach unten und klicken auf den Button ">" auf der Webseite

• Klicken auf "Loop click single URL" in Tipps

 

Nachdem die Aktion "Pagination" erstellt wurde, können Sie überprüfen, ob die Paginierung gut funktioniert, indem Sie manuell auf die Aktionen "Pagination" und "Click to Paginate" im Workflow klicken (wie das GIF zeigt).

 paginate.gif

 

 

3. Extrahieren Daten - Scrapen bestimmte Elemente aus jeder Seite

 

Beginnen wir mit dem ersten Element in der Suchergebnisliste zu scrapen, die keine Anzeige ist.

 

• Klicken auf den Titel des Elements auf der Seite

• Klicken auf "Select all" in Tipps

mceclip1.png

 

 

 

Die ähnlichen Elemente werden erfolgreich ausgewählt.

 

• Wählen "Extract text of the selected elements" in "Tipps"

mceclip2.png

 

 

 

Wenn alle Abschnitte rot hervorgehoben sind, bedeutet dies, dass der Schritt „Loop“ erfolgreich erstellt wird. Es wird auch ein Feld mit dem Titel generiert. Sie können das beibehalten.

 

• Wählen ein Element aus der Liste von „Loop“ aus, und das ausgewählte Element wird sofort blau hervorgehoben.

• Klicken auf den Titel des Eintrags

• Wählen "Extract the URL of the selected link" in "Tipps

• Wenn Sie die Beschreibung benötigen, klicken Sie auf den Text und wählen Sie dann  "Extract the text of the selected element"

loop_extract_data_final_latest.gif

 

• Sie können auch einige vordefinierte Datenfelder über das "+"-Symbol hinzufügen. In diesem Fall habe ich "Current date & time" gewählt, um die Zeit der Extrahierung zu erhalten.

 mceclip3.png

 

• Wenn Sie den Feldnamen umbenennen möchten, klicken Sie einfach auf das Symbol

 mceclip4.png

 

Hier bemerken wir, dass einige Anzeigen immer noch extrahiert werden, aber wir brauchen die Anzeigen nicht. Daher können wir den XPath ändern, damit nur die Element, die wir brauchen, lokalisiert werden.

 

• Klicken auf  und geben den neuen XPath //li[@class='b_algo'] ein

• Klicken auf "OK"

 3.png

 

 

Tipps!

Der modifizierte XPath funktioniert besser als der automatisch generierte XPath und bietet mehr Flexibilität und Genauigkeit.

Wenn Sie mehr über den XPath erfahren möchten, sind hier einige relevanten Tutorials, die Sie brauchen könnten:

• Anpassen des Elements XPath

• Was ist XPath und wie man es in Octoparse verwendet

 

 

4. Führen Sie Ihre Aufgabe aus - Erhalten die gewünschten Daten

 

• Klicken auf "Save"

• Klicken auf "Run"

• Wählen "Run on your device", um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder Wählen "Run in the Cloud", um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer)

 mceclip8.png

 

Hier sind die Beispieldaten.

 mceclip9.png

 

Viel Spaß bei der Datenjagd!

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen