Alle Kollektionen
Praktische Einführung
Suchmaschine
Scraping der Suchergebnisse von Google Search
Scraping der Suchergebnisse von Google Search
Vor über einer Woche aktualisiert

Das Scraping von Daten aus einer Suchmaschine ist eine gute Möglichkeit, Informationen zu einem Thema zu sammeln. In diesem Tutorial zeigen wir Ihnen, wie Sie die Suchergebnisse der Google-Suche scrapen.

Sie können viele Aufgabenvorlagen im Hauptbildschirm des Octoparse Scraping-Tools finden und direkt mit der vorgefertigten Google-Suchvorlage beginnen, um Ihre Zeit zu sparen. Mit dieser Funktion müssen Sie keine Scraping-Aufgaben konfigurieren. Für weitere Details können Sie hier nachlesen:

1.png

Sie können auch unseren erweiterten Modus verwenden, um Ihre eigene Aufgabe zu erstellen. Wir werden Daten wie den Titel, die URL und die Beschreibung von der Suchergebnisseite mit Octoparse scrapen.

Zum Nachvollziehen können Sie diese URL im Tutorial verwenden: https://www.google.com/

In der rechten Seitenleiste sind die wichtigsten Schritte in diesem Tutorial. [Aufgabendatei hier herunterladen ]


1. Öffnen Sie die Ziel-Webseite

  • Geben Sie die URL auf der Startseite ein und klicken Sie auf „Start“.

2.png


2. Automatische Detektion der Webseite, um „Enter text“ zu erstellen

  • Klicken Sie auf „Auto-detect web page“ und warten Sie, bis die Detektion abgeschlossen ist.

3.png
  • Wählen Sie „Search with keywords“ auf der Tipps-Platte, und Sie würden die Vorstellungen ansehen, die Ihnen helfen, den Workflow zu erstellen.

4.png

a. „Add a search box“: Klicken Sie auf „Settings“ und selektieren Sie den Suchkasten auf der Webseite.

10.gif

b. „Add a keyword(s)“: Klicken Sie auf den Edit-Button und geben Sie die Schlüsselwörter ein. Ein Wort per Linie.

20.gif

c. „Click the search button“: Klicken Sie auf „Click the search button when finishing entering“ und selektieren Sie den Suche-Button auf der Webseite. Schließlich klicken Sie auf „Confirm“ zur Speicherung der Einstellungen.

14.gif

Ein Loop-Item mit einer Aktion von „Enter text“ und einer von „Click Item“ würde im Workflow erstellt:

mceclip0.png


3. Modizifieren der Einstellungen für „Click Item“

  • Klicken Sie auf „Click Item“, um die Optionen-Platte einzutreten.

  • Klicken Sie auf „Open in a new tab“.

  • Verlängern Sie das AJAX-Timeout bei Bedarf.

6.png


4. Automatische Detektion der Suchergebnisseite, um Daten zu scrapen

  • Lassen Sie die Seite erneut automatisch detektieren.

  • Kreuzen Sie die Option von „Add a page scroll“ nicht an.

  • Klicken Sie auf „Create workflow“.

21.gif
  • Klicken Sie doppelt darauf, um die Felder umzubenennen, oder löschen Sie die Felder, die Sie nicht wünschen.

22.gif

Tipps!

Wenn die automatische Detektionsfunktion ein paar Felder scrapen möchte, ist es viel bequemer, Ihren Ansichtsmodus in Vertikale Ansicht zu wechseln, um die Daten im Stapel zu löschen.

10.png

  • Modifizieren Sie den XPath für Paginierung.

Wenn die automatische Detektionserkennung den Button „NEXT“ nicht lokalisieren kann, können Sie einen genaueren XPath beschreiben, um das Problem zu löschen.

  • Klicken Sie auf „Pagination“ und dann geben Sie diesen XPath unter dem Kasten vom Matching-XPath ein: //span[contains(text(),"Next")]

google.png

Tipps!

Überprüfen Sie mehr Details über XPath hier: Was ist XPath und wie zu verwenden?


5. Einrichten einer Wartezeit, um die Scraping-Geschwindigkeit zu verlangsamen

Die Google-Suche wendet eine Anti-Scraping-Technik an und würde reCAPTCHA zur Lösung anzeigen. Wir müssen das Scraping durch Einstellen der Wartezeit verlangsamen.

  • Klicken Sie auf „Extract Data“.

  • Selektieren Sie „Options“.

  • Klicken Sie auf „Wait before action“.

  • Stellen Sie die Wartezeit als 1-3s ein und klicken Sie auf „Apply“ zu bestätigen.

7.png


6. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

  • Klicken Sie auf „Save“.

  • Klicken Sie auf „Run“.

  • Wählen Sie „Run on your device“, um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder wählen Sie „Run in the Cloud“, um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer).

8.png


Hier sind Daten für die Beispielaufgabe.

13.png

Hat dies Ihre Frage beantwortet?