undefined

Scrapen die Suchergebnisse der Google-Suche

Tuesday, June 01, 2021 10:26 AM

 

Das Scraping von Daten aus einer Suchmaschine ist eine gute Möglichkeit, Informationen zu einem Thema zu sammeln. In diesem Tutorial zeigen wir Ihnen, wie Sie die Suchergebnisse der Google-Suche scrapen.

 

Sie können viele Aufgabenvorlagen im Hauptbildschirm des Octoparse Scraping-Tools finden und direkt mit der vorgefertigten Google-Suchvorlage beginnen, um Ihre Zeit zu sparen. Mit dieser Funktion müssen Sie keine Scraping-Aufgaben konfigurieren. Für weitere Details können Sie hier nachlesen: Aufgaben-Vorlagen external-link-symbol-1.png

 

Sie können auch unseren erweiterten Modus verwenden, um Ihre eigene Aufgabe zu erstellen. Zum Nachvollziehen können Sie diese URL im Tutorial verwenden: https://www.google.com/

 

Wir werden Daten wie den Titel, die URL und die Beschreibung von der Suchergebnisseite mit Octoparse scrapen.

 

Hier sind die wichtigsten Schritte in diesem Tutorial: [Aufgabendatei hier  herunterladen ]

 

1. Öffnen Sie die Ziel-Webseite

2. Automatische Detektion der Webseite, um einen „Texteingabe“ Schritt zu erstellen

3. Ändern Sie die Einstellungen für "Klicken Element"

4. Automatische Detektion der Suchergebnisseite, um Daten zu scrapen

5. Einrichten einer Wartezeit, um die Scraping-Geschwindigkeit zu verlangsamen

6. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

 

 

1. Öffnen Sie die Ziel-Webseite

• Geben Sie die URL auf der Startseite ein und klicken Sie auf „Start“

 1.png

 

2. Automatische Detektion der Webseite, um Schritte zur Texteingabe zu erstellen

• Klicken Sie auf "Automatische Detektion der Webdaten" und warten Sie, bis die Detektion abgeschlossen ist

 auto_detect1.gif

 

• Wählen Sie "Mit Schlüsselwörtern suchen" auf dem Bedienfeld "Tipps" und Sie werden Anweisungen erhalten, die Ihnen beim Einrichten von Schritten helfen

3.png

 

a. "Suchfeld hinzufügen": Klicken Sie auf "Einstellungen" und wählen Sie das Suchfeld auf der Webseite aus

 add_search_box.gif

 

b. "Schlüsselwort eingeben": Klicken Sie auf  mceclip0.png und geben Sie das Schlüsselwort ein. Ein Schlüsselwort pro Zeile.

input_keywords.gif

 

 

c. "Klicken auf den Suchbutton": Wählen Sie "Klicken nach der Eingabe auf den Suchbutton" und wählen Sie den Suchbutton auf der Webseite aus

 click_search_button.gif

 

• Klicken Sie auf "Bestätigen", um den Workflow zu generieren

 

 

 

3. Ändern Sie die Einstellungen für "Klicken Element"

 

• Doppelklicken Sie auf das "Klicken Element", um die Einstellung der Aktion zu öffnen

• Wählen Sie "In einer neuen Registerkarte öffnen".

• Verlängern Sie das AJAX-Wartezeit

 modify_Click_item.gif

 

 

4. Automatische Detektion der Suchergebnisseite, um Daten zu scrapen

 

• Lassen Sie die Seite erneut automatisch detektieren

 auto_detect2.gif

 

 

• Klicken Sie auf "Workflow erstellen"

 4.png

 

• Benennen Sie die Felder um oder löschen Sie die unnötigen Felder

 rename_fields.gif

 

 

5. Einrichten einer Wartezeit, um die Scraping-Geschwindigkeit zu verlangsamen

Die Google-Suche wendet eine Anti-Scraping-Technik an und würde reCAPTCHA zur Lösung anzeigen. Wir müssen das Scraping durch Einstellen der Wartezeit verlangsamen.

• Doppelklicken Sie auf die Aktion "Daten extrahieren"

• Markieren Sie "Vor Aktion warten"

• Stellen Sie 1s-3s Wartezeit ein

 set_up_wait_time.gif

 

6. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

 

• Klicken Sie auf "Speichern"

• Klicken Sie auf "Ausführen"

• Wählen Sie "Aufgabe auf Ihrem Gerät ausführen", um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder wählen Sie "Aufgabe in der Cloud ausführen", um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer)

 5.png

 

Hier sind Daten für die Beispielaufgabe.

 mceclip1.png

 

 

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen