undefined

Scrapen die Suchergebnissen aus Google Scholar  

Tuesday, June 01, 2021 12:31 PM

 

In diesem Tutorial zeigen wir Ihnen, wie Sie Suchergebnisse von Google Scholar scrapen können.

In unsere neueste Version wurde die gebrauchsfertige Google Scholar-Vorlage eingefügt, die Sie  hier finden können: Aufgabenvorlage external-link-symbol-1.png. Sie brauchen nur Schlüsselwörter einzugeben, dann werden die Daten in wenigen Minuten extrahiert!

 

 mceclip0.png

 

Wenn Sie einen solchen Crawler erstellen möchten, können Sie die URL in diesem Tutorial verwenden: https://scholar.google.com/ncr

Wir werden Daten wie den Titel, den Autor, die Beschreibung und andere verwandte Informationen von jeder Suchergebnisseite mit Octoparse scrapen.

 

Hier sind die wichtigsten Schritte in diesem Lernprogramm: [Aufgabendatei hier external-link-symbol-1.png herunterladen]

 

1. "Go To Web Page" - Öffnen Sie die Ziel-Webseite

2. Erstellen Sie ein "Loop Item" und geben Sie Suchbegriffe ein

3. Automatische Detektion der Webseite - Erstellen eines Workflows

4. Wartezeit einrichten, um die Scraping-Geschwindigkeit zu verlangsamen

5. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

 

 

 

 

1. "Go To Web Page" - Öffnen Sie die Ziel-Webseite

 

 

• Geben Sie die Beispiel-URL ein und klicken Sie auf "Start".

 mceclip1.png

 

 

2. Erstellen Sie ein "Loop Item" und geben Sie Suchbegriffe ein

 

Wir können unsere "Textliste" anpassen, um eine Loop-Suchaktion zu erstellen. Octoparse wird automatisch jedes Schlüsselwort in der Liste in das Suchfeld eingeben, eine Zeile nach der anderen.

 

• Fügen Sie ein "Loop Item" im Workflow hinzu, indem Sie auf klicken

 2.1.gif

 

• Doppelklicken Sie auf "Loop Item", um in das Einstellungsfenster zu öffnen

• Gehen Sie in den Loop-Modus und wählen Sie "Textliste".

• Klicken Sie auf mceclip1.png , um die Schlüsselwörter in der Liste einzugeben. Hier werden wir "Data Mining" und "Big Data" eingeben

• Klicken Sie zum Bestätigen auf "OK".

 2.2.gif

 

• Klicken Sie auf das Suchfeld auf der Webseite

• Wählen Sie "Text eingeben" im Feld "Tipps".

• Klicken Sie auf "Bestätigen"

 2.3.gif

• Ziehen Sie die Aktion "Text eingeben" in das "Loop Item".

• Doppelklicken Sie auf die Aktion "Text eingeben".

• Wählen Sie "Geben den Text in Loop in das Textfeld ein"

• Klicken Sie auf "OK"

 2.4.gif

 

Tipps!

Wir können überprüfen, ob die Schritte korrekt eingestellt sind, indem wir auf das "Loop Item" und dann auf "Text eingeben" im Workflow klicken, um zu sehen, ob der Text in die Webseite eingegeben würde.

 2.5.gif

 

• Klicken Sie auf den Suchbutton der Webseite

• Wählen Sie das "Klicken Element" in "Tipps" aus, dann werden Sie feststellen, dass die Aktion "Klicken Element" in den Workflow eingefügt wird

• Öffnen Sie die Einstellungen des "Klicken Element" und wählen Sie die Option "In einer neuen Registerkarte öffnen"

 2.6.gif

 

 

3. Automatische Detektion der Webseite - Erstellen eines Workflows

 

• Klicken Sie auf "Automatische Detektion der Webdaten" und warten Sie, bis die Detektion abgeschlossen ist

 3.2.gif

 

• Benennen Sie die Felder um oder löschen Sie unerwünschte Felder in der "Datenvorschau"

 3.2.png

 

• Klicken Sie auf "Workflow erstellen"

 3.3.png

 

4. Wartezeit einrichten, um die Scraping-Geschwindigkeit zu verlangsamen

 

Google Scholar verwendet eine Anti-Scraping-Technik und würde reCAPTCHA zur Lösung anzeigen. Wir müssen das Scraping durch Einstellen der Wartezeit verlangsamen.

• Doppelklicken Sie auf die Aktion „Daten extrahieren“

• Markieren Sie "Vor Aktion warten"

• Stellen Sie 1s-3s Wartezeit ein

4.1.gif

 

5. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

 

• Klicken Sie auf "Speichern"

• Klicken Sie auf "Ausführen"

• Wählen Sie "Aufgabe auf Ihrem Gerät ausführen", um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder wählen Sie "Aufgabe in der Cloud ausführen", um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer)

 6.png

 

Hier sind Daten für die Beispielaufgabe.

 mceclip2.png

 

 

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen