undefined

Scrapen die Geschäftsinformationen aus Google Maps  

Wednesday, June 02, 2021 11:07 AM

Google Maps ist nicht nur eine Karten-Website, die Ihnen hilft, einen Standort zu finden, sondern auch eine reichhaltige Datenbank, in der Sie viele Geschäftsinformationen finden können. Viele Leute scrapen Google Maps-Daten, um ein eigenes Geschäftsverzeichnis zu erstellen oder eine Basis für Geschäftskontakte aufzubauen.

Dieses Tutorial zeigt Ihnen, wie Sie Geschäftsinformationen von Google Maps erhalten.

Zuerst möchte ich Ihnen den einfachsten Weg vorstellen - Aufgabenvorlagen für Google Maps.

 mceclip0.png

 

Mit der Vorlage müssen Sie nur ein Schlüsselwort (z.B. Accounting, NY) oder eine Webseiten-URL (z.B. https://www.google.com/maps/search/insurance+West+University+Place,+TX/@29.716598,-95.4987615,10z/data=!3m1!4b1) eingeben und dann warten, bis die Daten herauskommen.

 mceclip1.png

 

Hier ist das Datenbeispiel der Aufgabevorlage. Um die Vorlage auszuprobieren, können Sie sich eine 14-tägige Premium-Testversion bewerben, um loszulegen: Testen Sie kostenlos 14 Tage lang Octoparse Premium-Version! external-link-symbol-1.png

 mceclip2.png

 

Wenn Sie lernen möchten, wie Sie den Crawler selbst einrichten, können Sie mit diesem Tutorial fortfahren.

Beispiel-URL: https://www.google.com/maps/search/insurance+West+Universitäts+Platz,+TX/@29.716598,-95.4987615,10z/data=!3m1!4b1

 

Wir werden die folgenden Datenfelder scrapen: Titel, Rezensionsnummer, Rezensionsbewertung, Adresse, Telefon, Website und Öffnungszeit.

Hier sind die wichtigsten Schritte in diesem Tutorial: [Aufgabendatei hier  herunterladen]

 

 

1. "Go To Web Page" - Öffnen Sie die Ziel-Webseite

2. Erstellen einer Paginierung-Loop - um alle Ergebnisse von mehreren Seiten zu scrapen

3. Erstellen ein "Loop Item"- um alle Elemente auf der aktuellen Seite zu scrapen

4. Daten extrahieren - um die Daten für die Extraktion auszuwählen

5. Anklicken Element - Anklicken "Zurück zu den Ergebnissen"

6. Extraktion starten - um die Aufgabe auszuführen und Daten zu erhalten

 

 

1. "Go To Web Page" - Öffnen Sie die Ziel-Webseite

 

• Geben Sie die URL auf der Startseite ein und klicken Sie auf „Start“

 

Wenn Sie viele URLs zu extrahieren haben, können Sie mehrere URLs in die Leiste eingeben. Möchten Sie mehr darüber erfahren? Lesen Sie bitte diese Anleitung: Webseite öffnen

 

• Doppelklicken Sie auf "Go To Web Page" und stellen Sie eine längere Wartezeit ein, z. B. "120s"

 

2. Erstellen einer Paginierung-Loop um alle Ergebnisse von mehreren Seiten zu scrapen

 

• Klicken Sie auf den Button für die nächste Seite ">"

• Klicken Sie auf "Loop-klicken auf einzelnes Element" in Tipps

 

Nach den obigen Aktionen wird eine "Pagination" im Workflow erstellt. Sie können auf „Paginierung“ und "Klicken zum Paginieren" klicken, um zu testen, ob das Paginieren zur nächsten Seite gut funktioniert.

Der Standard-XPath für die Pagination funktioniert in den meisten Fällen gut, aber manchmal hat es ein Problem beim Scrapen der Daten in der letzten Seite. In diesem Fall müssen Sie den XPath für die "Pagination" überarbeiten.

 

• Doppelklicken Sie auf den Schritt "Pagination" oder klicken Sie auf  mceclip0.png

• Kopieren Sie den überarbeiteten XPath und fügen Sie ihn in das Textfeld ein: //button[contains(@jsaction, "pane.paginationSection.nextPage")][not(contains(@class, "button-disabled"))]

 pagination.gif

 

Zusätzliche Aktion - AJAX-Einstellung für "Klicken zum Paginieren"

Manchmal kann es vorkommen, dass die Webseite länger zum Laden braucht. Sie können den AJAX-Wartezeit je nach den Netzwerkbedingungen einstellen.

 

• Doppelklicken Sie auf "Klicken zum Paginieren".

• Einstellen AJAX-Wartezeit auf "7s" oder länger

 mceclip4.png

 

Tipps!

Wenn Sie mehr über AJAX erfahren möchten, lesen Sie bitte diese Anleitung: Umgang mit AJAX external-link-symbol-1.png

 

 

3. Erstellen ein "Loop Item"- um alle Elemente auf der aktuellen Seitezu scrapen

 

• Klicken Sie auf den 1. und 2. Titel in der Liste, bis Octoparse alle anderen ähnlichen Elemente detektiert hat

• Klicken Sie auf "Loop-Klicken auf jedes Element" im Tipps

 5.2gif.gif

 

Nach den obigen Aktionen wird im Workflow ein "Loop Item" erzeugt. Außerdem wird die Seite für das 1. Element geöffnet.

Dann müssen wir "Loop Item" modifizieren.

 

• Doppelklicken Sie auf "Loop Item".

• Schalten Sie den Loop-Modus von "Feste Liste" auf "Flexible Liste" um

• Geben Sie den Element XPath ein: //h3

 bu.gif

 

Wir müssen auch die Einstellungen des "Klicken Element" ändern.

 

• Doppelklicken Sie auf "Klicken Element"

• Deaktivieren Sie die Option "In einem neuen Tab öffnen"

• Stellen Sie das AJAX-Wartezeit auf "10s" ein (Sie können es basierend auf Ihren lokalen Netzwerkbedingungen einstellen, wenn Sie die Aufgabe auf Ihrem lokalen Gerät ausführen)

 2.2.gif

 

4. Daten extrahieren - um die Daten für die Extraktion auszuwählen

 

Jetzt befinden Sie sich auf der Geschäftsdetailseite.

 

• Klicken Sie auf die Informationen, die Sie auf der Seite benötigen, z. B. den Titel, die Adresse, usw.

• Wählen Sie "Text des ausgewählten Elements extrahieren" in "Tipps".

• Wiederholen Sie diesen Vorgang, bis Sie alle benötigten Datenfelder gewählt haben

 3.gif

 

• Doppelklicken Sie auf den Schritt "Daten extrahieren" im Arbeitsablauf

• Klicken Sie auf die Feldnamen, um die Felder bei Bedarf umzubenennen

 4.png

 

Google ist ziemlich streng mit dem Data Scraping und hat einen sehr schwer zu lesenden Quellcode, daher müssen wir den Element-XPath für jedes Datenfeld überarbeiten.

 

Aber keine Sorge! Wir haben alles, was Sie brauchen, für Sie vorbereitet. Sie können einfach den unten bereitgestellten Element-XPath verwenden.

 

• Klicken Sie auf das Symbol mceclip0.png, um den XPath nach und nach zu ändern

 

• Ersetzen Sie den Standard-XPath durch den überarbeiteten (Sie können ihn je nach Ihren Anforderungen an das Scraping auswählen. XPath soll Elementen lokalisieren, die auf der Webseite zu finden sind).

• Titel: //h1

• Nummer der Überprüfung: //button[@jsaction="pane.rating.moreReviews"]

• Bewertung der Rezension: //span[@class="section-star-display"]

• Kategorie: //button[@jsaction="pane.rating.category"]

• Adresse: //button[@data-item-id="address"]

• Website: //button[@data-item-id="authority"]

• Telefonnummer: //button[contains(@data-item-id, "phone")]

• Öffnungszeit: //div[contains(@class, "open-hours")]

 

• Zum Speichern auf "OK" klicken

 mceclip1.png

 

 

Tipps!

Wenn Sie mehr über XPath erfahren möchten, lesen Sie bitte das folgende Tutorial: Was ist XPath und wie man es in Octoparse verwendet

 

5. Anklicken Element - Anklicken "Zurück zu den Ergebnissen"

Normalerweise brauchen wir den Schritt nicht hinzuzufügen, aber Google Maps ist eine Ausnahme. Mit dem Schritt kann die Aufgabe zur vorherigen Ergebnisseite zurückgehen und mit dem Scrapen des nächsten Elements fortfahren.

 

• Klicken Sie auf den Button "Zurück zu den Ergebnissen" auf der Webseite

• Wählen Sie "Klicken auf den Button" in den Aktionstipps

 5.png

 

Stellen Sie das AJAX-Wartezeit auf 7s-10s ein, je nach Netzwerkbedingungen

 5.1.png

 

6. Extraktion starten - um die Aufgabe auszuführen und Daten zu erhalten

 

• Klicken Sie auf "Speichern"

• Klicken Sie auf "Ausführen"

• Wählen Sie "Aufgabe auf Ihrem Gerät ausführen", um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder wählen Sie "Aufgabe in der Cloud ausführen", um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer)

Testen Sie 14 Tage lang kostenlos Octoparse Premium-Version

 mceclip2.png

 

Hier sind Daten für die Beispielaufgabe.

 mceclip3.png

 

 

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen