undefined
Blog > Web Scraping > Post

Wie extrahiert man Google Maps-Koordinaten?

Friday, September 10, 2021

Haben Sie jemals daran gedacht, dass Sie Geld verdienen können, wenn Sie wissen, wie viele Restaurants in der Nähe gibt? Sie können die GPS-Daten der Restaurants extrahieren, sammeln und in Ihrer eigenen Datenbank speichern. Mit diesen Informationen und einigen mathematischen Berechnungen können Sie einen Onlinedienst erstellen.

 

In diesem Artikel zeige ich Ihnen, wie Sie Google Maps-Koordinaten mit einer einfachen Methode schnell extrahieren können. 

 

Die Koordinaten sind tatsächlich in den URLs versteckt, deswegen müssen wir die URL extrahieren und einen regulären Ausdruck verwenden, um die übereinstimmende Textzeichenfolge zu finden. Nehmen wir das Wahrzeichen "Space Needle" in Seattle als Beispiel. 

 

Google Map Koordinaten Daten

 

Wie extrahiert man Google Maps-Koordinaten?

 

 

Öffnen Sie zunächst Google Maps in Ihrem Browser und geben Sie "Space Needle" in die Suchleiste ein.

 Space Needle

 

 

Nachdem die Seite fertig geladen ist, suchen Sie nach den Koordinaten in der URL. Die Koordinaten befinden sich hinter dem "@"-Zeichen.

coordinates in the URL

 

 

Als Nächstes können wir damit beginnen, die URL zu extrahieren. Das Tool, das wir verwenden, ist Octoparse. Sie können auch andere Tools verwenden. Octoparse ist ein  Web-Scraping-Tool, deren Benutzeroberfläche sehr einfach zu bedienen ist, besonders für Anfänger. Bevor wir mit dem Web-Scraping anfangen, installieren Sie bitte das Web-Scraping-Tool auf Ihrem Gerät.

 

Öffnen Sie Octoparse, um eine Aufgabe zu erstellen 

1. "Klicken Sie auf das "+"-Zeichen, um den "Advanced Mode" aufzurufen.

2. Geben Sie die URL in das Feld ein: https://www.google.com/maps/place/Space+Needle/@47.6205099,-122.3514661,17z/data=!4m5!3m4!1s0x5490151f4ed5b7f9:0xdb2ba8689ed0920d!8m2!3d47.6205063!4d-122.3492774 

3. Klicken Sie auf "Save", um fortzufahren.

 

Konfigurieren Sie die Aufgabe

 

Jetzt haben wir erfolgreich eine neue Aufgabe erstellt, aber Google Maps wird im integrierten Browser nicht richtig geladen. Warum? Das liegt daran, dass Google Maps nicht mit dem User Agent des aktuellen Browsers kompatibel ist.

    • Um dieses Problem zu lösen, klicken Sie auf das Symbol. Suchen Sie den User-agent Switcher. Wählen Sie Firefox 45.0 und klicken Sie auf Speichern. Octoparse wird die Webseite selbst neu laden. 
    • Nachdem die Webseite fertig geladen ist, können wir die Extraktion durch Zeigen und Klicken auf den integrierten Browser starten. Klicken Sie auf den Namen, das Panel "Action Tips" zeigt die Optionen an, die Sie wählen können. Wählen Sie "Extract text of selected element".

space needle click

  

  • Sie sollten nun feststellen, dass die Extraktion erfolgreich erstellt und dem unten stehenden Workflow hinzugefügt wurde. Wir können den Feldnamen im Einstellungsbereich oben rechts bearbeiten.  

work flow

 

  • Gehen Sie zum Extraktionsfeld und finden Sie die Option "Add predefined field". Klicken Sie darauf, um das Dropdown-Menü aufzurufen, wählen Sie "Add current page information" und wählen Sie "Web page URL".

web-page-url

 

  • Jetzt wurde die URL der Webseite erfolgreich in das Datenfeld eingefügt. Bearbeiten wir jetzt die URL, indem schneiden wir Überflüssiges ab und behalten die genauen Koordinaten.

 advance-editing

  • Klicken Sie auf das Symbol customize (kleiner Bleistift) am unteren Rand. Wählen Sie "Refine extracted data".  Klicken Sie dann auf die Schaltfläche add step. Dies bringt Sie zu einer Funktionsliste, in der Sie eine Option für die Datenbereinigung auswählen können. In diesem Fall wählen wir "Match with regular expression". 

regex

 

  • Die Funktion ermöglicht Ihnen, die Daten nach Ihrem Wunsch zu bearbeiten, indem Sie einen regulären Ausdruck schreiben. Ein regulärer Ausdruck ist eine spezielle Textzeichenfolge zur Beschreibung eines Suchmusters. Da die meisten Leute Schwierigkeiten haben, einen regulären Ausdruck zu schreiben, benutzen wir hier das eingebaute RegEx-Tool. Klicken Sie auf die Schaltfläche "Try RegEx Tool". 

 

Beachten Sie, dass wir den Teil nach dem "@"-Zeichen, und vor dem zweiten Komma behalten wollen. Markieren Sie das Feld "Start mit" und geben Sie "@" ein. So teilen Sie dem RegEx mit, dass Sie den Teil nach dem Zeichen haben wollen. Aktivieren Sie in gleicher Weise das Feld "End With" und geben Sie ", 1" ein. Da sich hinter dem "@" zwei Kommas befinden, müssen wir festlegen, welches Komma wir wollen. Fügen Sie einfach die Zahl hinter dem Komma ein, in diesem Fall die Zahl "1". Dies sagt dem RegEx, dass Sie den Teil vor dem Komma und die Zahl 1 haben wollen. Klicken Sie auf die Schaltfläche "Generate", und der reguläre Ausdruck sollte in dem Feld angezeigt werden können. 

 

  • Überprüfen Sie jetzt, ob Sie die richtige Einstellung vorgenommen haben, indem Sie auf die Schaltfläche "Match" klicken. Es wird der entsprechende Ausdruck auf der rechten Seite erzeugt. Und das ist genau das, was wir wollen. Klicken Sie nun auf "Apply" und dann zur Bestätigung auf "Ok". 

regex2

 

 

Führen Sie die Aufgabe aus

Das war's! Sie sind fertig. Lassen wir den Crawler ausführen und sehen wir, ob er funktioniert. Klicken Sie auf "Start Extraction" und wählen Sie "Local Extraction".

final

 

Was aber, wenn man 1000 Adressen zu suchen haben? Keine Sorge, Octoparse erlaubt Ihnen die Eingabe von über 10.000 URLs. Es ist so einfach, wie es scheint.

 

Wenn Sie Fragen zum Einrichten eines Crawlers haben, wenden Sie sich bitte an lena@octoparse.com. Octoparse wird Sie auf dem Weg vom Anfänger zum Web-Scraping-Experten begleiten. Wir sind immer für Sie da sein.

 

Laden Sie Octoparse herunter, um mit Web-Scraping zu beginnen, oder kontaktieren Sie uns
für die Fragen über Web Scraping!

Kontaktieren Sie uns Herunterladen
btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen