undefined

Scrapen Hoteldetails von Airbnb   

Tuesday, June 08, 2021 11:13 AM

 

Airbnb ist eine gute Website, um ein perfektes Urlaubshotel zu finden. In diesem Tutorial zeigen wir Ihnen, wie Sie mit Octoparse Hotelinformationen von Airbnb scrapen.

 

Der einfachste Weg ist es, vorgefertigte Aufgabenvorlagen von Airbnb zu verwenden. Sie müssen keine Scraping-Aufgaben selbst konfigurieren, sondern nur Schlüsselwörter/URLs eingeben. Für weitere Details können Sie hier klicken: Aufgabenvorlagen external-link-symbol-1.png.

 0.png

 

Wenn Sie die Aufgabe selbst erstellen möchten, lesen Sie bitte dieses Tutorial weiter. Zum Üben verwenden wir diese URL als Beispiel: 

https://www.airbnb.com/s/New-York--NY--United-States/homes?adults=2&search_type=pagination&s_tag=A2EV74MC&tab_id=home_tab&refinement_paths%5B%5D=%2Fhomes&children=1&place_id=ChIJOwg_06VPwokRYv534QaPC8g&federated_search_session_id=2e7da092-4a51-48db-ba26-9746f41ac068

 

 

Hier sind die wichtigsten Schritte in diesem Tutorial:  [Aufgabendatei hier  herunterladen]

 

1. "Go To Web Page" - Öffnen die Ziel-Webseite

2. Automatisch die Daten der Webseite detektieren- Einen Workflow erstellen

3. Modifizieren die Einstellungen der "Pagination"

4. Klicken in jede Detailseite, um weitere Informationen zu erhalten

5. Extrahieren Daten aus der Detailseite

6. Ändern den XPath von "Click URLs in the list"

7. Führen Ihre Aufgabe aus - Erhalten die gewünschten Daten

 

 

 

1. "Go To Web Page" - Öffnen die Ziel-Webseite

 

• Geben die URL auf der Startseite ein und klicken auf „Start“

 1.png

 

 

2. Automatisch die Daten der Webseite detektieren - Einen Workflow erstellen

 

• Klicken auf "Auto-detect web page data" und warten, bis der Vorgang abgeschlossen ist.

 2.1.gif

 

• Überprüfen Sie die Datenfelder in der Datenvorschau. Sie können die unerwünschten Felder löschen oder Felder umbenennen, falls erforderlich

 2.2.png

 

• Klicken auf "Create workflow"

 2.3.png

 

Octoparse wird automatisch einen Workflow generieren.

 mceclip0.png

 

 

3. Modifizieren die Einstellungen der "Pagination"

 

Der automatisch generierte XPath funktioniert nicht immer gut. In diesem Fall müssen wir den XPath der "Pagination" ändern.

 

• Öffnen die Einstellungen der "Pagination"

• Geben Sie den neuen XPath ein: //a[@aria-label="Next"]

 3.1.gif

 

Tipps!

XPath spielt eine wichtige Rolle beim Lokalisieren des richtigen Elements in der Webseite. Möchten Sie mehr darüber erfahren? Dann lesen Sie bitte das folgende Tutorial:

Was ist XPath und wie man es in Octoparse verwendet

 

 

Die nächste Seite wird mit AJAX-Technik geladen, deswegen müssen wir der "Click to Paginate"-Aktion eine AJAX-Wartezeit hinfügen.

 

• Öffnen die Einstellungen von "Click to Paginate"

• Wählen  "Load with AJAX"

• Stellen die AJAX-Wartezeit auf 7-10s ein

 3.2.gif

 

Wenn alle Daten, die Sie benötigen, direkt von den Suchergebnisseiten zu scrapen sind, können Sie hier aufhören und zu Schritt 7 springen. Wenn Sie noch zu jeder Produkt-Detailseite gehen möchten, um detaillierte Informationen zu erhalten, folgen Sie den unten stehenden Schritten.

 

 

4. Klicken in jeden Link, um detaillierte Informationen zu erhalten

 

• Wählen “Click on link(s) to scrape the linked page(s)” in Tipps

• Wählen "Click on an extracted data field" und wählen Sie das Feld, auf das Sie aus dem Dropdown-Menü klicken möchten. (Sie können in der Datenvorschau bestätigen, ob es der richtige Link ist)

• Klicken auf "Bestätigen"

 4.1.gif

Octoparse wird automatisch einen Workflow generieren.

 

 

5. Extrahieren Daten aus der Detailseite

 

• Wählen Informationen auf der Webseite aus

• Wählen "Extract text of the selected element"

• Wiederholen die obigen Schritte, um alle benötigten Daten zu extrahieren

 4.2.gif

 

• Benennen die Felder bei Bedarf um 

4.3.png

 

• Öffnen die Einstellungen von "Daten extrahieren1"

• Wählen "Wait before action"

• Stellen die Wartezeit auf 7-10s ein

 5.2.gif

 

 

6. Ändern den XPath von "Click URLs in the list"

 

Das automatisch generierte "Click URLs in the list" funktioniert in diesem Fall nicht gut, deswegen müssen wir den XPath davon modifizieren.

 

• Öffnen die Einstellungen von "Click URLs in the list"

• Klicken auf mceclip2.png

• Geben den neuen XPath ein: /nachkomme-oder-selbst::A[enthält(@class,"_gjfol0")]

• Bestätigen mit "OK "

 5.1.gif

 

 

7. Führen Sie Ihre Aufgabe aus - Erhalten Sie die gewünschten Daten

 

• Klicken auf "Save"

• Klicken auf "Run"

• Wählen "Run on your device external-link-symbol-1.png", um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder Wählen "Run in the Cloud external-link-symbol-1.png", um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer)

 4.4.png

 

Hier sind die Beispieldaten.

 mceclip1.png

 

 

 

Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen