Scrapen Hoteldetails von Airbnb
Tuesday, June 08, 2021 11:13 AM
Airbnb ist eine gute Website, um ein perfektes Urlaubshotel zu finden. In diesem Tutorial zeigen wir Ihnen, wie Sie mit Octoparse Hotelinformationen von Airbnb scrapen.
Der einfachste Weg ist es, vorgefertigte Aufgabenvorlagen von Airbnb zu verwenden. Sie müssen keine Scraping-Aufgaben selbst konfigurieren, sondern nur Schlüsselwörter/URLs eingeben. Für weitere Details können Sie hier klicken: Aufgabenvorlagen .
Wenn Sie die Aufgabe selbst erstellen möchten, lesen Sie bitte dieses Tutorial weiter. Zum Üben verwenden wir diese URL als Beispiel:
Hier sind die wichtigsten Schritte in diesem Tutorial: [Aufgabendatei hier herunterladen]
1. "Go To Web Page" - Öffnen die Ziel-Webseite
2. Automatisch die Daten der Webseite detektieren- Einen Workflow erstellen
3. Modifizieren die Einstellungen der "Pagination"
4. Klicken in jede Detailseite, um weitere Informationen zu erhalten
5. Extrahieren Daten aus der Detailseite
6. Ändern den XPath von "Click URLs in the list"
7. Führen Ihre Aufgabe aus - Erhalten die gewünschten Daten
1. "Go To Web Page" - Öffnen die Ziel-Webseite
• Geben die URL auf der Startseite ein und klicken auf „Start“
2. Automatisch die Daten der Webseite detektieren - Einen Workflow erstellen
• Klicken auf "Auto-detect web page data" und warten, bis der Vorgang abgeschlossen ist.
• Überprüfen Sie die Datenfelder in der Datenvorschau. Sie können die unerwünschten Felder löschen oder Felder umbenennen, falls erforderlich
• Klicken auf "Create workflow"
Octoparse wird automatisch einen Workflow generieren.
3. Modifizieren die Einstellungen der "Pagination"
Der automatisch generierte XPath funktioniert nicht immer gut. In diesem Fall müssen wir den XPath der "Pagination" ändern.
• Öffnen die Einstellungen der "Pagination"
• Geben Sie den neuen XPath ein: //a[@aria-label="Next"]
Tipps!
XPath spielt eine wichtige Rolle beim Lokalisieren des richtigen Elements in der Webseite. Möchten Sie mehr darüber erfahren? Dann lesen Sie bitte das folgende Tutorial:
Was ist XPath und wie man es in Octoparse verwendet
Die nächste Seite wird mit AJAX-Technik geladen, deswegen müssen wir der "Click to Paginate"-Aktion eine AJAX-Wartezeit hinfügen.
• Öffnen die Einstellungen von "Click to Paginate"
• Wählen "Load with AJAX"
• Stellen die AJAX-Wartezeit auf 7-10s ein
Wenn alle Daten, die Sie benötigen, direkt von den Suchergebnisseiten zu scrapen sind, können Sie hier aufhören und zu Schritt 7 springen. Wenn Sie noch zu jeder Produkt-Detailseite gehen möchten, um detaillierte Informationen zu erhalten, folgen Sie den unten stehenden Schritten.
4. Klicken in jeden Link, um detaillierte Informationen zu erhalten
• Wählen “Click on link(s) to scrape the linked page(s)” in Tipps
• Wählen "Click on an extracted data field" und wählen Sie das Feld, auf das Sie aus dem Dropdown-Menü klicken möchten. (Sie können in der Datenvorschau bestätigen, ob es der richtige Link ist)
• Klicken auf "Bestätigen"
Octoparse wird automatisch einen Workflow generieren.
5. Extrahieren Daten aus der Detailseite
• Wählen Informationen auf der Webseite aus
• Wählen "Extract text of the selected element"
• Wiederholen die obigen Schritte, um alle benötigten Daten zu extrahieren
• Benennen die Felder bei Bedarf um
• Öffnen die Einstellungen von "Daten extrahieren1"
• Wählen "Wait before action"
• Stellen die Wartezeit auf 7-10s ein
6. Ändern den XPath von "Click URLs in the list"
Das automatisch generierte "Click URLs in the list" funktioniert in diesem Fall nicht gut, deswegen müssen wir den XPath davon modifizieren.
• Öffnen die Einstellungen von "Click URLs in the list"
• Klicken auf
• Geben den neuen XPath ein: /nachkomme-oder-selbst::A[enthält(@class,"_gjfol0")]
• Bestätigen mit "OK "
7. Führen Sie Ihre Aufgabe aus - Erhalten Sie die gewünschten Daten
• Klicken auf "Save"
• Klicken auf "Run"
• Wählen "Run on your device ", um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder Wählen "Run in the Cloud
", um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer)
Hier sind die Beispieldaten.