undefined

Hoteldaten von Tripadvisor scrapen

Friday, May 28, 2021 5:37 PM

In diesem Tutorial zeigen wir Ihnen, wie Sie Hoteldaten auf Tripadvisor.com mit Octoparse scrapen können.

Wir werden erläutern, wie man Hoteldetails mit einer Listing-URL scrapen kann. Beachten Sie bitte, dass man mit Schlüsselwörtern oder URLs beginnen kann.

Der einfachste Weg, dieses Ziel zu erreichen, ist die Verwendung der voreingestellten Tripadvisor-Vorlage. Sie finden das Tripadvisor-Symbol auf dem Hauptbildschirm von Octoparse. Alles, was Sie brauchen, ist die Eingabe einiger Parameter. Für weitere Details können Sie hier nachsehen: Aufgabenvorlagenexternal-link-symbol-1.png

 

 1.1.png

 

Wir werden Daten wie den Hotelnamen, den Ort, die Beschreibung und die Bewertung auf der Hoteldetailseite mit Octoparse scrapen. Wenn Sie wissen möchten, wie Sie solche Aufgabe von Grund auf mit Octoparse erstellen können, folgen Sie bitte den folgenden Schritten.

 

Um die Schritte besser zu verstehen, können Sie diese URL im Lernprogramm verwenden:

https://www.tripadvisor.com/Hotels-g60763-New_York_City_New_York-Hotels.html

 

 

Hier sind die wichtigsten Schritte in diesem Tutorial: [Demo-Aufgabe-Datei hier herunterladen]

 

1. "Go To Web Page" - Öffnen Sie die Ziel-Webseite

2. Automatische Detektion der Webseite - Erstellen eines Workflows

3. Klicken Sie in jeden Detail-Link, um weitere Informationen zu scrapen

4. Daten extrahieren - Daten auf den Detailseiten extrahieren

5. Wartezeit einrichten - verlangsamen Sie die Scraping-Geschwindigkeit

6. Modifizieren Sie den XPath in "Klicken URLs in der Liste"

7. Starten Sie die Extraktion - die Aufgabe ausführen und Daten erhalten 

 

1) "Go To Web Page" - Öffnen Sie die Ziel-Webseite

 

• Geben Sie die URL auf der Startseite ein und klicken Sie auf „Start“

 1.png

 

2) Automatische Detektion der Webseite - Erstellen eines Workflows

 

• Klicken Sie auf "Automatische Detektion der Webdaten" und warten Sie, bis die Detektion abgeschlossen ist

 2.2.png

 

• Gehen Sie zu "Datenvorschau", und überprüfen, ob die aktuellen Datenausgabe Ihrer benötigten Daten sind.

• Sie können nicht benötigte Datenfelder direkt löschen, indem Sie auf das Symbol mceclip13.png klicken.

• Auch hier können Sie die Datenfeldnamen direkt modifizieren, indem Sie auf das Symbol mceclip14.png klicken

 2.png

 

 •  Klicken Sie auf "Workflow erstellen"

2.1.png

 

Wenn alle Daten, die Sie benötigen, schon gescrapt werden, können Sie einfach den Schritt „Wartezeit einrichten“ springen. Wenn Sie in jeden Detail-Link klicken möchten, um weitere Informationen zu erhalten, folgen Sie bitte dem nächsten Schritt.

 

 

3) Klicken Sie in jeden Detail-Link, um weitere Informationen zu scrapen

 

• Wählen Sie "Klicken auf den Link, um die verlinkten Seiten zu scrapen" in „Tipps“

• Wählen Sie "Klicken auf ein extrahiertes Datenfeld" und wählen Sie das Feld aus, auf das Sie von dem Dropdown-Menü klicken möchten. (Sie können in der Datenvorschau bestätigen, ob es der richtige Link ist)

• Klicken Sie auf "Bestätigen"

 

 2.1.gif

 

Octoparse würde automatisch auf die erste Detailseite gehen.

 

 

4) Daten extrahieren - Daten auf den Detailseiten extrahieren

 

• Wählen Sie Informationen auf der Webseite aus

• Wählen Sie "Text des ausgewählten Elements extrahieren"

• Wiederholen Sie die obigen Schritte, um alle benötigten Daten zu extrahieren.

 

4.gif

 

• Bearbeiten Sie bei Bedarf den Namen des Datenfeldes

 4.1.png

 

5) Stellen Sie eine Wartezeit ein, um die Scraping-Geschwindigkeit zu verlangsamen

 

Tripadvisor könnte Ihre IP blockieren, wenn Sie zu schnell scrapen, deshalb müssen wir die Scraping-Geschwindigkeit kontrollieren.

 

• Öffnen Sie die Aktionseinstellungen in der Aktion "Extract Data1".

• Markieren Sie "Vor Aktion warten"

• Stellen Sie die Zeit als 5s-10s ein

 

 5.gif

 

6) Ändern Sie den XPath der Aktion "Klicken URLs in der Liste"

 

Die automatisch generierte Aktion "Klicken URLs in der Liste" kann nicht immer die Titel-URL anklicken, daher müssen wir den XPath dieser Aktion modifizieren. (Möchten Sie wissen, was XPath ist? Lesen Sie bitte hier)

 

• Doppelklicken Sie auf die Aktion "Klicken URLs in der Liste".

• Klicken Sie auf das Symbol mceclip0.png

• Geben Sie den XPath //A[contains(@class, "property_title prominent")] ein

• Bestätigen Sie mit "OK"

 6.gif

 

7) Extraktion ausführen - führen Sie Ihre Aufgabe aus und erhalten Sie die Daten

 

• Klicken Sie auf "Speichern"

• Klicken Sie auf "Ausführen"

• Wählen Sie "Aufgabe auf Ihrem Gerät ausführen external-link-symbol-1.png", um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder wählen Sie "Aufgabe in der Cloud ausführen external-link-symbol-1.png", um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer)

 

 6.png

 

 

Hier sind Daten für die Beispielaufgabe.

 mceclip0.png

 

 

Ist dieser Artikel hilfreich? Kontaktieren Sie uns jederzeit, wenn Sie unsere Hilfe brauchen!

 

 

 

Autor: Yanni

Herausgeber: Yina

 

 

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen