undefined

Scrapen Immobiliendaten von Realtor.com  

Tuesday, June 08, 2021 3:02 PM

In diesem Tutorial zeigen wir Ihnen, wie Sie Immobiliendaten von Realtor.com scrapen können.

 

Wir werden Daten wie den Titel, die Lage, den Preis, die Bewertung usw. von der Haus-Detailseite scrapen. Zum Üben können Sie die URL im Tutorial verwenden:

 

https://www.realtor.com/realestateandhomes-search/Tallassee_AL

 

Wir werden 2 Aufgaben erstellen, um die Daten auf den Detailseiten zu erhalten.

 

Hier sind die wichtigsten Schritte in diesem Tutorial:

 

Aufgabe 1: Extrahieren alle URLs der Detailseiten auf den Suchergebnisseiten [Aufgabendatei hier  herunterladen]

 

1. "Go To Web Page" - Öffnen die Ziel-Webseite

2. Erstellen ein „Paginierung-Loop“ - Scrapen alle Ergebnisse von mehreren Seiten

3. Erstellen ein "Loop Item" - Scrapen die URLs aller Ergebnisse

4. Verfeinern das Datenfeld der URL

5. Führen Sie Ihre Aufgabe aus - Erhalten Sie die gewünschten Daten

 

Aufgabe 2: Sammeln Produktinformationen aus den gescrapten URLs [Aufgabendatei hier  herunterladen]

 

1. Geben URLs ein - Öffnen die Detailseiten

2. Extrahieren Daten - die Daten für die Extraktion auswählen

3. Verfeinern die Datenfelder

4. Führen Sie Ihre Aufgabe aus - Erhalten die gewünschten Daten

 

 

 

Aufgabe 1: Extrahieren alle URLs der Detailseiten auf den Suchergebnisseiten

 

1. "Go To Web Page" - Öffnen die Ziel-Webseite

 

• Geben Sie die Beispiel-URL ein und klicken Sie auf "Start".

 mceclip0.png

 

2. Erstellen ein „Paginierung-Loop“- Scrapen alle Ergebnisse von mehreren Seiten

 

• Scrollen nach unten und klicken auf den Button ">" auf der Webseite

• Klicken auf "Loop click single URL" in Tipps

 1.png

 

Octoparse stellt automatisch die AJAX-Wartezeit als 3 Sekunden ein. Sie können die Wartezeit je nach Ihren lokalen Internet-Bedingungen ändern (Klicken Sie hier, wenn Sie mehr über AJAX erfahren möchten:  Handling AJAX).

 

• Stellen "AJAX-Wartezeit" als "5" Sekunden ein

 mceclip2.png

 

• Doppelklicken auf den Schritt "Pagination" im Workflow

• Kopieren den überarbeiteten XPath für den Button "Nächste Seite" und fügen ihn ein: //a[@aria-label="Gehe zur nächsten Seite"][not(contains(@class, "disabled"))]

 2.png

• Entfalten "Before action is performed"

• Markieren "Wait before action" und stellen die Wartezeit auf 2s ein

mceclip6.png

 

• Klicken auf "OK"

 

 

3. Erstellen ein "Loop Item"- Scrapen die URLs aller Ergebnisse

 

• Klicken auf die Adresse des 1. Eintrags in der Liste

• Klicken auf das Tag "A" am unteren Rand von "Tipps" („A“ Tag definiert einen Hyperlink, der verwendet wird, um von einer Seite zu einer anderen zu verlinken)

• Klicken in "Tipps" auf "Select all"

• Wählen "Extract the URL of the link"

 3.gif

 

Wir bemerken, dass einige Elemente nicht ausgewählt werden, dewegen müssen wir das den XPath von dem „Loop-Item“ modifizieren.

 

• Klicken auf mceclip0.png  von "Loop Item"   

mceclip3.png

 

• Ändern "Loop Mode" von "Fixed list" auf "Variable list"

• Geben XPath //ul[@data-testid='property-list-container']/li in das Textfeld ein 

mceclip4.png

 

 

• Klicken auf "OK"

 

 

4. Verfeinern das Datenfeld der URL

 

Die URL öffnet manchmal eine Seite mit einem anderen Seitendesign. Um dies zu vermeiden, müssen wir das URL-Feld verfeinern.

 

• Doppelklicken auf "Extract Data" im Workflow

mceclip2.png

• Wählen das Feld des Titels URL und klicken auf "...", um "Clean data" zu wählen

• Klicken auf "Add step", und wählen dann "Add a suffix"

 mceclip3.png

 

• Geben "?view=qv" in das Textfeld ein, und drücken dann auf "Evaluate", um das Ergebnis zu erhalten.

mceclip4.png

 

 

• Klicken auf  "Confirm", um es zu speichern.

• Klicken auf den Feldnamen, um ihn zu ändern (Optional)

 5.png

 

 

5. Führen Sie Ihre Aufgabe aus - Erhalten Sie die gewünschten Daten

 

• Klicken auf "Save"

• Klicken auf "Run"

• Wählen "Run on your device", um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder Wählen "Run in the Cloud", um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer)

 mceclip5.png

 

Wenn Sie Premium-Benutzer sind, empfehlen wir Ihnen, die Funktion  "Run task in the Cloud" zu verwenden, damit Sie die Funktion der assoziativen Aufgaben nutzen können (Lesen Sie diese Anleitung: Was sind übergeordnete Aufgabe und untergeordnete Aufgabe in Octoparse?).

 

Hier sind die Beispieldaten.

 mceclip4.png

 

 

 

Aufgabe 2: Sammeln Immobiliendaten aus den gescrapten URLs

 

1. Geben URLs ein - Öffnen die Detailseiten

 

In Aufgabe 1 haben wir eine Liste von URLs erhalten.

 

• Klicken auf "+ New", um eine neue Aufgabe in "Advanced Mode"zu erstellen

mceclip0.png

 

 

• Wählen "Import from task", um die URLs aus Aufgabe 1 zu erhalten

 mceclip8.png

Tipps!

Es gibt 4 Möglichkeiten, URLs einzugeben. In diesem Tutorial verwenden wir die Methode "Import from task". Beachten Sie bitte, dass die Methode funktioniert, nur wenn die übergeordnete Aufgabe in der Cloud ausgeführt wird. Wenn wir das Datenergebnis aus einem lokalen importieren, werden in diesem Fall nur 100 Zeilen Daten importiert. Lesen Sie bitte diese Anleitung, wenn Sie mehr über das Importieren von URLs erfahren möchten: Batch URL input.

 

 

Nachdem Sie auf den Button "Save" geklickt haben, sehen Sie, dass ein Schritt namens "Loop URLs" automatisch im Workflow generiert wird.

 

2. Extrahieren Daten - die Daten für die Extraktion auswählen

 

• Klicken auf die Elemente, die Sie extrahieren möchten

• Wählen "Extract text/URL/image URL of the selected element" in "Tipps

 extract_data.gif

• Klicken Sie auf mceclip2.png , um die Felder umzubenennen

 mceclip9.png

 

3. Verfeinern die Datenfelder

 

Um die Daten auf der Webseite genau zu lokalisieren, passen wir den XPath an.

 

• Doppelklicken auf den Schritt "Extract Data" im Workflow, um XPath zu überarbeiten

• Klicken auf das Symbol mceclip3.png, um XPath zu ändern

• Geben den überarbeiteten XPath in das Textfeld ein und klicken auf "OK", um zu speichern

 3.png

Hier sind die überarbeiteten XPaths für einige gängige Datenfelder

 

• Presented_by: //div[contains(text(),'Presented')]/following-sibling::span[2]

• Brokered_by: //li[contains(text(),'Brokered')]/following-sibling::li[1]

• Price: //span[contains(@class,'price')]

• Facilities: //ul[contains(@class,'property')]

• Address: //h1[contains(@class,'address')]

• Property_type: //span[contains(text(),'Property')]/following-sibling::span[1]

• Last_sold: //span[contains(text(),'Last Sold')]/following-sibling::span[1]

• Days_on_realtor: //span[contains(text(),'Days on')]/following-sibling::span[1]

• Parcel_number: //li[contains(text(),'Parcel')]

• Source Listing Status: //li[contains(text(),'Source Listing Status')]

 

Wenn Sie Daten wie Breiten- und Längengrad benötigen, müssen Sie die Image-URL der Karten extrahieren und dann die Daten bereinigen.

 

• Klicken auf das Kartenbild, um die URL des ausgewählten Bildes zu extrahieren

• Wiederholen den obigen Schritt

• Gehen zu "Extract Data" und finden die Option "Clean data".

• Klicken auf "Add step" und wählen "Match with Regular expression".

• Verwenden "center=" als Startwert und "%2C" als Endwert, um den Breitengrad abzugleichen

• Verwenden Sie "%2C" als Startwert und "&channel" als Endwert, um den Längengrad abzugleichen

 coordinates.gif

 

4. Führen Sie Ihre Aufgabe aus - Erhalten die gewünschten Daten

 

• Klicken auf "Save"

• Klicken auf "Run"

• Wählen "Run on your device", um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder Wählen "Run in the Cloud", um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer)

 mceclip12.png

 

Hier sind die Beispieldaten.

 mceclip13.png

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen