undefined

Scrapen Stellenanzeigen von Glassdoor  

Thursday, June 10, 2021 4:04 PM

 

In diesem Tutorial stellen wir Ihnen vor, wie Sie mit Octoparse Informationen von glassdoor.com scrapen können.

 

Sie können einfach unsere "Aufgabenvorlage" für Glassdoor verwenden. Sie brauchen keine Aufgabe selbst zu konfigurieren, sondern nur einige Parameter einzugeben. Für weitere Details können Sie hier nachsehen: Aufgabenvorlagen

 1.png

 

Wenn Sie die Aufgabe von Grund auf selbst erstellen möchten, lesen Sie bitte das Tutorial weiter.

 

Zum Nachvollziehen können Sie diese URL im Tutorial verwenden:

https://www.glassdoor.com/Job/jobs.htm?suggestCount=0&suggestChosen=true&clickSource=searchBtn&typedKeyword=marketing&sc.keyword=Marketing+Manager&locT=N&locId=1&jobType

 

Wir werden Daten wie den Firmentitel, den Typ, die Adresse und andere zugehörige Informationen von jeder Detailseite scrapen.

 

Hier sind die wichtigsten Schritte in diesem Tutorial:  [Aufgabendatei hier herunterladen]

 

1. "Go To Web Page" - Öffnen die Ziel-Webseite

2. Detektieren automatisch die Daten von der Webseite - Erstellen einen Workflow

3. Klicken in jeden Produkt-Link, um weitere Informationen zu scrapen

4. Wählen die Zieldatenfelder aus

5. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

 

 

1. "Go To Web Page" - Öffnen die Ziel-Webseite

 

• Geben Sie die Beispiel-URL ein und klicken Sie auf "Start".

 15615615615.png

 

 

2. Detektieren automatisch die Daten von der Webseite - Erstellen einen Workflow

 

• Klicken auf "Auto-detect web page data" und warten, bis die Detektion abgeschlossen ist

 498549549854.gif

 

• Überprüfen Sie die Datenfelder in der Datenvorschau, und Sie können auch die unerwünschten Felder löschen mceclip13.png oder Felder umbenennen mceclip14.png, falls erforderlich

 2.1.png

 

• Klicken auf "Create workflow"

2.2.png

 

Octoparse wird einen Workflow wie diesen generieren:

 mceclip0.png

 

Die Website verwendet die Technik „AJAX“, um die nächsten Seiten zu laden, daher müssen wir eine AJAX-Wartezeit einstellen.

 

• Öffnen die Einstellungen der Aktion "Click to Paginate"

• Wählen "Load with AJAX"

2.1.gif

 

• Stellen die Wartezeit auf 7-10s ein

 

Wenn alle benötigten Datenfelder sich schon in der Datenvorschau befinden, können Sie einfach zum Schritt 5 springen und die Aufgabe ausführen, um die Daten zu erhalten. Wenn Sie noch in jede Detailseite klicken möchten, um weitere Informationen zu scrapen, folgen Sie bitte dem nächsten Schritt.

 

 

3. Klicken in jeden Produkt-Link, um weitere Informationen zu scrapen

 

• Wählen “Click on link(s) to scrape the linked page(s)”

• Wählen "Click on an extracted data field" und wählen eine Option aus dem Dropdown-Menü aus. Sie können in der Datenvorschau überprüfen, ob es der richtige Link ist.

• Klicken auf "Confirm"

 9625956129651.gif

 

Glassdoor öffnet die Detailseite nicht in einem neuen Tab, sondern lädt die mit der Technik „AJAX“ auf der aktuellen Seite, daher müssen wir die Einstellungen von der Aktion "Click the URLs in the list" ändern.

 

• Öffnen die Einstellungen der Aktion "Click the URLs in the list"

• Deaktivieren "Open in a new tab".

• Wählen "Load with AJAX" und stellen die AJAX-Wartezeit auf 7-10s ein

 3.1.gif

 

 

4. Wählen die Zieldatenfelder aus

 

• Wählen Informationen auf der Webseite aus

• Wählen "Extract text of the selected element"

• Wiederholen die obigen Schritte, um alle benötigten Daten zu extrahieren

 

Tipps!

Wenn auf der Webseite ein Pop-up-Fenster erscheint, können Sie in den Browser-Modus wechseln, indem Sie auf die Schaltfläche 1495615615.png klicken und das Pop-up-Fenster manuell schließen. Schalten Sie dann den Browser-Modus aus und fahren Sie fort, Elemente auf der Webseite auszuwählen.

 

 1612562652.gif

 

5. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

 

• Klicken auf "Save"

• Klicken auf "Run"

• Wählen "Run on your device", um die Aufgabe mit Ihrem lokalen Gerät auszuführen

 5.png

 

Tipps!

Die Aufgabe kann nur auf Ihrem lokalen Gerät ausgeführt werden. Wegen der Anti-Scraping-Einstellungen von Glassdoor kann die nicht in der Cloud ausgeführt werden.

 

Hier sind die Beispieldaten.

mceclip1.png

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen