undefined
Blog > Datenerfassung > Post

Eine Anweisung zum Web Scraping der Stellenanzeigen  

Wednesday, June 30, 2021

 

Warum Stellenanzeigen?

 

In den Jahren beschäftige ich mich mit Web-Scraping und spreche mit Nutzern aus der ganzen Welt, dass Stellenanzeigen zu einer der am meisten gesuchten Informationen gehören. Ich war ehrlich gesagt etwas überrascht, als ich „Gallup's 2017 State of the American Workplace report“ gelesen habe. Laut dem Report suchen 51 % der beschäftigten Erwachsenen nach neuen Jobs oder nach neuen Arbeitsmöglichkeiten und 58 % davon suchen nach Jobs online. Mit anderen Worten können wir sagen, dass dieser Markt riesig ist. Gleichzeitig war ich auch überrascht, dass es so viele Möglichkeiten gibt, Stellenanzeigen zu nutzen. Hier nenne ich um nur einige Beispiel:

 

1. Anreicherung der Jobportal-Webseiten mit aktualisierte

2. Mit gesammelten Daten Jobtrends und Arbeitsmärkte analysieren

3. Offenen Stellen, Gehältern und Sozialleistungen der Mitbewerberverfolgen, um sich einen Vorsprung in der Konkurrenz zu verschaffen.

4. Finden Sie Leads, indem Sie Ihre Dienstleistung bei Unternehmen anbieten, die Mitarbeiter für die gleiche Stelle suchen.

5. Personalvermittler durchforsten Jobbörsen, um ihre Jobdatenbanken zu aktualisieren.

 

Die sind nur die Spitze eines Eisbergs. Allerdings ist das Scrapen der Stellenanzeigen nicht so einfach.

 

 

Herausforderungen beim Scraping von Stellenanzeigen:

 

Zuerst müssen Sie wissen, wo Sie diese Informationen extrahieren wollen. Es gibt zwei Haupttypen zum Erhalten der Stellenanzeigen:

 

1. Große Jobportalewie Indeed, Monster, Naukri, ZipRecruiter, Glassdoor, Craiglist, LinkedIn, SimplyHired, reed.co.uk, Jobster, Dice, Facebook jobs und so weiter.

2. Jedes Unternehmen hat einen Karrierebereich auf seinen Websites. Durch regelmäßiges Scraping dieser Seiten erhalten Sie die aktuellste Liste der offenen Stellen.

 

Weiterer Artikel von mir: 70 Amazing Free Data Sources You Should Know

 

Danach benötigen Sie einen Web Scraper, um die oben genannten Websites zu scrapen. Große Jobportale können schwierig zu scrapen sein, da sie immer Anti-Scraping-Techniken einsetzen, um zu verhindern, dass Scraping-Bots Informationen von ihnen sammeln. Einige gängigste Methode bei Sperrung sind IP-Sperren, Verfolgung der verdächtigen Browsing-Aktivitäten, Honeypot oder die Verwendung von Captcha, um übermäßige Seitenbesuche zu verhindern. Wenn Sie daran interessiert sind, erklärt dieser Artikel, wie man einige häufigsten Anti-Scraping-Sperren umgehen kann. Im Gegenteil sind die Karriereseiten der Unternehmen  relativ einfacher zu scrapen. Aber weil jedes Unternehmen seine eigene Website hat, ist es erforderlich, für jedes Unternehmen einen Crawler einzurichten. Dies ist nicht nur mit hohen Kosten verbunden, sondern auch eine Herausforderung für die Wartung der Crawler, da die Websites häufig geändert werden.

 

 

Welche Optionen gibt es für das Scraping von Stellenanzeigen?

 

Es gibt ein paar Möglichkeiten, wie Sie Stellenanzeigen aus dem Web scrapen können.

 

1. Beauftragung eines Web Scraping Service (Daas)

 

Diese Unternehmen bieten Web-Scraping-Service an. Einige bekannte Web-Scraping-Anbieter sind Scrapinghub, Datahen, und Data Hero. Sie nehmen Ihre Anfragen entgegen und richten alles für Sie ein, um die Daten zu sammeln, wie z.B. die Skripte, die Server, die IP-Proxys, usw. Die Daten werden Ihnen in dem gewünschten Format und in der gewünschten Häufigkeit zur Verfügung gestellt. Scraping-Dienste berechnen in der Regel nach der Anzahl der Websites, der Menge der abzurufenden Daten und der Häufigkeit des Crawlens. Einige Firmen berechnen zusätzlich die Anzahl der Datenfelder und die Datenspeicherung. Außerdem ist die Komplexität der Website auch ein wichtiger Faktor, der den Endpreis beeinflussen kann. Für jede Website zum Scrapen fallen in der Regel eine einmalige Einrichtungsgebühr und eine monatliche Wartungsgebühr an.

 

Vorteile:

 

• Man muss nicht selbst lernen. Daten werden direkt an Sie geliefert.

• Hochgradig anpassbar und an Ihre Bedürfnisse anpassen.

 

Nachteile:

 

• Die Kosten können hoch sein, besonders wenn Sie viele Websites zu scrapen haben ($350 ~ $2500 pro Projekt + $60 ~ $500 monatliche Wartungsgebühr).

• Langfristige Wartungskosten können das Budget überschreiten

• Verlängerte Entwicklungszeit, denn für jede Website braucht die Web-Scraping-Anbieter 3 bis 10 Arbeitstage, um Web-Crawler komplett einzurichten.  

 

2. Web Scraping selbst einrichten

 

Richten Web-Scraping mit eigenem technischen Team und eigenen Ressourcen ein.

 

Vorteile:

 

• Vollständige Kontrolle über den Crawling-Prozess.

• Weniger Kommunikationsprobleme, schnellere Bearbeitung.

 

Nachteile:

 

• Hohe Kosten. Ein Team von Technikern kostet viel.

• Fehlen an Fachwissen. Web Scraping erfordert ein hohes Maß / stellt eine hohe Anforderung an technischen Fähigkeiten, besonders wenn Sie die populäre Websites scrapen möchten oder wenn Sie regelmäßig eine große Menge an Daten extrahieren möchten. Selbst für Profis beim Programmieren kann das auch schwierig sein. Im Vergleich dazu sind Datendienstleistern sowie Scraping-Tools erfahrener im Umgang mit den Hindernissen beim Web Scraping.

• Verlust des Fokus. Warum legen Sie nicht mehr Zeit und Energie auf das Wachstum Ihres Unternehmens, statt auf die Sammlung der Daten?

• Anforderungen an die Infrastruktur. Wenn Sie Web Scraping selbst einrichten möchten, müssen Sie auch die Server für die Ausführung der Skripte, die Datenspeicherung usw. beschaffen. Bei Bedarf benötigen Sie wahrscheinlich auch einen Proxy-Dienstanbieter und einen Captcha-Löser eines Drittanbieters. Es kann extrem anstrengend und ineffizient sein, all diese Sachen einzurichten und täglich zu warten. 

• Kopfschmerzen bei der Wartung. Skripte müssen ständig aktualisiert oder sogar neu geschrieben werden, da sie kaputt gehen, wenn Websites Layouts oder Codes aktualisieren.

• Rechtliche Risiken. Das Web-Scraping ist in den meisten Fällen legal, auch wenn es in Streit liegt. Im Allgemeinen ist es sicher, öffentliche Informationen zu scrapen, und wenn Sie vorsichtiger sein wollen, überprüfen Sie die Nutzungsbedingungen der Website und vermeiden Sie es, diese zu verletzen. Oder können Sie einfach ein anderes Unternehmen/eine andere Person beauftragen, sodass die verbundene Risiko sicherlich verringert.  

 

3. Verwendung eines Web-Scraping-Tools

 

Die Technologie hat sich entwickelt und genau wie alles andere kann Web Scraping jetzt automatisiert werden. Es gibt viele Web-Scraping-Software, damit Personen ohne Programmierkenntnisse auch Daten aus Website sammeln können. Diese Web-Scraper oder Web-Crawler können die gewünschten Daten aus Website erfassen, indem die die HTML-Struktur der Webseite entschlüsseln. Durch "Ziehen" und "Klicken" können Sie das Scraper befehlen. Das Programm kann durch seinen eingebauten Algorithmus erfahren, was Sie brauchen, und führt das Scraping automatisch durch. Die meisten Scraping-Tools können für eine regelmäßige Extraktion geplant werden und lassen sich in Ihr eigenes System integrieren.

 

web scraping job posting with Octoparse

 

[Weiterer Artikel: Top 30 kostenlose Web Scraping Software im Jahr 2021]

 

Vorteile:

 

• Günstig. Die meisten Web-Scraping-Tools unterstützen monatliche Zahlungen ($60 ~ $200 pro Monat) und einige bieten sogar kostenlose Pläne an, die die meisten Bedürfnisse schon abdecken kann.

• Freundlich für Nicht-Programmierer. Die meisten Web-Scraping-Tools sind Benutzerfreundlich, denn die für die Leuten mit wenigem oder keinem technischen Wissen entwickelt werden. Wenn Sie Zeit sparen möchten und nicht selbst Daten sammeln möchten, bieten manche Anbieter noch einen Datenservice sowie Schulungen an.

• Skalierbar. Web-Scraping-Tools können mühelos Projekte in jeder Größe durchführen, von einer bis zu Tausenden von Websites.   

• Einfach zu erstellen.Ein Crawler kann in 10 Minuten erstellt werden.

• Vollständige Kontrolle. Sobald Sie den Scraping-Prozess erlernt haben, können Sie weitere Crawler einrichten oder die vorhandenen modifizieren, ohne die Hilfe des technischen Teams oder des Dienstleisters in Anspruch zu nehmen.

• Geringe Wartungskosten. Da Sie keine Techniker mehr brauchen, um die Crawler zu reparieren, können Sie die Wartungskosten sparen.

 

Nachteile:

 

• Notwendigkeit zu lernen. Je nachdem, für welches Produkt Sie sich entscheiden, kann es ein bisschen Zeit dauern, das Programm zu beherrschen. Virtuelle Scraper wie import.io, dexi.io und Octoparse sind einfacher zu erlernen.

• Kompatibilität. Alle Web-Scraping-Tools behaupten, dass sie alle Arten von Websites abdecken, aber die Wahrheit ist, dass kein Tool alle Website abdecken kann. 

• Captcha. Die meisten Web-Scraping-Tools können Captcha nicht lösen.

 

 

 

Ein echtes Beispiel für Web-Scraping

 

Anschließend werde ich mit einem echten Web-Scraping-Beispiel erklären, wie man tatsächlich mit meinem Web-Scraping-Tool, Octoparse, Daten aus Website scrapen kann. In diesem Beispiel werde ich grundlegende Informationen von der Arbeitsstelle des Datenwissenschaftlers in New York scrapen.  

 

Daten zu extrahieren

 

1. Job-Titel

2. Arbeitsort

3. Name des Arbeitgebers

4. Beschreibung des Jobs

5. Anzahl der Bewertungen

6. Seite URL

  scraping indeed data

 

 

Voraussetzungen

Laden Sie Octoparse herunter und installieren es. Es wäre besser, wenn Sie mit dem Funktionsprinzip von Octoparse vertraut sind. Schauen Sie sich Octoparse Scraping 101 an, und erfahren Sie, wie Octoparse funktioniert, wenn Sie neu im Umgang mit dem Tool sind. 

 

Erstellen eines Scraping-Projekts

1. Starten Sie Octoparse und erstellen Sie ein neues Projekt, indem Sie in „Advanced Mode“ auf "+Task" klicken.  

 create a task in Octoparse

 

2. Geben Sie die Ziel-URL (https://www.indeed.com/jobs?q=Data%20Scientist&l=New%20York%20State&_ga=2.92303069.138961637.1571107168-1638621315.1571107168) in das URL-Feld ein. Dies ist die von Chrome kopierte URL bei der Suche nach "data scientists" in der Nähe von "New York" auf Indeed.com. Klicken Sie auf „Save URL“, um fortzufahren.

 job scraping step 1 _octoparse

 

Tipps:

Wenn Sie kleinen Bildschirm verwende, können Sie den Fenster in den Vollbildmodus umschalten, indem Sie auf den Workflow-Button am oberen Rand klicken. Dadurch erhalte Sie eine bessere Sicht auf die Webseite.

 toggle workflow switch

 

 

3. Klicken Sie auf den ersten Job-Titel, dann auf den zweiten Job-Titel (oder jeden anderen Job-Titel).

 job scraping create list in Octoparse

 

 

4. Folgen Sie den Anweisungen in"Tipps", die nun „10 elements selected“zeigt. Wir möchten jeden der ausgewählten Titel anklicken, um die Daten auf der Detailseite zu extrahieren, daher wählen wir hier „Loop click each element“.

 create a list in Octoparse

 

Tipps:

Wenn Sie erfolgreich den Schritt „loop item“ erstellt haben, wird der Schritt dem Workflow hinzugefügt. Überprüfen Sie das Workflow und sehen Sie, ob dies bei Ihnen der Fall ist.

 workflow in Octoparse

 

 

5. Jetzt sind Sie auf der Job-Seite, können Sie die Daten, die Sie scrapen möchten, durch Anklicken extrahieren. Klicken Sie auf den Titel des Jobs, den Standort, die Anzahl der Bewertungen, den Firmennamen und die Jobbeschreibung.

 extract job data in Octoparse

 

 

6. Wenn Sie mit der Auswahl der benötigten Felder fertig sind, klicken Sie auf „Extract data“ in den„Action Tips“.

 extract data

 

7. Anschließend erfassen wir die Seiten-URL, indem wir ein vordefiniertes Feld hinzufügen.

Rufen Sie den Aufgaben-Workflow auf, indem Sie die Schaltfläche "Workflow" oben anklicken.

Wählen Sie den Schritt "Extract data" im Workflow aus, dann klicken Sie auf "Add pre-defined field".

Wählen Sie "Add current page information", dann "Web page URL". Dadurch wird die Seiten-URL zusammen mit allen anderen Datenfeldern extrahiert.

 extract job board page URL in Octoparse

 

 

 

Tipps:

Octoparse generiert automatisch Feldnamen für die erfassten Datenfelder. Wenn Sie die Datenfelder umbenennen möchten, tippen Sie einfach auf die aktuellen Namen.

 rename data fields

 

 

8. Bis jetzt haben Sie alle auf der ersten Seite aufgelisteten Jobs extrahiert. Wenn Sie weitere  Seiten extrahieren möchten, ist es dann notwendig, die Aktion „Paginierung“ einzurichten, damit  Octoparse mehrere Seiten scrapen kann.

Kehren Sie auf die Suchergebnisseite zurück, indem Sie auf die Aktion im Workflow klicken.

Scrollen Sie auf der Seite nach unten und finden Sie die Schaltfläche "Weiter", klicken Sie darauf.

Wählen Sie unter "Tipps" die Option "Loop click single element", sodass Octoparse mehrmals auf die Schaltfläche "Weiter" klicken wird, bis es die letzte Seite erreicht hat (wenn "Weiter" nicht mehr auf der Seite zu finden ist).

 scrape jobs across pages in Octoparse

 

Tipps:

Sie können auch die Anzahl der zu extrahierenden Seiten angeben. Wenn Sie z. B. nur die ersten 3 Seiten extrahieren möchten, geben Sie die Zahl "2" für "End loop when execution times reaches X" ein. Auf diese Weise paginiert Octoparse nur 2 Mal und endet, wenn es die Seite 3 extrahiert hat.

 pagination in Octoparse

 

 

9. Nachdem Octoparse erfolgreichSeite-2 erreiche, habe ich bemerkt, dass das "Next"-Element nicht mehr korrekt lokalisiert wird.Der automatisch generierte XPath nun den "Previous"-Button lokalisiert. Um das Problem zu lösen, müssen wir den XPath manuell ändern.

Wählen Sie „pagination loop“ aus und geben Sie den neuen XPath des einzelnen Elements ein //SPAN[contains(text(), 'Next')].

Jetzt haben wir die korrekte "Weiter"-Schaltfläche lokalisiert.

 fix pagination in Octoparse

 

Tipps:

Erfahren Sie, wie Sie XPath manuell ändern können, wenn der automatisch generierte XPath falsch ist:  

 

 

 

10. Das war's. Sie sind schon mit der Konfiguration der Aufgabe fertig. Klicken Sie oben auf die Schaltfläche "Extract data", um die Aufgabe auszuführen.

 job scraping results with octoparse

 

Tipps:

Wenn Sie andere Job-Portal-Websites (wie glassdoor.com) scrapen möchten, lesen Sie bitte diesen Beitrag!

 

 

Fazit

Zusammenfassend haben alle vorgestellten Methoden Vor- und Nachteile. Der beste Methode für Sie soll zu Ihren spezifischen Anforderungen passen (Zeitplan, Budget, Projektgröße, usw.). Es ist klar, dass eine Lösung, die für ein Fortune-500-Unternehmen gut funktioniert, für einen normalen Student nicht geeignet ist. Wägen Sie also alle Vor- und Nachteile der verschiedenen Optionen ab, und testen Sie die Lösung vollständig, bevor Sie sich für eine entscheiden.

 

 

Laden Sie Octoparse herunter, um mit Web-Scraping zu beginnen, oder kontaktieren Sie uns
für die Fragen über Web Scraping!

Kontaktieren Sie uns Herunterladen
btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen