undefined
Blog > Web Scraping > Post

Wie baut man einen Web Crawler - Eine Anleitung für Einsteiger  

Thursday, June 24, 2021

In diesem Artikel werde ich Ihnen zeigen, wie Sie ohne Kosten einen Crawler einrichten und eine Datenbank erstellen können. Los gehts! 

 

Was ist ein Web-Crawler?

 

Ein Web-Crawler ist ein Internet-Bot, der den Inhalt einer Website im Internet indexieren und Zielinformationen und Daten automatisch extrahieren kann. Die extrahierten Daten werden in ein strukturiertes Format (Liste/Tabelle/Datenbank) exportiert.

 

Warum brauchen Sie einen Web-Crawler, insbesondere für Unternehmen?

 

Wenn Sie die folgenden Bedürfnisse haben, ist Web-Crawler ein wichtiges Tool für Sie.

 

1. Content-Aggregation: Er arbeitet daran, Informationen über dasselbe Thema aus verschiedenen Ressourcen auf einer einzigen Plattform zusammenzustellen. Beispielweiseist es notwendig, populäre Websites zu crawlen, um die Inhalte Ihrer Plattform zu vermehren.

 

2. Sentiment-Analysis: Sie wird auch Opinion Mining (Meinungsforschung) genannt. Wie der Name schon sagt, handelt es sich um den Prozess zur Analyse der öffentlichen Einstellungen zu einem Produkt oder einer Dienstleistung. Es erfordert eine monotone Menge an Daten, um die genau auszuwerten. Ein Web-Crawler kann Tweets, Bewertungen und Kommentare für die Analyse extrahieren.

 

3. Lead-Generierung: Alle Unternehmen brauchen Sales-Leads. Nur so können die überleben und entwickeln. Nehmen wir an, dass Sie eine Marketingkampagne planen, die auf eine bestimmte Branche abzielt. Sie können dann E-Mails, Telefonnummern und öffentliche Profile von einer Aussteller- oder Teilnehmerliste von Messen scrapen, die Ihre Sales-Leads werden können.

 

 

Wie erstellt man als Anfänger einen Web-Crawler?

 

A. Scraping mit der Programmiersprache

 

Das Schreiben von Skripten mit Programmiersprache wird vor allem von Programmierern verwendet. Hier ist ein Beispiel von Bot-Code.

 pythonwithbeautifulsoup

 Von Kashif Aziz

 

Web Scraping mit Python umfasst drei Hauptschritte:

 

1. Senden Sie eine HTTP-Anfrage an die URL der Webseite. Das Programm antwortet auf Ihre Anfrage, indem es den Inhalt der Webseiten zurückgibt.

 

2. Parsen der Webseite. Ein Parser erstellt eine Baumstruktur des HTML, da die Webseiten miteinander verflochten und verschachtelt sind. Eine Baumstruktur wird dem Bot helfen, den Pfaden zu folgen, die wir erstellt haben und die Baumstruktur kann das Bot navigieren, um die Informationen zu erhalten.

 

3. Verwenden die Python-Bibliothek zum Durchsuchen des Parse-Baums.

 

Im Vergleich zu PHP und Java ist Python einfach zu implementieren. Trotzdem ist es vielen Nicht-Programmierern schwer, Python zu benutzen. Selbst wenn es eine günstige Lösung ist, einen eigenen Crawler zu erstellen, ist es wegen des Schwierigkeitsgrads beim Lernen keine beste Wahl für Anfänger.

 

Gibt es eine Methode, mit der Sie die gleichen Ergebnisse erhalten können, ohne eine einzige Zeile Code zu schreiben? Na klar!

 

B. Verwenden Web-Scraping-Tools zum Erhalten der Daten.

 

Was das Auswählen der Web-Scraping-Tools angeht, gibt es viele Optionen. Hier nehme ich Octoparse als ein Beispiel. Wenn Sie Interesse an die anderen Web-Scraping-Tools haben, lesen Sie bitte den Artikel, in dem verschiedene Web-Scraping-Tools ausführlich vorgestellt werden.

 

Ziel: Erstellen eines Crawlers zum Extrahieren der Stellenangeboten mit Jobtitel, Job-ID, Beschreibung, Grundqualifikation, bevorzugter Qualifikation und Seiten-URL.

 

URL: https://www.amazon.jobs/en/job_categories/administrative-support

 

1. Öffnen Sie Octoparse und wählen Sie "Advanced Mode". Geben Sie die obige URL ein, um eine neue Aufgabe zu starten.

 

2. Weil die Job-Liste mehrere Seiten enthalten, müssen wir eine Paginierung einrichten. Klicken Sie dazu auf die Schaltfläche "Nächste Seite" und wählen Sie "Look click Single Button" im Tipps.

 

3. Da wir auf jeden Job klicken möchten, um die Daten zu extrahieren, müssen wir ein „loop item“ erstellen. Klicken Sie auf einen Job und Octoparse wird automatisch alle anderen Stellenanzeigen auf der Seite identifizieren. Wählen Sie den Befehl "Select All" im Tipps und dann den Befehl "Loop Click Each Element".

 

4. Jetzt sind Sie auf der Detailseite und gibt es nur ein Schritt zu erledigen, bevor Sie benötigte Daten erhalten. Klicken Sie auf "Jobtitel" und wählen den Befehl "Extract the text of the selected element". Anschließend wiederholen Sie diesen Schritt und erhalten Daten wie "Job-ID", "Beschreibung", "Basisqualifikation", "Bevorzugte Qualifikation" und Seiten-URL.

 

5. Wenn Sie das Auswählen der Extraktionsfelder abgeschlossen haben, klicken Sie zur Ausführung auf "Start Extraction".

 

 octoparse_getdata

 

Um die Schwierigkeiten bei der Einrichtung des Crawlers zu beseitigen, fügt Octoparse 8 eine neue Funktion "Aufgabenvorlagen" hinzu, damit Einsteiger sich schneller und einfacher mit der Software vertraut machen können. Die Aufgabenvorlagen decken mehr als 30 beliebte Websites ab, die es den Benutzern ermöglichen, die Daten aus den Websites ohne Aufgabenkonfiguration sofort zu erfassen.

Für erfahrene Experten ist der "Advanced Mode" eine flexiblere Option, um Daten zu extrahieren. Octoparse bietet auch ausführliche Schulungsmaterialien für Sie und Ihre Mitarbeiter, damit Sie mit der Datenextraktion schnell anfangen können.

 

Fazit

Das Schreiben von Skripten kann für Nicht-Programmierer mühsam sein, denn Webseiten sind nicht identisch, und wir müssen für jede einzelne Seite ein Skript schreiben. Außerdem ändern Webseiten wahrscheinlich ihr Layout und ihre Struktur. Infolgedessen müssen wir den Crawler auch entsprechend debuggen und anpassen. Deswegen ist das Web Scraping Tool eine praktischere einfachere Option für die Datenextraktion auf Unternehmensebene.

 webscrapingtool_python

 

Wenn Sie Schwierigkeiten haben, ein Web-Scraping-Tool zu finden, habe ich eine Liste der beliebtesten Scraping-Tools zusammengestellt. Dieses Video kann Ihnen helfen, ein passendes Tool nach Ihren Bedürfnissen zu finden! Viel Spaß bei der Datenextraktion!

 

 

 

Laden Sie Octoparse herunter, um mit Web-Scraping zu beginnen, oder kontaktieren Sie uns
für die Fragen über Web Scraping!

Kontaktieren Sie uns Herunterladen
btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen