undefined
Blog > Web Scraping > Post

Eine Anleitung zur Erstellung eines Web Crawlers für Anfänger

Monday, July 04, 2022

Als einer Neuling habe ich einen Web Crawler erstellt und erfolgreich 20k Daten aus der Website von Amazon Karriere extrahiert. Hätten Sie jetzt den Lust zu wisssen, wie man einen Crawler erstellen und eine Datenbank schaffen können, die kostenlos in seinen Vermögenswert umwandeln würde? Lassen wir zur Zeit zusammen dies lernen!

 

 

 

1. Was ist Web Crawler?
Ein Web-Crawler ist ein Internet-Bot, der den Inhalt einer Website im Internet indizieren und Zielinformationen aus Websites automatisch extrahieren kann. Die extrahierten Daten werden in ein strukturiertes Format (Liste/Tabelle/Datenbank) exportiert.

 

 

2.Warum brauchen Sie einen Web Crawler?
Stellen Sie sich nun eine Welt ohne Google Search vor. Wie finden Sie, wie lange man ein Rezept vom Eisbein aus dem Internet erhalten braucht? Es gibt täglich 2.5 Trillionen von Datenbytes, die online geschafft haben. Ohne Suchmaschine wie Google wird es so schwer zu finden wie eine Nadel im Meer.

 

 Website in Datenbank

 

Eine Suchmaschine ist eine der besonderen Web Crawler, der Websites indizieren und Webseiten für uns finden kann. Außer der Suchmaschine können Sie auch einen kundenspezifischen Web Crawler errichten, der Ihnen helfen können, die oben erwähnten Funktionen zu verwirklichen:
Web Crawler 1: Content Aggregation
Es konzentriet sich darauf, dass die Information der Nische von unterschiedlichen Ressourcen in eine einzelne Plattform umgewandelt wird. So ist es notwendig, dass die populären Websites gescrapt werden, um Ihre Plattform gleichzeitig zu verwalten.
Web Crawler 2: Sentiment Analyse
Sie wird auch Text Mining genannt. Dem Name nach handelt es sich um den Prozess zur Analyse der öffentlichen Einstellungen zu einem Produkt oder einer Dienstleistung. Es erfordert eine große Menge an Daten, um die genau auszuwerten. Ein Web-Crawler kann Tweets, Bewertungen und Kommentare für die Analyse extrahieren.
Web Crawler 3: Lead Generierung
Alle Unternehmen brauchen Sales-Leads. Nur so können sie sich überleben und entwickeln. Ich würde Ihnen vorstellen, wie eine Errichtung einer Marketing-Kampagne geplant wird, die auf eine bestimmte Branche abzielt. Sie können E-Mails, Telefonnummern und öffentliche Profile aus einer Aussteller- oder Teilnehmerliste von Messen scrapen, z.B. die Teilnehmerliste vom Gipfel der Juristischen Rekrutierung im Jahr 2018.

 

 

 

 

3.Wie kann man als Anfänger einen Web Crawler erstellen?

Methode 1: Lernen der Kodierung und Schreiben Ihrer eigenen Skripte

Das Schreiben der Skripte mit Programmiersprachen wird überwiegend von Programmierern verwendet. Es kann so mächtig sein, wie Sie es erschaffen haben. Hier ist ein Beispiel für einen Schnipsel von Bot-Code.

 

 Lernen der Kodierung und Schreiben Ihrer eigenen Skripte

 

Web Scraping mit Python enthält im Allgemeinen drei hauptsächlichen Schritte:
Schritt 1: Schicken einer Anfrage
Schicken Sie eine Anfrage von HTTP zum URL auf der Webseite. Bei der Rückkehr des Inhaltes von Webseiten wird Ihre Anfrage dadurch beantwortet.
Schritt 2: Analysierung der Webseite
Analysieren Sie die Webseite. Wenn sich die Websites verflochten und miteinander verbunden werden, würde ein Parser eine Baumstruktur von HTML aufbauen. Eine Baumstruktur wird dem den Paths folgenden Bot helfen, die wir aufgabaut haben und navigiert werden, um die Information zu erhalten.
Schritt 3: Verwendung der Python-Bibliothek, um eine Baumstruktur zu suchen
Unter den Programmiersprachen für einen Web Crawler ist Python einfacher und flexibel umsetzbarer als PHP und Java. Es hat immer noch eine steile Lernkurve, die viele Menschen ohne technisches Fachwissen daran hindert, es zu verwenden. Auch wenn es eine günstige Lösung ist, einen eigenen Crawler zu erstellen, ist es wegen des Schwierigkeitsgrads beim Lernen keine beste Wahl für Anfänger.

 

Allerdings gibt es einen Fang! Wie wäre es, wenn eine Methode Ihnen helfen, ohne Schreiben einer einzelnen Linie von Code die gleichen Funktionen zu verwirklichen?

 

Methode 2: Verwendung gebrauchsfertiger Web Scraping Tools

Wenn Sie das Code nicht lernen möchten, sind Web Scraping Tools für Sie zweifellos eine gut Wahl. Es gibt viele Optionen zu wählen, aber ich empfehle Ihnen Octoparse. Laden Sie es herunter und versuchen Sie selbst, mit dem folgenden Beispiel die Daten vom Website Amazon Karriere zu extrahieren:

 

2.1 Ziel: Bauen Sie einen Crawler auf, um die Daten von administrativen Arbeitsmöglichkeiten zu extrahieren, einschließlich Titel, ID, Beschreibung, Basisqualifikation, bevorzugte Qualifikation und URL der Seit von Arbeiten.
2.3 Schritte
 Schritt 1: Öffnung von Octoparse - Erstellung einer neuen Aufgabe
Öffnen Sie Octoparse und wählen „Advanced Mode“. Geben Sie URL ein, um eine neue Aufgabe zu erstellen.
 Schritt 2: Datenextraktion der Arbeitsliste - Aufbauen einer Paginierung
Weil die Job-Liste mehrere Seiten enthalten, müssen wir eine Paginierung einrichten. Klicken Sie dazu auf die Schaltfläche „Next Page“ und wählen Sie „Look click single button“ im Tipps.
 Schritt 3: Hineingehen der Detailsseite - Klicken des Elementes
Wenn wir detaillierte Information jedes Liste-Items extrahieren möchten, müssen wir ein Loop-Item errichten zum Klicken von den Items. Einfach wählen Sie ein Job-Item und Octoparse wird automatisch die anderen ähnlichen Elemente aus der Seite erkennen. So brauchen Sie nur zuerst „Select all“ von der Panel des Aktion-Tipps auswählen und dann auf „Loop click each element“ klicken.
 Schritt 4: Datenextraktion von Details - Auswählen der gewünschten Daten
Jetzt sind Sie auf der Detailseite und sollten wir Octoparse es mitteilen, wo die Daten extrahiert werden können. Klicken Sie auf „Job Title“ und wählen den Befehl „Extract the text of the selected element“. Anschließend wiederholen Sie diesen Schritt und erhalten Daten wie „Job-ID“, „Beschreibung“, „Basisqualifikation“, „Bevorzugte Qualifikation“ und Seiten-URL.
 Schritt 5: Ende einer Erstellung - Starten der Aufgabe
Wenn das Auswählen der Extraktionsfelder abgeschlossen ist, klicken Sie zur Ausführung auf „Start Extraction“.

 

 

Tipps!

F: Was sollte man aber tun, wenn SaaS Software nicht geeignet ist?
Die meisten SaaS Software erfordern neue Benutzer*innen, um eine beträchtliche Menge an Training zu nehmen, bevor sie gründlich ihre Vorteile genießen. Glücklicherweise hat Octoparse „Task Templates(Englisch) aufgebaut, was schon mehr als 30 Websites für Anfänger enthält, damit die Benutzer*innen am Anfang die gemütliche Erfahrung bekommen können. Diese Aufgabenvorlagen ermöglichen den Benutzern, ohne Konfiguration der Aufgabe die Daten zu extrahieren und die Applikation einfacher zu verwenden.
Nach dem Erhalten des Selbstbewusstseins können Sie einen AI-gestützten Algorithmus zur automatischen Erkennung verwenden, um Ihren Crawler zu erstellen. Für erfahrene Scraper wird „Advanced Mode“ Ihnen helfen, ein Datenvolumen auf Unternehmensebene zu erhalten. Octoparse bietet auch zahlreiche Tutorials für Sie, damit Ihre Mitarbeiter*innen und Sie die meisten Software bekommen können.

 

 

4.Fazit
Das Schreiben von Skripten kann für Nicht-Programmierer mühsam sein, denn Webseiten sind nicht identisch, sodass wir für jede einzelne Seite ein Skript schreiben müssen. Und das Tool ist wahrscheinlich nicht dafür geeignet, wenn Sie eine Menge von unterschiedlichen Websites scrapen müssen. Außerdem werden Websites nach einer Zeit ihr Layouts und ihre Strukturen ändern. Infolgedessen müssen wir den Crawler auch entsprechend debuggen und anpassen. Deswegen ist das Web Scraping Tool eine praktischere einfachere Option für die Datenextraktion auf Unternehmensebene, die mit weniger Aufwand und geringeren Kosten sind.

 

 Fazit

 

Falls Sie vielleicht Probleme bei der Suche nach einem Web Scraping Tool hätten, hätten Sie keine Sorgen darum, weil ich schon eine Liste von den beliebsten Scraping Tools für Sie zusammengestellt habe. Das Video könnte vielleicht Ihr Problem lösen, in dem Sie ein gewünschtes Tool auswählen können!

 

 

 

Autorin: Ashley

Ashley ist eine Datenenthusiastin und leidenschaftliche Bloggerin mit praktischer Erfahrung im Web Scraping. Sie konzentriert sich darauf, Webdaten zu sammeln und zu analysieren, damit Firmen und Unternehmen umsetzbare Erkenntnisse erhalten können. Lesen Sie ihren Blog (Englisch) hier, um praktische Tipps und Anwendungen zur Webdatenextraktion (Englisch) zu entdecken.

  

  

 

 

 

 

Laden Sie Octoparse herunter, um mit Web-Scraping zu beginnen, oder kontaktieren Sie uns
für die Fragen über Web Scraping!

Kontaktieren Sie uns Herunterladen
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen