Web Scraping bezieht sich auf die Extraktion von Informationen von Websites, die anschließend für eine Vielzahl von Zwecken genutzt werden können, wie zum Beispiel für Marktforschung, Preisvergleiche oder zur Überwachung von Online-Inhalten.
Es ist eine basierende Anleitung, mit der Sie mehr Kenntnisse über Web Scraping erhalten können. Ich glaube, dass Sie bestimmt das Wort „Web-Scraping“ gehört haben oder Interesse daran hätten, falls Sie auf diesen Artikel geklickt haben. Was ist denn Web Scrapping? Wie funktiniert es und wie wird es verwendet? Wie kann ich mit Web Scraping python beginnen die Daten extrahieren? Geduldig und entspannend beantwortet dieser Blog “Was ist Web Scraping und wie funktioniert es?” alle Fragen.
Wann ist Web Scraping geboren?
Trotzdem das Web Scraping für viele Menschen ein neues Konzept scheint, rührt die Geschichte des Web Scraping noch von damals her, als das World Wide Web geboren wurde.
Am Anfang war das Internet noch gar nicht recherchierbar. Bevor Suchmaschinen erfunden werden, war das Internet nur eine Sammlung von FTP-Seiten (File Transfer Protocol, ein Netzwerkprotokoll zur Datenübertragung), in denen Benutzer*innen Navigation erhalten, um bestimmte gemeinsame Dateien herauszufinden. Um die im Internet verteilten Daten zu finden und zu organisieren, entwickelte man ein spezielles automatisiertes Programm, das heute als Web-Crawler/Bot bekannt ist. Damit kann man alle Webseiten aus Internet scrapen und dann alle Inhalte zur Indizierung in die Datenbanken kopieren.
Danach entwickelt sich das Internet ständig und schließlich wird es den speziellen Raum von Millionen Webseiten, die eine Menge Daten in verschiedenen Formen enthalten, wie Texte, Bilder, Videos und Audios. Es wird nach und nach zu einer Open-Source-Datenquelle.
Als solche Datenquelle unglaublich blühend und leicht durchsuchbar wurde, fanden die Menschen es einfach, die gewünschten Informationen zu suchen, die sich oftmals über eine große Anzahl von Webseiten verteilten. Aber das Problem trat auf, als man Daten aus dem Internet extrahieren wollte – nicht jede Webseite bot Download-Optionen an, und das manuelle Kopieren war sehr mühsam und ineffizient.
Das ist der wichtigste Grund, warum das Web Scraping erscheint. Web-Scraping wird im Wesentlichen von Web-Bots/Crawlern betrieben, die auf die gleiche Weise funktionieren wie Suchmaschinen, d.h. Scrapen und Kopieren. Der Umfang könnte der einzige Unterschied sein. Web Scraping konzentriert sich nur auf die Extraktion bestimmter Daten von bestimmten Webseiten, während die Suchmaschinen oftmals die meisten Webseiten im Internet scrapen.
Geschichte des Web Scrapings
1989: Die Geburt des World Wide Web(WWW)
Technisch ist das World Wide Web anders als das Internet. Das erste bezieht sich auf den Informationsraum, während das letzte ein aus Computern bestehendes Netzwerk ist.
Dank Tim Berners-Lee, dem Erfinder von WWW, haben sich die drei folgenden Dinge in unseren Alltagsleben schon lange integriert. Er brachte uns:
- Uniform Resource Locators (URLs), die wir verwenden, um die zielende Webseite zu besuchen;
- Eingebettete Hyperlinks, die uns ermöglichen, zwischen unterschiedlichen Webseiten zu navigieren. Hier nehmen wir die Produktdetailseiten als ein Beispiel, worauf wir Produktspezifikationen und viele andere Dinge finden können, wie z. B. „Kunden, die dies gekauft haben, kauften auch…“;
- Webseiten, die nicht nur Texte, sondern auch Bilder, Audios, Videos und Softwarekomponenten enthalten.
1990: Der erste Webbrowser
WorldWideWeb (ohne Leerzeichen), das auch von Tim Berners-Lee erfunden wurde, benannt sich nach dem WWW-Projekt. Ein Jahr später nach dem Erscheinen des Webs konnte man der Webbrowser sehen und mit ihm interagieren.
1991: Der erste Webserver und die erste Webseite http://
Das Web wuchs explosionsartig als gedacht. Bis 1994 stieg die Zahl des HTTP-Servers auf über 200.
1993-Juni: Erster Webroboter – World Wide Web Wanderer
Er funktionierte zwar genauso wie die heutigen Webroboter, war aber nur dazu geneigt, die Größe des Netzes zu messen.
1993-Dezember: Erste Crawler-basierte Web-Suchmaschine – JumpStation
Weil es noch nicht so viele Webseiten im Web gab, waren die Suchmaschinen damals darauf angewiesen, dass ihre menschlichen Webseite-Administratoren die Links sammelten und sie in ein bestimmtes Format bearbeiteten. JumpStation brachte einen neuen Sprung. Sie ist die erste WWW-Suchmaschine, die sich auf einen Web-Roboter setzt.
Seitdem ist es angefangen, dass man diese programmatischen Webcrawler verwendet, um das Internet entnehmen und organisieren zu können. Von Infoseek, Altavista und Excite bis hin zu Bing und Google bleibt der Kern eines Suchmaschinen-Bots immer unverändert: eine Webseite zu finden, sie zu downloaden (abzurufen), alle auf der Webseite dargestellten Informationen zu extrahieren und sie dann der Datenbank von der Suchmaschine hinzufügen.
Weil Webseiten für menschliche Benutzer*innen und nicht für eine einfache automatische Nutzung gestaltet sind, war es trotz der Entwicklung des Web-bots für Computeringenieuren und Wissenschaftler noch hart, Web-Scraping zu betreiben, geschweige denn es für normale Menschen. Deshalb haben sich Menschen dafür eingesetzt, Web Scraping verfügbarer zu machen. Im Jahr 2000 brachten Salesforce und eBay ihre eigene API auf den Markt, womit Programmierer eigene öffentlich zugängliche Daten zugreifen und herunterladen konnten. Seitdem bieten viele Webseiten Web-APIs an, über die man auf ihre öffentlichen Datenbanken zugreifen kann. Durch APIs können die Entwickler Web Scraping einfacher betreiben, indem sie nur die von Webseiten bereitgestellten Daten sammeln.
2004: Python Beautiful soup Web Scraping
Nicht alle Webseiten bieten APIs an. Selbst wenn sie APIs bieten, versorgen diese Webseiten nicht mit allen Daten, die man sucht. So widmten sich Programmierer bisher noch darum, Web Scraping zu erleichtern. 2004 wurde Beautiful Soup veröffentlicht. Es ist eine bestimmte Bibliothek für Python.
In Computerprogrammieren ist eine Bibliothek eine Sammlung von Skriptmodulen, wie z. B. häufig verwendete Algorithmen, die bei Duchführung ohne Umschreiben den Programmierprozess vereinfacht. Mit einfachen Befehlen ist Beautiful Soup für die Struktur von Webseiten sinnvoll und hilft beim Parsen von Inhalten innerhalb des HTML-Containers. Beautiful Soup gilt als die anspruchsvollste und fortschrittlichste Bibliothek für Web Scraping und ist heute auch eine der beliebtesten Weisen.
2005-2006: Visuelle Web-Scraping-Software
2006 brachten Stefan Andresen und seine Kapow Software (die 2013 von Kofax übernommen wurde) die Web Integration Platform Version 6.0 auf den Markt, die heute als eine visuelle Web Scraping Software bezeichnet wird und den Benutzern ermöglicht, den Inhalt einer Webseite einfach hervorzuheben und diese Daten in eine brauchbare Excel-Datei oder Datenbank zu strukturieren.
Endlich gibt es eine Möglichkeit für die meisten Nicht-Programmierer, Web Scraping selbst zu betreiben. Es besteht kein Zweifel, dass Web Scraping heute eine einfachste und schnelleste Methode zur Datenerfassung ist, wenn die meisten normalen Menschen diese Technik beherrschen können. Jetzt können jeder leicht mehr als 400 Out-of-Box-Software zur Datenextraktion finden, die visuelle Prozesse bieten.
Wie mache ich Web Scraping?
Nachdem Sie schon ein umfassendes Verständnis über Web Scraping hatten, haben Sie jetzt bestimmt ein solches Problem: Wie mache ich selbst Web Scraping? Eigentlich gibt es viele Tutorials auf die Plattformen wie z. B. Youtube und Medium, dadurch man lernen kann, wie man Web Scraping mit Python verwendet. Ehrlich gesagt, ich kann Web Scraping Python nicht gut. Als ein völliger Anfänger in Programmierung begann ich meine Reise von Web Scrapping mit der Kein-Code- oder Wenig-Code-Methode. Dies ist ganz cool und einfach zu benutzen, um alle gewünschten Daten zu extrahieren und erhalten.
Kein-Code: Ein Web Scraping Tool
Jetzt wollte ich die Daten von Youtube-KOL-Kanälen für Marketingzwecke extrahieren. Aber ich konnte nicht sogar eine Zeile Code schreiben (nun habe ich einige HTML-Grundlagen gelernt). Das macht nichts – ich arbeite mit Octoparse. Aha.
Deshalb lud ich diese Software herunter und lernte ich zwei Wochen lang die Grundlagen von HTML und Xpath, da ich sie schon lange nicht mehr verwendet hatte. Danach konnte ich meine Web Scraping Reise wieder starten. Ich baute meine eigenen Scraper. Davon können Sie klar wissen, dass ein Nicht-Programierer noch gut mit Octoparse Daten extrahieren könnte.
Wenn Sie nach einer Möglichkeit suchen, mit Web Scraping die Daten auszulesen, und einfach anfangen wollen, wäre ein No-Code-Tool eine gute Wahl, auch wenn Sie noch neu in diesem Bereich sind.
Octoparse bietet über 100 benutzerfreundliche Vorlagen, um Daten zu extrahieren. Über 30.000 Nutzer verwenden die Vorlagen
https://www.octoparse.de/template/email-social-media-scraper
Bevor Sie Web Scraping starten, sollten Sie sich zuerst nach zwei Fragen fragen:
- Nach welchen Daten suchen Sie?
- Wo werden sie bekommen?
Wenn Sie die Antworten haben, würden Sie eine Liste von Webseiten und die genauen Daten erhalten. Im nächsten Schritt können Sie die URLs in Octoparse eingeben und mit dem integrierten Browser einen Web Scraper erstellen.
Ich hatte vor, eine Checkliste zu erstellen, was man lernen sollte, bevor sich man einen Web Scraper baut. Aber es erinnerte mich daran, dass ich die Grundlagen von HTML und Xpath nebenbei lernte, als ich Scraper mit Octoparse durch Versuch und Irrtum baute.
Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschlägen geben möchten, kontaktieren Sie bitte uns per E-Mail (support@octoparse.com). 💬
👍👍 Wenn Sie Interesse an Octoparse und Web Scraping haben, können Sie es zunächst 14 Tage lang kostenlos ausprobieren.
Autor*in: Das Octoparse Team ❤️
Konvertiere Website-Daten direkt in Excel, CSV, Google Sheets und Ihre Datenbank.
Scrape Daten einfach mit Auto-Dedektion, ganz ohne Coding.
Scraping-Vorlagen für beliebte Websites, um Daten mit wenigen Klicks zu erhalten.
Mit IP-Proxys und fortschrittlicher API wird nie blockiert.
Cloud-Dienst zur Planung von Datenabfragen zu jedem gewünschten Zeitpunkt.