undefined
Blog > Datenerfassung > Post

Inhalt von Webseiten auslesen

Saturday, September 18, 2021

 

Web Scraping ist eine Technik, um automatisch Daten auf der Website auszulesen. Die wird in vielen Branchen weit verbreitet. Zum Beispiel können freiberufliche Autoren Online-Artikel für die Themenrecherche extrahieren. Unternehmen können Daten aus Webseiten extrahieren, um Geschäftsanalysen durchzuführen. Hier sind einige Tipps, die erklärt, wie man Inhalte von Webseiten scrapen kann.

 

Wie erhält man Inhalte von Webseiten

Für Programmierer oder Entwickler ist die Verwendung von Python die gängigste Methode, um einen Web Scraper/Crawler zum Scraping der Webinhalten zu erstellen. Der Code im Screenshot unten kann zum Beispiel verwendet werden, um Daten von einer öffentlichen Website - pokemondb.net - zu scrapen.

 (Bild von /gist.github.com/anchetaWern/6150297)

 

Für die meisten Menschen, die keine Programmierkenntnisse haben, wäre es besser, Web-Scraping-Tools zu verwenden, um Inhalte von Webseiten zu erhalten. Im Folgenden nehmen wir die Verwendung von Octoparse als Beispiel:

 

1. Extrahieren Inhalten aus der dynamischen Webseite 

Webseiten können dynamisch sein. Manchmal aktualisieren die Webinhalte oft, die Sie extrahieren möchten. Manche Websites verwenden die AJAX-Technik, die der Webseite ermöglicht, Daten zu senden und zu empfangen, ohne die ganze Webseite erneut zu laden. In diesem Fall können Sie die Option AJAX aktivieren, damit Octoparse Inhalte aus solchen Webseiten einfach extrahieren kann.

 Überprüfen die AJAX-Wartezeit-Einstellung in Octoparse

 

2. Extrahieren Inhalten, die auf der Webseite verborgen sind

Haben Sie solche Probleme getroffen, dass Sie bestimmte Daten von einer Website abrufen, aber der Inhalt wird erst angezeigt, wenn Sie einen Link auslösen oder den Mauszeiger darüber bewegen? Zum Beispiel werden einige Kontaktinformationen auf craigslist.org angezeigt, nachdem Sie auf die Schaltfläche "Antworten" geklickt haben.


Tatsächlich sind solcher versteckter Inhalt im HTML-Quellcode dieser Webseite zu finden. Octoparse kann den Inhalt aus den Quelltexten extrahieren. Es ist einfach, den Befehl "Click Item" oder einen "Cursor over"-Befehl unter dem "Action Tip"-Panel zu verwenden, um die Extraktion durchzuführen.

 

 

3. Extrahieren Inhalten aus der Webseite mit unendlichem Scrollen

Manchmal werden Nachrichten erst hochgeladen, wenn Sie zum unteren Ende der Webseite scrollen, wie z. B. bei Twitter.  Es liegt daran, dass die Websites die Technik „unendliches Scrollen“ verwenden. Das geht in der Regel mit AJAX oder JavaScript einher, damit die Anfragen erst dann erfolgen, wenn Sie das Ende der Webseite erreicht haben. In diesem Fall können Sie die AJAX-Wartezeit einstellen, "Scroll way" und "Scroll times" auswählen, um zu regeln, wie der Roboter den Inhalt extrahieren soll.

die Option "Scroll Down" in Octoparse

 

4. Extrahieren Hyperlinks aus der Webseite 

Wenn Sie alle Links von einer Webseite extrahieren möchten, können Sie Octoparse verwenden, um alle URLs der gesamten Website zu extrahieren.

 

5. Extrahieren Text aus der Webseite 

Wenn Sie den Inhalt zwischen HTML-Tags wie dem <DIV>-Tag oder <SPAN>-Tag extrahieren möchten. Mit Octoparse können Sie den gesamten Text aus dem Quellcode extrahieren.

 

6. Extrahieren URL der Bilder aus der Webseite 

Octoparse kann Bilder nicht direkt herunterladen, aber die URL des Bildes kann man mit Octoparse herunterladen..

 

 

Fazit

Octoparse kann alles extrahieren, was auf der Webseite angezeigt wird, und in strukturierte Formate wie Excel, CSV, HTML, TXT und Datenbanken exportieren. Allerdings ist Octoparse derzeit nicht in der Lage, Bilder, Videos, Gif und Canvas herunterzuladen. Wir erwarten, dass diese Funktionen in naher Zukunft in die aktualisierte Version aufgenommen werden. Klicken Sie HIER, um Octoparse herunterzuladen und mehr über die Funktionen von Octoparse zu erfahren.

 

Autor: Das Octoparse Team 

 

Relative Artikel

 

 

 

Laden Sie Octoparse herunter, um mit Web-Scraping zu beginnen, oder kontaktieren Sie uns
für die Fragen über Web Scraping!

Kontaktieren Sie uns Herunterladen
btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen