undefined
Blog > Web Scraping > Post

TOP 3 Scraper von Blogs und Nachrichten (Medium als Beispiel)

Monday, August 01, 2022

 

 

Während uns die Informationsexplosion mehr Chance zu Ressourcen, Inhalten und Meinungen angeboten hat, raten wir dabei in die Wirrung, darin haben wir als Empfänger*in keine Ahnung, welche Informationen richtig und uns selbst wichtig sind. In diesem Fall sind wir keine Rationale, sondern haben wir das Denkvermögen verloren, sind wir von allen echten und falschen Informationen beeinflusst. Deswegen ist es uns sehr dringend zu erlernen, die Informationen von Höhe und Ganze zu beobachten und analysieren, indem wir selbständig deken können.

 

Zu disem Zweck bräucht man normalerweise ein Weckzeug, wie z. B. Webscraper, um die Informationen schnell und rechtzeitig zu sammeln. Wenn Sie nicht wissen, wie man die Informationen aus vielseitigen Nachrichten scrapen kann, oder wissen Sie schon aber wenige Programmierungskenntnisse beherrschen, lesen Sie bitte diesem Artike, darin sind TOP 3 Artikel Scraper von Nachrichten und Blogs vorgestellt und ein Scraper für Medium als Beispiel genommen.

 

1. Octoparse

 

Als eines der besten kostenlosen automatischen Web-Scraping-Tools ist Octoparse für Programmierer und Nicht-Programmierer entwickelt, um komplizierte Web-Scraping-Aufgaben zu bewältigen. Es kann menschliches Surfverhalten nachahmen und Artikel von jeder Website innerhalb von Minuten auslesen.

 

 

 

 

2. WebHarvy

 

WebHarvy ist eine weitere kundenorientierte Artikel Scraping-Software, aber erfordert Windows-Betriebssystem. Es kann verwendet werden, um Artikelverzeichnisse und Pressemitteilungen von PR-Websites zu durchsuchen.

 

 

 

 

 

Als eines der leistungsfähigsten und beliebtesten SEO-Tools hat ScrapeBox ein Artikel-Scraper-Addon, mit dem Sie Tausende von Artikeln aus einer Rihe beliebter Artikelverzeichnisse ernten können.

 

 

Um besser zu erklären, wie ein Artikel Scraper funktioniert, werden wir die Artikeln aus Medium mit Octoparse scrapen. Als Beispiel wird die URL von Medium genommen: https://medium.com/towards-data-science

 

Schritt 1 Öffnen Sie die Ziel-Website mit Octoparse
Jeder Workflow in Octoparse beginnt mit der Eingabe einer Webseite. Geben Sie einfach die Beispiel-URL in die Suchleiste auf dem Startbildschirm ein und warten Sie, bis die Webseite angezeigt wird.

 

Schritt 2 Fügen Sie ein "Page Scroll Loop hinzu"
Mit einem Loop für Page Scroll wird die Website automatisch nach unten gescrollt, bis alle Inhalte auf der Seite von Octoparse völlig erkennt werden. Dazu wählen Sie Scroll Page im Rahmen von Loop Item und stellen Sie den Wert von Repeats zu 20 ein.

 

 

Bevor wir den Inhalt jedes Artikels sammeln, müssen wir einige Metadaten von der Listenseite sammeln.
· Klicken Sie auf den ersten Artikelblock in der Liste und wählen Sie "Select sub-elements" > "Select All" > "Extract data", um die Daten aus der Artikelliste zu sammeln.
· Benennen Sie die Datenfelder um und löschen Sie unerwünschte Datenfeldern.
· Darüber hinaus können wir die Artikel-URLs mit dem XPath-Locator erfassen.
· Klicken Sie "add a custom field" im "Data Preview" und wählen Sie "Capture data on the webpage".
· Wählen Sie Relative XPath und geben Sie //a [@aria-label="Titel der Beitragsvorschau"]
· Klicken Sie dann "Save and Run".

 

Schritt 4 Verwenden Sie die URL-Liste für eine zweite Aufgabe, um Volltext zu scrapen
Als nächstes müssen Sie eine untergeordnete Aufgabe mit den URLs aus dem letzten Datenlauf erstellen.
· Gehen Sie zurück zum Octoparse-Startbildschirm, klicken Sie auf "+ New" und wählen Sie "Advanced Mode".
· Geben Sie die von der ersten Aufgeben eingebenen URLs ein und erstellen einen Workflow von "URL-Loop".
· Fügen Sie einen Worflow unter "URL-Loop" duch "Extract data" hinzu.
· Klicken Sie dann "add a custom field" im "Data Preview" und wählen die gewünschten Datenfeldern auf der Seiten.
· Klicken Sie "Absolute XPath" und geben XPath: //article ein.

 

Schritt 5 Speichern und Ausführen der Aufgabe, um die Daten zu erhalten

 

save and run

 

Sie haben vielleicht bemerkt, dass wir die Aufgabe in zwei Teilaufgaben unterteilt haben. Es ist beabsichtigt, die Scrapingsgeschwindigkeit des gesamten Aufgabe zu erhöhen. Wenn Sie eine komplizierte Aufgabe handeln müssen, empfiehlt es sich, die Aufgabe aufzuteilen und sie in der Cloud-basierten Plattform von Octoparse auszuführen.

 

Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschlägen geben möchten, kontaktieren Sie bitte uns per E-Mail (support@octoparse.com).

 

 

 

Autor*in: Das Octoparse Team

Laden Sie Octoparse herunter, um mit Web-Scraping zu beginnen, oder kontaktieren Sie uns
für die Fragen über Web Scraping!

Kontaktieren Sie uns Herunterladen
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen