undefined
Blog > Datenerfassung > Post

URL-Scraper: Erhalten Sie alle URLs aus Hyperlink von einer Webseite

Friday, October 21, 2022

Hier ist eine kurze Anleitung, mit der Sie mithilfe Octoparse alle URLs einer Website auslesen oder alle Links einer Webseite anzeigen können. Dann sind sie auch in Excel herunterzuziehen. Ist dies der URL-Scraper oder der URL-Exractor, den Sie jetzt suchen? Los geht's!

 

 

 

Was ist URL-Scraper?

Ich bin unsicher, ob Sie wissen, was ein Roundup-Artikel ist. Aber Sie müssen einen gelesen haben. Und Sie haben wahrscheinlich noch etwas gelesen, das Sie für die zukünftige Verwendung speichern möchten.

 

Der Artikel 100 infographic submission sites kann uns als Beispiel dienen. Wenn ich SEO-Vermarkter bin und diesen Roundup Beitrag eines Tages lese, denke ich:

„Hey, schau mal. Ich kann URLs dieser Websites in eine Tabelle ziehen. Wenn ich jedesmal eine neue Infografik erstellte, werde ich sie diesen Websites vorlegen. Dies könnte definitiv dazu beitragen, meine Website Durchflussmenge oder zumindest die Anzahl der Backlinks zu steigern.“

 

Ja, das ist es, was der URL-Scraper online tun kann. Ich werde das mit einem Web Scraping Tool, Octoparse, in Sekunden tun.

 

 

Auslesen von allen URLs einer Website

Dies ist ein einfaches Beispiel dafür, wie Sie alle URLs einer Website auslesen und sie in Excel umwandeln können. Octoparse kann effizient alle strukturierten Daten von Websites extrahieren.

Folgend werde ich Ihnen die ganzen Schritte vorstellen. Wenn Sie daran Interesse haben, können Sie aufgrund dieses Tutorial eine eigene Aufgabe mit Octoparse erstellen.

 

1. Voraussetzungen

    • Erstellen eines Kontos und melden Sie sich an.

    • Eine Ziel-URL, um eine URL-Liste zu scrapen

*Beispiel in diesem Artikel: https://revuwire.com/submit-infographics-100-infographic-submission-sites/

 

Wenn Sie die Ziel-URL in Octoparse eingeben, wird die Webseite im eingebauten Browser präsentiert. Merkwürdig können Sie noch diese Seite auslesen oder browsen, als ob Sie jetzt auf Chrome surfen würden. Zum Unterscheid von Chrome ist, dass Sie beim Surfen klicken und ein URL-Scraper erstellen können.

 

 Browse in Octoparse

 

2. Detaillierte Anleitung

Schritt 1: Geben Sie die Ziel-URL in Octoparse ein.

Schritt 2: Klicken Sie auf den ersten Hyperlink in der Liste.

Schritt 3: Klicken Sie auf den zweiten Hyperlink in der Liste, oder jetzt klicken Sie auf „Select All“ in Octoparse. Wenn alle Links der infografischen Websites ausgewählt werden, sind diese Bereiche in Grün hervorgehoben.

Schritt 4: Klicken Sie zuerst auf „Extract text of the selected link“ und dann auf „Extract the URL of the selected link“. Daten können jetzt in die Datenvorschau, die sich in der unteren linken Ecke der Software befindet, angezeigt werden.

Schritt 5: Klicken Sie auf „Save“ zur Speicherung Ihrer Aufgabe. Dann klicken Sie auf den blauen Button „Run“ oben rechts.

 

Genau, alles in Ordnung! Nach ein paar Klicks haben Sie Ihren URL-Scraper erstellt und ausgeführt. Und Sie haben alle 100 Links in Excel gestellt.

 

3. Verwendung der automatisierten Detektionsfunktion

Wenn Sie finden, dass Octoparse nach den Klicks auf einige Daten nicht automatisch die gesamte Liste von URLs auf der Website ausgewählt hat, müssen Sie möglicherweise eine andere Methode finden, um alle Links zu extrahieren.

Die spezielle Funktion, automatische Detektion in Octoparse, ist eine gute Wahl für diese Situation. Versuchen Sie sie und lassen Sie AI-Algorithm die Daten für Sie auswählen. Wenn es auch nicht funktioniert, ist die gescrapte Website ganz besonder. Sie gehört nicht zum gewöhnlichen Typ, weil sie eine spezielle Struktur hat, die der Roboter nicht erkennen kann.

 

In diesem Fall müssen Sie manuell Xpath ändern und die Daten genauer lokalisieren. Sind Sie neugierig, wie man einen Xpath schreibt? Nach dem Lernen über den Schreiben von XPath können Sie weiter Ihre Reise mit Web Scraping beginnen.

 

Aber machen Sie sich keine Sorge. Meistens gibt es im Internet normale struktuierte Webseiten. Einfach verwenden Sie automatische Detektionsfunktion von Octoparse, um die gewünschten Daten zu scrapen.

Sie können vielleicht mehr bekommen, als Sie erwarten. Das ist völlig möglich. AI-Algorithm ist nicht allmächtig, aber es ist leistungsstark genug, um die meisten Arten von Websites auszulesen und zu extrahieren.

 

In diesem Video können Sie auch sehen, wie stark diese Funktion ist und wie sie dem mühelosen Scrapen der Reisedaten von Lonely Planet hilft.

 

 

 

 

Octoparse: Steigerung Ihrer Arbeitseffizienz

Wenn Sie digitaler Vermarkter sind und nichts über Web Scraping wissen, ist das eine gute Gelegenheit für Sie, etwas Neues zu lernen. Ich bin Vermarkter. Seitdem ich das Web Scraping Tool beherrscht habe, sammle ich Daten mit der Geschwindigkeit, die man manuell nie machen kann.

 

Das bedeutet:

    • Sie können Artikel und Nachrichten graben, um die Ideen für Ihre Schaffung zu finden.

    • Sie können die Daten in großen Mengen von Ihren Mitbewerbern downloaden und immer auf dem Laufenden halten.

    • Sie können wertvolle Ressourcen in Excel ziehen und daraus einen umsetzbaren Arbeitsplan erstellen.

 

Und ein Web Scraping Tool, die keine Kodierung hat, ist sehr freundlich für Vermarkter oder diejenigen, die keine Programmierkenntnisse haben aber Daten benötigen.

Warten Sie noch etwas? Gerade probieren!

 

 

Autor*in: Das Octoparse Team

Relative Artikel

9 kostenlose Web Scraper, die Sie im Jahr 2021 nicht verpassen können

Web Scraping mit Python: Eine Schritt-für-Schritt-Anleitung

Wie scrapt man Produktdaten von Amazon ohne Programmierkenntnisse?

Web Scraping API: Ein Leitfaden für Einsteiger

Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen