logo
languageDEdown
menu

URL-Scraper: Erhalten Sie alle URLs aus Hyperlink von einer Webseite

6 Minuten lesen

Jeder, der bereits versucht hat die URLs einer großen Webseite zu sammeln, weiß, dass es sehr mühevoll und zeitaufwendig ist. Es bedeutet, sich durch eine endlose Anzahl von Webseiten zu klicken und die gefundenen Links mittels Markierens, Kopierens und Einfügens in einer Tabelle zu speichern. Zusätzlich können bei dieser Vorgehensweise sehr leicht Fehler passieren.

Dank der modernen Technologie muss das aber nicht mehr sein. Tools wie zum Beispiel der URL-Scraper von Octoparse machen es möglich, innerhalb kurzer Zeit die gewünschten URLs aufzufinden und für das Abspeichern aufzubereiten. Verglichen mit den händischen URLs suchen, ist das nur noch ein Zehntel Arbeitsaufwand und das zuverlässige Erhalten von Daten.

Warum ist es kompliziert URLs auf einer Webseite zu finden?

Der Grund, warum es nicht einfach ist, URLs auf einer Webseite zu finden, ist, dass sie einfach nicht dafür gebaut wurden, diese aufzulisten. Eine Webseite ist schlicht und einfach dafür gemacht, nicht alle bestehenden Seiten einer Domain gleichzeitig zu zeigen. Dadurch wird das URL finden und auslesen so kompliziert.

Einige der Schwierigkeiten im Überblick:

Das Kopieren und Einfügen:

  • Jeden einzelnen Punkt im Menü, jedes Verzeichnis und jede Liste auf einer Webseite anklicken und die URLs kopieren ist zeitaufwendig und enorm mühsam. Zusätzlich besteht die Gefahr, dass man Seiten übersieht oder vergisst.

Verschiedene Strukturen:

  • Einige Webseiten listen die Links in bestimmten Formaten und andere Webseiten auf eine ganz andere Weise. Aus diesem Grund ist es nicht einfach, den Überblick zu behalten und alle URLs ausfindig zu machen.

Endloses Scrollen und Paginierung:

  • Einige Webseiten besitzen mehrere Unterseiten oder die Inhalte werden durch das Scrollen erst nachgeladen. Scrollt man nicht vollständig durch oder übersieht einen Button mit “Weiter” kann etwas übersehen werden. Oft wird auch nicht bis zum Ende gescrollt, wodurch ebenfalls etwas übersehen werden kann. In diesen Fällen können vollständige Bereiche komplett fehlen.

Verwaiste oder versteckte Seiten:

  • Einige Webseiten besitzen Unterseiten, die nicht mit dem Menü bzw. der Hauptnavigation angezeigt werden. Sie finden sich nur über eine interne Suche oder sind über Sitemaps erreichbar.

Der menschliche Fehler:

  • Müssen sehr viele Seiten auf ihre URLs durchsucht werden, ist das Risiko, Fehler zu machen, sehr groß. Es kommt vor, dass URLs doppelt gespeichert werden oder sich Tippfehler einschleichen. Es kann aber auch durchaus sein, dass man schlicht und einfach eine Seite übersieht.

Müssen mehrere hundert Seiten durchforstet werden, kann man das händische URL auslesen einfach vergessen. Es ist nicht mehr fehlerfrei machbar und muss einfach automatisch erfolgen.

Was bedeutet es, alle Seiten einer Webseite finden und URLs kopieren?

Bevor es um eine automatische Lösung und deren Erklärung geht, ist es wichtig zu wissen, worum es eigentlich geht, wenn URLs gesucht werden.

Eine Erklärung kurz und einfach:

Externe URLsDas sind Links, die auf eine andere Webseite führen, zum Beispiel zu Informationen, zu Detailinfos und einiges mehr, diese Links sind in der Regel nur für Analysen oder Recherchen interessant.
Interne URLsDabei handelt es sich um Links, die auf Webseiten der gleichen Domain führen. Zum Beispiel zu bestimmten Produkten, zu über uns, zu einer Kundenumfrage und einiges mehr, interne URLs sind im Business Bereich interessant für die Leadgenerierung, zur Produktüberwachung und einiges mehr.
Verwaiste SeitenDiese Seiten einer Website sind in der Regel nicht mit einem Link ausgestattet, man findet sie oft nur über eine interne Suche oder über Sitemaps, in der Regel bleiben sie sehr oft unentdeckt.
Unterseiten und ListenseitenSehr viele Webseiten haben sogenannte Listen- oder Hub-Seiten. Dazu zählen zum Beispiel Kategorien, Verzeichnisse, Blog-Archive und Ähnliches, diese Seiten verweisen in der Regel auf Produktseiten oder auch auf Profilseiten, damit wirklich jede Seite gefunden werden kann. muss jede Liste durchgegangen werden und die verlinkte Unterseite erfasst werden.

Spricht man davon, alle URLs aus der Domain auszulesen, dann ist jede einzelne URL einer Webseite gemeint. Das bedeutet, von der Startseite muss wirklich auf jede einzelne Unterseite zugegriffen werden, um die URLs zu erhalten.

Die klassische Methode zum URL ausfindig machen und speichern

Im Folgenden werden einige klassische Methoden aufgezeigt. Diese Methoden werden nach wie vor sehr oft eingesetzt, obwohl sie etwas umständlich sind. Es ist aber bereits hier anzumerken, dass jede dieser Methoden ihren eigenen Haken besitzt.

  • Das manuelle Kopieren – Einfügen und Browser-Tools:
    • Diese Methode ist sehr mühsam und zeitaufwendig. Jeden einzelnen Link anklicken und danach die URL mittels Kopierens und Einfügen in eine Tabelle abspeichern, dauert schier endlos. Zusätzlich besteht die Gefahr, dass eine Seite übersehen wird.
    • Die Nutzung einer Browser-Erweiterung bietet hier eine kleine Erleichterung. Eine Browser-Erweiterung kann zwar die Links einer Webseite auslesen. Doch bleiben versteckte Bereiche oder Paginierung meistens unbeachtet. Bei kleinen Webseiten hilfreich, bei Großprojekten hingegen durch das Wiederholen der Aufgabe bei jeder einzelnen Webseite eher ungeeignet.
  • SEO-Tools wie zum Beispiel Screaming Frog:
    • Ein SEO-Tool kann durch das Crawlen auf einer Webseite eine URL-Liste liefern. Dieses Tool ist zwar sehr stark und hilfreich, muss jedoch vorher eingerichtet und konfiguriert werden. In den meisten Fällen ist es für Großprojekte kostenpflichtig, indem man eine Lizenzgebühr bezahlen muss.
  • Sitemaps oder Site Search nutzen:
    • Googles Site Suche hilft insoweit, indem mit der Eingabe von “Seite:deinedomain.com” die indexierten Seiten angezeigt werden. Google kann jedoch nur maximal 1000 Ergebnisse liefern. Somit ist es leider keine vollständige Lösung bei der URL Suche.
    • XML-Sitemaps besitzen eine /sitemap.xml, die alle wichtigen URLs enthält. Das Problem ist jedoch, dass nicht jede Webseite eine Sitemap besitzt. Einige wiederum verteilen die Sitemap auf mehrere Dateien. Die verwaisten Seiten wiederum fehlen sehr oft komplett.
  • Skripte und technische Crawler:
    • Python-Skripte wie zum Beispiel Scrapy können URLs extrahieren, wenn man ein Skript dafür schreibt. Hier besteht von Anfang an das Problem, dass man Programmierkenntnisse benötigt. Besitzt man keine Kenntnisse über das Programmieren, hat man keine einfache Möglichkeit, die benötigten URLs auszulesen.

Betrachtet man die herkömmlichen klassischen Methoden, dann wird einem sofort klar, dass sie entweder viel Zeit benötigen oder aufwändig sind.

Der URL-Scraper von Octoparse

Mit dem URL-Scraper von Octoparse können URLs einfach auf Webseiten ausgelesen werden. Die ausgelesenen URLs können danach einfach in einer Excel-Tabelle gespeichert werden, zum Beispiel.

Im Folgenden wird die einfache Vorgehensweise für den URL-Scraper von Octoparse Schritt für Schritt genau erklärt:

Schritt 1: Octoparse herunterladen und installieren

  • Nachdem Octoparse heruntergeladen wurde, wird ein Konto erstellt und Sie melden sich mit dem Login an.

Schritt 2: den Ziel-URL eingeben

  • Sobald man sich angemeldet hat, kann man die Ziel-URL eingeben, danach wird der erste angezeigte Hyperlink in der Liste angeklickt, darauffolgend kann der zweite Hyperlink geklickt werden oder der Button “Select all”. Die angeklickten Links sind danach grün unterlegt.

Schritt 3: Den Suchvorgang starten

  • Mit einem Klick auf “Extract text of the selected link” und danach auf “Extract the URL of the selected link” wird der Suchvorgang mit “Save” gespeichert.

Schritt 4: Sichern und Speichern

  • Nachdem die Aufgabe gespeichert wurde und der blaue Button “Run” zum Ausführen der Aufgabe geklickt wurde, wird die Aufgabe ausgeführt. Nachdem die Aufgabe durchgeführt wurde, kann das Ergebnis in einer beliebigen Datei, zum Beispiel Excel, gespeichert werden.

Einige wenige Klicks und die von Ihnen benötigten URLs befinden sich in der von Ihnen gewählten Datei abgespeichert. Rasches und zuverlässiges Extrahieren der URLs ist bei Octoparse gegeben.

Fazit

War es früher ziemlich umständlich, mittels Kopieren und Einfügen URLs in eine Tabelle zu speichern, geht es heutzutage mit einem speziellen Tool mit wenigen Klicks. In diesem Beitrag wurden einige klassische Methoden vorgestellt, um URLs ohne zusätzliches Werkzeug auszulesen. Diese Methoden funktionieren allesamt. Das einzige Problem ist nur, dass sie enorm viel Zeit benötigen und zusätzlich Fehler gemacht werden können.

Mit dem URL-Scraper von Octoparse können URLs innerhalb kurzer Zeit auf Webseiten ausgelesen und gespeichert werden. Sie haben damit die Möglichkeit, sehr große Datenmengen von Mitbewerbern zu sammeln und können auf eventuelle Veränderungen sofort reagieren. Bei Octoparse stehen Ihnen zusätzlich noch rund 500 vorgefertigte Vorlagen zur Verfügung, mit denen Sie gezielt Daten auslesen können. Und das alles, ohne vorher Programmierung studieren zu müssen. Einfach ausprobieren und sehen, wie einfach und schnell Daten auslesen sein kann.

FAQs

Fragen, die über den URL-Scraper von Octoparse regelmäßig gestellt werden, werden hier kurz beantwortet. Damit ist es einfacher, das Tool sofort auszuprobieren.

Was ist der Unterschied zwischen einer URL und einer Domain?

Im Allgemeinen werden der Begriff “URL” und der Begriff “Domain” im Alltag gleichbedeutend verwendet. Es besteht jedoch ein Unterschied zwischen den beiden Begriffen. Eine URL besteht immer aus dem Namen der Domain und der Pfadangabe, zum Beispiel www. Die Domain hingegen ist ein Name für einen Bereich im Domain Name System.

Gibt es ein Beispiel für eine URL?

Beispiele für URLs gibt es einige. Zum Beispiel https://octoparse.de. Das “https” zeigt in dieser URL die Art bzw. die Weiße, wie auf diese Webseite zugegriffen wird. In diesem darüber ein sicheres http-Netzwerk-Protokoll.

Was ist eigentlich URL-Scraping?

Beim URL-Scraping werden die benötigten URLs oder auch Links aus den Webseiten extrahiert. Diese Links werden später in Unternehmen ausgewertet, um zum Beispiel neue Partner zu finden, für die Optimierung der Marketingstrategie und einiges mehr.

Konvertiere Website-Daten direkt in Excel, CSV, Google Sheets und Ihre Datenbank.

Scrape Daten einfach mit Auto-Dedektion, ganz ohne Coding.

Scraping-Vorlagen für beliebte Websites, um Daten mit wenigen Klicks zu erhalten.

Mit IP-Proxys und fortschrittlicher API wird nie blockiert.

Cloud-Dienst zur Planung von Datenabfragen zu jedem gewünschten Zeitpunkt.

Erhalte Webdaten in Klicks
Daten-Scraping von jeder Website ganz ohne Codierung.
Kostenloser Download

Beliebte Beiträge

Themen untersuchen

Starten mit Octoparse heute

Downloaden

Verwandte Artikel