undefined

Extraktion der URLs

Thursday, June 23, 2022 2:35 PM
In manchen Fällen haben Sie vielleicht eine Liste von ähnlich strukturierten URLs (z.B. eine Reihe von Produkt-URLs) zur Hand, aus der Sie direkt die Daten scrapen möchten. In diesem Tutorial stellen wir Ihnen nicht nur die Methode von Batch-Input RLs, sondern auch eine einfache und leistungsstarke Methode vor, um Daten aus mehreren Webseiten mithilfe einer Liste von URLs zu scrapen.

 

 

Teil 1 Vorstellung von Eingabe einer Stapel URLs

1. Was ist Eingabe einer Stapel URLs

Diese Besonderheit von einer Stapel URLs kann einmal eine große Anzahl von URLs in Octoparse eingeben. Octoparse unterstützt eine Stapel URLs aus lokalen Dateien (Text oder Tabellenkalkulation) oder aus einer anderen Aufgabe zu importieren. Außerdem können Sie mit Octoparse die URLs sogar auf der Grundlage eines vordefinierten Musters generieren.

 

2. Wie kann man eine Stapel URLs eingeben?

Klicken Sie auf „+New“, um eine neue Aufgabe zu schaffen. Dann selektieren Sie „Advanced Mode“ und würden Sie die URLs ansehen, die in die Platte importiert werden.

 

Advanced Mode

 

Es gibt drei Möglichkeiten, mehrere URLs in eine einzelne Aufgabe/einen Crawler zu importieren (bis zu einer Million URLs):
Methode 1: Import der URLs aus einer Akte
Methode 2: Import der URLs aus einer anderen Aufgabe
Methode 3: Generieren der URLs auf der Grundlage eines vordefinierten Musters

 

Tipps!
Sobald die Anzahl der importierten/generierten URLs die Grenze von 1 Million erreicht, wird Octoparse den Import/die Generierung sofort stoppen.

 

Methode 1: Import der URLs aus einer Akte

Sie können die URLs aus beliebigem folgenden Dateiformat importieren:
· CSV
· TXT
· Excel (.xlsx & .xls)

 

Schritt 1: Wählen Sie „Import from file“.
Schritt 2: Klicken Sie auf „Select“ und dann wählen Sie die Akte aus, welche die URLs enthält. Danach selektieren Sie die Platten und Spalten, welche die URLs enthalten.
Schritt 3: Klicken Sie auf „Save“, um den Prozess des Imports zu erledigen.

 

import from file

 

Tipps!
Es werden nur die ersten 100 URLs in der Vorschau angezeigt.

Methode 2: Import der URLs aus einer anderen Aufgabe

Diese Funktion ermöglicht es, zwei Aufgaben nahtlos zu integrieren, wenn die URL-Extraktion separat mit einer anderen Aufgabe durchgeführt werden muss. Kein manueller URL-Export und -Import ist darin nicht mehr erforderlich.

 

Schritt 1: Wählen Sie „Import from task“.
Schritt 2: Wählen Sie die Aufgabe, die Ihre Ziel-URLs enthalten, und dann bestimmen Sie die geeigneten Datenfelder.
Schritt 3: Klicken Sie auf „Save“, um den Prozess des Imports zu erledigen.

 

save and run

 

Beachten Sie, dass die ausgewählte Aufgabe (diejenige, welche die für das weitere Crawling benötigten URLs enthält) als übergeordnete Aufgabe bezeichnet wird und die neue Aufgabe, die mit den URLs konfiguriert werden soll, zur untergeordneten Aufgabe wird. Die beiden Aufgaben werden automatisch miteinander verknüpft und können gemeinsam ausgeführt werden.

 

Tipps!
1. Sie können festlegen, dass die untergeordnete Aufgabe entsprechend dem Status der übergeordneten Aufgabe in der Cloud ausgeführt wird. Wenn Sie eine verbundene Ausführung einrichten, indem Sie eine Option in den Einstellungen der übergeordneten Aufgabe auswählen, werden beide Aufgaben in der Cloud ausgeführt. Für verknüpfte Ausführung ist die lokale Extraktion nicht verfügbar.

 

local runs and cloud runs

 

2. Wenn eine verknüpfte Ausführung eingerichtet ist, ist die Aufgabenplanung für die Ausführung der untergeordneten Aufgabe nicht verfügbar.
3. Es unterstützt mehr als 1 Million URLs, die URLs aus einer anderen Aufgabe zu importieren.

 

Methode 3: Generieren der URLs auf der Grundlage eines vordefinierten Musters

Mit der Funktion „Batch generate“ können Sie problemlos eine große Anzahl von URLs nach bestimmten Mustern generieren, indem Sie verschiedene Parameter einer angegebenen URL ändern.

 

Schritt 1: Wählen Sie „Batch generate“.
Schritt 2: Geben Sie eine URL als die Grundlage für die Generierung ein.
Schritt 3: Makieren Sie den ausgewählten Parameter der URL und klicken Sie auf „Add parameter“.
Schirtt 4: Wählen Sie aus den vier Parametertyp-Optionen, um das gewünschte Muster zu definieren und klicken Sie auf „Save URL“, um die Liste zu speichern.

 

Save URL

 

*Vier Parametertyp-Optionen
Typ 1: Numbers
Sie können die ursprüngliche Nummer eingeben und wählen jedes Mal die Zunahme(+) oder Abnahme(-) einer Nummer aus. Gleichzeitig können Sie „Repeat“ oder „End value“ eingeben. Zum Beispiel möchten Sie vielleicht die Parameter einer Seite von 1 bis 100 einstellen, wenn Sie die URLs für unterschiedliche Seiten generieren wollen. Sie sollen „1“ in „Initial value“, „+1“ in „Every time“ und „100“ in „Repeat“ eingeben. Dann würde 100 in „End value“ automatisch eingegeben werden.

 

add parameter

 

Typ 2: Letters
Sie können den Anfangsbuchstabe und den Endesbuchstabe eingeben.

 

parameter settings

 

Typ 3: Time

 

time setting

 

Typ 4: Custom list
Sie können Ihre eigene Liste eingeben, wie eine Liste von den Schlüsselwörter der Suche oder Produktnummern.

 

confirm

 

Tipps!
Sie können mehrere Parameter festlegen, um URLs zu generieren. Wenn die Basis-URL zum Beispiel www.XXX.com/[parameter1]/[parameter2] lautet:
Parameter1={A, B}, Parameter2={1, 2}
Die endgültige URL-Liste würde wie folgt aussehen:
www.XXX.com/A/1
www.XXX.com/B/1
www.XXX.com/A/2
www.XXX.com/B/2

 

 

Teil 2 Erstellung einer Aufgabe mit einer Reihe von URLs

1. Wenn sollte ich die Verwendung einer Liste von URLs zur Datenextraktion berücksichtigen?

In manchen Fällen können die Daten mit einer Liste von URLs extrahiert werden:
Fall 1: Alle URLs sollen eine gleiche Domain und die gleiche Webseitenstruktur haben (am wichtigsten).
· Beispiel: Ich habe eine Liste von Produkt-URLs und möchte eine Aufgabe mit der Liste erstellen, um regelmäßig aktualisierte Preisdaten zu scrapen.

 

Fall 2: Einige Webseiten verwenden endloses Scrollen/mehr, um den Inhalt zu laden. Wenn Sie Daten aus solchen Websites extrahieren und die Daten auf Detailseiten scrapen möchten, müssen Sie dann die Aufgabe in zwei Aufgaben aufteilen. Eine Aufgabe zielt auf das Scrapen der URLs, und mit der anderen Aufgabe scrapen Sie mithilfe der Liste der extrahierten URLs die Daten auf der Detailseite.
· Beispiel: Die Suchergebnisseite von Zara verwendet endloses Scrollen, um ständig neue Artikel zu laden. Wenn Sie Daten aus der Artikelseite scrapen möchten, müssen Sie zunächst Scrollen-Zeiten festlegen und die genugen Produkt-URLs sammeln.

 

Fall 3: Die Website verwendet AJAX (Tutorial: Umgang mit AJAX), um neue Inhalte zu laden. Das bedeutet, dass das System nach einem Klick auf die erste Produktseite nicht automatisch zur Auflistungsseite zurückkehrt (und von dort aus die zweite Produktseite anklickt). Wir müssen also zunächst die URLs der Detailseiten extrahieren und dann die gewünschten Daten mit der URL-Liste scrapen (Video-Tutorial).

 

Fall 4: Einige Websites haben solches Problem, dass Webseiten bei der Paginierung recht langsam zu laden sind, das das Daten-Scraping der geplanten Aufgaben beeinflussen könnte. Um das Problem zu vermeiden, wäre es besser, mit den Seiten-URLs Daten zu extrahieren.

 

Tipps!
Wie kann ich wissen, ob die Seiten die gleiche Struktur haben?
Wenn Sie Nachrichtenartikel von einer Website scrapen, besteht eine hohe Wahrscheinlichkeit, dass die Artikelseiten die gleiche Seitenstruktur haben, wie:

 

website bespiel

 

Ein anderes Beispiel kommt aus Google maps. Jede Geschäftsseite wird als solche Struktur ausgesehen:

 

beispiel aus google maps

 

2. Wie kann ich eine Reihe von URLs scrapen?

Um Daten mit einer Liste von URLs zu scrapen, richten wir einfach ein „Loop“ mit allen URLs ein, dann fügen eine Aktion „data extraction“ direkt danach ein, um die benötigten Daten zu erhalten. Octoparse wird die URLs einer nach dem anderen laden und die Daten von jeder Seite scrapen.
Beim Schaffen einer „List of URLs“ muss zusätzliche Schritte wie „Click to paginate“ oder „Click Item“ nicht erstellt werden, um die Artikelseite aufzurufen. Infolgedessen beschleunigt die Geschwindigkeit der Extraktion, insbesondere bei der Cloud-Extraktion. Überprüfen Sie hier zu lernen, wie ich in der Cloud schneller die Daten scrapen können.

 

Tipps!
1. Kann ich URLs verwenden, die unterschiedliches Seitenlayout haben?
Leider können Sie nur für diese URLs „List of URLs“ verwenden, welche die gleiche Seitenstruktur haben. Um sicherzustellen, dass die Daten konsistent und richtig extrahiert werden, ist es erforderlich, dass diese Seiten das gleiche Seitenlayout haben.
Um mehr über „List of URLs“ zu erfahren, können Sie sich den folgenden Artikel ansehen: Loop Item
2. Gibt es eine Begrenzung für die Anzahl der URLs, die ich gleichzeitig hinzufügen kann?
Ja. Wir empfehlen, nicht mehr als 10.000 URLs hinzuzufügen, wenn Sie die URLs direkt in Octoparse einfügen. Wenn Sie die Eingabe einer Stapel URLs verwenden, können Sie aber bis zu 1 Million URLs eingeben.
3. Kann Octoparse die URLs automatisch sammeln und hinzufügen?
Octoparse kann URLs aus einer anderen Aufgabe importieren. Sie können eine Aufgabe verwenden, um die URLs zu extrahieren. Und dann würden Sie eine andere Aufgabe konfigurieren, um die URLs zu verwenden.
Octoparse Advanced API ermöglicht das Modifizieren der Liste von URLs, ohne die App einzugehen.

 

3. Schritte von Erstellung „List of URLs“

Um die Daten aus einer Liste der URLs zu scrapen, könnte der Prozess von der Extraktion normalerweise in die folgenden drei Schritte aufgeteilt:
Schritt 1: Beginn einer neuen Aufgabe mit einer Liste von URLs
Schritt 2: Schaffen eines Loops von „List of URLs“ im Workflow-Designer
Schritt 3: Daten Scraping aus einer Seite

 

Sie würde vielleicht die folgenden Links brauchen, um einen Versuch zu probieren:
https://www.zara.com/us/en/faux-leather-pleated-skirt-p03046328.html?v1=121254092
https://www.zara.com/us/en/a-line-midi-skirt-p09878190.html?v1=136958727
https://www.zara.com/us/en/pleated-buttoned-skirt-p01971173.html?v1=121397825
https://www.zara.com/us/en/knit-midi-skirt-p09667102.html?v1=115735593
https://www.zara.com/us/en/animal-print-knotted-skirt-p09479272.html?v1=11892205

 

Schritt 1: Erstellen einer neuen Aufgabe mit einer Liste von URLs

Prozess 1: Wählen Sie „+New“ und klicken Sie auf „Advanced Mode“, um eine neue Aufgabe zu erstellen.

 

advanced mode

 

Prozess 2: Geben Sie die Liste von URLs in den Textkasten ein und klicken Sie auf „Save URL“.

 

save urls

 

Nach dem Klick auf „Save URL“ wird „Loop URLs“ (die Aktion, die jede URL der Liste durchschleifen) automatisch im Workflow erstellt. Wenn Sie auf „Loop URLs“ klicken, können Sie ansehen, dass von Ihnen eingegebene URLs bereits dem „Loop Item“ hinzugefügt werden.

 

loop URLs

 

Schritt 2: Schaffen eines Loops von „List of URLs“ im Workflow-Designer

Prozess 1: Fügen Sie dem Workflow einen „Loop Item“ hinzu.

 

Loop Item

 

Prozess 2: Gehen Sie zum „Loop mode“ und wählen Sie „List of URLs“ aus. Dann klicken Sie auf und geben Sie die Liste von URLs ein. Vergessen Sie nicht, auf „Apply“ zu klicken, um die Einstellungen zu speichern.

 

Loop Mode

 

Prozess 3: Fügen Sie „Open Page“ unter dem „Loop Item“ hinzu, dann klicken Sie auf „Load URLs in the loop“ und „Apply“.

 

open page and apply

 

Tipps!
Wenn das Scraping stoppt, nachdem wir die Extraktion starten, können wir versuchen, ein längeres Timeout für den Schritt der eröffneten Webseite hinzuzufügen. Deshalb würde das System länger auf die Webseite warten, bis sie vollständig geladen ist.

 

go to web page

 

Schritt 3: Daten Scraping aus einer Seite

Nachdem die URLs gespeichert werden, würde die erste Seite automatisch eröffnet. Und Sie können die Daten auf der Seite wählen und dann scrapen.

 

operation

 

Tipps!
1. Wenn Octoparse manchmal zu schnell arbeitet, ist es möglich, dass einige Seiten nicht vollständig geladen sind, bevor der Schritt von Datenextraktion ausgeführt wird. Das verursacht wahrscheinlich es, dass keine oder nur wenige Daten gescrapt werden. Um diese Situation zu vermeiden, können wir „Wait before execution“ einstellen.
Klicken Sie auf „Options“-Einstellungen vom Schritt „Extract Data“ und stellen Sie die Wartezeit ein, bevor die Aktion ausgeführt wird (2-3 Sekunden werden normalerweise funktionieren).

 

extract data

 

2. Wenn Sie möchten, dass die Daten mit der ursprünglichen URL-Liste, die Sie eingegeben haben, zusammen exportieren, können Sie hier die URL der aktuellen Seite hinzufügen:

 

page level data

 

Nach dem Prozess, den wir schon vorher erwähnt haben, werden Sie finden, dass Octoparse nach der Erledigung eines Webseite-Scraping automatisch zur nächsten Seite gehen wird, wenn eine Aufgabe durchgeführt wird.

 

URLs aus Zara

 

Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschlägen geben möchten, reichen Sie bitte uns eine Anfrage ein. Erfüllen Sie eine Anfrage hier. Oder Sie können durch E-Mail (support@octoparse.com) uns kontaktieren.

 

 

Autor*in: Das Octoparse Team
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen