Extraktion der URLs
Thursday, June 23, 2022 2:35 PMIn manchen Fällen haben Sie vielleicht eine Liste von ähnlich strukturierten URLs (z.B. eine Reihe von Produkt-URLs) zur Hand, aus der Sie direkt die Daten scrapen möchten. In diesem Tutorial stellen wir Ihnen nicht nur die Methode von Batch-Input RLs, sondern auch eine einfache und leistungsstarke Methode vor, um Daten aus mehreren Webseiten mithilfe einer Liste von URLs zu scrapen.
Übersicht
Teil 1 Vorstellung von Eingabe einer Stapel URLs
1. Was ist Eingabe einer Stapel URLs
Diese Besonderheit von einer Stapel URLs kann einmal eine große Anzahl von URLs in Octoparse eingeben. Octoparse unterstützt eine Stapel URLs aus lokalen Dateien (Text oder Tabellenkalkulation) oder aus einer anderen Aufgabe zu importieren. Außerdem können Sie mit Octoparse die URLs sogar auf der Grundlage eines vordefinierten Musters generieren.
2. Wie kann man eine Stapel URLs eingeben?
Klicken Sie auf „+New“, um eine neue Aufgabe zu schaffen. Dann selektieren Sie „Advanced Mode“ und würden Sie die URLs ansehen, die in die Platte importiert werden.

Es gibt drei Möglichkeiten, mehrere URLs in eine einzelne Aufgabe/einen Crawler zu importieren (bis zu einer Million URLs):
Methode 1: Import der URLs aus einer Akte
Methode 2: Import der URLs aus einer anderen Aufgabe
Methode 3: Generieren der URLs auf der Grundlage eines vordefinierten Musters
Tipps!
Sobald die Anzahl der importierten/generierten URLs die Grenze von 1 Million erreicht, wird Octoparse den Import/die Generierung sofort stoppen.
Methode 1: Import der URLs aus einer Akte
Sie können die URLs aus beliebigem folgenden Dateiformat importieren:
· CSV
· TXT
· Excel (.xlsx & .xls)
Schritt 1: Wählen Sie „Import from file“.
Schritt 2: Klicken Sie auf „Select“ und dann wählen Sie die Akte aus, welche die URLs enthält. Danach selektieren Sie die Platten und Spalten, welche die URLs enthalten.
Schritt 3: Klicken Sie auf „Save“, um den Prozess des Imports zu erledigen.

Tipps!
Es werden nur die ersten 100 URLs in der Vorschau angezeigt.
Methode 2: Import der URLs aus einer anderen Aufgabe
Diese Funktion ermöglicht es, zwei Aufgaben nahtlos zu integrieren, wenn die URL-Extraktion separat mit einer anderen Aufgabe durchgeführt werden muss. Kein manueller URL-Export und -Import ist darin nicht mehr erforderlich.
Schritt 1: Wählen Sie „Import from task“.
Schritt 2: Wählen Sie die Aufgabe, die Ihre Ziel-URLs enthalten, und dann bestimmen Sie die geeigneten Datenfelder.
Schritt 3: Klicken Sie auf „Save“, um den Prozess des Imports zu erledigen.

Beachten Sie, dass die ausgewählte Aufgabe (diejenige, welche die für das weitere Crawling benötigten URLs enthält) als übergeordnete Aufgabe bezeichnet wird und die neue Aufgabe, die mit den URLs konfiguriert werden soll, zur untergeordneten Aufgabe wird. Die beiden Aufgaben werden automatisch miteinander verknüpft und können gemeinsam ausgeführt werden.
Tipps!
1. Sie können festlegen, dass die untergeordnete Aufgabe entsprechend dem Status der übergeordneten Aufgabe in der Cloud ausgeführt wird. Wenn Sie eine verbundene Ausführung einrichten, indem Sie eine Option in den Einstellungen der übergeordneten Aufgabe auswählen, werden beide Aufgaben in der Cloud ausgeführt. Für verknüpfte Ausführung ist die lokale Extraktion nicht verfügbar.

2. Wenn eine verknüpfte Ausführung eingerichtet ist, ist die Aufgabenplanung für die Ausführung der untergeordneten Aufgabe nicht verfügbar.
3. Es unterstützt mehr als 1 Million URLs, die URLs aus einer anderen Aufgabe zu importieren.
Methode 3: Generieren der URLs auf der Grundlage eines vordefinierten Musters
Mit der Funktion „Batch generate“ können Sie problemlos eine große Anzahl von URLs nach bestimmten Mustern generieren, indem Sie verschiedene Parameter einer angegebenen URL ändern.
Schritt 1: Wählen Sie „Batch generate“.
Schritt 2: Geben Sie eine URL als die Grundlage für die Generierung ein.
Schritt 3: Makieren Sie den ausgewählten Parameter der URL und klicken Sie auf „Add parameter“.
Schirtt 4: Wählen Sie aus den vier Parametertyp-Optionen, um das gewünschte Muster zu definieren und klicken Sie auf „Save URL“, um die Liste zu speichern.

*Vier Parametertyp-Optionen
Typ 1: Numbers
Sie können die ursprüngliche Nummer eingeben und wählen jedes Mal die Zunahme(+) oder Abnahme(-) einer Nummer aus. Gleichzeitig können Sie „Repeat“ oder „End value“ eingeben. Zum Beispiel möchten Sie vielleicht die Parameter einer Seite von 1 bis 100 einstellen, wenn Sie die URLs für unterschiedliche Seiten generieren wollen. Sie sollen „1“ in „Initial value“, „+1“ in „Every time“ und „100“ in „Repeat“ eingeben. Dann würde 100 in „End value“ automatisch eingegeben werden.

Typ 2: Letters
Sie können den Anfangsbuchstabe und den Endesbuchstabe eingeben.

Typ 3: Time

Typ 4: Custom list
Sie können Ihre eigene Liste eingeben, wie eine Liste von den Schlüsselwörter der Suche oder Produktnummern.

Tipps!
Sie können mehrere Parameter festlegen, um URLs zu generieren. Wenn die Basis-URL zum Beispiel www.XXX.com/[parameter1]/[parameter2] lautet:
Parameter1={A, B}, Parameter2={1, 2}
Die endgültige URL-Liste würde wie folgt aussehen:
www.XXX.com/A/1
www.XXX.com/B/1
www.XXX.com/A/2
www.XXX.com/B/2
Teil 2 Erstellung einer Aufgabe mit einer Reihe von URLs
1. Wenn sollte ich die Verwendung einer Liste von URLs zur Datenextraktion berücksichtigen?
In manchen Fällen können die Daten mit einer Liste von URLs extrahiert werden:
Fall 1: Alle URLs sollen eine gleiche Domain und die gleiche Webseitenstruktur haben (am wichtigsten).
· Beispiel: Ich habe eine Liste von Produkt-URLs und möchte eine Aufgabe mit der Liste erstellen, um regelmäßig aktualisierte Preisdaten zu scrapen.
Fall 2: Einige Webseiten verwenden endloses Scrollen/mehr, um den Inhalt zu laden. Wenn Sie Daten aus solchen Websites extrahieren und die Daten auf Detailseiten scrapen möchten, müssen Sie dann die Aufgabe in zwei Aufgaben aufteilen. Eine Aufgabe zielt auf das Scrapen der URLs, und mit der anderen Aufgabe scrapen Sie mithilfe der Liste der extrahierten URLs die Daten auf der Detailseite.
· Beispiel: Die Suchergebnisseite von Zara verwendet endloses Scrollen, um ständig neue Artikel zu laden. Wenn Sie Daten aus der Artikelseite scrapen möchten, müssen Sie zunächst Scrollen-Zeiten festlegen und die genugen Produkt-URLs sammeln.
Fall 3: Die Website verwendet AJAX (Tutorial: Umgang mit AJAX), um neue Inhalte zu laden. Das bedeutet, dass das System nach einem Klick auf die erste Produktseite nicht automatisch zur Auflistungsseite zurückkehrt (und von dort aus die zweite Produktseite anklickt). Wir müssen also zunächst die URLs der Detailseiten extrahieren und dann die gewünschten Daten mit der URL-Liste scrapen (Video-Tutorial).
Fall 4: Einige Websites haben solches Problem, dass Webseiten bei der Paginierung recht langsam zu laden sind, das das Daten-Scraping der geplanten Aufgaben beeinflussen könnte. Um das Problem zu vermeiden, wäre es besser, mit den Seiten-URLs Daten zu extrahieren.
Tipps!
Wie kann ich wissen, ob die Seiten die gleiche Struktur haben?
Wenn Sie Nachrichtenartikel von einer Website scrapen, besteht eine hohe Wahrscheinlichkeit, dass die Artikelseiten die gleiche Seitenstruktur haben, wie:

Ein anderes Beispiel kommt aus Google maps. Jede Geschäftsseite wird als solche Struktur ausgesehen:

2. Wie kann ich eine Reihe von URLs scrapen?
Um Daten mit einer Liste von URLs zu scrapen, richten wir einfach ein „Loop“ mit allen URLs ein, dann fügen eine Aktion „data extraction“ direkt danach ein, um die benötigten Daten zu erhalten. Octoparse wird die URLs einer nach dem anderen laden und die Daten von jeder Seite scrapen.
Beim Schaffen einer „List of URLs“ muss zusätzliche Schritte wie „Click to paginate“ oder „Click Item“ nicht erstellt werden, um die Artikelseite aufzurufen. Infolgedessen beschleunigt die Geschwindigkeit der Extraktion, insbesondere bei der Cloud-Extraktion. Überprüfen Sie hier zu lernen, wie ich in der Cloud schneller die Daten scrapen können.
Tipps!
1. Kann ich URLs verwenden, die unterschiedliches Seitenlayout haben?
Leider können Sie nur für diese URLs „List of URLs“ verwenden, welche die gleiche Seitenstruktur haben. Um sicherzustellen, dass die Daten konsistent und richtig extrahiert werden, ist es erforderlich, dass diese Seiten das gleiche Seitenlayout haben.
Um mehr über „List of URLs“ zu erfahren, können Sie sich den folgenden Artikel ansehen: Loop Item
2. Gibt es eine Begrenzung für die Anzahl der URLs, die ich gleichzeitig hinzufügen kann?
Ja. Wir empfehlen, nicht mehr als 10.000 URLs hinzuzufügen, wenn Sie die URLs direkt in Octoparse einfügen. Wenn Sie die Eingabe einer Stapel URLs verwenden, können Sie aber bis zu 1 Million URLs eingeben.
3. Kann Octoparse die URLs automatisch sammeln und hinzufügen?
Octoparse kann URLs aus einer anderen Aufgabe importieren. Sie können eine Aufgabe verwenden, um die URLs zu extrahieren. Und dann würden Sie eine andere Aufgabe konfigurieren, um die URLs zu verwenden.
Octoparse Advanced API ermöglicht das Modifizieren der Liste von URLs, ohne die App einzugehen.
3. Schritte von Erstellung „List of URLs“
Um die Daten aus einer Liste der URLs zu scrapen, könnte der Prozess von der Extraktion normalerweise in die folgenden drei Schritte aufgeteilt:
Schritt 1: Beginn einer neuen Aufgabe mit einer Liste von URLs
Schritt 2: Schaffen eines Loops von „List of URLs“ im Workflow-Designer
Schritt 3: Daten Scraping aus einer Seite
Sie würde vielleicht die folgenden Links brauchen, um einen Versuch zu probieren:
https://www.zara.com/us/en/faux-leather-pleated-skirt-p03046328.html?v1=121254092
https://www.zara.com/us/en/a-line-midi-skirt-p09878190.html?v1=136958727
https://www.zara.com/us/en/pleated-buttoned-skirt-p01971173.html?v1=121397825
https://www.zara.com/us/en/knit-midi-skirt-p09667102.html?v1=115735593
https://www.zara.com/us/en/animal-print-knotted-skirt-p09479272.html?v1=11892205
Schritt 1: Erstellen einer neuen Aufgabe mit einer Liste von URLs
Prozess 1: Wählen Sie „+New“ und klicken Sie auf „Advanced Mode“, um eine neue Aufgabe zu erstellen.

Prozess 2: Geben Sie die Liste von URLs in den Textkasten ein und klicken Sie auf „Save URL“.

Nach dem Klick auf „Save URL“ wird „Loop URLs“ (die Aktion, die jede URL der Liste durchschleifen) automatisch im Workflow erstellt. Wenn Sie auf „Loop URLs“ klicken, können Sie ansehen, dass von Ihnen eingegebene URLs bereits dem „Loop Item“ hinzugefügt werden.

Schritt 2: Schaffen eines Loops von „List of URLs“ im Workflow-Designer
Prozess 1: Fügen Sie dem Workflow einen „Loop Item“ hinzu.

Prozess 2: Gehen Sie zum „Loop mode“ und wählen Sie „List of URLs“ aus. Dann klicken Sie auf und geben Sie die Liste von URLs ein. Vergessen Sie nicht, auf „Apply“ zu klicken, um die Einstellungen zu speichern.

Prozess 3: Fügen Sie „Open Page“ unter dem „Loop Item“ hinzu, dann klicken Sie auf „Load URLs in the loop“ und „Apply“.

Tipps!
Wenn das Scraping stoppt, nachdem wir die Extraktion starten, können wir versuchen, ein längeres Timeout für den Schritt der eröffneten Webseite hinzuzufügen. Deshalb würde das System länger auf die Webseite warten, bis sie vollständig geladen ist.

Schritt 3: Daten Scraping aus einer Seite
Nachdem die URLs gespeichert werden, würde die erste Seite automatisch eröffnet. Und Sie können die Daten auf der Seite wählen und dann scrapen.

Tipps!
1. Wenn Octoparse manchmal zu schnell arbeitet, ist es möglich, dass einige Seiten nicht vollständig geladen sind, bevor der Schritt von Datenextraktion ausgeführt wird. Das verursacht wahrscheinlich es, dass keine oder nur wenige Daten gescrapt werden. Um diese Situation zu vermeiden, können wir „Wait before execution“ einstellen.
Klicken Sie auf „Options“-Einstellungen vom Schritt „Extract Data“ und stellen Sie die Wartezeit ein, bevor die Aktion ausgeführt wird (2-3 Sekunden werden normalerweise funktionieren).

2. Wenn Sie möchten, dass die Daten mit der ursprünglichen URL-Liste, die Sie eingegeben haben, zusammen exportieren, können Sie hier die URL der aktuellen Seite hinzufügen:

Nach dem Prozess, den wir schon vorher erwähnt haben, werden Sie finden, dass Octoparse nach der Erledigung eines Webseite-Scraping automatisch zur nächsten Seite gehen wird, wenn eine Aufgabe durchgeführt wird.

Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschlägen geben möchten, reichen Sie bitte uns eine Anfrage ein. Erfüllen Sie eine Anfrage hier. Oder Sie können durch E-Mail (support@octoparse.com) uns kontaktieren.
Autor*in: Das Octoparse Team