In manchen Fällen haben Sie vielleicht eine Liste von ähnlich strukturierten URLs (z.B. eine Reihe von Produkt-URLs) zur Hand, aus der Sie direkt die Daten scrapen möchten. In diesem Tutorial stellen wir Ihnen nicht nur die Methode von Batch-Input RLs, sondern auch eine einfache und leistungsstarke Methode vor, um Daten aus mehreren Webseiten mithilfe einer Liste von URLs zu scrapen.

1. Wann sollte ich die Verwendung einer Liste von URLs zur Datenextraktion berücksichtigen?

In manchen Fällen können die Daten mit einer Liste von URLs extrahiert werden:

Fall 1: Alle URLs sollen eine gleiche Domain und die gleiche Webseitenstruktur haben (am wichtigsten).
- Beispiel: Ich habe eine Liste von Produkt-URLs und möchte eine Aufgabe mit der Liste erstellen, um regelmäßig aktualisierte Preisdaten zu scrapen.
Fall 2: Einige Webseiten verwenden endloses Scrollen/mehr, um den Inhalt zu laden. Wenn Sie Daten aus solchen Websites auslesen und die Daten auf Detailseiten scrapen möchten, müssen Sie dann die Aufgabe in zwei Aufgaben aufteilen. Eine Aufgabe zielt auf das Scrapen der URLs, und mit der anderen Aufgabe scrapen Sie mithilfe der Liste der extrahierten URLs die Daten auf der Detailseite.
- Beispiel: Die Suchergebnisseite von Zara verwendet endloses Scrollen, um ständig neue Artikel zu laden. Wenn Sie Daten aus der Artikelseite scrapen möchten, müssen Sie zunächst Scrollen-Zeiten festlegen und die genugen Produkt-URLs sammeln.
Fall 3: Die Website verwendet AJAX (Tutorial: Umgang mit AJAX), um neue Inhalte zu laden. Das bedeutet, dass das System nach einem Klick auf die erste Produktseite nicht automatisch zur Auflistungsseite zurückkehrt (und von dort aus die zweite Produktseite anklickt). Wir müssen also zunächst die URLs der Detailseiten auslesen und dann die gewünschten Daten mit der URL-Liste scrapen (Video-Tutorial).
Fall 4: Einige Websites haben solches Problem, dass Webseiten bei der Paginierung recht langsam zu laden sind, das das Daten-Scraping der geplanten Aufgaben beeinflussen könnte. Um das Problem zu vermeiden, wäre es besser, mit den Seiten-URLs Daten zu extrahieren.

Wie wisse ich, ob meine Seiten die gleiche Struktur haben?

Wenn Sie Nachrichtenartikel von einer Website scrapen, besteht eine hohe Wahrscheinlichkeit, dass die Artikelseiten die gleiche Seitenstruktur haben, wie:

Ein anderes Beispiel kommt aus Google maps. Jede Geschäftsseite wird als solche Struktur ausgesehen:

2. Wie kann ich eine Reihe von URLs scrapen?

Um Daten mit einer Liste von URLs zu scrapen, richten wir einfach eine Schleife mit allen URLs ein, dann fügen eine Aktion „Daten extrahieren“ direkt danach ein, um die benötigten Daten zu erhalten. Octoparse wird die URLs einer nach dem anderen laden und die Daten von jeder Seite scrapen.

Bei der Erstellung einer „Liste der URLs“ müssen zusätzliche Schritte wie „Klick zum Paginieren“ oder „Klick Item“ nicht erstellt werden, um die Artikelseite aufzurufen. Infolgedessen beschleunigt die Geschwindigkeit der Extraktion, insbesondere bei der Cloud-Extraktion. Überprüfen Sie, wie ich in der Cloud schneller die Daten scrapen können.

FAQs

1. Kann ich URLs verwenden, die unterschiedliches Seitenlayout haben?

Leider können Sie nur für diese URLs „Liste der URLs“-Funktion verwenden, welche die gleiche Seitenstruktur haben. Um sicherzustellen, dass die Daten konsistent und richtig extrahiert werden, ist es erforderlich, dass diese Seiten das gleiche Seitenlayout haben.

Um mehr über „Liste der URLs“ zu erfahren, können Sie sich den folgenden Artikel ansehen: Loop Item

2. Gibt es eine Begrenzung für die Anzahl der URLs, die ich gleichzeitig hinzufügen kann?

Ja. Wir empfehlen, nicht mehr als 10.000 URLs hinzuzufügen, wenn Sie die URLs direkt in Octoparse einfügen. Wenn Sie die Eingabe einer Stapel URLs verwenden, können Sie aber bis zu 1 Million URLs eingeben.

3. Kann Octoparse die URLs automatisch sammeln und hinzufügen?

Octoparse kann URLs aus einer anderen Aufgabe importieren. Sie können eine Aufgabe verwenden, um die URLs zu scrapen. Und dann würden Sie eine andere Aufgabe konfigurieren, um die URLs zu verwenden.

Octoparse API ermöglicht das Modifizieren der Liste von URLs, ohne die App einzugehen.

3. Schritte von Erstellung „Liste von URLs“

Um die Daten aus einer Liste der URLs zu scrapen, könnte der Prozess von der Extraktion normalerweise in die folgenden drei Schritte aufgeteilt:

Schritt 1: Erstellen Sie eine Schleife von „Liste der URLs“.
Schritt 2: Selektieren Sie die gewünschten Datenfelder.
Schritt 3: Führen Sie die Aufgabe aus, um die Daten zu erhalten.

Sie würde vielleicht die folgenden Links brauchen, um einen Versuch zu probieren:

https://www.zara.com/us/en/faux-leather-pleated-skirt-p03046328.html?v1=121254092

https://www.zara.com/us/en/a-line-midi-skirt-p09878190.html?v1=136958727

https://www.zara.com/us/en/pleated-buttoned-skirt-p01971173.html?v1=121397825

https://www.zara.com/us/en/knit-midi-skirt-p09667102.html?v1=115735593

https://www.zara.com/us/en/animal-print-knotted-skirt-p09479272.html?v1=11892205

In Octoparse gibt es zwei Möglichkeiten, um eine Schleife von Liste mit URLs einzurichten. Sie können eine der beiden Möglichkeiten wählen, die für Ihren Anwendungsfall geeignet ist. Bitte siehe unten:

Methode 1: Starten Sie eine neue Aufgabe mit einer Liste von URLs

Schritt 1: Selektieren Sie „+ Neu“ und klicken Sie auf „Benutzerdefinierte Aufgabe“, um eine neue Aufgabe zu erstellen.

Schritt 2: Geben Sie die Liste von URLs in den Textkasten ein und klicken Sie auf „Speichern“.

Nach dem Klick auf „Speichern“-Button wird ein Schritt von „Schleife mit URLs“ (die Aktion, die jede URL der Liste durchschleifen) automatisch im Workflow erstellt. Wenn Sie darauf klicken, können Sie ansehen, dass von Ihnen eingegebene URLs bereits in einer Schleife hinzugefügt werden.

Schritt 3: Nachdem die URLs gespeichert sind, wird die erste Seite automatisch geöffnet und Sie können die Daten auf die Seite zu scrapen auswählen.

Methode 2: Erstellen Sie eine Schleife von „Liste von URLs“ im Workflow

Dies gilt für das Szenario, in dem Sie eine Aufgabe gestartet haben und direkt eine Schleife für URLs in der Aufgabe erstellen können.

Schritt 1: Fügen Sie eine Schleife im Workflow hinzu.

Schritt 2: Gehen Sie zum „Schleifenmodus“ und wählen Sie „Liste der URLs“ aus. Dann klicken Sie auf und geben Sie die Liste von URLs ein. Vergessen Sie nicht, auf „Anwenden“ zu klicken, um die Einstellungen zu speichern.

Schritt 3: Fügen Sie „Seite öffnen“ unter dem „Schleifenelement“ hinzu, dann klicken Sie auf „URLs in der Schleife laden“ und „Anwenden“.

Notiz: Wenn das Scraping stoppt, nachdem wir die Extraktion starten, können wir versuchen, ein längeres Timeout für den Schritt der eröffneten Webseite hinzuzufügen. Deshalb würde das System länger auf die Webseite warten, bis sie vollständig geladen ist.

Schritt 4: Nachdem die URLs gespeichert sind, wird die erste Seite automatisch öffnen. Dann können Sie die Daten auf die Seite scrapen.

Hier gibt es einige zusätzlichen Tipps für die zwei Szenarien:

Notiz

1. Wenn Octoparse manchmal zu schnell arbeitet, ist es möglich, dass einige Seiten nicht vollständig geladen sind, bevor der Schritt von Datenextraktion ausgeführt wird. Das verursacht wahrscheinlich es, dass keine oder nur wenige Daten gescrapt werden. Um diese Situation zu vermeiden, können wir „Warte vor der Aktion“ einstellen.

Klicken Sie auf „Optionen“-Einstellungen vom Schritt „Daten Extrahieren“ und stellen Sie die Wartezeit ein, bevor die Aktion ausgeführt wird (2-3 Sekunden werden normalerweise funktionieren).

2. Wenn Sie möchten, dass die Daten mit der ursprünglichen URL-Liste, die Sie eingegeben haben, zusammen exportieren, können Sie hier die URL der aktuellen Seite hinzufügen:

Nach dem Prozess, den wir schon vorher erwähnt haben, werden Sie finden, dass Octoparse nach der Erledigung eines Webseite-Scraping automatisch zur nächsten Seite gehen wird, wenn eine Aufgabe durchgeführt wird.

Verwandte Artikel

Zurück zur vorherigen Seite

Extraktion einer Liste

Funktionvorstellung von „Schleife“-Aktion

Datenerfassung aus neuen Seiten nach Klick auf jeden Link einer Liste