undefined

Eine Liste extrahieren  

Monday, July 12, 2021 6:21 PM

Inhalte auf Webseiten sind normalerweise in einigen Arten von Mustern organisiert. Und eines der am häufigsten gesehenen Muster ist eine Liste. Hier sind ein paar Beispiele dafür, wie Inhalte als Liste organisiert werden.

234234.png

 

Man kann einfach mit der Auto-Detect-Funktion von Octoparse, um eine Liste zu scrapen, indem Octoparse die Elemente einer Liste automatisch erkennt und den Workflow automatisch generiert. Schauen wir uns ein Beispiel an.

Beispiel-URL: https://www.octoparse.com/blog

 

Diese Webseite besteht aus Elementen, die gleiche Struktur haben. Jedes Element enthält Titel, Zeit, Stichwort, Artikel...

 

Unser Ziel ist es, diese Daten in Excel zu extrahieren:

2.png

 

Um das Ziel zu erreichen, bietet Octoparse zwei Möglichkeiten an.

 

1. Liste mit Auto-Detektion-Funtion extrahieren

2. Liste mit manuell eingestellter Aufgabe extrahieren

 

 

Liste mit Auto-Detektion-Funtion extrahieren

Nachdem Sie eine neue Aufgabe mit der Beispiel-URL erstellt haben, wählen Sie "Auto-detect web page data". Octoparse erkennt nun alle Daten auf der Seite, dann klicken Sie auf "Create workflow", um den Workflow zu generieren.

 3.gif

 

Liste mit manuell eingestellter Aufgabe extrahieren

Wenn die automatische Detektion die Liste nicht erkennt oder wenn Sie eine Aufgabe selbst erstellen möchten, können Sie die Liste immer manuell extrahieren.

 

1) Laden Sie die Webseite in Octoparse, bewegen Sie den Mauszeiger über eines der Listenelemente, bis der gesamte Abschnitt blau hervorgehoben wird, und klicken Sie dann darauf.

a75b15da17d88f2bf4802b33ed1a7e4.png

 

Tipps!

 

Vergewissern Sie sich, dass alle Unterelemente, die Sie extrahieren möchten, in diesem hervorgehobenen Abschnitt enthalten sind.

d7e51613ab476d36110ce277bad7f8f.png

ccb67dfb66baea352dccde1547ecb69.pngc152ca3d7255410bf4ee06320ca387a.png

 

2) Sobald Sie das Element ausgewählt haben, werden die Unterelemente rot hervorgehoben, was bedeutet, dass Octoparse diese Unterelemente erfolgreich identifiziert hat. Klicken Sie auf "Select sub-elements".

598e0f8cfcd4a23856ae81d7c8f5911.png

 

 3) Klicken Sie anschließend auf "Select all", um alle ähnlichen Elemente auszuwählen, die auf der Seite erkannt wurden.

856ebe0d26905c7f5856b751791b903.png

 

4) Wählen Sie dann "Extract data". Die Aktion "loop item" wird automatisch für das Scraping von Listenelementen erzeugt.

b0e08bb03200431fc9aac4b56893e97.png

 

 5) Wenn Sie die extrahierten Datenfelder bearbeiten möchten, können Sie auf das Einstellungssymbol von der Aktion "Extract Data" klicken.

71444437b765090a013676f6d801386.png

01bd72f9639a2b3d203416b60a4000d.png

 

Wenn Sie Hilfe bei der Aufgabenkonfiguration oder Datenerfassung brauchen, senden Sie eine Anfrage an unser Support-Team! Wir werden uns innerhalb von 24 Stunden bei Ihnen melden.

 

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen