undefined

Tabellendaten extrahieren  

Tuesday, July 13, 2021 2:55 PM

 

Tabellendaten sind häufig auf Websites über Finanzen und Sport zu finden. Dieses Tutorial erläutert, wie Sie Tabellendaten extrahieren können.

 

Das Scrapen der Tabellendaten ist ähnlich wie das Scrapen einer Liste (Extrahieren eine Liste). Sie können jede Zeile der Tabelle als ein Element der Listendaten betrachten. Dann ist jede Tabellenzelle ein Unterelement von dem Element.

 

Wie sammelt man die Tabellendaten mit Octoparse? Lesen Sie das Tutorial weiter!

 

Beispiel-URL: https://money.cnn.com/data/hotstocks/index.html

 mceclip0.png

 

 

1. Verwenden die Funktion „Auto-Detektion“, um den Workflow einzurichten

 

2. Stellen den Workflow manuell ein

 

 

1. Verwenden die Funktion „Auto-Detektion“, um den Workflow einzurichten

 

Mit dieser Funktion detektiert Octoparse automatisch die Tabelle und erfasst die Daten.  

 

1) Geben Sie die URL der Webseite ein und wählen „ auto-detect the web page data“

1.gif

 

 

2) Prüfen Sie, ob alle benötigten Daten erfasst werden und klicken Sie auf "Create workflow".

 2020-07-28_14-45-58.png

 

Tipps!

 

Möchten Sie mehr über Auto-Detektion-Algorithmus erfahren? Schauen Sie bitte das Tutorial: Lektion 1: Daten mit dem brandneuen Auto-Detektion-Algorithmus extrahieren.

 

 

2. Stellen den Workflow manuell ein

 

Wenn die automatische Detektion fehlschlägt oder nicht die kompletten Tabellendaten sammelt, müssen Sie dann den Workflow manuell einrichten. Hier sind die Schritte:

 

1) Wählen Sie die erste Zelle in der ersten Zeile der Tabelle aus und klicken Sie dann auf das Symbol "Expand the selection area", bis die gesamte erste Zeile ausgewählt wird.

mceclip3.png

 

(Sie können auf "Turn OFF Auto-detect" oder "Cancel Auto-detect" klicken, um die automatische Detektion zu stoppen, wenn die automatisch startet)

 

In "Tipps" wird die Meldung "One or more sub-elements are found" angezeigt. "Sub-elements" sind die spezifischen Datenfelder, die Octoparse in jeder Datenzeile erkennt. Mit der fragt Octoparse Sie , ob Sie diese Unterelemente lokalisieren möchten.

 mceclip4.png

 

2. Wählen Sie "Select all sub-elements"in Tipps. Alle Unterelemente in der 1. Zeile werden ausgewählt, und dann findet Octoparse weitere ähnliche Elemente, die rot hervorgehoben werden.

mceclip5.png

 

 

3. Wählen Sie"Select all"in Tipps. Alle Unterelemente in der Tabelle werden ausgewählt und ebenfalls grün hervorgehoben.

mceclip6.png

 

 

4. Wählen Sie "Extract data", sodass Octoparse alle Datenfelder der Tabelle extrahiert.

mceclip7.png

 

5. Datenfelder nach Bedarf bearbeiten (optional)

 

Jetzt haben Sie die Datenfelder in der Aufgabe eingerichtet. Sie können die im Bereich "Data Preview" umbenennen oder löschen.

• Klicken Sie auf mceclip9.png, um das Datenfeld umzubenennen

• Klicken Sie auf mceclip10.png für weitere Optionen: Löschen, Kopieren, Daten bereinigen, usw.

mceclip8.png

 

Wenn Sie Probleme mit dem Extrahieren der Tabellendaten haben, senden Sie eine Anfrage an unser Support-Team! Wir werden uns innerhalb von 24 Stunden bei Ihnen melden.

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen