undefined

Lektion 3: Verfeinern Sie Ihre Daten (Octoparse 8.4)

Wednesday, October 13, 2021 11:36 AM

 

Sie haben es also geschafft, die Zieldatenpunkte von der Webseite zu erfassen, aber die Daten sehen vielleicht nicht genau so aus, wie Sie sie haben wollen. In dieser Lektion werden wir Ihnen einige praktische Tipps geben, wie Sie Ihren Datensatz nach der Extraktion der Daten verfeinern können. 

Los geht’s!

 

Umbenennen/Verschieben/Duplizieren/Löschen eines Feldes

 

 

Sobald Sie die Daten extrahiert haben und die Daten zeigen schon in der Datenvorschau an, können Sie nun die Daten durchsehen und beginnen, Ihre Daten zu organisieren. Die typische Sachen, die Sie tun können, um Ihre Daten zu verfeinern, sind das Umbenennen der Felder, das Ordnen der Spalten, das Duplizieren von Datenfeldern und das Löschen von Feldern, die für Ihr Projekt unnötig sind.

 

Um ein Feld umzubenennen, klicken Sie auf das Bleistiftsymbol neben dem Feldnamen und geben dann den neuen Namen direkt ein. Beachten Sie, dass Sie nur Zahlen, Buchstaben und "_" für Feldnamen verwenden sollten.

6666666666666666666666.gif

 

Um ein Feld zu verschieben, setzen Sie den Cursor an den Namen der Spalte und wenn hand.png angezeigt wird, ziehen Sie die Spalte an die richtige Stelle.

1.gif

 

Um ein Feld zu löschen, klicken Sie auf das Symbol "Mehr anzeigen" und wählen Sie "Löschen".

2.png

 

 

 

Daten bereinigen

 

Octoparse bietet Ihnen viele verschiedene Möglichkeiten, Ihre Daten zu bereinigen. Sie können z. B. eine Textzeichenfolge ersetzen, zusätzliche Leerzeichen abschneiden, ein Präfix/Suffix hinzufügen, eine Zeichenfolge mit RegEx ersetzen, Datum/Uhrzeit neu formatieren und vieles mehr. Sie können jedes Datenfeld bei Bedürfnisse mehrmals bereinigen, bis die Daten Ihren Anforderungen entsprechen. Bei einigen davon müssen Sie möglicherweise mit RegEx (Regular Expression) arbeiten, bei denen Sie das Tool Octoparse RegEx benutzen können.

Klicken Sie in der Datenvorschau mit der rechten Maustaste auf das Symbol "Mehr anzeigen" für das Datenfeld, das Sie bereinigen möchten, und wählen Sie "Daten bereinigen".

2.png

 

Klicken Sie auf "Add Step", und wählen Sie dann aus, wie Sie die Daten bearbeiten möchten. Sie können mit den Daten weiterarbeiten, indem Sie weitere Schritte hinzufügen, bis die Daten Ihren Anforderungen entsprechen.

5987.png

 

 

• Replace (Ersetzen): Ersetzen Sie die bestimmte Zeichenfolge in den extrahierten Daten durch die gewünschte neue Zeichenfolge.

• Replace with Regular Expression (Ersetzen mit regulärem Ausdruck): Verwenden Sie einen bestimmten regulären Ausdruck, um die übereinstimmende Zeichenfolge in den extrahierten Daten durch die gewünschte Zeichenfolge zu ersetzen.

• Match with Regular Expression (Mit regulärem Ausdruck abgleichen): Verwenden Sie einen bestimmten regulären Ausdruck, um die übereinstimmende Zeichenfolge aus den extrahierten Daten zu übernehmen.

• Trim spaces (Leerzeichen trimmen): Unerwünschte Leerzeichen am Anfang oder/und am Ende der extrahierten Daten entfernen.

• Add a prefix (Präfix hinzufügen): Eine Zeichenkette am Anfang der extrahierten Daten einfügen.

• Add a suffix (Suffix hinzufügen): Eine Zeichenkette/einen String am Ende der extrahierten Daten einfügen.

• Reformat extracted date/time (Extrahiertes Datum/Uhrzeit umformatieren): Das extrahierte Datum/die extrahierte Uhrzeit in eines der 14 eingebauten Formate oder in ein eigenes benutzerdefiniertes Format umwandeln.

• Timestamp conversion: Ein Zeitstempel (Timestamp) ist eine Zeichenfolge oder eine kodierte Nachricht, die zur Identifizierung eines aufgezeichneten Datums und einer Uhrzeit verwendet wird. Mit der Funktion können Sie eine Zeichenfolge in das richtige Zeitformat umwandeln.

• HTML: Einige bestimmte HTML-Tags automatisch in einfachen Text Konvertieren. Zum Beispiel "&gt" in ">" und "&nbsp" in ein Leerzeichen umwandeln.

 

 

Tipps:

Möchten Sie mehr über die Umformatierung von Daten und RegEx tool external-link-symbol-1.png von Octoparse erfahren? Sehen Sie hier nach!

 

• Extrahierte Daten verfeinern

• Elementtext/URL/Bild/HTML/Attribut extrahieren

• Extrahieren von Daten basierend auf Trigger

  

Erfassen von HTML-Code

 

Wenn die automatische Detektion verwendet wird, um Daten von einer Webseite zu erfassen, extrahiert Octoparse automatisch den Text und die URL der Elemente, die Sie ausgewählt haben. Sie können das Datenfeld anpassen und Octoparse anweisen, beliebigen HTML-Code zu extrahieren.

Klicken Sie in der Datenvorschau auf das Symbol "Mehr anzeigen", wählen Sie "Customize field" und wählen Sie dann, wie Sie die ausgewählten Daten erfassen möchten. 

9.png

 

 

 

Extrahieren von Daten auf Seitenebene sowie Datum und Uhrzeit

 

 

Octoparse bietet viele vordefinierten Datenfeldern, mit denen Sie einfach Daten auf der Seitenebene, aktuelle Daten & Zeit oder beliebige Festwerte erfassen können.

 

• Aktuelles Datum & Uhrzeit: das Datum und die Uhrzeit, zu der die Daten aus der Webseite extrahiert werden

• Daten auf Seitenebene: Seiten-URL, Seitentitel, Meta-Keyword, Meta-Description und HTML-Quellcode

• Fester Wert: ein fester Wert, den Sie definieren

 

Klicken Sie auf das + Zeichen in der oberen rechten Ecke der Datenvorschau. Wählen Sie beliebige vordefinierte Datenfelder aus, die Sie dem Datensatz hinzufügen möchten.

14.png

 

Bis jetzt haben wir alle Schritte zum Aufbau und zur Verfeinerung des Workflows erklärt, es ist die Zeit, eine Test-Aufgabe auszuführen! >> Lektion 4: Test-Aufgabe ausführen

 

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen