Lektion 3: Verfeinern Sie Ihre Daten (Octoparse 8.4)
Wednesday, October 13, 2021 11:36 AM
Sie haben es also geschafft, die Zieldatenpunkte von der Webseite zu erfassen, aber die Daten sehen vielleicht nicht genau so aus, wie Sie sie haben wollen. In dieser Lektion werden wir Ihnen einige praktische Tipps geben, wie Sie Ihren Datensatz nach der Extraktion der Daten verfeinern können.
Los geht’s!
Umbenennen/Verschieben/Duplizieren/Löschen eines Feldes
Sobald Sie die Daten extrahiert haben und die Daten zeigen schon in der Datenvorschau an, können Sie nun die Daten durchsehen und beginnen, Ihre Daten zu organisieren. Die typische Sachen, die Sie tun können, um Ihre Daten zu verfeinern, sind das Umbenennen der Felder, das Ordnen der Spalten, das Duplizieren von Datenfeldern und das Löschen von Feldern, die für Ihr Projekt unnötig sind.
Um ein Feld umzubenennen, klicken Sie auf das Bleistiftsymbol neben dem Feldnamen und geben dann den neuen Namen direkt ein. Beachten Sie, dass Sie nur Zahlen, Buchstaben und "_" für Feldnamen verwenden sollten.
Um ein Feld zu verschieben, setzen Sie den Cursor an den Namen der Spalte und wenn angezeigt wird, ziehen Sie die Spalte an die richtige Stelle.
Um ein Feld zu löschen, klicken Sie auf das Symbol "Mehr anzeigen" und wählen Sie "Löschen".
Daten bereinigen
Octoparse bietet Ihnen viele verschiedene Möglichkeiten, Ihre Daten zu bereinigen. Sie können z. B. eine Textzeichenfolge ersetzen, zusätzliche Leerzeichen abschneiden, ein Präfix/Suffix hinzufügen, eine Zeichenfolge mit RegEx ersetzen, Datum/Uhrzeit neu formatieren und vieles mehr. Sie können jedes Datenfeld bei Bedürfnisse mehrmals bereinigen, bis die Daten Ihren Anforderungen entsprechen. Bei einigen davon müssen Sie möglicherweise mit RegEx (Regular Expression) arbeiten, bei denen Sie das Tool Octoparse RegEx benutzen können.
Klicken Sie in der Datenvorschau mit der rechten Maustaste auf das Symbol "Mehr anzeigen" für das Datenfeld, das Sie bereinigen möchten, und wählen Sie "Daten bereinigen".
Klicken Sie auf "Add Step", und wählen Sie dann aus, wie Sie die Daten bearbeiten möchten. Sie können mit den Daten weiterarbeiten, indem Sie weitere Schritte hinzufügen, bis die Daten Ihren Anforderungen entsprechen.
• Replace (Ersetzen): Ersetzen Sie die bestimmte Zeichenfolge in den extrahierten Daten durch die gewünschte neue Zeichenfolge.
• Replace with Regular Expression (Ersetzen mit regulärem Ausdruck): Verwenden Sie einen bestimmten regulären Ausdruck, um die übereinstimmende Zeichenfolge in den extrahierten Daten durch die gewünschte Zeichenfolge zu ersetzen.
• Match with Regular Expression (Mit regulärem Ausdruck abgleichen): Verwenden Sie einen bestimmten regulären Ausdruck, um die übereinstimmende Zeichenfolge aus den extrahierten Daten zu übernehmen.
• Trim spaces (Leerzeichen trimmen): Unerwünschte Leerzeichen am Anfang oder/und am Ende der extrahierten Daten entfernen.
• Add a prefix (Präfix hinzufügen): Eine Zeichenkette am Anfang der extrahierten Daten einfügen.
• Add a suffix (Suffix hinzufügen): Eine Zeichenkette/einen String am Ende der extrahierten Daten einfügen.
• Reformat extracted date/time (Extrahiertes Datum/Uhrzeit umformatieren): Das extrahierte Datum/die extrahierte Uhrzeit in eines der 14 eingebauten Formate oder in ein eigenes benutzerdefiniertes Format umwandeln.
• Timestamp conversion: Ein Zeitstempel (Timestamp) ist eine Zeichenfolge oder eine kodierte Nachricht, die zur Identifizierung eines aufgezeichneten Datums und einer Uhrzeit verwendet wird. Mit der Funktion können Sie eine Zeichenfolge in das richtige Zeitformat umwandeln.
• HTML: Einige bestimmte HTML-Tags automatisch in einfachen Text Konvertieren. Zum Beispiel ">" in ">" und " " in ein Leerzeichen umwandeln.
Tipps:
Möchten Sie mehr über die Umformatierung von Daten und RegEx tool von Octoparse erfahren? Sehen Sie hier nach!
• Extrahierte Daten verfeinern
• Elementtext/URL/Bild/HTML/Attribut extrahieren
• Extrahieren von Daten basierend auf Trigger
Erfassen von HTML-Code
Wenn die automatische Detektion verwendet wird, um Daten von einer Webseite zu erfassen, extrahiert Octoparse automatisch den Text und die URL der Elemente, die Sie ausgewählt haben. Sie können das Datenfeld anpassen und Octoparse anweisen, beliebigen HTML-Code zu extrahieren.
Klicken Sie in der Datenvorschau auf das Symbol "Mehr anzeigen", wählen Sie "Customize field" und wählen Sie dann, wie Sie die ausgewählten Daten erfassen möchten.
Extrahieren von Daten auf Seitenebene sowie Datum und Uhrzeit
Octoparse bietet viele vordefinierten Datenfeldern, mit denen Sie einfach Daten auf der Seitenebene, aktuelle Daten & Zeit oder beliebige Festwerte erfassen können.
• Aktuelles Datum & Uhrzeit: das Datum und die Uhrzeit, zu der die Daten aus der Webseite extrahiert werden
• Daten auf Seitenebene: Seiten-URL, Seitentitel, Meta-Keyword, Meta-Description und HTML-Quellcode
• Fester Wert: ein fester Wert, den Sie definieren
Klicken Sie auf das + Zeichen in der oberen rechten Ecke der Datenvorschau. Wählen Sie beliebige vordefinierte Datenfelder aus, die Sie dem Datensatz hinzufügen möchten.
Bis jetzt haben wir alle Schritte zum Aufbau und zur Verfeinerung des Workflows erklärt, es ist die Zeit, eine Test-Aufgabe auszuführen! >> Lektion 4: Test-Aufgabe ausführen