Lektion 3: Verfeinern Sie Ihre Daten
Tuesday, May 25, 2021 3:12 PM
Wenn Sie mit Daten arbeiten, ist das Bereinigen Ihrer Daten für Sie sehr wichtig. In dieser Lektion werden wir Ihnen einige praktische Tipps zeigen, wie Sie Ihre Daten nach der Extraktion verfeinern können.
Los geht’s!
Umbenennen/Verschieben/Duplizieren/Löschen eines Feldes
Sobald Sie die Daten extrahiert haben und die Daten zeigen schon in der Datenvorschau an, können Sie nun die Daten durchsehen und beginnen, Ihre Daten zu organisieren. Die typische Sachen, die Sie tun können, um Ihre Daten zu verfeinern, sind das Umbenennen der Felder, das Ordnen der Spalten, das Duplizieren von Datenfeldern und das Löschen von Feldern, die für Ihr Projekt unnötig sind.
Um ein Feld umzubenennen, klicken Sie auf das Bleistiftsymbol neben dem Feldnamen und geben dann den neuen Namen direkt ein. Beachten Sie, dass Sie nur Zahlen, Buchstaben und "_" für Feldnamen verwenden sollten.
Um ein Feld zu verschieben, setzen Sie den Cursor an den Namen der Spalte und wenn die hand.png angezeigt wird, ziehen Sie die Spalte an die richtige Stelle.
Um ein Feld zu duplizieren, klicken Sie auf das Symbol "Mehr anzeigen" und wählen Sie "Kopieren". Das ausgewählte Feld wird automatisch dupliziert.
Um ein Feld zu löschen, klicken Sie auf das Symbol "Mehr anzeigen" und wählen Sie "Löschen".
Tipps.
• Sie können auch beliebige Datenfelder umbenennen/verschieben/duplizieren/löschen, indem Sie auf "Aktionseinstellungen" von der Aktion "Daten extrahieren" im Workflow gehen.
• Wenn Sie mehr Felder zu löschen haben, können Sie die Felder auch zusammen löschen. Klicken Sie auf das Symbol "Aktionseinstellungen" von der Aktion "Daten extrahieren". Klicken Sie in der Einstellungsleiste auf das Symbol "Felder zusammen löschen", wählen Sie die Felder aus, die Sie löschen möchten, und klicken Sie dann auf den Button "Löschen".
Daten bereinigen
Octoparse bietet Ihnen viele verschiedene Möglichkeiten, Ihre Daten zu bereinigen. Sie können z. B. eine Textzeichenfolge ersetzen, zusätzliche Leerzeichen abschneiden, ein Präfix/Suffix hinzufügen, eine Zeichenfolge mit RegEx ersetzen, Datum/Uhrzeit neu formatieren und vieles mehr. Sie können jedes Datenfeld bei Bedürfnisse mehrmals bereinigen, bis die Daten Ihren Anforderungen entsprechen. Bei einigen davon müssen Sie möglicherweise mit RegEx (Regular Expression) arbeiten, bei denen Sie das Tool Octoparse RegEx benutzen können.
Klicken Sie in der Datenvorschau mit der rechten Maustaste auf das Symbol "Mehr anzeigen" für das Datenfeld, das Sie bereinigen möchten, und wählen Sie "Daten bereinigen".
Klicken Sie auf "Schritt hinzufügen", und wählen Sie dann aus, wie Sie die Daten bearbeiten möchten. Sie können mit den Daten weiterarbeiten, indem Sie weitere Schritte hinzufügen, bis die Daten Ihren Anforderungen entsprechen.
• Ersetzen: Ersetzen Sie die bestimmte Zeichenfolge in den extrahierten Daten durch die gewünschte neue Zeichenfolge.
• Ersetzen mit regulärem Ausdruck: Verwenden Sie einen bestimmten regulären Ausdruck, um die übereinstimmende Zeichenfolge in den extrahierten Daten durch die gewünschte Zeichenfolge zu ersetzen.
• Mit regulärem Ausdruck abgleichen: Verwenden Sie einen bestimmten regulären Ausdruck, um die übereinstimmende Zeichenfolge aus den extrahierten Daten zu übernehmen.
• Leerzeichen trimmen: Unerwünschte Leerzeichen am Anfang oder/und am Ende der extrahierten Daten entfernen.
• Präfix hinzufügen: Eine Zeichenkette am Anfang der extrahierten Daten einfügen.
• Suffix hinzufügen: Eine Zeichenkette/einen String am Ende der extrahierten Daten einfügen.
• Extrahiertes Datum/Uhrzeit umformatieren: Das extrahierte Datum/die extrahierte Uhrzeit in eines der 14 eingebauten Formate oder in ein eigenes benutzerdefiniertes Format umwandeln.
• HTML: Einige bestimmte HTML-Tags automatisch in einfachen Text Konvertieren. Zum Beispiel ">" in ">" und " " in ein Leerzeichen umwandeln.
Tipps:
Möchten Sie mehr über die Umformatierung von Daten und RegEx tool von Octoparse erfahren? Sehen Sie hier nach!
• Extrahierte Daten verfeinern
• Elementtext/URL/Bild/HTML/Attribut extrahieren
• Extrahieren von Daten basierend auf Trigger
Erfassen von HTML-Code
Wenn die automatische Detektion verwendet wird, um Daten von einer Webseite zu erfassen, extrahiert Octoparse automatisch den Text und die URL der Elemente, die Sie ausgewählt haben. Sie können das Datenfeld anpassen und Octoparse anweisen, beliebigen HTML-Code zu extrahieren.
Klicken Sie in der Datenvorschau auf das Symbol "Mehr anzeigen" und wählen Sie "Feld anpassen".
Dann wählen Sie im Einstellungsfeld "Feld anpassen" aus, was Sie extrahieren möchten.
Extrahieren von Daten auf Seitenebene sowie Datum und Uhrzeit
Octoparse bietet viele vordefinierten Datenfeldern, mit denen Sie einfach Daten auf der Seitenebene, aktuelle Daten & Zeit oder beliebige Festwerte erfassen können.
• Aktuelles Datum & Uhrzeit: das Datum und die Uhrzeit, zu der die Daten aus der Webseite extrahiert werden
• Daten auf Seitenebene: Seiten-URL, Seitentitel, Meta-Keyword, Meta-Description und HTML-Quellcode
• Fester Wert: ein fester Wert, den Sie definieren
Klicken Sie auf das + Zeichen in der oberen rechten Ecke der Datenvorschau. Wählen Sie beliebige vordefinierte Datenfelder aus, die Sie dem Datensatz hinzufügen möchten.
Bis jetzt haben wir alle Schritte zum Aufbau und zur Verfeinerung des Workflows erklärt, es ist die Zeit, eine Test-Aufgabe auszuführen! >> Lektion 4: Test-Aufgabe ausführen