undefined

Lektion 3: Verfeinern Sie Ihre Daten

Tuesday, May 25, 2021 3:12 PM

 

Wenn Sie mit Daten arbeiten, ist das Bereinigen Ihrer Daten für Sie sehr wichtig. In dieser Lektion werden wir Ihnen einige praktische Tipps zeigen, wie Sie Ihre Daten nach der Extraktion verfeinern können.

Los geht’s!

 

Umbenennen/Verschieben/Duplizieren/Löschen eines Feldes

 

Sobald Sie die Daten extrahiert haben und die Daten zeigen schon in der Datenvorschau an, können Sie nun die Daten durchsehen und beginnen, Ihre Daten zu organisieren. Die typische Sachen, die Sie tun können, um Ihre Daten zu verfeinern, sind das Umbenennen der Felder, das Ordnen der Spalten, das Duplizieren von Datenfeldern und das Löschen von Feldern, die für Ihr Projekt unnötig sind.

 

Um ein Feld umzubenennen, klicken Sie auf das Bleistiftsymbol neben dem Feldnamen und geben dann den neuen Namen direkt ein. Beachten Sie, dass Sie nur Zahlen, Buchstaben und "_" für Feldnamen verwenden sollten.

renameafile.gif

 

Um ein Feld zu verschieben, setzen Sie den Cursor an den Namen der Spalte und wenn die hand.png angezeigt wird, ziehen Sie die Spalte an die richtige Stelle.

movefield.gif

 

 Um ein Feld zu duplizieren, klicken Sie auf das Symbol "Mehr anzeigen" und wählen Sie "Kopieren". Das ausgewählte Feld wird automatisch dupliziert.

duplicateafield.gif

 

Um ein Feld zu löschen, klicken Sie auf das Symbol "Mehr anzeigen" und wählen Sie "Löschen".

deletefield.gif

 

Tipps.

 

• Sie können auch beliebige Datenfelder umbenennen/verschieben/duplizieren/löschen, indem Sie auf "Aktionseinstellungen" von der Aktion "Daten extrahieren" im Workflow gehen.

extractdatasetting.gif

 

 

• Wenn Sie mehr Felder zu löschen haben, können Sie die Felder auch zusammen löschen. Klicken Sie auf das Symbol "Aktionseinstellungen" von der Aktion "Daten extrahieren". Klicken Sie in der Einstellungsleiste auf das Symbol "Felder zusammen löschen", wählen Sie die Felder aus, die Sie löschen möchten, und klicken Sie dann auf den Button "Löschen".

batchdelete.gif

 

 

Daten bereinigen

Octoparse bietet Ihnen viele verschiedene Möglichkeiten, Ihre Daten zu bereinigen. Sie können z. B. eine Textzeichenfolge ersetzen, zusätzliche Leerzeichen abschneiden, ein Präfix/Suffix hinzufügen, eine Zeichenfolge mit RegEx ersetzen, Datum/Uhrzeit neu formatieren und vieles mehr. Sie können jedes Datenfeld bei Bedürfnisse mehrmals bereinigen, bis die Daten Ihren Anforderungen entsprechen. Bei einigen davon müssen Sie möglicherweise mit RegEx (Regular Expression) arbeiten, bei denen Sie das Tool Octoparse RegEx benutzen können.

Klicken Sie in der Datenvorschau mit der rechten Maustaste auf das Symbol "Mehr anzeigen" für das Datenfeld, das Sie bereinigen möchten, und wählen Sie "Daten bereinigen".

clean_data.png

 

Klicken Sie auf "Schritt hinzufügen", und wählen Sie dann aus, wie Sie die Daten bearbeiten möchten. Sie können mit den Daten weiterarbeiten, indem Sie weitere Schritte hinzufügen, bis die Daten Ihren Anforderungen entsprechen.

 addstep.png

 

 

• Ersetzen: Ersetzen Sie die bestimmte Zeichenfolge in den extrahierten Daten durch die gewünschte neue Zeichenfolge.

• Ersetzen mit regulärem Ausdruck: Verwenden Sie einen bestimmten regulären Ausdruck, um die übereinstimmende Zeichenfolge in den extrahierten Daten durch die gewünschte Zeichenfolge zu ersetzen.

• Mit regulärem Ausdruck abgleichen: Verwenden Sie einen bestimmten regulären Ausdruck, um die übereinstimmende Zeichenfolge aus den extrahierten Daten zu übernehmen.

• Leerzeichen trimmen: Unerwünschte Leerzeichen am Anfang oder/und am Ende der extrahierten Daten entfernen.

• Präfix hinzufügen: Eine Zeichenkette am Anfang der extrahierten Daten einfügen.

• Suffix hinzufügen: Eine Zeichenkette/einen String am Ende der extrahierten Daten einfügen.

• Extrahiertes Datum/Uhrzeit umformatieren: Das extrahierte Datum/die extrahierte Uhrzeit in eines der 14 eingebauten Formate oder in ein eigenes benutzerdefiniertes Format umwandeln.

• HTML: Einige bestimmte HTML-Tags automatisch in einfachen Text Konvertieren. Zum Beispiel "&gt" in ">" und "&nbsp" in ein Leerzeichen umwandeln.

 

 

Tipps:

Möchten Sie mehr über die Umformatierung von Daten und RegEx tool external-link-symbol-1.png von Octoparse erfahren? Sehen Sie hier nach!

 

• Extrahierte Daten verfeinern

• Elementtext/URL/Bild/HTML/Attribut extrahieren

• Extrahieren von Daten basierend auf Trigger

  

Erfassen von HTML-Code

Wenn die automatische Detektion verwendet wird, um Daten von einer Webseite zu erfassen, extrahiert Octoparse automatisch den Text und die URL der Elemente, die Sie ausgewählt haben. Sie können das Datenfeld anpassen und Octoparse anweisen, beliebigen HTML-Code zu extrahieren.

customizefield.png

 

Klicken Sie in der Datenvorschau auf das Symbol "Mehr anzeigen" und wählen Sie "Feld anpassen".

customizefield2.png

 

Dann wählen Sie im Einstellungsfeld "Feld anpassen" aus, was Sie extrahieren möchten.

 

 

Extrahieren von Daten auf Seitenebene sowie Datum und Uhrzeit

 

Octoparse bietet viele vordefinierten Datenfeldern, mit denen Sie einfach Daten auf der Seitenebene, aktuelle Daten & Zeit oder beliebige Festwerte erfassen können.

 

• Aktuelles Datum & Uhrzeit: das Datum und die Uhrzeit, zu der die Daten aus der Webseite extrahiert werden

• Daten auf Seitenebene: Seiten-URL, Seitentitel, Meta-Keyword, Meta-Description und HTML-Quellcode

• Fester Wert: ein fester Wert, den Sie definieren

 

Klicken Sie auf das + Zeichen in der oberen rechten Ecke der Datenvorschau. Wählen Sie beliebige vordefinierte Datenfelder aus, die Sie dem Datensatz hinzufügen möchten.

extractmeta.png

 

Bis jetzt haben wir alle Schritte zum Aufbau und zur Verfeinerung des Workflows erklärt, es ist die Zeit, eine Test-Aufgabe auszuführen! >> Lektion 4: Test-Aufgabe ausführen

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen