undefined

Extrahierte Daten verfeinern (Inhalt ersetzen, Präfix hinzufügen, ...)  

Monday, August 23, 2021 3:04 PM

Während Ihres Web-Scraping-Projekts möchten Sie vielleicht die Datenfelder bereinigen. Octoparse bietet 8 Datenbereinigungsoptionen, um die extrahierten Daten in das von Ihnen benötigte Format zu bringen.

 

Wann sollte ich die extrahierten Daten bereinigen?

 

Wenn Sie das gewünschte Datenformat für ein bestimmtes Feld haben, können Sie die Funktion "Clean Data" verwenden, um das Feld in Octoparse zu bereinigen. Octoparse würde es direkt während des Scraping-Prozesses auslesen und verfeinern, damit Sie das Feld nach dem Export der Daten in eine Excel-Datei nicht formatieren müssen.

 

Wie verfeinere ich die extrahierten Daten in Octoparse?

 

Der Prozess besteht aus 4 Hauptschritte:

 

1. Wählen Sie das zu verfeinernde Datenfeld aus

 cleandataselect.png

 

2. Klicken Sie auf das Symbol "...", um das Datenfeld anzupassen. Wählen Sie dann "Clean Data".

 step12.png

 

3. Klicken Sie auf "Add step".

 add_step.png

 

4. Wählen Sie eine Option, um Ihre Daten zu formatieren

 clean.png

 

Tipps!

In der Programmierung bezieht sich eine "Zeichenkette" grundsätzlich auf eine Sammlung von Zeichen wie Buchstaben, Ziffern, Symbole und Interpunktionszeichen. Zum Beispiel ist " " (Leerzeichen) eine Zeichenkette; "Octoparse" ist eine Zeichenkette; und "Hello 2 *% World!" ist ebenfalls eine Zeichenkette. Eine Zeichenkette kann auch aus keinem Zeichen bestehen. Mit anderen Worten: Eine Zeichenfolge, die kein Zeichen enthält, ist leer. Wenn Sie ein Wort durch eine leere Zeichenkette ersetzen, ist das umgangssprachlich gleichbedeutend mit dem Löschen des Wortes.

 

Das Wort "String" wird in vielen Funktionsanweisungen der Datenumformatierungsoptionen von Octoparse verwendet. Wenn Sie dort das Wort "String" sehen, bedeutet das, dass Sie die entsprechenden Optionen verwenden können, um mit Zeichentypen in den extrahierten Daten umzugehen, z. B. Buchstaben, Wörter, Sätze, Zahlen, Leerzeichen, Symbole und Interpunktionszeichen.

 

 

8 Optionen zur Datenumformatierung

 

    1. Replace
    2. Replace with regular expression
    3. Match with regular expression
    4. Trim spaces
    5. Add a prefix
    6. Add suffix
    7. Reformat extracted date/time
    8. HTML transcoding

 

 

1. Replace

 

Funktion: Ersetzen Sie die bestimmte Zeichenfolge in den extrahierten Daten durch die gewünschte neue Zeichenfolge.

mceclip3.png

2. Replace with regular expression

 

Funktion: Verwenden Sie einen bestimmten regulären Ausdruck, um die übereinstimmende Zeichenfolge in den extrahierten Daten durch die gewünschte Zeichenfolge zu ersetzen.

 

Sie können mehr über reguläre Ausdrücke in W3schools  erfahren.

 mceclip4.png

 

3. Match with regular expression

 

Funktion: Verwenden Sie einen bestimmten regulären Ausdruck, um die übereinstimmende Zeichenfolge aus den extrahierten Daten herauszufiltern.

 

Sie können mehr über reguläre Ausdrücke in W3schools  erfahren.

 mceclip5.png

4. Trim spaces

 

Funktion: Entfernen Sie die unerwünschten Leerzeichen am Anfang oder/und am Ende der extrahierten Daten.

 

Wenn Sie die Leerzeichen inmitten der Daten löschen möchten, können Sie die Funtion „Replace oder „Replace with regular expression“.

 mceclip7.png

 

5. Add a prefix

 

Funktion: Fügen Sie eine oder mehrere Zeichenfolgen vor den extrahierten Daten ein.

 mceclip8.png

6. Add suffix

 

Funktion: Fügt eine Zeichenkette/mehrere Zeichenketten am Ende der extrahierten Daten ein.

 mceclip9.png

7. Reformat extracted date/time

 

Funktion: Verschiebt das extrahierte Datum/die extrahierte Uhrzeit in eines der 14 eingebauten Formate oder in Ihr eigenes, individuelles Format.

mceclip6.png

 

 

 

8. HTML transcoding

 

Funktion: Wandeln Sie bestimmte HTML-Tags automatisch in einfachen Text um. Zum Beispiel "&gt" in ">" und "&nbsp" in ein Leerzeichen umwandeln.

 

 

 

Octoparse Regex-Werkzeug

 

Octoparse bietet auch ein RegEx-Tool zur automatischen Generierung des benötigten regulären Ausdrucks. Schauen wir uns kurz an, wie man mit dem RegEx Tool von Octoparse einen regulären Ausdruck erzeugt und anwendet. Hier wollen wir zum Beispiel die Zahl der Sternchenbewertung aus dem äußeren HTML extrahieren.

 

• Klicken Sie auf "Try RegEx Tool".

• Geben Sie die Übereinstimmungskriterien ein: beginnend mit "<b>", endend mit "</b> from"

• Klicken Sie auf "generate", um den regulären Ausdruck zu erzeugen

• Klicken Sie auf "Match", um die übereinstimmende(n) Zeichenfolge(n) zu übernehmen.

• Klicken Sie auf "Apply".

• Klicken Sie auf "OK", um die Einstellungen zu speichern

 

 t5.gif

 

Klicken Sie auf den Link hier, um weitere Informationen über die Verwendung des Regex-Tools zu erhalten.

 

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen