Alle Kollektionen
Octoparse Performance
Datenfeldern Anpassen
Verfeinerung der gescrapten Daten (Ersetzung des Inhalt, Hinzufügen des Präfix...)
Verfeinerung der gescrapten Daten (Ersetzung des Inhalt, Hinzufügen des Präfix...)
Vor über einer Woche aktualisiert

Während Ihres Web-Scraping-Projekts möchten Sie vielleicht die Datenfelder bereinigen. Octoparse bietet 8 Datenbereinigungsoptionen, um die gescrapten Daten in das von Ihnen benötigte Format zu bringen.


1. Wenn sollte ich die gescrapten Daten verfeinern?

Wenn Sie das gewünschte Datenformat für ein bestimmtes Feld haben, können Sie die Funktion „Clean Data“ verwenden, um das Feld in Octoparse zu bereinigen. Octoparse würde es direkt während des Scraping-Prozesses auslesen und verfeinern, damit Sie das Feld nach dem Export der Daten in eine Excel-Datei nicht formatieren müssen.


2. Wie kann ich die gescrapten Daten in Octoparse verfeinern?

Um diese Eigenschaften in Octoparse zu verwirklichen, sollten Sie nach den folgenden 4 Schritten folgen:

  • Schritt 1: Wählen Sie das Datenfeld zu verfeinern.

  • Schritt 2: Klicken Sie auf „...“ und wählen Sie auf „Clean data“.

  • Schritt 3: Klicken Sie auf „Add step“.

  • Schritt 4: Wählen Sie eine Option, um Ihre Daten neu zu formatieren.

Option waehlen

Tipps!

  • In der Programmierung bezieht sich einen „String“ grundsätzlich auf eine Sammlung von Zeichen wie Buchstaben, Ziffern, Symbole und Interpunktionszeichen. Zum Beispiel ist „“ (Leerzeichen) ein String; „Octoparse“ ist ein String; und „Hello 2 *% World!“ ist ebenfalls ein String. Ein String kann auch aus keinem Zeichen bestehen. Mit anderen Worten: Ein String, die kein Zeichen enthält, ist leer. Wenn Sie ein Wort durch einen leeren String ersetzen, ist das umgangssprachlich gleichbedeutend mit dem Löschen des Wortes.

  • Das Wort „String“ wird in vielen Funktionsanweisungen der Datenumformatierungsoptionen von Octoparse verwendet. Wenn Sie dort das Wort „String“ sehen, bedeutet das, dass Sie die entsprechenden Optionen verwenden können, um mit Zeichentypen in den extrahierten Daten umzugehen, z.B. Buchstaben, Wörter, Sätze, Zahlen, Leerzeichen, Symbole und Interpunktionszeichen.


2.1 9 Optionen zur Datenumformatierung

Option 1: Replace

  • Funktion: Ersetzen Sie den(ie) bestimmte(n) String(s) in den extrahierten Daten durch den(ie) gewünschte(n) neue(n) String(s).

replace

Option 2: Replace with regular expression

  • Funktion: Verwenden Sie einen bestimmten regulären Ausdruck, um die übereinstimmende Zeichenfolge in den extrahierten Daten durch den gewünschten String zu ersetzen.

*Sie können mehr über reguläre Ausdrücke in W3schools erfahren.

Replace with regular expression

Option 3: Match with regular expression

  • Funktion: Verwenden Sie einen bestimmten regulären Ausdruck, um die übereinstimmende Zeichenfolge aus den extrahierten Daten herauszufiltern.

*Sie können mehr über reguläre Ausdrücke in W3schools erfahren.

Match with regular expression

Option 4: Trim spaces

  • Funktion: Entfernen Sie die unerwünschten Leerzeichen am Anfang oder/und am Ende der extrahierten Daten.

Wenn Sie die Leerzeichen inmitten der Daten löschen möchten, können Sie die Funtion „Replace“ oder „Replace with regular expression“ verwenden.

Trim spaces

Option 5: Add a prefix

  • Funktion: Fügen Sie vor den extrahierten Daten einen String oder mehere Strings hinzu.

Add a prefix

Option 6: Add suffix

  • Funktion: Fügen Sie einen String am Ende der extrahierten Daten ein.

Add suffix

Option 7: Reformat extracted date/time

  • Funktion: Verschiebt das extrahierte Datum/die extrahierte Uhrzeit in eines der eingebauten Formate oder in Ihr eigenes, individuelles Format.

Reformat extracted date/time

Option 8: Timestamp conversion

  • Funktion: Verschieben Sie den Unix-Zeitstempel in Ihr eigenes benutzerdefiniertes Format.

Der Unix-Zeitstempel ist eine Zahlenfolge, die ein bestimmtes Datum und eine bestimmte Uhrzeit darstellt. Diese Funktion wird Unix-Zeit in ein Format konvertieren, das wir leicht verstehen können.

Timestamp conversion

Option 9: HTML transcoding

  • Funktion: Wandeln Sie bestimmte HTML-Tags automatisch in einfachen Text um. Zum Beispiel "&gt" in ">" und "&nbsp" in ein Leerzeichen umwandeln.

HTML transcoding

Tipps!

Alle hinzugefügten Schritte können bearbeitet und gelöscht werden, indem Sie auf die Icons klicken.

clean data in tipps


2.2 Octoparse Regex Tool

Octoparse bietet auch ein RegEx-Tool zur automatischen Generierung des benötigten regulären Ausdrucks. Schauen wir uns kurz an, wie man mit dem RegEx-Tool von Octoparse einen regulären Ausdruck erzeugt und anwendet. Hier wollen wir beispielerweise die Zahl der Sternenbewertung aus dem äußeren HTML scrapen.

  • Schritt 1: Klicken Sie auf „Try RegEx Tool“.

  • Schritt 2: Geben Sie die entsprechenden Kriterien ein, z.B. „start with src="“, „end with “.

  • Schritt 3: Klicken Sie auf „generate“, um den regulären Ausdruck zu produzieren.

  • Schritt 4: Klicken Sie auf „Match“ zum Wählen der entsprechenden Strings.

  • Schritt 5: Klicken Sie auf „Apply“.

  • Schritt 6: Klicken Sie auf „Confirm“ zur Speicherung der Einstellungen.

Einstellungen speichern

Klicken Sie den Link hier, um mehr Information über die Verwendung vom Regex-Tool zu erfahren.

Hat dies Ihre Frage beantwortet?