Alle Kollektionen
Octoparse 101
Lektion 3: Verfeinerung Ihrer Daten
Lektion 3: Verfeinerung Ihrer Daten
Vor über einer Woche aktualisiert

Jetzt haben Sie schon erfolgreich die Zieldaten aus der Webseite erhalten, aber die Daten sehen möglicherweise nicht genau so wie gewünscht aus. In dieser Lektion werden wir Ihnen einige praktische Methoden zeigen, um Ihnen es mitzuteilen, wie die Daten nach der Extraktion verfeinert werden können.


Umbenennen/ Verschieben/ Duplizieren/ Löschen eines Feldes

Sobald die Daten gescrapt und schon in der Datenvorschau angezeigt wurden, können Sie nun die Daten durchsehen und beginnen, Ihre Daten zu organisieren. Die typische Sachen, die Sie zur Verfeinerung Ihrer Daten tun können, einschließlich Umbenennen der Felder, Ordnen der Spalten, Duplizieren und Löschen von Feldern, sind für Ihr Projekt unnötig.

Um ein Feld umzubenennen, klicken Sie doppelt auf den Namen des Feldes. Dann geben Sie den neuen Namen direkt ein. Beachten Sie, dass Sie nur Zahlen, Buchstaben und „_“ für Feldnamen verwenden sollten.

Um ein Feld zu verschieben, setzen Sie den Cursor an den Anfang des Feldes und wenn angezeigt wird, können Sie das Feld an die richtige Stelle ziehen und ablegen.

ziehen

Um ein Feld zu löschen, klicken Sie auf das Symbol .../ Mehr und wählen Sie „Feld Löschen“.


Daten reinigen

Octoparse bietet Ihnen viele verschiedene Möglichkeiten an, damit Ihre Daten bereinigt werden könnten. Zum Beispiel können Sie eine Textzeichenfolge ersetzen, zusätzliche Leerzeichen abschneiden, ein Präfix/Suffix hinzufügen, eine Zeichenfolge mit RegEx ersetzen, Datum/Uhrzeit neu formatieren und so weiter. Sie können jedes einzelne Datenfeld bei Bedürfnisse einmal oder mehrmals bereinigen, bis die Daten Ihren Anforderungen entsprechen. Bei einigen davon müssen Sie möglicherweise mit RegEx (Regular Expression) arbeiten, bei denen Sie das Tool Octoparse RegEx benutzen können.

Klicken Sie in der Datenvorschau mit der rechten Maustaste auf das Symbol „Mehr“ für das Datenfeld, das Sie bereinigen möchten, und wählen Sie dann „Daten reinigen“.

Klicken Sie auf „Schritt hinzufügen“, und wählen Sie dann eine folgende Funktion aus, durch die die Daten bearbeitet werden. Sie können beim Hinzufügen mehrerer Schritte mit den Daten weiterarbeiten, bis die Daten Ihren Anforderungen entsprechen.

  • Ersetzen: Ersetzen Sie die bestimmte Zeichenfolge in den gescrapten Daten mit der gewünschten neuen Zeichenfolge(n).

  • Erstetzen mit Regulärem Ausdruck: Verwenden Sie einen bestimmten regulären Ausdruck, um die übereinstimmende Zeichenfolge in den gescrapten Daten mit der gewünschten Zeichenfolge(n) zu ersetzen.

  • Übereinstimmung mit Regulärem Ausdruck: Verwenden Sie einen bestimmten regulären Ausdruck, um die entsprechende Zeichenfolge aus den gescrapten Daten aufzunehmen.

  • Räume trimmen: Unerwünschte Leerzeichen am Anfang oder/und am Ende der gescrapten Daten entfernen.

  • Ein Präfix hinzufügen: Eine Zeichenfolge/einen String am Anfang der gescrapten Daten einfügen.

  • Ein Suffix hinzufügen: Eine Zeichenfolge/einen String am Ende der gescrapten Daten einfügen.

  • Extrahiertes Datum/Uhrzeit umformatieren: Das extrahierte Datum/die extrahierte Uhrzeit in eines der 14 eingebauten Formate oder in ein eigenes benutzerdefiniertes Format umwandeln.

  • Umwandlung von Zeitstempeln: Verwandeln Sie die Zeitstempeln in Datum oder das Datum in Zeitstempeln.

  • Umwandlung von Zeitzonen: Wählen Sie eine Zeitzone, um das Zeit-Feld zu beheben.

  • HTML-Transcodierung: Einige bestimmte HTML-Tags automatisch in einfachen Text konvertieren. Zum Beispiel „&gt“ in „>“ und „&nbsp“ in ein Leerzeichen umwandeln.

Notiz: Möchten Sie mehr über die Umformatierung von Daten und RegEx-Tool von Octoparse erfahren? Sehen Sie hier nach!


Erfassen von HTML-Code

Wenn die automatische Detektion verwendet wird, um Daten von einer Webseite zu erfassen, wird Octoparse automatisch die Texte und URLs der Elemente auslesen. Allerdings können Sie manuell das Datenfeld anpassen und Octoparse mitteilen, welches HTML-Code es scrapen sollte.

In der Datenvorschau dürfen Sie auf das Symbol „···“ klicken und „Feld anpassen“ selektieren. Dann können Sie manuell anpassen, welcher Art von HTML-Code Sie scrapen möchten.

Feld anpassen


Datenerfassung von Seitenebene und Datum & Uhrzeit

Octoparse bietet viele vordefinierten Datenfelder an, mit denen Sie einfach Daten auf der Seitenebene, aktuelle Daten & aktuelle Uhrzeit oder beliebige Festwerte scrapen können.

  • Aktuelle Datum & Uhrzeit: das Datum und die Uhrzeit, wann dieser Datensatz aus der Webseite gescrapt wird

  • Daten auf Seitenebene: Seite-URL, Seitentitel, Meta-Keywords, Meta-Beschreibung und HTML-Quellcode

  • Fester Wert: ein fester Wert, den Sie definieren

Klicken Sie auf das + Zeichen in der oberen rechten Ecke der Datenvorschau. Wählen Sie beliebige vordefinierte Datenfelder aus, die Sie dem Datensatz hinzufügen möchten.


Hat dies Ihre Frage beantwortet?