undefined

Filtern Daten mit Trigger

Friday, July 30, 2021 12:34 PM

Der Trigger in Octoparse wird als Bedingung und Einschränkung verwendet, um bestimmte Datenzeilen verwerfen oder behalten wollen. Er hilft den Nutzern, die gewünschten Daten direkt herauszufiltern, statt den gesamten Datensatz zu durchsuchen und unerwünschte Daten später zu löschen, nachdem sie die Daten in Excel- oder CSV-Dateien exportiert haben.

 

Wann wird der Trigger verwendet?

 

Beispiel 1

Wenn Sie Produkte von einer E-Commerce-Website scrapen und nur Produkte mit einem Preis von weniger als 100 $ behalten möchten, können Sie den Trigger verwenden, um unerwünschte Datenzeilen zu löschen, insbesondere alle Produkte, die teurer als 100 $ sind, und nur diejenigen zu behalten, die Sie benötigen.

 

Um dies zu erreichen, können Sie einen Trigger wie folgt erstellen: Wenn das Datenfeld "Preis" gleich oder größer als "100" ist, wird die Aktion "dump the line of data" ausgeführt. Auf diese Weise wird Octoparse "beurteilen", ob die Daten die definierten Kriterien erfüllen, bevor sie tatsächlich extrahiert werden. Am Ende wird der Datensatz nur die gewünschten Daten enthalten.

 

 

Beispiel 2

Ein weiterer Anwendungsfall von Trigger ist, wenn Sie Daten extrahieren möchten, die mit einem bestimmten Datum verbunden sind, z. B. alle heute veröffentlichten Nachrichtenartikel (z. B. 2020-01-01). Um dies zu erreichen, können Sie einen Trigger erstellen: Wenn das Datenfeld "Datum" nicht "2020-01-01" ist, wird die Aktion "dump the line of data" ausgeführt. Das Ergebnis ist, dass Sie nur die Artikel am 01.01.2020 behalten möchten.

 

Sie können auch mehrere Bedingungen kombiniert verwenden. Wenn Sie zum Beispiel Nachrichtenartikel für den 01.01.2020 extrahieren möchten und nur dann, wenn der Titel des Artikels die Worte "CPI" enthält, können Sie die folgenden zwei Bedingungen verwenden:

 

Bedingung 1: Wenn das Datenfeld "date" nicht "2020-01-01" ist, wird die Aktion "dump the line of data" ausgeführt.

 

[AND]

 

Bedingung 2: Wenn das Datenfeld "title" kein das Wort "CPI" enthält, wird die Aktion "dump the line of data" ausgeführt.

 

 

Wie wird ein Trigger verwendet?

1. Erstellen einen neuen Trigger

 

• Öffnen die Aktionseinstellung von „Extract Data“

1.png

 

• Klicken auf "Add a Trigger", um einen neuen Trigger zu erstellen

2.png

 

 

2. Benennen Sie den Trigger

 

 Benennen Sie den Trigger, indem Sie den Namen in das Feld "Trigger Name" eingeben

4.gif

 

 

 

 

3. Wählen das Zielfeld und legen Sie die Bedingung fest

 

• Wählen Sie ein Zielfeld aus dem Dropdown-Menü

 5.png

 

• Legen Sie die Bedingung für das ausgewählte Datenfeld fest. Sie können Bedingungen auf der Grundlage von "Text", "numerals" oder "time" festlegen.

 6.png

 

Drei verschiedene Bedingungen können die meisten Anforderungen von Texten über Zahlen bis hin zu Zeit und Datum abdecken.

 

1. Für Text

 

Für Texte gibt es fünf Optionen (is, is not, contains, does not contain, is not blank). (Deutsch: ist, ist nicht, enthält, enthält nicht, ist nicht leer)

Wenn Sie z. B. "contains" wählen und das Wort "Apple" in das Textfeld eingeben, wird die gesamte Bedingung lauten: If the data field "Title" contains the words "Apple". (Deutsch: Wenn das Datenfeld "Titel" die Wörter "Apple" enthält.)

mceclip0.png

 

Tipps!

• Beim Textwert werden Groß- und Kleinschreibung unterschieden. Bitte stellen Sie sicher, dass Sie den richtigen Text eingegeben haben.

• Wenn "is not blank" ausgewählt ist, brauchen Sie das Textfeld nicht auszufüllen und die Bedingung lautet: Wenn das Datenfeld "Titel" nicht leer ist.

 

 

2. Für Zahlen

 

Für Zahlen gibt es vier Optionen (greater than, less than, greater than, or equal to) (Deutsch: größer als, kleiner als, größer als oder gleich).

 

Wenn Sie zum Beispiel das Datenfeld "Price" auswählen, "greater than" und den Wert "500" eingeben, lautet die Bedingung: If the data field "Price" is greater than "500" (Deutsch: Wenn das Datenfeld "Preis" größer als "500" ist).

2020-10-23_16-38-38.jpg

 

Tipps!

Achten Sie bitte darauf, dass das Feld nur Zahlen enthalten kann. Wenn es Texte enthält, können Sie die Funktion "Clean Data" verwenden, um es zu verfeinern.

 

 

3. Für Zeit und Datum

 

Es gibt vier Optionen für Zeit und Datum (after, before, on or after, on or before) (Deutsch: nach, vor, am oder nach, am oder vor).

 

Wenn Sie z. B. für das Datenfeld "Time", "after" und "12 am of the extraction day" sowie "dump this line of data" auswählen, lautet die Bedingung: if the time is after 12 am of the extraction day, then dump the line of data. (Deutsch: Wenn die Zeit nach 12 Uhr des Extraktionstages liegt, dann wird die Datenzeile ausgegeben.) Als Ergebnis werden nur die Daten extrahiert, die vor 0:00 Uhr des Extraktionstages veröffentlicht wurden.

mceclip1.png

 

Sie können auch die aktuelle Zeit verwenden oder den Zeitraum anpassen.

_____22222222.gif

 

 

4. Kombinieren mehrere Bedingungen mit [AND] oder [OR].

 

Mehrere Bedingungen können in einem Trigger kombiniert verwendet werden. Verwenden Sie die Bedingung [AND] oder die Bedingung [OR], um die Beziehungen zwischen den verschiedenen Bedingungen zu definieren.

 mceclip3.png

 

Wenn Sie auf "Add [AND] condition" klicken und eine Bedingung hinzufügen, wird die Aktion ausgeführt, wenn das Datenfeld beide Bedingungen erfüllt.

_____4444444444.gif

 

Wenn Sie auf "Add [OR] condition" klicken und eine Bedingung hinzufügen, wird die Aktion ausgeführt, wenn das Datenfeld eine der beiden Bedingungen erfüllt.

_____444477777.gif

 

 

5. Wählen eine Aktion aus "Do".

 

Jetzt sind die Bedingungen schon definiert. Octoparse wird einen der folgenden Schritte ausführen, wenn die Bedingungen ausgelöst werden.

 

a. Dump this line of data (Diese Datenzeile verwerfen)

 mceclip4.png

 

Wenn "Dump this line of data" ausgewählt ist, verwirft Octoparse die gesamten Datenzeilen aus dem Extraktionsschritt, unabhängig davon, in welchen Schritten die Bedingungen ausgelöst wurde.

 

b. End the loop (Beenden der Schleife)

 

Wenn "End the loop" ausgewählt ist, müssen Sie entsprechend ein „Loop Item“ zum Beenden auswählen.

7.png

 

c. Stop the entire extraction (Beenden der gesamten Extraktion)

 

Wenn die Option "Stop the entire extraction" gewählt wird, wird die Extraktion beendet, sobald die entsprechende Bedingung erfüllt ist.

mceclip8.png

 

Tipps!

• Sie können den vorhandenen „Trigger“ deaktivieren, kopieren, bearbeiten oder löschen, nachdem Sie die Änderungen gespeichert haben.

mceclip9.png

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen