Daten Scraping mit Trigger
Vor über einer Woche aktualisiert

Der Trigger in Octoparse wird als Bedingung und Einschränkung verwendet, damit sich Octoparse ein schnelles Urteil darüber abgeben kann, bestimmte Datenzeilen zu verwerfen oder zu behalten. Er hilft den Nutzern, die gewünschten Daten direkt herauszufiltern, statt den gesamten Datensatz zu durchsuchen und unerwünschte Daten später zu löschen, nachdem die Daten in Excel- oder CSV-Dateien exportiert wurden.


1. Wann wird Trigger verwendet?

  • Fall 1

Wenn Sie Produkte von einer E-Commerce-Website scrapen und nur Produkte mit einem Preis von weniger als 100 $ behalten möchten, können Sie den Trigger verwenden, um unerwünschte Datenzeilen zu löschen, insbesondere alle Produkte, die teurer als 100 $ sind, und nur diejenigen zu behalten, die Sie benötigen.

Um dies zu erreichen, können Sie einen Trigger wie folgt erstellen: Wenn das Datenfeld „Preis“ gleich oder größer als „100“ ist, wird die Aktion „dump the line of data“ ausgeführt. Auf diese Weise wird Octoparse „beurteilen“, ob die Daten die definierten Kriterien erfüllen, bevor sie tatsächlich extrahiert werden. Am Ende wird der Datensatz nur die gewünschten Daten enthalten.

  • Fall 2

Ein weiterer Anwendungsfall von Trigger ist, wenn Sie Daten extrahieren möchten, die mit einem bestimmten Datum verbunden sind, z.B. alle heute veröffentlichten Nachrichtenartikel (z.B. 2020-01-01). Um dies zu erreichen, können Sie einen Trigger erstellen: Wenn das Datenfeld „Datum“ nicht „2020-01-01“ ist, wird die Aktion „dump the line of data“ ausgeführt. Das Ergebnis ist, dass Sie nur die Artikel am 01.01.2020 behalten möchten.

Sie können auch mehrere Bedingungen kombiniert verwenden. Wenn Sie zum Beispiel Nachrichtenartikel für den 01.01.2020 extrahieren möchten und nur dann, wenn der Titel des Artikels die Worte „CPI“ enthält, können Sie die folgenden zwei Bedingungen verwenden:

Bedingung 1: Wenn das Datenfeld „date“ nicht „2020-01-01“ ist, wird die Aktion „dump the line of data“ ausgeführt.

[UND]

Bedingung 2: Wenn das Datenfeld „title“ nicht „CPI“ enthält, wird die Aktion „dump the line of data“ ausgeführt.


2. Wie wird Trigger verwendet?

Schritt 1: Erstellen Sie einen neuen Trigger.

  • Prozess 1: Gehen Sie zur Aktion „Extract Data“.

  • Prozess 2: Klicken Sie auf „Add a Trigger“ im „Options“-Tab, um einen neuen Trigger zu erstellen.

Add a Trigger

Schritt 2: Benennen Sie Ihren Trigger.

  • Benennen Sie den Trigger, indem Sie den Namen in das Feld „Trigger Name“ eingeben.

Benennen Sie Ihren Trigger

Schritt 3: Wählen Sie das Zielfeld und erstellen Sie die Bedingung.

  • Prozess 1: Selektieren Sie ein Zielfeld aus dem Dropdown-Menü.

Zielfeld selektieren

  • Prozess 2: Richten Sie die Bedingungen für das ausgewählte Datenfeld ein. Sie können die Bedingungen basierend auf „text“, „numerals“ oder „time“ festlegen.

Bedingungen einrichten

Drei unterschiedliche Bedingungen können die meisten Anforderungen von Texten über Zahlen bis hin zu Zeit und Datum abdecken.

A. Für Texte

Für Texte gibt es fünf Optionen (is, is not, contains, does not contain, is not blank).

*Deutsch: ist, ist nicht, enthält, enthält nicht, ist nicht leer

Wenn Sie beispielerweise „contains“ wählen und das Wort „SKIRT“ in das Textfeld eingeben, wird die gesamte Bedingung lauten: If the data field „Title“ contains the words „SKIRT“. (Deutsch: Wenn das Datenfeld „Title“ die Wörter „SKIRT“ enthält.)

Für Texte

Tipps!

  • Beim Textwert werden Groß- und Kleinschreibung unterschieden. Bitte stellen Sie sicher, dass Sie den richtigen Text eingegeben haben.

  • Wenn „is not blank“ ausgewählt ist, brauchen Sie das Textfeld nicht auszufüllen und die Bedingung lautet: Wenn das Datenfeld „Title“ nicht leer ist.

B. Für Nummern

Für Nummern gibt es vier Optionen (greater than, less than, greater than, or equal to).

*Deutsch: größer als, kleiner als, besser als oder gleich

Wenn Sie beispielerweise das Datenfeld „Price“, „greater than“ auswählen und den Wert „500“ eingeben, lautet die Bedingung: If the data field "Price" is greater than "500" (Deutsch: Wenn das Datenfeld „Preis“ größer als „500“ ist).

Für Nummern

Tipps!

Bitte beachten Sie, dass das Feld nur den Wert von Nummern enthält. Wenn es einen Wert vom Text enthält, können Sie die Funktion „Clean Data“ verwenden, um ihn zu verfeinern. Wenn der Preis zum Beispiel „$100“ ist, sollten Sie das Währungssymbol „$“ vor dem Einstellungstrigger bewegen.

C. Für Zeit und Datum

Es gibt vier Optionen für Zeit und Datum (after, before, on or after, on or before). *Deutsch: nach, vor, am oder nach, am oder vor

Wenn Sie beispielerweise für das Datenfeld „Time“ „after“ und „12 am of the extraction day“ auswählen sowie „dump this line of data“ ausführen, lautet die Bedingung: if the time is after 12 am of the extraction day, then dump the line of data. (Deutsch: Wenn die Zeit nach 12 Uhr des Extraktionstages liegt, dann wird die Datenzeile ausgegeben.) Als Ergebnis werden nur die Daten extrahiert, die vor 0:00 Uhr des Extraktionstages veröffentlicht wurden.

C. Für Zeit und Datum

Sie können auch individuell die Zeit oder das Datum einrichten.

individuell einrichten

Schritt 4: Fügen Sie mehrere Bedingungen hinzu, indem Sie [AND] oder [OR] verwenden.

Mehrere Bedingungen können in einem Trigger kombiniert verwendet werden. Verwenden Sie die Bedingung [AND] oder die Bedingung [OR], um die Beziehungen zwischen den verschiedenen Bedingungen zu definieren.

Beziehungen definieren

Wenn Sie auf „Add [AND] condition“ klicken und eine Bedingung hinzufügen, wird die Aktion ausgeführt, wenn das Datenfeld beide Bedingungen erfüllt.

Wenn Sie auf „Add [OR] condition“ klicken und eine Bedingung hinzufügen, wird die Aktion ausgeführt, wenn das Datenfeld eine der beiden Bedingungen erfüllt.

Schritt 5: Wählen Sie eine Aktion aus „Do“ und klicken Sie auf „Confirm“ zur Speicherung.

Octoparse würde einen der folgenden Schritte ausführen, wenn die Bedingungen ausgelöst werden.

A. Dump this line of data

Wenn „Dump this line of data“ ausgewählt wird, würde Octoparse die gesamten Datenzeilen aus dem Extraktionsschritt aufgeben, unabhängig davon, in welchen Schritten die Bedingungen ausgelöst wurde.

Dump this line of data

B. End the loop

Wenn „End the loop“ ausgewählt ist, müssen Sie entsprechend ein „Loop Item“ zum Beenden auswählen.

End the loop

C. Stop the entire extraction

Wenn die Option „Stop the entire extraction“ gewählt wird, wird die Extraktion beendet, sobald die entsprechende Bedingung erfüllt ist.

Stop the entire extraction

Tipps!

Sie können den vorhandenen „Trigger“ bearbeiten, kopieren, löschen oder deaktivieren, nachdem Sie die Änderungen gespeichert haben.

„Trigger“ verwenden
Hat dies Ihre Frage beantwortet?