undefined

Daten Scraping mit Trigger

Wednesday, June 29, 2022 9:30 AM
Der Trigger in Octoparse wird als Bedingung und Einschränkung verwendet, damit sich Octoparse ein schnelles Urteil darüber abgeben kann, bestimmte Datenzeilen zu verwerfen oder zu behalten. Er hilft den Nutzern, die gewünschten Daten direkt herauszufiltern, statt den gesamten Datensatz zu durchsuchen und unerwünschte Daten später zu löschen, nachdem die Daten in Excel- oder CSV-Dateien exportiert wurden.

 

 

 

1. Wann wird Trigger verwendet?
Fall 1
Wenn Sie Produkte von einer E-Commerce-Website scrapen und nur Produkte mit einem Preis von weniger als 100 $ behalten möchten, können Sie den Trigger verwenden, um unerwünschte Datenzeilen zu löschen, insbesondere alle Produkte, die teurer als 100 $ sind, und nur diejenigen zu behalten, die Sie benötigen.
Um dies zu erreichen, können Sie einen Trigger wie folgt erstellen: Wenn das Datenfeld „Preis“ gleich oder größer als „100“ ist, wird die Aktion „dump the line of data“ ausgeführt. Auf diese Weise wird Octoparse „beurteilen“, ob die Daten die definierten Kriterien erfüllen, bevor sie tatsächlich extrahiert werden. Am Ende wird der Datensatz nur die gewünschten Daten enthalten.

 

Fall 2
Ein weiterer Anwendungsfall von Trigger ist, wenn Sie Daten extrahieren möchten, die mit einem bestimmten Datum verbunden sind, z.B. alle heute veröffentlichten Nachrichtenartikel (z.B. 2020-01-01). Um dies zu erreichen, können Sie einen Trigger erstellen: Wenn das Datenfeld „Datum“ nicht „2020-01-01“ ist, wird die Aktion „dump the line of data“ ausgeführt. Das Ergebnis ist, dass Sie nur die Artikel am 01.01.2020 behalten möchten.
Sie können auch mehrere Bedingungen kombiniert verwenden. Wenn Sie zum Beispiel Nachrichtenartikel für den 01.01.2020 extrahieren möchten und nur dann, wenn der Titel des Artikels die Worte „CPI“ enthält, können Sie die folgenden zwei Bedingungen verwenden:

 

Bedingung 1: Wenn das Datenfeld „date“ nicht „2020-01-01“ ist, wird die Aktion „dump the line of data“ ausgeführt.
[UND]
Bedingung 2: Wenn das Datenfeld „title“ nicht „CPI“ enthält, wird die Aktion „dump the line of data“ ausgeführt.

 

 

2. Wie wird Trigger verwendet?
Schritt 1: Erstellen Sie einen neuen Trigger.
Prozess 1: Gehen Sie zur Aktion „Extract Data“.
Prozess 2: Klicken Sie auf „Add a Trigger“ im „Options“-Tab, um einen neuen Trigger zu erstellen.

 

 Zielfeld selektieren

 

Prozess 2: Richten Sie die Bedingungen für das ausgewählte Datenfeld ein. Sie können die Bedingungen basierend auf „text“, „numerals“ oder „time“ festlegen.

 

 Bedingungen einrichten

 

Drei unterschiedliche Bedingungen können die meisten Anforderungen von Texten über Zahlen bis hin zu Zeit und Datum abdecken.
A. Für Texte
Für Texte gibt es fünf Optionen (is, is not, contains, does not contain, is not blank).
*Deutsch: ist, ist nicht, enthält, enthält nicht, ist nicht leer
Wenn Sie beispielerweise „contains“ wählen und das Wort „SKIRT“ in das Textfeld eingeben, wird die gesamte Bedingung lauten: If the data field "Title" contains the words "SKIRT". (Deutsch: Wenn das Datenfeld „Title“ die Wörter „SKIRT“ enthält.)

 

 Für Texte

 

 

Tipps!

• Beim Textwert werden Groß- und Kleinschreibung unterschieden. Bitte stellen Sie sicher, dass Sie den richtigen Text eingegeben haben.
• Wenn „is not blank“ ausgewählt ist, brauchen Sie das Textfeld nicht auszufüllen und die Bedingung lautet: Wenn das Datenfeld „Title“ nicht leer ist.

 

B. Für Nummern
Für Nummern gibt es vier Optionen (greater than, less than, greater than, or equal to).
*Deutsch: größer als, kleiner als, besser als oder gleich
Wenn Sie beispielerweise das Datenfeld „Price“, „greater than“ auswählen und den Wert „500“ eingeben, lautet die Bedingung: If the data field "Price" is greater than "500" (Deutsch: Wenn das Datenfeld „Preis“ größer als „500“ ist).

 

 Für Nummern

 

 

Tipps!

Bitte beachten Sie, dass das Feld nur den Wert von Nummern enthält. Wenn es einen Wert vom Text enthält, können Sie die Funktion „Clean Data“ verwenden, um ihn zu verfeinern. Wenn der Preis zum Beispiel „$100“ ist, sollten Sie das Währungssymbol „$“ vor dem Einstellungstrigger bewegen.

 

C. Für Zeit und Datum
Es gibt vier Optionen für Zeit und Datum (after, before, on or after, on or before). *Deutsch: nach, vor, am oder nach, am oder vor
Wenn Sie beispielerweise für das Datenfeld „Time“ „after“ und „12 am of the extraction day“ auswählen sowie „dump this line of data“ ausführen, lautet die Bedingung: if the time is after 12 am of the extraction day, then dump the line of data. (Deutsch: Wenn die Zeit nach 12 Uhr des Extraktionstages liegt, dann wird die Datenzeile ausgegeben.) Als Ergebnis werden nur die Daten extrahiert, die vor 0:00 Uhr des Extraktionstages veröffentlicht wurden.

 

 C. Für Zeit und Datum

 

Sie können auch individuell die Zeit oder das Datum einrichten.

 

 individuell einrichten

 

Schritt 4: Fügen Sie mehrere Bedingungen hinzu, indem Sie [AND] oder [OR] verwenden.
Mehrere Bedingungen können in einem Trigger kombiniert verwendet werden. Verwenden Sie die Bedingung [AND] oder die Bedingung [OR], um die Beziehungen zwischen den verschiedenen Bedingungen zu definieren.

 

 Beziehungen definieren

 

Wenn Sie auf „Add [AND] condition“ klicken und eine Bedingung hinzufügen, wird die Aktion ausgeführt, wenn das Datenfeld beide Bedingungen erfüllt.
Wenn Sie auf „Add [OR] condition“ klicken und eine Bedingung hinzufügen, wird die Aktion ausgeführt, wenn das Datenfeld eine der beiden Bedingungen erfüllt.

 

Schritt 5: Wählen Sie eine Aktion aus „Do“ und klicken Sie auf „Confirm“ zur Speicherung.
Octoparse würde einen der folgenden Schritte ausführen, wenn die Bedingungen ausgelöst werden.
A. Dump this line of data
Wenn „Dump this line of data“ ausgewählt wird, würde Octoparse die gesamten Datenzeilen aus dem Extraktionsschritt aufgeben, unabhängig davon, in welchen Schritten die Bedingungen ausgelöst wurde.

 

 Dump this line of data

 

B. End the loop
Wenn „End the loop“ ausgewählt ist, müssen Sie entsprechend ein „Loop Item“ zum Beenden auswählen.

 

 End the loop

 

C. Stop the entire extraction
Wenn die Option „Stop the entire extraction“ gewählt wird, wird die Extraktion beendet, sobald die entsprechende Bedingung erfüllt ist.

 

 Stop the entire extraction

 

 

Tipps!

Sie können den vorhandenen „Trigger“ bearbeiten, kopieren, löschen oder deaktivieren, nachdem Sie die Änderungen gespeichert haben.

 

„Trigger“ verwenden

 

 

Autor*in: Das Octoparse Team
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen