undefined

Inkrementelle Extraktion - Aktualisierte Daten einfach erhalten (Version 8)

Monday, July 12, 2021 6:17 PM

Websites, wie Nachrichtenportale oder Foren, werden ständig aktualisiert und neue Inhalte werden immer hinzugefügt. Um bei solchen Websites auf dem neuesten Stand zu bleiben, können Sie mit der inkrementellen Extraktion von Octoparse aktualisierte Daten effektiver extrahieren, indem Sie die bereits extrahierten Seiten überspringen und nur die neuen Seiten scrapen.

 

Wann sollten Sie die inkrementelle Extraktion verwenden?

 

Die inkrementelle Extraktion ist empfehlenswert, wenn die folgenden Bedingungen erfüllt sind:

 

1. Wenn Sie häufig aktualisierte Daten von einer Website erhalten möchten 

2. Wenn die neuen Informationen als neue Webseiten mit neuen URLs auftauchen (im Gegensatz zu neuen Informationen, die zu bestehenden Webseiten hinzugefügt/aktualisiert werden).

 

Ein Beispiel ist also CNN.com. Stellen Sie sich vor, dass Sie die News-Feeds von CNN.com in Echtzeit abrufen möchten. Es ist wichtig, den Crawler so häufig wie nötig zu planen und auszuführen, damit alles, was der Website hinzugefügt wird, zeitnah extrahiert werden kann. Kriterium (1) ist also erfüllt. Offensichtlich wird jeder Nachrichtenartikel auf CNN.com eine andere URL haben, die leicht identifiziert werden kann - Kriterium (2) ist ebenfalls erfüllt.

 

Wenn Sie solche Website scrapen möchten, aber es ergibt keinen Sinn, die Artikel, die bereits erfasst wurden, erneut zu scrapen, können Sie mit der inkrementellen Extraktion einfach die URLs zuerst überprüfen lassen, um sicherzustellen, dass sie nicht extrahiert wurden, und nur die wirklich neuen Inhalte erfassen.

 

 

Wie identifiziert die inkrementelle Extraktion die "neuen" Daten?

 

Die inkrementelle Extraktion funktioniert nur, wenn die neu hinzugekommenen Daten mit neuen URLs identifiziert werden können. Während des Extraktionsprozesses prüft Octoparse jede URL, um zu beurteilen, ob es sich um eine handelt, die zuvor gecrawlt wurde. Wenn eine URL als eine aus dem vorherigen Crawlen identifiziert wird, wird die automatisch übersprungen.

 

 

Wie stelle ich die inkrementelle Extraktion ein?

 

Sie können die inkrementelle Extraktion ganz einfach aktivieren, indem Sie die folgenden Schritte einleiten:

 

1. Stellen Sie zunächst sicher, dass es die Aktion "Extract data" im Workflow gibt, und klicken Sie dann auf die Einstellung

1.png

 

2. Aktivieren Sie die Option "Enable incremental extraction"

2.png

 

3. Wählen Sie "Match the entire URL" oder "Match by part of the URL"

 3.png

 

 

"Match the entire URL" 

Mit dieser Option verwendet Octoparse die gesamte URL, um sie mit der aktuellen abzugleichen. Selbst ein kleiner Unterschied führt dazu, dass die URL als eine "neue" URL identifiziert wird.

 

"Match by part of the URL"

In vielen Fällen setzen sich URLs aus verschiedenen Attributen zusammen, z. B. die unten stehende URL für eBay enthält die Attribute "_from", "_trksid", "_nkw" und "sacat" (Attributen treten normalerweise vor dem "=" Zeichen auf).

 

4.png

Bei der inkrementellen Extraktion erkennt Octoparse die Attribute automatisch und stellt sie als Parameter zur Verfügung. Wenn Sie ein oder mehrere Attribute als Parameter für den Abgleich ausgewählt haben, weisen Sie Octoparse an, die aktuelle URL anhand der ausgewählten Attribute zu vergleichen. Wenn eines davon gleich ist, wird die URL übersprungen, andernfalls wird die Seite extrahiert.

 

 

Tipps!

1. Die inkrementelle Extraktion ist nur für die Cloud-Extraktion und für Aufgaben mit nur der Aktion "Extract Data".

2. Wenn keine Parameter angezeigt werden, wenn Sie "Match by part of URL" wählen und die Aktion "Extract data" ausgewählt ist, bedeutet dies, dass die URL keine Parameter enthält, Sie können nur "Match by the entire URL" wählen.

3. Wenn mehrere Parameter ausgewählt sind, identifiziert Octoparse die aktuelle URL als eine "neue" URL, wenn einer dieser Parameter unterschiedlich ist.

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen