undefined

Warum erhalte ich so viele Duplikate? (Version 8)  

Monday, August 16, 2021 2:13 PM

Duplikate in Octoparse sind die Datenzeilen, die in allen Feldern gleich sind. Sie können die Duplikate beim Exportieren der Daten löschen, wenn es nur ein paar Duplikate gibt.

In diesem Tutorial werden wir Ihnen helfen, die Duplikate zu beseitigen.

 

Fehler 1: Beim Scraping mehrerer Seiten springt Octoparse zu bereits gescrapten Seiten zurück oder scrapt weiterhin die letzte Seite.

 

Der automatisch generierte XPath für das Umblättern funktioniert nicht immer gut. Wenn Sie feststellen, dass Octoparse einige Seiten immer wieder scrapt, müssen Sie Anpassungen vornehmen.

 

Lösung: Ändern Sie den XPath von „Pagination“, um sicherzustellen, dass die Schaltfläche für die nächste Seite genau lokalisiert wird.

 

• Öffnen Sie die Einstellungen von „Pagination“

• Geben Sie den neuen XPath ein und klicken Sie zum Speichern auf OK

 1.png

 

Tipps!

Wenn Sie erfahren möchten, wie Sie einen XPath schreiben können, lesen Sie hier bitte nach: What is XPath and how to use it in Octoparse

 

 

Fehler 2: Beim Scrapen mehrerer Seiten ist die AJAX-Wartezeit für das Umblättern zu kurz, deswegen wird die nächste Seite nicht richtig geladen, und Octoparse scrapt weiterhin die Daten der aktuellen Seite.

 

Bei Seiten, die mit AJAX geladen werden, kann die nächste Seite nicht geladen werden, wenn die Wartezeit nicht lang genug ist.  Folglich scrapt Octoparse die aktuelle Seite wiederholt, was zu Duplikaten führt.

 

Lösung: Verlängern Sie die AJAX-Wartezeit, damit die Seite komplett geladen wird.

 

• Öffnen Sie die Einstellungen von "Click to Paginate"

• Stellen Sie eine längere AJAX-Wartezeit

 2.png

 

 

Fehler 3: Beim Scrapen einer Liste scrapt Octoparse nur die erste Zeile der Daten oder in einem Datenfeld sind alle Zeilen gleich.

 

Wenn man eine Liste mit „Loop“ scrapt, um Daten zu erhalten, ist es möglich, dass Octoparse immer nur das erste Element von der Liste scrapt. Oder es kann sein, dass manche Felder von jedem Element korrekt erfasst werden, aber in manchen Feldern sind alle Zeilen gleich.

 

Das liegt daran, dass die Aktion " Extract Data" nicht mit der Aktion "Loop Item" verknüpft ist. Um die beide Aktionen zu verknüpfen, müssen zwei Optionen ausgewählt werden.

 

1. "Extract data in the loop" in den "Extract Data"-Einstellungen

3.png

 

 

2. "Relativer XPath" in den Einstellungen für das Datenfeld

 4.png

 

Wenn die beiden Optionen aktiviert sind, sind "Extract Data" und "Loop Item" miteinander verknüpft, und Octoparse wird die Daten aus jedem Element in der Schleife extrahieren.

 

*Vergewissern Sie sich, dass die Option "Extract data in the loop" zuerst ausgewählt wird, bevor Sie irgendwelche Änderungen vornehmen.

 

 

Lösung 1: Erstellen Sie die Felder neu

 

 Nachdem Sie die Option "Extract data in the loop" aktiviert haben, klicken Sie im Workflow auf das "Loop Item" und dann auf "Extract Data".

 Wählen Sie die Daten aus, die aus dem ersten Element extrahiert werden sollen

 1.gif

 

Lösung 2: Ändern Sie den XPath der Felder direkt

 

 Öffnen Sie die Einstellung für "Extract Data".

 Kreuzen Sie "Relative Xpath" an und geben Sie den richtigen XPath ein.

 2.gif

 

Tipps!

Erfahren Sie hier (Englisch), wie man einen relativen XPath schreibt.

 

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen