In der Datenausgabe von Octoparse bekommen Sie vielleicht eine oder eine Reihe von Duplikate, die in allen Datenfeldern gleich sind. In diesem Tutorial helfen wir Ihnen, Kenntnisse davon zu bekommen, warum treten die Duplikate ein und wie ist sie einfach zu löschen.

Fehler 1: Beim Datenerfassen mehrerer Webseiten springt Octoparse zu bereits erfassten Seiten zurück oder erfasst die Daten wiederholt auf der letzten Seite.

Normaleweiser passiert dieser Fall beim Umblättern, weil der automatisch generierte XPath nicht passend ist. Deswegen checken Sie bitte den XPath zuerst, wenn Sie eine Umblättern-Scraping benutzt haben, dann editieren Sie

XPath, um das Programm zu korregieren.

- Lösung: Editieren Sie den XPath von „Pagination“, um sicherzustellen, dass die Schaltfläche für „NEXT“ oder „Nächste Seite“ genau lokalisiert wird.

Schritt 1: Öffnen Sie die Einstellungen von „Pagination“.
Schritt 2: Geben Sie den neuen XPath ein und klicken Sie zum Speichern auf „OK“.

Tipps！

Klicken Sie hier bitte, um eine Erfahrung über XPath zu bekommen: Was ist XPath und wie ihn zu verwenden?

Fehler 2: Beim Datenerfassen mehrerer Webseiten ist die AJAX-Wartezeit für Umblättern zu kurz, deswegen wird die nächste Seite nicht richtig geladen, trotzdem erfasst Octoparse weiterhin die Daten auf der aktuellen Seite.

Die AJAX-Wartezeit soll genug für die Weibseitladung, besonders wenn das Internet bei Ihnen nicht so ideal ist. Andernfalls werden die Daten auf der aktuellen Seite bevor der völligen Ladung der nächsten Seite immerwieder erfasst.

- Lösung: Verlängern Sie die AJAX-Wartezeit, damit die nächste Seite völlig geladen wird.

Schritt 1: Öffnen Sie die Einstellungen von „Click to Paginate“.
Schritt 2: Stellen Sie eine längere AJAX-Wartezeit.

Tipps！

*Sie können hier klicken und erfahren wie soll man AJAX einstellen.

Fehler 3: Beim Erfassen der Listedaten ist nur die erste Zeile von Octoparse erkennt oder im Datenfeld sind alle Zeiledaten gleich.

Wenn Sie eine Listedatenerfassung mit „Loop“ realisieren, ist es nicht erstauned, dass Octoparse nur das erste Element von der Liste oder ein Element mehrmals erkennt. Es liegt nur an der Unverküpftung zwischen Aktionen „Extract Data“ und „Loop Item“. Hier sind zwei Optionen zu selektieren, um den Fehler zu korregieren.

Option 1: Wählen „Extract data in the loop“ in „Extract Data“

Option 2: Editieren „Relativer XPath“ in „Field Settings“.

Wenn die beiden Optionen aktiviert sind, sind „Extract Data“ und „Loop Item“ miteinander verknüpft, und Octoparse wird die Daten aus jedem Element in der Schleife extrahieren.

- Lösung 1: Erstellen Sie die Aktionsfelder wiedermal

Schritt 1: Nachdem Sie die Option „Extract data in the loop“ aktiviert haben, klicken Sie im Workflow auf das „Loop Item“ und dann auf „Extract Data“.
Schritt 2: Das erste Element wird im Glanzlicht gekennzeichnet und wählen Sie dann Ihre Zwecktexte in allen Glanzlichtfeldern aus.

- Lösung 2: Editieren Sie „Relative XPath“ direkt

Schritt 1: Klicken Sie auf „Extract Data“.
Schritt 2: Klicken Sie auf „More“ und wählen Sie „Customize XPath“.
Schritt 3: Kreuzen Sie „Relative Xpath“ an und geben Sie den richtigen XPath ein.

Tipps！

*Erfahren Sie hier, wie man einen relativen XPath schreibt.

Verwandte Artikel

Funktionvorstellung von „Click Item“

Funktionvorstellung von „Extract data“ und Elemente

Scraping der Artikel von Medium

Scraping der Immobiliendaten von Realtor.com (V8.4)

Scraping der Jobdaten von Monster