undefined

Warum so viele Duplikate und wie sie zu löschen?

Friday, July 01, 2022 3:14 PM
In der Datenausgabe von Octoparse bekommen Sie vielleicht eine oder eine Reihe von Duplikate, die in allen Datenfeldern gleich sind. In diesem Tutorial helfen wir Ihnen, Kenntnisse davon zu bekommen, warum treten die Duplikate ein und wie ist sie einfach zu löschen.

 

Fehler 1: Beim Datenerfassen mehrerer Webseiten springt Octoparse zu bereits erfassten Seiten zurück oder erfasst die Daten wiederholt auf der letzten Seite.

 

 

Normaleweiser passiert dieser Fall beim Umblättern, weil der automatisch generierte XPath nicht passend ist. Deswegen checken Sie bitte den XPath zuerst, wenn Sie eine Umblättern-Scraping benutzt haben, dann editieren Sie
XPath, um das Programm zu korregieren.

 

 

Lösung: Editieren Sie den XPath von „Pagination“, um sicherzustellen, dass die Schaltfläche für „NEXT“ oder „Nächste Seite“ genau lokalisiert wird.

Schritt 1: Öffnen Sie die Einstellungen von „Pagination“.
Schritt 2: Geben Sie den neuen XPath ein und klicken Sie zum Speichern auf „OK“.

 

 den neuen XPath eingeben

 

 

Tipps!

Klicken Sie hier bitte, um eine Erfahrung über XPath zu bekommen: Was ist XPath und wie ihn zu verwenden?

 

 

Fehler 2: Beim Datenerfassen mehrerer Webseiten ist die AJAX-Wartezeit für Umblättern zu kurz, deswegen wird die nächste Seite nicht richtig geladen, trotzdem erfasst Octoparse weiterhin die Daten auf der aktuellen Seite.

 

Die AJAX-Wartezeit soll genug für die Weibseitladung, besonders wenn das Internet bei Ihnen nicht so ideal ist. Andernfalls werden die Daten auf der aktuellen Seite bevor der völligen Ladung der nächsten Seite immerwieder erfasst.

 

Lösung: Verlängern Sie die AJAX-Wartezeit, damit die nächste Seite völlig geladen wird.

Schritt 1: Öffnen Sie die Einstellungen von „Click to Paginate“.
Schritt 2: Stellen Sie eine längere AJAX-Wartezeit.

 

 längere AJAX-Wartezeit stellen

 

 

Tipps!

*Sie können hier klicken und erfahren wie soll man AJAX einstellen.

 

 

Fehler 3: Beim Erfassen der Listedaten ist nur die erste Zeile von Octoparse erkennt oder im Datenfeld sind alle Zeiledaten gleich.

Wenn Sie eine Listedatenerfassung mit „Loop“ realisieren, ist es nicht erstauned, dass Octoparse nur das erste Element von der Liste oder ein Element mehrmals erkennt. Es liegt nur an der Unverküpftung zwischen Aktionen „Extract Data“ und „Loop Item“. Hier sind zwei Optionen zu selektieren, um den Fehler zu korregieren.

 

Option 1: Wählen „Extract data in the loop“ in „Extract Data“

 

 Extract data in the loop

 

Option 2: Editieren „Relativer XPath“ in „Field Settings“.

 

 Relativer XPath

 

Wenn die beiden Optionen aktiviert sind, sind „Extract Data“ und „Loop Item“ miteinander verknüpft, und Octoparse wird die Daten aus jedem Element in der Schleife extrahieren.

 

Lösung 1: Erstellen Sie die Aktionsfelder wiedermal

Schritt 1: Nachdem Sie die Option „Extract data in the loop“ aktiviert haben, klicken Sie im Workflow auf das „Loop Item“ und dann auf „Extract Data“.
Schritt 2: Das erste Element wird im Glanzlicht gekennzeichnet und wählen Sie dann Ihre Zwecktexte in allen Glanzlichtfeldern aus.

 

 Ihre Zwecktexte wählen

 

Lösung 2: Editieren Sie „Relative XPath“ direkt

Schritt 1: Klicken Sie auf „Extract Data“.
Schritt 2: Klicken Sie auf „More“ und wählen Sie „Customize XPath“.
Schritt 3: Kreuzen Sie „Relative Xpath“ an und geben Sie den richtigen XPath ein.

 

 „Relative Xpath“ ankreuzen

 „Relative Xpath“ ankreuzen2

 

 

Tipps!

*Erfahren Sie hier (Englisch), wie man einen relativen XPath schreibt.

 

 

Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschlägen geben möchten, reichen Sie bitte uns eine Anfrage ein. Erfüllen Sie eine Anfrage hier. Oder Sie können durch E-Mail (support@octoparse.com) uns kontaktieren.

 

 

Autor*in: Das Octoparse Team
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen