undefined

Warum überspringt Octoparse Seiten während des Scrapens (Version 8)?  

Monday, August 23, 2021 11:22 AM

Manchmal Octoparse überspringt beim Scrapen einer Website einige Seiten. Zum Beispiel springt Octoparse nach dem erfolgreichen Scrapen der ersten beiden Seiten direkt zu Seite 5, dann vielleicht zu Seite 10, aber nicht zu den Seiten in einer Reihenfolge.

 

Es liegt daran, dass der automatisch generierte XPath von „Pagination“ nicht immer die Schaltfläche für die nächste Seite lokalisiert.

 

Schauen Sie sich das folgende Beispiel an: Beispiel URL

 

Auf der ersten Seite können Sie sehen, dass der XPath von „Pagination“ die Schaltfläche für die nächste Seite perfekt lokalisiert.

 mceclip1.png

 

Auf der zweiten Seite lokalisiert der XPath jedoch die Seite 10.

 mceclip0.png

 

Folglich würde Octoparse nach Beendigung des Scrapings der zweiten Seite direkt zu Seite 10 gehen und viele Daten auf den Seiten dazwischen auslassen.

 

 

Wie lässt sich solches Problem des Überspringens vonseiten lösen?

 

Das Problem ist einfach zu lösen: Ändern Sie einfach den XPath, um sicherzustellen, dass er immer die Schaltfläche "Next" lokalisieren kann.

 

• Finden Sie die Schaltfläche "Next" in einem normalen Browser, und überprüfen den Quellcode

1.png

 

Im A-Tag gibt es ein title-Attribut. Wir können dieses Attribut verwenden, um einen neuen XPath zu schreiben: //a[@title='Next'] (Lesen Sie hier , wie man einen XPath schreibt)

 

• Geben Sie den neuen XPath in Octoparse ein, um zu prüfen, ob die Schaltfläche "Next" immer richtig lokalisiert werden kann

 gif_1_.gif

 

Tipps!

Nachdem Sie die Aktion „pagination“ in einer Aufgabe erstellt haben, klicken Sie besser manuell auf die Aktion "Click to paginate", um zu prüfen, ob der automatisch generierte XPath die nächste Schaltfläche genau lokalisieren kann.

 

Im Folgenden finden Sie weitere Details zur Verwendung von XPATH in Octoparse.

 

XPath des Elements anpassen
btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen