Warum erhaltet Octoparse weniger Daten, obwohl es mehr sein sollten (Version 8)?
Monday, August 23, 2021 11:14 AMNachdem Sie eine Aufgabe eingerichtet und einen Testlauf auf Ihrem lokalen Gerät durchgeführt haben, können Sie manchmal auf solches Problem stoßen:
Die Anzahl der ausgegebenen Daten stimmt nicht mit der Anzahl der Ergebnisse auf der Ziel-Website überein.
Wenn Sie auf das gleiche Problem stoßen, überprüfen Sie bitte die möglichen Ursachen und Lösungen unten.
1. Problem des Umblätterns
Wenn die Ziel-Website mehrere Seiten hat, sollten Sie zunächst prüfen, ob die Aktion „Pagination“ richtig eingestellt wird.
Wie kann man das überprüfen?
- Klicken Sie im Workflow auf den Pagination-Kasten und dann auf den Schritt "Click to Paginate".
- Wiederholen Sie die obigen Aktionen, um zu überprüfen, ob die Seite immer korrekt zur nächsten Seite umblättert.
Wenn die Aktion „Pagination“ schon richtig eingestellt ist, können Sie diesen Teil überspringen und die nächsten möglichen Ursachen prüfen.
Wenn Sie bei der Überprüfung feststellen, dass die Aktion „Pagination“ einige Seiten überspringt oder direkt auf die letzte Seite springt, müssen Sie den XPath korrigieren.
Schauen Sie sich die folgenden Tutorials an oder wenden Sie sich an unser Support-Team, um Hilfe zu erhalten.
- What is XPath and how to use it in Octoparse (Englisch)
-
Warum überspringt Octoparse Seiten während des Scrapens (Version 8)?
- Durchblättern mit der "Mehr laden"-Schaltfläche
Hinweis: Wenn die Webseite das endlose Scrollen anwendet, um den Inhalt zu laden, und Sie haben bemerkt, dass Daten fehlen, können die folgende Tutorials für Sie hilfreich sein:
- How to deal with missing items when creating a list?
- Infinitive Scroll has setup but no new elements added to the list?
2. Seite laden
Wenn Sie die Aufgabe testweise auf Ihrem lokalen Gerät ausführen, sollten Sie den oberen Teil des Scraping-Fensters beachten, denn der anzeigt, wie eine Webseite zur nächsten Seite geht oder eine neue Seite geöffnet wird.
Wenn Sie feststellen, dass der Browser zu einer anderen Seite gesprungen ist, bevor die zu extrahierende Webseite vollständig geladen ist, können Sie die folgenden Methoden ausprobieren, um das Laden der Seite zu unterstützen:
a) Stellen Sie eine längere Wartezeit für "Extract Data"ein
Details finden Sie hier: Warten vor Aktion
b) Stellen Sie die Wartezeit für "Gehe zu Webseite" oder "Click" ein
• Wartezeit für "Go to Web Page"
• AJAX-Wartezeit für "Click Item"
c) Stellen Sie „Scollen“ ein (z. B. "Go to Web Page", "Click")
Details finden Sie hier: Seite nach unten scrollen
3. Schleifen-Modus
Nachdem Sie die Aktion „Pagination“ überprüft haben, sollten Sie normalerweise das „Loop Item“ überprüfen, das jedes Element der Seite in einer Schleife durchläuft. Achten Sie beim „Loop Item“ auf den Schleifenmodus, vor allem, wenn es sich um eine "Fixed List" handelt.
Bei "Fixed List" werden die festen Positionen der Elemente verwendet, um sie zu lokalisieren. Wenn sich jedoch die Struktur der Seite ein wenig ändert, z. B. wenn einige Seiten mehr oder weniger Elemente haben oder die Position anders ist, kann solche Fehlermeldung angezeigt werden:
"Cannot find any element matching this XPath expression"
Um das Problem zu lösen, können Sie zuerst auf "Variable List" umschalten und dann einen neuen XPath schreiben.
Für mehr Details lesen Sie bitte das Tutorial (Englisch) nach: Infinitive Scroll has setup but no new elements added to the list?