Umblättern mit der "Mehr laden"-Schaltfläche
Thursday, July 15, 2021 2:37 PMViele Websites verwenden einer "Mehr laden"-Schaltfläche, um Inhalte zu laden. Im Vergleich zum Durchblättern mit einer "Weiter"-Schaltfläche fügen Websites mit der "Mehr laden"-Schaltfläche kontinuierlich Inhalte auf einer einzelnen Webseite hinzu, was das Web -Scraping schwieriger macht. In diesem Artikel zeige ich Ihnen, wie Sie Durchblättern für die Websites mit der "Mehr laden"-Schaltfläche einstellen können.
1. Verwenden die automatische Detektion
2. Richten das Durchblättern manuell ein
1. Verwenden die automatische Detektion
Wenn Sie eine neue Aufgabe mit der Funktion „automatische Detektion“ erstellen, scannt Octoparse die Webseite automatisch und detektiert "Mehr laden"-Schaltfläche. Zum Üben verwenden wir diese Webseite (https://www.capterra.com/search/category?search=CRM%20Software) als Beispiel.
Starten Sie die „automatische Detektion“, und die Option Click on a "Load More" button wird in Tipps angezeigt.
Klicken Sie auf "Check", um zu überprüfen, ob Octoparse die richtige Schaltfläche ausgewählt hat. Wenn die ausgewählte Schaltfläche falsch ist, klicken Sie auf "Edit", um die richtige Schaltfläche manuell auszuwählen und die gewünschte Anzahl von Klicks einzugeben.
Klicken Sie auf "Create workflow", um den Workflow zu generieren.
Wenn Octoparse die "Mehr laden"-Schaltfläche bei der automatischen Detektion nicht erkennt, können Sie immer noch zuerst den Workflow erstellen lassen und dann die Option "Click on a Load More button" wählen. Folgen Sie den Tipps zur Auswahl der "Mehr laden"-Schaltfläche auf der Webseite und geben Sie die gewünschte Anzahl der Klicks ein.
Beachten Sie, dass in dem erzeugten Workflow zwei „ Loop Items“ vorhanden sind. Octoparse klickt mehrmals auf die Schaltfläche "Mehr laden", bevor es mit dem Scrapen der Liste der Elemente beginnt.
2. Richten das Durchblättern manuell ein
Wenn die automatische Detektion nicht funktioniert oder wenn Sie eine Scraping-Aufgabe nicht mit der automatischen Detektion erstellen, können Sie manuell das Durchblättern einrichten.
• Wählen Sie die "Mehr laden"-Schaltfläche auf der Webseite und wählen Sie "Loop click single button"
• Richten Sie eine AJAX-Wartezeit ein (Was ist AJAX?)
Tipps!
Wenn Sie die "Mehr laden"-Schaltfläche nur X-mal anklicken wollen, klicken Sie auf das Einstellungssymbol von „Pagination“ und dann auf "Exit loop", setzen Sie „Repeats“ auf die Zahl X.
• Wenn Sie das Durchblättern fertig eingestellt haben, können Sie mit dem Wählen des Elements zu extrahieren anfangen.
Tipps!
Wenn „Loop item“ innerhalb der Leiste von „Pagination“ generiert wurde, ziehen Sie das manuell heraus, da wir zuerst das erste „Loop“ beenden möchten, bevor wir das zweite ausführen.