Wenn Sie eine Website scrapen möchten, möchten Sie möglicherweise die verschiedenen Seiten der Website navigieren und die Daten aus jede der Seiten scrapen werden. Der erste Schritt besteht allerdings darin, die Art der Paginierung zu identifizieren, mit der Sie zu tun haben und arbeiten. Manche Beispiele sind:

Paginierung mit „Nächste“
Paginierung ohne „Nächste“
Paginierung mit unendlosen Scrollen
Paginierung mit „Mehr laden“

In diesem Tutorial würden wir uns darauf konzentrieren, wie man eine Paginierung-Aktion einstellen kann, wenn es auf der Seite keinen Button von „Nächste“ gibt. Genauer gesagt, es gibt nur einen Button, die das Klicken auf die nummerierten Links erfordert, wenn Sie die nächste Seite wechseln möchten, wie den folgenden:

Nun lassen wir die unterschiedlichen Möglichkeiten anschauen, durch die Sie ohne „Nächste“ eine Aktion der Paginierung in Octoparse erstellen können.

Möglichkeit 1 Erstellung der Paginierung mit Auto-Detect

Wenn Sie eine neue Aufgabe mit der Funktion „Auto-detect“ erstellen, scannt Octoparse die Webseite und Paginierungslinks automatisch. Sie können die Funktion „Auto-detect“ in Ihren Einstellungen aktivieren, sodass der „Auto-Detect“ Prozess jedes Mal automatisch eingeleitet werden wird.

Wenn Octoparse die Links beliebiger Paginierung auf der Webseite erkennt, werden die nach Abschluss der Auto-Detektion Optionen für Paginierung in Tipps-Platte angezeigt. Sie können auf „Check“ klicken, um die von Octoparse erkannte Schaltfläche zu überprüfen, oder auf „Edit“ zu klicken, um die zu bearbeiten, wenn es noch nicht richtig erkannt wird.

Wir wissen, dass Webseiten viele verschiedene Formen haben. Deswegen gibt es solche Möglichkeiten, dass automatische Detektion den Button zur Paginierung nicht erkennt oder eine falsche Schaltfläche erkennen würde. In diesem Fall können Sie die folgenden Lösungen berücksichtigen.

Möglichkeit 2 Erstellung der URLs für alle Seiten bei Verwendung „Batch Generate“

Eine alternative, aber sehr effektive Methode, um mehrere Seiten einer Website zu scrapen, liegt darin, indem wir zunächst die gewünschten URLs aller Seiten sammeln, dann eine Aufgabe mit der Liste der gesammelten URLs erstellen.

Schauen Sie sich die URLs der verschiedenen Seiten genau an. Was haben Sie bemerkt?

Wenn Sie ein ähnliches Muster wie im obigen Beispiel sehen, bei dem sich nur die Seitennummer in den URLs der verschiedenen Seiten ändert, können Sie einfach alle Seiten-URLs zusammen generieren und so viele Seiten wie nötig scrapen. Sobald Sie die Links generiert haben, fährt Octoparse fort, alle Seiten automatisch zu scrapen.

Möglichkeit 3 Erstellung der Paginierung manuell

Auch wenn die automatische Detektion nicht funktioniert und die Seiten-URLs kein ähnliches Muster aufweisen, können Sie eine Aktion von „Paginierung“ manuell erstellen.

Der Prozess besteht aus zwei Teilen. Erstens schreiben/finden Sie den XPath des Elements, das Sie tatsächlich zur nächsten Seite bringen kann (z.B. Wenn Sie jetzt in der Seite 1 stehen, würden Sie zur Seite 2 gehen; Wenn Sie jetzt in der Seite 2 stehen, würden Sie zur Seite 3 gehen; usw.) Und zweitens überarbeiten Sie den XPath der Aktion „Click to Paginate“ im Workflow.

Klingt es kompliziert? Keine Sorge, schauen wir uns zusammen ein Beispiel an.

Tipps!

XPath-Kenntnisse sind nicht zwingend erforderlich, aber die sind hilfreich, um ein Element auf einer Website genau zu lokalisieren. Lesen Sie das Tutorial: Was ist XPath und wie ihn zu verwenden?, um mehr darüber zu erfahren, wie man XPath verwendet, um einen perfekten Web-Scraper zu erstellen.

Vielleicht brauchen Sie diesen Link als Beispiel zu probieren:

http://www.enzolifesciences.com/product-listing/?product_type=Antibodies&application=&text=

Schritt 1: Klicken Sie auf den Paginierung-Teil und dann „Loop click single element“

Schritt 2: Bekommen Sie einen richtigen XPath

Prozess 1: Kopieren und geben Sie die jetzige Seite-URL (http://www.enzolifesciences.com/product-listing/?product_type=Antibodies&application=&text=) in Ihrem eigenen Browser ein (z.B. Chrome). Nun sollten Sie ein Add On Tool des Browsers herunterladen, das XPath Helper darstellt.
Prozess 2: In Ihrem Browser klicken Sie darauf, um XPath Helper einzuführen.

Prozess 3: Finden Sie die Seitenzahlen auf der Webseite, klicken Sie mit der rechten Maustaste auf den Seitenzahlen-Link „1“ und wählen Sie die Option „Inspect“.

Prozess 4: Mittlerweile sieht Ihr Bildschirm wie folgt aus. Der hervorgehobene Code entspricht dem Seitenzahlen-Link von Seite 1.

Prozess 5: Anschließend klicken Sie mit der rechten Maustaste auf den hervorgehobenen Code, wählen Sie zuerst „Copy“ und dann „Copy XPath“. Sie haben bereits den XPath des Seitenzahlen-Links „1“ kopiert.

Das ist der XPath, den Sie gerade kopiert haben:

//*[@id="cs2-pagebrowsertop"]/div/div[2]/table/tbody/tr/td[3]/b

Prozess 6: Wenn Sie sich den Quellcode ansehen, ist es einfach zu finden, dass sich Seite-2 eine Zeile unter dem Seite-1-Element befindet.

Mit der XPath-Syntax „following-sibling“, die nach dem nächstfolgenden Knoten in der Zeile sucht, können Sie den kopierten XPath für das Element Seite-1 in einen ändern, der auf der folgenden Seite weist (in diesem Fall Seite-2).

Der korrekte XPath, der immer auf die nächste Seite der aktuellen Seite weisen soll, lautet also:

//*[@id="cs2-pagebrowsertop"]/div/div[2]/table/tbody/tr/td[3]/b/following-sibling::a[1]

*Hinweis: Durch das Hinzufügen von „/following-sibling::a[1]“ am Ende des vorherigen XPaths wird das erste href-Element (a[1]) lokalisiert, das auf das erste Seitenelement folgt.

Geben Sie den richtigen XPath in den Abfrage-Abschnitt von XPath Helper ein, können Sie sehen, dass die Seite „2“ korrekt gefunden wird.

Schritt 3: Bearbeiten Sie den vorhandenen XPath mit der neuen XPath

Kopieren und geben Sie den neuen XPath unter der Paginierung ein, dann klicken Sie auf „Apply“.

Verwandte Artikel

Umgang mit Paginierung (mit Button „Nächst“)

Umgang mit Paginierung (mit Button „Mehr Laden“)

Scraping der Daten von Walmart

Scraping der Stellenanzeigen von Glassdoor

Scraping der Listendaten von XING