undefined

Umblättern ohne die "Weiter"-Schaltfläche  

Thursday, July 15, 2021 11:52 AM

Wenn Sie die Strukturen von mehreren Websites beobachten, werden Sie bemerken, dass es unterschiedliche Typen von Umblättern gibt. Ein paar Beispiele sind:

 

• Umblättern mit der "Weiter"-Schaltfläche

• Umblättern ohne die "Weiter"-Schaltfläche

• Umblättern mit der "Mehr laden"-Schaltfläche.

• Umblättern mit endlosem Scrollen

 

In diesem Tutorial werden wir uns darauf konzentrieren, wie man eine Umblättern-Aktion für die Website erstellen, die keine die "Weiter"-Schaltfläche hat. Wie die Website unten, bei der muss man auf die nummerierten Links klicken, wenn man die Seite umblättern möchte.

 mceclip0.png mceclip1.png

 

Es gibt drei Möglichkeiten, Umblättern ohne einer "Weiter"-Schaltfläche einzurichten:

 

 

1. Verwenden die automatische Detektion

 

Wenn Sie eine neue Aufgabe mit der Funktion „automatische Detektion“ erstellen, scannt Octoparse die Webseite automatisch und detektiert Umblättern-Schaltfläche. 

 mceclip0.png

 

Tipps!

Wenn Sie "Auto-detect" in den Einstellungen aktiviert haben, wird der Prozess automatisch eingeleitet.

 

Wenn Octoparse Umblättern-Schaltfläche auf der Webseite erkennt, werden nach Abschluss der Auto-Detektion Optionen für Umblättern in Tipps angezeigt. Sie können auf "Check" klicken, um die von Octoparse erkannte Schaltfläche zu überprüfen, oder auf "Edit", um die zu bearbeiten.

 mceclip1.png

Wir wissen, dass Webseiten in vielen verschiedenen Formen vorkommen. Deswegen gibt es solche Möglichkeit, dass automatische Detektion die Umblättern-Schaltfläche nicht erkennt oder eine falsche Schaltfläche erkannt werden. In diesem Fall können Sie die folgenden Lösungen berücksichtigen.

 

 

2. Verwenden die Funktion "Batch generate" zum Erstellen der URLs für alle Seiten

 

Eine alternative, aber sehr effektive Methode, um mehrere Seiten einer Website zu scrapen, liegt darin, indem wir zunächst die URLs aller Seiten sammeln, dann eine Aufgabe mit der Liste der gesammelten URLs erstellen.

 

Schauen Sie sich die URLs der verschiedenen Seiten genau an. Was haben Sie bemerkt?

 mceclip3.png

 

Wenn Sie ein ähnliches Muster wie im obigen Beispiel sehen, bei dem sich nur die Seitennummer in den URLs der verschiedenen Seiten ändert, können Sie einfach alle Seiten-URLs zusammen generieren und so viele Seiten wie nötig scrapen. Sobald Sie die Links generiert haben, fährt Octoparse fort, alle Seiten automatisch zu scrapen.

 

 

3. Richten das Umblättern manuell ein

 

Auch wenn die automatische Detektion nicht funktioniert und die Seiten-URLs kein ähnliches Muster aufweisen, können Sie ein Umblättern manuell erstellen.

 

Der Prozess besteht aus zwei Teilen. Erstens schreiben Sie den XPath des Elements, das Sie tatsächlich zur nächsten Seite bringt, und zweitens überarbeiten Sie den XPath der Aktion "Click to Paginate" im Workflow. Klingt kompliziert? Keine Sorge, schauen wir uns zusammen ein Beispiel an.

 

Tipps!

XPath-Kenntnisse sind nicht zwingend erforderlich, aber die sind hilfreich, um ein Element auf einer Website genau zu lokalisieren. Lesen Sie das Tutorial: What is XPath and how to use it in Octoparse, um mehr darüber zu erfahren, wie man XPath verwendet, um einen perfekten Web-Scraper zu erstellen.

 

Nehmen wir an, dass wir ein Umblättern für diese Webseite (http://www.enzolifesciences.com/product-listing/?product_type=Antibodies&application=&text=) manuell erstellen möchten.

 

Schritt 1. Laden Sie die Seite in Octoparse und klicken Sie auf den Seitenzahl-Link "1". Wählen Sie dann "Loop click single element". Ein "Loop Item" sollte automatisch im Workflow generiert werden.

mceclip4.png

 

 

Schritt 2. Verlassen Sie die Octoparse App vorerst und führen Sie die folgenden Schritte aus, um den XPath der Umblättern-Schaltfläche zu schreiben.

 

1) Kopieren Sie die aktuelle Seiten-URL (http://www.enzolifesciences.com/product-listing/?product_type=Antibodies&application=&text=) und fügen Sie die in Ihren eigenen Browser (z.B. Chrome) ein. Dann laden Sie ein Browser-Add-on-Tool namens XPath Helper herunter.

 

2) Klicken Sie das Symbol in Ihrem Browser auf, um den XPath Helper zu starten.

mceclip0.png

 

 

3) Finden Sie die Seitenzahlen auf der Webseite, klicken Sie mit der rechten Maustaste auf den Seitenzahlen-Link "1" und wählen Sie die Option „Inspect“.

 mceclip1.png

 

4) Mittlerweile sieht Ihr Bildschirm wie folgt aus. Der hervorgehobene Code entspricht dem Seitenzahlen-Link von Seite 1.

 mceclip3.png

 

5)Anschließend klicken Sie mit der rechten Maustaste auf den hervorgehobenen Code, wählen "Copy" und dann "Copy XPath". Sie haben soeben den XPath des Seitenzahlen-Links "1" kopiert.

 mceclip5.png

 

Das ist der XPath, den Sie kopiert haben:

 

//*[@id="cs2-pagebrowsertop"]/div/div[2]/table/tbody/tr/td[3]/b

 

6) Wenn Sie sich den Quellcode ansehen, ist es einfach zu finden, dass sich Seite-2 eine Zeile unter dem Seite-1-Element befindet.

 mceclip7.png

 

Mit der XPath-Syntax "following-sibling", die nach dem nächstfolgenden Knoten in der Zeile sucht, können Sie den kopierten XPath für das Element Seite-1 in einen ändern, der auf der folgenden Seite weist (in diesem Fall Seite-2).

 

Der korrekte XPath, der immer auf die nächste Seite der aktuellen Seite weisen soll, lautet also:

 

//*[@id="cs2-pagebrowsertop"]/div/div[2]/table/tbody/tr/td[3]/b/following-sibling::a[1]

 

Hinweis: Durch das Hinzufügen von "/following-sibling::a[1]" am Ende des vorherigen XPaths wird das erste href-Element (a[1]) lokalisiert, das auf das erste Seitenelement folgt.

 

Geben Sie den korrekten XPath in den Abfrage-Abschnitt von XPath Helper ein, können Sie sehen, dass die Seite "2" korrekt gefunden wird.  

 mceclip8.png

 

 

Schritt 3. Nachdem Sie den korrekten XPath fertiggestellt und getestet haben, gehen Sie zurück zu Octoparse und ersetzen den bestehenden XPath durch den neuen XPath.

 

Doppelklicken Sie auf "Pagination", um das Einstellungsmenü zu öffnen.

 mceclip5.png

 

Ersetzen den bestehenden XPath durch den neuen XPath. Klicken Sie auf "OK", um zu speichern.

 mceclip9.png

 

 

Schritt 4. Letzter Schritt! Klicken Sie auf die Leiste von "Pagination" und dann auf die Aktion "Click to Paginate". Octoparse sollte die Seite auf die nächste Seite umblättern, wenn alles korrekt eingerichtet ist. Falls nötig, wiederholen Sie den Vorgang, um zu überprüfen, ob die Umblättern-Schaltfläche funktioniert.

 mceclip10.png

 

Wenn Sie immer noch Probleme mit der Einstellung der Umblättern-Schaltfläche haben, senden Sie eine Anfrage an unser Support-Team! Wir werden uns innerhalb von 24 Stunden bei Ihnen melden.

 

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen