Erstellung des Scrollen
Vor über einer Woche aktualisiert

Sie folgen jetzt einem Tutorial für die neueste Version von Octoparse. Wenn Sie zur Zeit eine ältere Version verwenden, empfehlen wir Ihnen kräftig es, ein Upgrade zu machen, weil sie schneller, leichter und stärker ist! Herunterladen und Installierung eines Upgrades hier, wenn Sie nicht so bereits machen!

Bei einigen Websites (z.B. E-Commerce) müssen die Webseite bis zum Ende der Seite gescrollt werden, um weitere Inhalte zu laden. In diesem Fall können Sie „Page scroll-down“ einrichten, damit die Seite in Octoparse automatisch gescrollt wird. Dies ist besonders nützlich, um eine Webseite zu scrapen, die endloses Scrollen oder Lazy Loading verwendet. In diesem Tutorial würde ich Ihnen zwei Methoden vorstellen, wie man eine Aufgabe mit Scrollen erstellen kann. Vielleicht würden Sie unglücklicherweise auf dieses Problem stoßen, dass die Seite unendlos gescrollt wird. Und die Lösung würde auch vorgestellt.


Methode 1: Erstellung des Scrollen für Aktion „Go to Web Page“ oder „Click Item“

  • Schritt 1: Klicken Sie auf „Go to Web Page“ (oder ein „Click Item“), um das Einstellungsmenü einzugehen. Gehen Sie dann zum Tab von „Options“.

Go to Web Page

  • Schritt 2: Um den Schritt „Seite nach unten scrollen“ einzurichten, kreuzen Sie den Kasten für „Scroll down the page after it is loaded“ an.

Scroll down the page after it is loaded

  • Schritt 3: Wählen Sie den Scroll-Bereich.

Wählen Sie den Scroll-Bereich

  1. Default: Octoparse würde die ganze Website scrollen.

  2. Partial: Einige Websites enthalten vielleicht nicht nur ein Scrollen, wie Google map reviews. Um den exakt entsprechenden Bereich zu lokalisieren, können Sie „Partial“ auswählen und den genauen XPath für den Bereich einzugeben.

Tipps!

Sie können dieses Tutorial anschauen, um die Verwendung der Eigenschaft von „Partial Scroll“ zu erfahren: Daten Scraping mit Web-Scrollen.

  • Schritt 4: Wählen Sie Ihre gewünschte Methode von Scrollen.

Es gibt zwei Möglichkeiten von „nach unten scrollen“: „scroll to the bottom of the page“ und „scroll for one screen“.

scroll for one screen

  1. Scroll to the bottom of the page: Octoparse würde direkt bis zum Ende der Seite scrollen, ohne in der Mitte der Seite anzuhalten. Sie sollten diese Option in Betracht ziehen, wenn die gewünschte Elemente erst geladen werden, wenn Sie das Seitenende erreichen, wie Google play reviews.

  2. Scroll for one screen: Octoparse scrollt jedes Mal nur für einen Bildschirm. Verwenden Sie diese Option, wenn die gewünschte Elemente geladen werden, wenn Sie die Seite kontinuierlich nach unten scrollen.

  3. „Scroll for one screen“ könnte bei allen Websites verwendet werden, während „scroll to the bottom of the page“ vielleicht für manche spezielle Webseiten nicht funktionieren könnte. Es wird empfohlen, die Optionen zunächst durch manuelles Scrollen der Seite zu testen und dann die Option auszuwählen, die am besten für Ihre Ziel-Webseite funktioniert.

  • Schritt 5: Einstellen Sie „Wait time“ und „Scroll times“.

Scroll times

Selektieren Sie zwischen den beiden Scrollvorgängen die geeignete Wartezeit. Sie möchten vermutlich die längere Wartezeit für die Seiten wählen, die mehr Zeit zu laden brauchen.

Danach geben Sie eine Nummer für „Scroll times“ ein, welche die Anzahl der Male ist, dass Sie den Schritt „nach unten scrollen“ wiederholen wollen. Auch hier können Sie die Ziel-Webseite zuerst manuell scrollen, nur um herauszufinden, wie viele Schriftrollen Sie brauchen würden, damit alle erforderten Informationen geladen sein würden.


Methode 2: Erstellung des Scrollen mit einem Loop Item

  • Schritt 1: Fügen Sie dem Workflow ein Loop Item hinzu.

add a loop

  • Schritt 2: Wählen Sie „Scroll Page“ in „Loop Mode“.

Scroll Page

  • Schritt 3: Stellen Sie die Optionen vom Scrollen ein, wie wir oben erwähnt haben.

end loop


Teil 2 Umgehen mit unendlosem Scrollen

Endloses Scrollen ist eine Technik, die am häufigsten von Websites mit JavaScript oder AJAX verwendet wird, um Inhalte dynamisch zu laden. Wenn Sie die Seiten nach unten ziehen, sehen Sie das Zeichen „Laden“, und die neuen Inhalte werden bald in die Seite eingefügt:

loading

Ähnlich, wie Sie die Seite manuell nach unten scrollen, kann Octoparse mit den richtigen Einstellungen das machen. Sie brauchen nur Octoparse mitzuteilen, welche Seite gescrollt werden soll, wie oft die gescrollt werden soll und wie lange Octoparse zwischen den beiden Scrollvorgängen warten soll.

In diesem Tutorial zeigen wir Ihnen, wie Sie mit der Website mit endlosem Scrollen in Octoparse umgehen sollen. Sie können zum Üben die URL des Beispiels verwenden:

*Hinweis: Dieses Tutorial richtet sich nur gegen das Scrollen der ganzen Seite. Wenn Sie nur einen bestimmten Bereich der Seite scrollen müssen, schauen Sie bitte dieses Tutorial an: Daten Scraping mit Web-Scrollen.

Es gibt zusammen zwei Methoden, um das oben erwähnte Ziel zu verwirklichen:

Methode 1 Verwendung der automatischen Detektion

Methode 2 Erstellung eines unendlosen Scrollen manuell


Methode 1 Verwendung der automatischen Detektion

  • Schritt 1: Selektieren Sie „Auto-detect web page data“ in der Tipps-Platte.

Auto-detect web page data

  • Schritt 2: Modifizieren Sie die Einstellungen des Scrollen.

Prozess 1: Klicken Sie auf „Edit“ unter „Add a page scroll“, und dann stellen Sie diese Optionen wie nötig ein: Scroll-Methode, wiederholende Anzahl und Wartezeit.

Prozess 2: Klicken Sie auf „Confirm“, um die Einstellungen zu speichern. Stellen Sie es sicher, dass genuge Scroll-down Zeit und geeignete Intervalle zwischen zwei Scrollvorgängen bereits erstellt werden.

edit and confirm

Tipps!

  1. „Scroll to the bottom of the page“ und „Scroll for one screen“ werden schon oben erwähnt und erklärt. Wenn Sie noch Fragen haben, können Sie einfach hier klicken, um die Information wieder anzuschauen.

  2. Geben Sie eine Zahl für Wiederholungen ein, welche die Anzahl der Male ist, die Sie Scroll-down (z.B. Die Anzahl des Scrollen) wiederholen möchten. Vermutlich möchten Sie zuerst die Ziel-Webseite manuell scrollen, einfach um zu finden, wie viele Schriftrollen Sie brauchen, damit alle erforderten Informationen geladen sind.

  3. Selektieren Sie eine geeignete Wartezeit zwischen allen zwei Scrollvorgängen. Sie könnten die längere Wartezeit für die Seite auswählen, die mehr Zeit zu laden brauchen.

  • Schritt 3: Erstellen Sie einen Workflow mit den Einstellungen.

creat a workflow

  • Schritt 4: Erhalten Sie den Workflow wie den folgenden.

loop item

  • Schritt 5: Klicken Sie auf „Scroll Page“, um die Einstellungen des Scrollen zu überprüfen oder modifizieren.

scroll page

  • Schritt 6: Überprüfen Sie, ob das erstellte Loop Item alle Elemente lokalisieren könnte.

Sie können zu den Einstellungen des Loop Items gehen, um zu sehen, ob alle Elemente lokalisiert werden. Natürlich sollen Sie auch es sicherstellen, dass es unter „Loop Mode“ ein „Variable List“ mit dem richtigen XPath gibt.

XPath eingeben


Methode 2 Erstellung eines unendlosen Scrollen manuell

Sie können einen Scrollvorgang von „Go to Web Page“ oder „Click Item“ einstellen. Oder fügen Sie ein neues Loop Item hinzu, um nach unten zu scrollen.

  • Schritt 1: Klicken Sie auf das Item und dann auf „Select all“, danach klicken Sie auf „Loop click each URL“.

Das erstellte Loop Item würde auf jede Produkt-URL klicken, um die Daten zu erhalten.

operation

  • Schritt 2: Stellen Sie einen Schritt „nach unten scrollen“ ein.

Prozess 1: Klicken Sie auf die Aktion „Go to Web Page“, um auf das Einstellungsmenü zuzugreifen. Dann finden Sie den Bereich „Scroll down the page after it is loaded“ unter „Options“.

go to webpage

Prozess 2: Fügen Sie dem Workflow ein Loop Item hinzu und wählen Sie „Scroll Page“ im Bereich von „Loop Mode“ aus.

Scroll Page

  • Schritt 3: Modifizieren Sie den XPath, um die richtigen Elemente zu lokalisieren - //div[contains(@class,'product-grid-item')]/div/a

Prozess 1: Clicken Sie auf „Loop Item“ und dann wählen Sie „Variable List“ im Bereich von „Loop Mode“.

Prozess 2: Kopieren Sie zuerst den XPath, dann geben Sie ihn im Teil von „Element Xpath“ ein.

Element Xpath

Tipps!

Erfahren Sie mehr über „Loop Item“ in dieses Tutorial: Loop Item.

Hat dies Ihre Frage beantwortet?