Umgang mit AJAX
Vor über einer Woche aktualisiert

Viele Websites nutzen die AJAX-Technik, um bessere, schnellere und interaktivere Webseiten zu erstellen. Octoparse kann problemlos mit solchen Seiten umgehen. In diesem Artikel würde ich Ihnen zeigen, wie Sie AJAX in Octoparse einstellen können.


1. Was ist AJAX?

AJAX steht für „Asynchronous JavaScript and XML“, das es einer Webseite ermöglicht, Informationen zu aktualisieren, ohne die gesamte Seite neu zu laden, und Daten anzufordern oder zu empfangen, nachdem die Seite geladen wurde. Falls AJAX verwendet wird, wird nur ein Teil der Seite aktualisiert, wenn Sie auf die Schaltflächen wie „nächste Seite“ oder „mehr zeigen“ auf der Webseite klicken.


2. Woran erkenne ich, ob eine Website mit AJAX Inhalte lädt?

Wenn Sie zum Laden der Webdaten etwas angeklickt haben, ist es ziemlich einfach zu erkennen, ob die Webseite AJAX verwendet oder nicht. Wenn AJAX verwendet wird, lädt die Webseite den zusätzlichen Inhalt, ohne die Seite neu zu laden. Aus diesem Grund ist das Nachladen-Symbol ein guter Indikator, um zu erkennen, ob AJAX verwendet wird.

  • Wenn AJAX verwendet wird, sollte die Seite nicht neu geladen werden, wenn zusätzlicher Inhalt geladen wird. In diesem Fall sollte es also KEIN Nachladen-Symbol geben.

KEIN Nachladen-Symbol geben

  • Wenn AJAX nicht verwendet wird, sollte die Seite mit dem Klick auf das Symbol

    neu geladen werden, wenn Sie darauf klicken und mehr Information sehen möchten.

mehr Information sehen


3. Wie wird Website mit AJAX in Octoparse gescrapt?

Octoparse nimmt das Neuladen als ein Signal an, wenn eine Klick-Aktion ausgeführt wird. Wenn die Seite nach dem Klicken eines Elements neu geladen wird, führt Octoparse die nächste Aktion erst aus, nachdem das Neuladen beendet ist. Weil die Seiten mit AJAX nicht neu geladen werden, erhält Octoparse das Signal nicht und würde stecken bleiben. Aus diesem Grund müssen wir also eine AJAX-Timeout für „Click Item“ oder „Click to Paginate“ einrichten, um Octoparse darauf hinzuweisen, dass es zur nächsten Aktion übergehen soll, wenn die Wartezeit erreicht ist. Es gibt zwei Methoden, AJAX in Octoparse einzustellen.

Methode 1: Automatische Detektion von AJAX

Octoparse würde eine AJAX-Timeout automatisch einrichten, wenn AJAX für die Seite erkannt wird.

Zum Beispiel verwendet die Walmart-Website AJAX, um die nächste Seite zu laden. Wenn wir deshalb auf den Button „Nächste Seite“ klicken, richtet Octoparse automatisch eine AJAX-Timeout für diese Aktion ein.

Wenn Sie ein längeres oder kürzes Timeout brauchen, können Sie einfach auf das Dropdown-Menü klicken und dann eines auswählen, das Sie möchten.

auf das Dropdown-Menü klicken

Methode 2: Erstellung von AJAX manuell

Wenn eine Aufgabe manuell erstellt wird oder wenn Octoparse AJAX nicht erkennt, ist es auch möglich, es manuell einzurichten, indem Sie auf die Aktion „Click Item“ oder „Click to Paginate“ klicken. Sie können die AJAX-Einstellungen in „Options“ finden und auch „Load with AJAX“ ankreuzen, um das gewünschte Timeout zu selektieren.

Timeout selektieren

Tipps!

Das AJAX-Timeout sollte lang genug sein, sodass die Seite die benötigten Informationen laden kann.


4. Verwendung von AJAX-Timeout für Websites ohne AJAX

Auch für Seiten, die kein AJAX verwenden, kann das AJAX-Timeout eingestellt werden, um längere Wartezeite von einigen Seiten zu verkürzen. Wenn Sie beispielsweise eine Seite haben, die ewig lädt, auch wenn die benötigten Informationen schon geladen wurden, könnten Sie vielleicht AJAX-Timeout einstellen, damit Sie Octoparse mitteilen, dass es zur nächsten Seite gehen sollte, anstatt es immer darauf warten, bis die Seite komplett geladen ist.


FAQs im Zusammenhang mit AJAX:

Hat dies Ihre Frage beantwortet?