undefined

Go to Web Page  

Monday, July 26, 2021 12:31 PM

Wenn Sie eine Website zu scrapen haben, brauchen Sie zunächst die URL. „Go to Web Page“ in Octoparse kann die Aktion zum Öffnen einer Website mit bestimmter URL simulieren. Außerdem ist es besser, eine Webseiten-URL einzugeben, die benötigten Daten enthält, als einen allgemeinen Website-Domain-Link einzugeben.

 

Nehmen wir an, dass Sie eine bestimmte Website-URL oder eine Liste von Webseiten-URLs zu scrapen haben. Schauen wir zusammen, wie es funktioniert.

 

1. Einzelne Webseite öffnen

2. Mehrere URLs öffnen

 

3. Einstellungen von "Go To Web Page"

4. Wenn Webseite nicht geladen wird

 

 

1. Einzelne Webseite öffnen

Wenn Sie eine einzelne Webseiten-URL zum Öffnen haben (Beispiel: die URL einer Suchergebnisseite von eBay: https://www.ebay.com/sch/i.html?_from=R40&_trksid=p2380057.m570.l1313.TR12.TRC2.A0.H0.Xcharger.TRS0&_nkw=charger&_sacat=0), gibt es 3 Orte, in die Sie die Webseiten-URL eingeben können.

 

• Startseite von Octoparse

Sie können die URL direkt in die Suchleiste eingeben und dann auf "Start" drücken, um zu beginnen.

mceclip1.png

 

• Navigationsmenü der Seitenleiste

Im Navigationsmenü finden Sie die Schaltfläche "+ New". Klicken Sie darauf und wählen Sie dann die 1. Option - Advanced Mode.

mceclip3.png

 

 

Dann wird die Einrichtungsseite der neuen Aufgabe geöffnet. Sie können die URL manuell in das Feld "Website" eingeben und dann auf "Save" klicken.

 mceclip4.png

 

 

Im Workflow wird automatisch eine Aktion "Go to Web Page" erzeugt.

mceclip0.png

 

 

 

 

• Aufgaben-Workflow

Wenn Sie während der Einrichtung der Aufgabe eine neue Seiten-URL zum Workflow hinzufügen möchten, finden Sie das "+" Symbol, das im Workflow zwischen den einzelnen Schritten eingeblendet wird, wenn Sie die Maus im Workflow bewegen.

 mceclip5.png

 

Nachdem Sie auf das "+" Symbol geklickt haben, werden im Dropdown-Menü mehrere Optionen angezeigt. Klicken Sie auf die Schaltfläche "Mehr laden", um die Option "Seite öffnen" zu finden, und klicken Sie sie an.

 mceclip6.png            mceclip7.png

 

Daraufhin wird ein neuer Schritt "Go to Web Page" erzeugt. Doppelklicken Sie auf den Schritt, um die Aktionseinstellungen zu öffnen, damit Sie die URL der neuen Seite eingeben können. Klicken Sie auf "OK", um die Einstellungen zu speichern.

 mceclip8.png              mceclip9.png

 

 

 

 

 

2. Mehrere URLs öffnen

 

Wenn Sie mehrere URLs von Webseiten haben, die eine ähnliche Struktur haben, dann brauchen Sie nicht eine Aufgabe nach der anderen zu erstellen, sondern können die URLs auf einmal eingeben.

 

Die Methoden, mehrere URLs zu öffnen, sind eigentlich gleich wie beim Öffnen einer einzelnen Webseite.

 

• Startseite von Octoparse

Wenn Sie eine Liste von URLs haben, können Sie diese auch direkt kopieren (z.B. aus einer Excel-Datei) und in die Suchleiste einfügen. Gültige URLs werden erkannt, und dann können Sie die Schaltfläche "Start" drücken, um loszulegen.

 mceclip10.png

 

Die Aktion "Loop URLs" wird erzeugt, die alle von Ihnen eingegebenen URLs enthält. Sie können auf "Loop URLs" doppelklicken, um URLs im Loop-Element zu überprüfen oder zu ändern.

 mceclip11.png  mceclip12.png

 

 

• Navigationsmenü der Seitenleiste und 4 Methoden zur Eingabe der URLs

 

Sie finden die Schaltfläche "+ New" im Navigationsmenü. Klicken Sie diesen an und wählen Sie dann die 1. Option - „Advanced Mode.

 mceclip3.png

 

Daraufhin wird die Einrichtungsseite für neue Aufgabe geöffnet. Es gibt 4 Methoden zur Eingabe von URLs. Sie können je nach Situation wählen. Details finden Sie in dieser Anleitung: Batch URL input.  

 

Wenn Sie URLs manuell eingeben möchten, denken Sie daran, eine URL pro Zeile einzugeben, oder Sie können direkt eine Liste von URLs aus einer Excel-Tabelle kopieren.

 mceclip13.png

• Aufgaben-Workflow

 

Wenn Sie eine Liste von URLs in den Workflow einfügen wollen, können Sie auf das "+"-Symbol klicken, um notwendige Schritte hinzuzufügen.

 mceclip5.png

 

Fügen Sie zuerst ein "Loop Item" aus dem Dropdown-Menü hin. Doppelklicken Sie darauf, um URLs einzugeben.

 mceclip16.png

 

Stellen Sie „loop mode“ als "List of URLs" ein und klicken Sie auf mceclip1.png, um URLs einzugeben.

 mceclip17.png

 

Nach dem Speichern der Einstellungen wird ein "Loop Item" mit "Go to Web Page" erzeugt.

mceclip19.png

 

 

 

 

3. Einstellungen von "Go To Web Page"

 

Wenn Sie im Workflow auf "Go to Web Page" doppelklicken, können Sie die Einstellungen für diesen Schritt verändern.

 

• Allgemeine Einstellungen und "Before page render"

 

Sie können die "Timeout" anpassen, wenn die Webseite sehr lange zum Laden braucht. Sie können auch die URL der Webseite in der URL-Leiste ändern.

 

"Load URLs in the loop" sollte nur aktiviert werden, wenn Sie URLs im „Loop“ öffnen möchten.

 

Unter dem Abschnitt "Before page render" können Sie eine Wartezeit und Cookie für diesen Schritt festlegen. "Wait before action" kann eingestellt werden, um die Intervalle des Öffnens jeder URL zu steuern. Die Cookie-Einstellung wird häufig verwendet, wenn die Webseite eine Anmeldung für den Zugriff erfordert.

 mceclip20.png

 

• "After loading page"

mceclip23.png

 

 

Die am häufigsten modifizierte Einstellung ist die Einstellung von Scrollen. Sie sollen das einstellen, wenn die Seite herunter scrollen muss, um den Inhalt zu laden.

 

Zuerst stellen Sie die Arten des Scrollens ein, wählen Sie entweder "to the bottom of the page" oder "for one screen".

 

Dann stellen Sie "Repeats" (wie viel mal Sie herunter scrollen möchten) und "Wait time" (Intervallzeit zwischen jedem Scrollen, damit die neuen Daten nach dem Scrollen geladen werden können) ein.

 

• "Retry"

Sie können Einstellungen von "Retry" vornehmen, um die Seite erneut zu laden.

 mceclip24.png

 

 

 

 

4. Wenn Webseite nicht geladen wird

 

Manchmal kann eine Webseite in Octoparse eingebautem Browser nicht richtig geladen werden. Sie erhalten nur eine leere Seite.

 

In diesem Fall können Sie auf das Einstellungssymbol in der linken oberen Ecke klicken, um die Aufgabeneinstellungen zu ändern.

mceclip25.png

 

 

Sie können "Browser Ver." unter "Run Settings" Finden, wo Sie einen anderen Browser wechseln können.

 mceclip28.png

 

Es gibt viele Optionen unter "Browser Ver.". Wählen Sie eine aus und klicken Sie auf "Speichern". 

 mceclip27.png

 

 

Klicken Sie dann auf das Symbol von "Webseite neu laden", um die Seite zu aktualisieren und zu sehen, ob die Webseite gut geladen werden kann.

mceclip29.png

 

 

Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen