Go to Web Page
Monday, July 26, 2021 12:31 PMWenn Sie eine Website zu scrapen haben, brauchen Sie zunächst die URL. „Go to Web Page“ in Octoparse kann die Aktion zum Öffnen einer Website mit bestimmter URL simulieren. Außerdem ist es besser, eine Webseiten-URL einzugeben, die benötigten Daten enthält, als einen allgemeinen Website-Domain-Link einzugeben.
Nehmen wir an, dass Sie eine bestimmte Website-URL oder eine Liste von Webseiten-URLs zu scrapen haben. Schauen wir zusammen, wie es funktioniert.
1. Einzelne Webseite öffnen
2. Mehrere URLs öffnen
3. Einstellungen von "Go To Web Page"
4. Wenn Webseite nicht geladen wird
1. Einzelne Webseite öffnen
Wenn Sie eine einzelne Webseiten-URL zum Öffnen haben (Beispiel: die URL einer Suchergebnisseite von eBay: https://www.ebay.com/sch/i.html?_from=R40&_trksid=p2380057.m570.l1313.TR12.TRC2.A0.H0.Xcharger.TRS0&_nkw=charger&_sacat=0), gibt es 3 Orte, in die Sie die Webseiten-URL eingeben können.
• Startseite von Octoparse
Sie können die URL direkt in die Suchleiste eingeben und dann auf "Start" drücken, um zu beginnen.
• Navigationsmenü der Seitenleiste
Im Navigationsmenü finden Sie die Schaltfläche "+ New". Klicken Sie darauf und wählen Sie dann die 1. Option - Advanced Mode.
Dann wird die Einrichtungsseite der neuen Aufgabe geöffnet. Sie können die URL manuell in das Feld "Website" eingeben und dann auf "Save" klicken.
Im Workflow wird automatisch eine Aktion "Go to Web Page" erzeugt.
• Aufgaben-Workflow
Wenn Sie während der Einrichtung der Aufgabe eine neue Seiten-URL zum Workflow hinzufügen möchten, finden Sie das "+" Symbol, das im Workflow zwischen den einzelnen Schritten eingeblendet wird, wenn Sie die Maus im Workflow bewegen.
Nachdem Sie auf das "+" Symbol geklickt haben, werden im Dropdown-Menü mehrere Optionen angezeigt. Klicken Sie auf die Schaltfläche "Mehr laden", um die Option "Seite öffnen" zu finden, und klicken Sie sie an.
Daraufhin wird ein neuer Schritt "Go to Web Page" erzeugt. Doppelklicken Sie auf den Schritt, um die Aktionseinstellungen zu öffnen, damit Sie die URL der neuen Seite eingeben können. Klicken Sie auf "OK", um die Einstellungen zu speichern.
2. Mehrere URLs öffnen
Wenn Sie mehrere URLs von Webseiten haben, die eine ähnliche Struktur haben, dann brauchen Sie nicht eine Aufgabe nach der anderen zu erstellen, sondern können die URLs auf einmal eingeben.
Die Methoden, mehrere URLs zu öffnen, sind eigentlich gleich wie beim Öffnen einer einzelnen Webseite.
• Startseite von Octoparse
Wenn Sie eine Liste von URLs haben, können Sie diese auch direkt kopieren (z.B. aus einer Excel-Datei) und in die Suchleiste einfügen. Gültige URLs werden erkannt, und dann können Sie die Schaltfläche "Start" drücken, um loszulegen.
Die Aktion "Loop URLs" wird erzeugt, die alle von Ihnen eingegebenen URLs enthält. Sie können auf "Loop URLs" doppelklicken, um URLs im Loop-Element zu überprüfen oder zu ändern.
• Navigationsmenü der Seitenleiste und 4 Methoden zur Eingabe der URLs
Sie finden die Schaltfläche "+ New" im Navigationsmenü. Klicken Sie diesen an und wählen Sie dann die 1. Option - „Advanced Mode“.
Daraufhin wird die Einrichtungsseite für neue Aufgabe geöffnet. Es gibt 4 Methoden zur Eingabe von URLs. Sie können je nach Situation wählen. Details finden Sie in dieser Anleitung: Batch URL input.
Wenn Sie URLs manuell eingeben möchten, denken Sie daran, eine URL pro Zeile einzugeben, oder Sie können direkt eine Liste von URLs aus einer Excel-Tabelle kopieren.
• Aufgaben-Workflow
Wenn Sie eine Liste von URLs in den Workflow einfügen wollen, können Sie auf das "+"-Symbol klicken, um notwendige Schritte hinzuzufügen.
Fügen Sie zuerst ein "Loop Item" aus dem Dropdown-Menü hin. Doppelklicken Sie darauf, um URLs einzugeben.
Stellen Sie „loop mode“ als "List of URLs" ein und klicken Sie auf , um URLs einzugeben.
Nach dem Speichern der Einstellungen wird ein "Loop Item" mit "Go to Web Page" erzeugt.
3. Einstellungen von "Go To Web Page"
Wenn Sie im Workflow auf "Go to Web Page" doppelklicken, können Sie die Einstellungen für diesen Schritt verändern.
• Allgemeine Einstellungen und "Before page render"
Sie können die "Timeout" anpassen, wenn die Webseite sehr lange zum Laden braucht. Sie können auch die URL der Webseite in der URL-Leiste ändern.
"Load URLs in the loop" sollte nur aktiviert werden, wenn Sie URLs im „Loop“ öffnen möchten.
Unter dem Abschnitt "Before page render" können Sie eine Wartezeit und Cookie für diesen Schritt festlegen. "Wait before action" kann eingestellt werden, um die Intervalle des Öffnens jeder URL zu steuern. Die Cookie-Einstellung wird häufig verwendet, wenn die Webseite eine Anmeldung für den Zugriff erfordert.
• "After loading page"
Die am häufigsten modifizierte Einstellung ist die Einstellung von Scrollen. Sie sollen das einstellen, wenn die Seite herunter scrollen muss, um den Inhalt zu laden.
Zuerst stellen Sie die Arten des Scrollens ein, wählen Sie entweder "to the bottom of the page" oder "for one screen".
Dann stellen Sie "Repeats" (wie viel mal Sie herunter scrollen möchten) und "Wait time" (Intervallzeit zwischen jedem Scrollen, damit die neuen Daten nach dem Scrollen geladen werden können) ein.
• "Retry"
Sie können Einstellungen von "Retry" vornehmen, um die Seite erneut zu laden.
4. Wenn Webseite nicht geladen wird
Manchmal kann eine Webseite in Octoparse eingebautem Browser nicht richtig geladen werden. Sie erhalten nur eine leere Seite.
In diesem Fall können Sie auf das Einstellungssymbol in der linken oberen Ecke klicken, um die Aufgabeneinstellungen zu ändern.
Sie können "Browser Ver." unter "Run Settings" Finden, wo Sie einen anderen Browser wechseln können.
Es gibt viele Optionen unter "Browser Ver.". Wählen Sie eine aus und klicken Sie auf "Speichern".
Klicken Sie dann auf das Symbol von "Webseite neu laden", um die Seite zu aktualisieren und zu sehen, ob die Webseite gut geladen werden kann.