undefined

Lektion 2: Optiemierung Ihrer Aufgabe

Tuesday, June 21, 2022 12:26 PM
Die automatische Detektion von Daten ist cool, aber kein Algorithmus ist perfekt. Es wird Fälle geben, in denen die benötigten Daten nicht genau detektiert werden. In dieser Lektion werden wir über einige einfache Lösungen diskutieren, die angewendet werden können, um Ihre Scraping-Aufgabe zu optimieren.

 

 

Lösung 1 Wenn die benötigten Daten nicht detektiert werden

Wenn Octoparse die Daten auf einer beliebigen Webseite detektiert, durchsucht es die gesamte Seite und extrahiert mithilfe seines Algorithmus von maschinellem Lernen einen oder mehrere Datensätze. Wenn Ihre Zieldaten beim ersten Versuch nicht detektiert werden, können Sie auf den zweiten Datensatz umschalten, indem Sie auf „Switch auto-detect results“ klicken. Der Bruch hier bedeutet, dass Octoparse 3 Datensätze erkannt hat und Sie zur Zeit den ersten betrachten.

 

 switch auto detect results

 

Tipps!
• Wenn keiner der detektierten Datensätze ist, was Sie brauchen, können Sie die Daten immer noch manuell durch die Verfolgung der Anweisungen (Englisch) scrapen.
• Nicht alle Daten kann direkt zugegriffen werden. In vielen Fällen müssen Sie auf die eine oder andere Weise mit der Zielwebseite interagieren, um auf die benötigten Daten zuzugreifen, z. B. sich anmelden, mit Schlüsselwörtern suchen oder sogar durch ein Dropdown-Menü klicken. In diesem Tutorial erfahren Sie, wie Sie mit solchen Fällen umgehen können.

 

 

Lösung 2 Wenn der Nächste-Seite-Button nicht richtig ist

Wenn die automatische Detektion den Button „Nächste Seite“ falsch finden würde, könnten Sie dies einfach durch den Klick auf „Edit“ beheben. Und dann folgen Sie den Anweisungen unter „Tips“, damit der richtige Button „Nächste Seite“ erneut gewählt würde.

 

 Wenn der Nächste-Seite-Button nicht richtig ist

 

 

Tipps!
• Wenn der Button „Nächste“ oder „Mehr anzeigen“ nie detektiert wird, lesen Sie in diesem Beitrag nach und dann erfahren Sie darin, wie Sie den Schritt manuell hinzufügen können: Umgang mit Paginierung (mit „Nächste“-Button) (Englisch) oder Umgang mit Paginierung (mit „Mehr anzeigen“-Button) (Englisch)
• Wenn es auf der Webseite keinen „Nächste“-Button gibt, können Sie dem Tutorial folgen: Umgang mit Paginierung (ohne „Nächste“-Button) (Englisch)

 

 

Lösung 3 Wenn Sie auf der Seite weiter nach unten scrollen müssen, um mehr Daten zu laden

Wenn eine Webseite mit dem unendlichen Scrollen detektiert wird, gibt Octoparse automatisch die Anzahl der Seitenabschnitte an, die nach unten gescrollt werden sollen. Wenn Sie vor der Datenerfassung es vorziehen, mehr zu scrollen, können Sie einfach durch den Klick auf „Edit“ die Anzahl der Scrollen-Laufzeit regulieren, und dann die Einstellungen abschließen.

 

In diesem Fall bedeutet „Repeats“ es, wie oft Octoparse auf diese Webseite scrollen soll. Gleichzeitig bedeutet „Wait“ die Verweilzeit zwischen jedem Scrollen.

 

 Wenn Sie auf der Seite weiter nach unten scrollen müssen

 

 

Lösung 4 Wenn Sie Links auf der Seite klicken brauchen, um mehrere detallierte Daten zu erhalten

In vielen Fällen bräuchten Sie auf den Link jedes Produktes klicken, um die detallierte Seite zu erhalten, wo mehrere spezielle Information anzeigen wird, z.B. Produktbeschreibung. Octoparse bietet eine leichte Option für Sie auf „Tips“ an.

 

Einfach wählen Sie zuerst „Click on link(s) to scrape the linked page(s)“ aus, und danach wählen Sie das Datenfeld, um darauf zu klicken.

 

 Wenn Sie Links auf der Seite klicken brauchen

 

Alternativ können Sie „Click a link on the web page“ auswählen und direkt den Link auf der Webseite selektieren.

 

 Click a link on the web page

 

 

Lösung 5 Arbeiten direkt mit dem Workflow

Wenn Sie eine Scraping-Aufgabe in Octoparse erstellt hätten, würde es die realen menschlichen Browsing-Aktionen simulieren, z.B. Öffnen einer Webseite und Klicken auf ein Seitenelement/einen Button, um Daten automatisch zu extrahieren. Der gesamte Extraktionsprozess wird automatisch in einem Workflow definiert, wobei jeder einzelne Schritt/jede einzelne Aktion eine bestimmte Anweisung in der Scraping-Aufgabe darstellt.

 

Obwohl Octoparse versucht, Web Scraping für Sie einfacher zu machen, indem das den Workflow durch automatische Detektion automatisch generiert, können Sie auch den Workflow selbst erstellen oder den automatisch generierten Workflow bearbeiten, um sicherzustellen, dass die Aufgabe wie gewünscht läufen könnte.

 

Es gibt viele verschiedene Arten von Aktionen, die Sie dem Workflow hinzufügen können. Jeder Schritt/Jede Aktion hat unterschiedliche Einstellungen, die Sie zur Verbesserung Ihrer Scraping-Aufgabe modifizieren können.

 

Schritt 1 Ordnen Sie durch Ziehen und Ablegen an der richtigen Stelle die Schritte des Workflows an.

 

 ziehen und ablegen

 

Schritt 2 Klicken Sie zu überprüfen und modifizieren Sie dann die Einstellungen des bestimmten Schritts.

 

 Einstellungen überprüfen

 

Schritt 3 Um dem Workflow einen besonderen Schritt hinzuzufügen, setzen Sie Ihre Maus an der Stelle, an der Sie den Schritt einfügen möchten. Dann warten Sie bitte, bis das Zeichen  erscheint. Anschließend sollten Sie darauf klicken und die Aktion auswählen, der Sie hinzufügen möchten.

 

 Aktion hinzufügen

 

Schritt 4 Sie können einen Schritt beim Rechtsklick jedes Schrittes im Workflow umbenennen, kopieren oder löschen.

 

 Schritt wechseln

 

Tipps!
Wenn Sie Ihre Scraping-Aufgabe weiter optimieren möchten, finden Sie hier weitere Techniken zur Aufgabenerstellung.

 

 

Autor*in: Das Octoparse Team
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen