undefined

Lektion 2: Optimieren Sie Ihre Aufgabe

Tuesday, May 25, 2021 2:04 PM

Die automatische Detektion von Daten ist cool, aber kein Algorithmus ist perfekt. Es wird Fälle geben, in denen die benötigten Daten nicht genau detektiert werden. In dieser Lektion gehen wir auf einige einfache Korrekturen ein, die Sie anwenden können, um Ihre Scraping-Aufgabe zu optimieren.

 

1. Wenn die benötigten Daten nicht detektiert werden

Wenn Octoparse die Daten auf einer beliebigen Webseite detektiert, durchsucht es die gesamte Seite und extrahiert mithilfe seines Algorithmus von maschinellem Lernen einen oder mehrere Datensätze. Wenn Ihre Zieldaten beim ersten Versuch nicht detektiert werden, können Sie auf den zweiten Datensatz umschalten, indem Sie auf "Ergebnisse der automatischen Erkennung umschalten" klicken. Der Bruch hier bedeutet, dass Octoparse 3 Datensätze erkannt hat und Sie sehen gerade den ersten.

 G.png

 

Tipps!

• Wenn keiner der detektierten Datensätze ist, was Sie brauchen, können Sie die Daten immer noch manuell scrapen, indem Sie den Anweisungen hier folgen.

• Nicht alle Daten kann direkt zugegriffen werden. In vielen Fällen müssen Sie mit der Zielwebseite interagieren, um auf die benötigten Daten zuzugreifen, z. B. sich anmelden, mit Schlüsselwörtern suchen oder sogar durch ein Dropdown-Menü klicken. In diesem Tutorial erfahren Sie, wie Sie mit solchen Fällen umgehen können.

 

2. Wenn der Nächste-Seite-Button nicht richtig detektiert wird

Wenn die automatische Detektion das Button "Nächste Seite" nicht richtig findet, können Sie dies einfach beheben, indem Sie auf "Bearbeiten" klicken und dann den Anweisungen unter "Tipps" folgen, um den richtige Button "Nächste Seite" erneut zu wählen.

h.gif

 

Tipps!

•  Wenn den Button "Nächste" oder "Mehr laden" nie detektiert wird, lesen Sie in diesem Beitrag nach, wie Sie den Schritt manuell hinzufügen können:

Umgang mit der Paginierung (mit einer "Nächste"-Button)

Umgang mit Paginierung (mit "Mehr laden"-Button)

•  Wenn es auf der Webseite keinen "Nächste"-Button gibt, können Sie der Anleitung folgen: Umgang mit Paginierung (ohne "Nächste"-Button)

 

 

3. Wenn Sie auf der Seite weiter nach unten scrollen müssen, um mehr Daten zu laden

Wenn eine Webseite mit dem unendlichen-Scrollen detektiert wird, gibt Octoparse automatisch die Anzahl der Seitenabschnitte an, die nach unten gescrollt werden sollen. Wenn Sie es vorziehen, mehr zu scrollen, bevor Sie die Daten erfassen, können Sie die Anzahl der Scroll-Zeiten einfach anpassen, indem Sie auf "Bearbeiten" klicken und dann die Einstellungen abschließen.

i.gif

 

4. Arbeiten mit dem Workflow

Wenn Sie eine Scraping-Aufgabe in Octoparse erstellen, wird das diese reale menschliche Browsing-Aktionen simulieren, wie das Öffnen einer Webseite und das Klicken auf ein Seitenelement/einen Button, um Daten automatisch zu extrahieren. Der gesamte Extraktionsprozess wird automatisch in einem Workflow definiert, wobei jeder einzelne Schritt/Aktion eine bestimmte Anweisung in der Scraping-Aufgabe darstellt.

 

Obwohl Octoparse versucht, Web Scraping für Sie einfacher zu machen, indem das den Workflow durch automatische Detektion automatisch generiert, können Sie auch den Workflow selbst erstellen oder den automatisch generierten Workflow bearbeiten, um sicherzustellen, dass die Aufgabe das tut, was Sie brauchen.

 

Es gibt viele verschiedene Arten von Aktionen, die Sie dem Workflow hinzufügen können. Jeder Schritt/Aktion hat eine Einstellungen, die Sie ändern können, um Ihre Scraping-Aufgabe zu verbessern.

 

1. Ordnen Sie die Schritte des Workflows durch Ziehen und Ablegen an.

 workflow.gif

 

2. Bewegen Sie den Mauszeiger über die Einstellungen des jeweiligen Schritts und prüfen Sie den Schritt.

 setting.png

 

3. Ändern Sie die Aktionseinstellungen, indem Sie auf das Einstellungssymbol klicken.  

 setting2.png

4. Um dem Workflow einen zusätzlichen Schritt hinzuzufügen, platzieren Sie Ihre Maus an der Stelle, an der Sie den Schritt einfügen möchten. Warten Sie, bis das Zeichen plus.png angezeigt wird, klicken Sie darauf und wählen Sie die Aktion aus, die Sie hinzufügen möchten.

 

 addstep.gif

 

5. Benennen Sie einen Schritt um, kopieren oder löschen Sie ihn, indem Sie auf denangezeigte Button "Mehr" klicken.

 renamestep2.png

 

Tipps!

Wenn Sie Ihre Scraping-Aufgabe weiter optimieren möchten, finden Sie hier weitere Techniken zur Aufgabenerstellung.

 

>> Lektion 3: Verfeinern Sie Ihre Daten 

 

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen