undefined

Lektion 2: Optimieren Sie Ihre Aufgabe (Octoparse 8.4)

Wednesday, October 13, 2021 10:58 AM

Die automatische Detektion von Daten ist cool, aber kein Algorithmus ist perfekt. Es wird Fälle geben, in denen die benötigten Daten nicht genau detektiert werden. In dieser Lektion gehen wir auf einige einfache Korrekturen ein, die Sie anwenden können, um Ihre Scraping-Aufgabe zu optimieren.

 

1. Wenn die benötigten Daten nicht detektiert werden

 

Wenn Octoparse die Daten auf einer beliebigen Webseite detektiert, durchsucht es die gesamte Seite und extrahiert mithilfe seines Algorithmus von maschinellem Lernen einen oder mehrere Datensätze. Wenn Ihre Zieldaten beim ersten Versuch nicht detektiert werden, können Sie auf den zweiten Datensatz umschalten, indem Sie auf "Ergebnisse der automatischen Erkennung umschalten" klicken. Der Bruch hier bedeutet, dass Octoparse 3 Datensätze erkannt hat und Sie sehen gerade den ersten.

switch.png

 

Tipps!

• Wenn keiner der detektierten Datensätze ist, was Sie brauchen, können Sie die Daten immer noch manuell scrapen, indem Sie den Anweisungen hier folgen.

• Nicht alle Daten kann direkt zugegriffen werden. In vielen Fällen müssen Sie mit der Zielwebseite interagieren, um auf die benötigten Daten zuzugreifen, z. B. sich anmelden, mit Schlüsselwörtern suchen oder sogar durch ein Dropdown-Menü klicken. In diesem Tutorial erfahren Sie, wie Sie mit solchen Fällen umgehen können.

 

2. Wenn der Nächste-Seite-Button nicht richtig detektiert wird

 

Wenn die automatische Detektion das Button "Nächste Seite" nicht richtig findet, können Sie dies einfach beheben, indem Sie auf "Bearbeiten" klicken und dann den Anweisungen unter "Tipps" folgen, um den richtige Button "Nächste Seite" erneut zu wählen.

5555555555555555555.gif

 

Tipps!

•  Wenn den Button "Nächste" oder "Mehr laden" nie detektiert wird, lesen Sie in diesem Beitrag nach, wie Sie den Schritt manuell hinzufügen können:

Umgang mit der Paginierung (mit einer "Nächste"-Button)

Umgang mit Paginierung (mit "Mehr laden"-Button)

•  Wenn es auf der Webseite keinen "Nächste"-Button gibt, können Sie der Anleitung folgen: Umgang mit Paginierung (ohne "Nächste"-Button)

 

 

3. Wenn Sie auf der Seite weiter nach unten scrollen müssen, um mehr Daten zu laden

 

Wenn eine Webseite mit dem unendlichen-Scrollen detektiert wird, gibt Octoparse automatisch die Anzahl der Seitenabschnitte an, die nach unten gescrollt werden sollen. Wenn Sie es vorziehen, mehr zu scrollen, bevor Sie die Daten erfassen, können Sie die Anzahl der Scroll-Zeiten einfach anpassen, indem Sie auf "Edit" klicken und dann die Einstellungen abschließen.

In diesem Fall bedeutet "Repeats", wie viel mal Octoparse auf dieser Seite scrollen muss, und "Wait" bedeutet die Verweilzeit zwischen jedem Blättern.

nnnnnn.gif

 

4. Wenn Sie auf Links auf der Seite klicken müssen, um detaillierte Daten zu erhalten

 

In vielen Fällen müssen Sie auf jeden Produktlink klicken, um auf die Produktdetailseite zu gelangen, die Ihnen spezifischere Informationen, wie z. B. die Produktbeschreibung, liefert. Octoparse bietet Ihnen eine einfache Option in den „Tipps“.

Wählen Sie einfach „Click on link(s) to scrape the linked page(s)“ und wählen Sie das Datenfeld, auf das Sie klicken möchten.

23423.gif

 

Alternativ können Sie auch "Click a link on the web page" wählen und den Link direkt auf der Webseite auswählen.

2021-09-09_10-08-29.png

 

5. Arbeiten mit dem Workflow

 

Wenn Sie eine Scraping-Aufgabe in Octoparse erstellen, wird das diese realen menschlichen Browsing-Aktionen simulieren, wie das Öffnen einer Webseite und das Klicken auf ein Seitenelement/einen Button, um Daten automatisch zu extrahieren. Der gesamte Extraktionsprozess wird automatisch in einem Workflow definiert, wobei jeder einzelne Schritt/Aktion eine bestimmte Anweisung in der Scraping-Aufgabe darstellt.

 

Obwohl Octoparse versucht, Web Scraping für Sie einfacher zu machen, indem das den Workflow durch automatische Detektion automatisch generiert, können Sie auch den Workflow selbst erstellen oder den automatisch generierten Workflow bearbeiten, um sicherzustellen, dass die Aufgabe das tut, was Sie brauchen.

 

Es gibt viele verschiedene Arten von Aktionen, die Sie dem Workflow hinzufügen können. Jeder Schritt/Aktion hat eine Einstellung, die Sie ändern können, um Ihre Scraping-Aufgabe zu verbessern.

 

1. Ordnen Sie die Schritte des Workflows durch Ziehen und Ablegen an.

4443424342.gif

 

2. Klicken Sie auf einen Schritt, um die Einstellungen zu überprüfen und zu ändern

____.gif

 

3. Um dem Arbeitsablauf einen zusätzlichen Schritt hinzuzufügen, platzieren Sie Ihre Maus an der Stelle, an der Sie den Schritt einfügen möchten. Warten Sie, bis das Zeichen plus.png angezeigt wird, klicken Sie darauf und wählen Sie die Aktion aus, die Sie hinzufügen möchten. 

____.gif

 

 

4. Benennen Sie einen Schritt um, kopieren oder löschen Sie ihn, indem Sie mit der rechten Maustaste auf jeden Schritt des Workflows klicken. 

 

2021-09-08_18-16-00.png

 

Tipps!

Wenn Sie Ihre Scraping-Aufgabe weiter optimieren möchten, finden Sie hier weitere Techniken zur Aufgabenerstellung.

 

>> Lektion 3: Verfeinern Sie Ihre Daten 

 

 

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen