Alle Kollektionen
Octoparse 101
Lektion 2: Optimierung Ihrer Aufgabe
Lektion 2: Optimierung Ihrer Aufgabe

Beim Scraping gibt es verschiedene Situationen und Probleme. Mit diesem Tutorial optimieren Sie Ihre Aufgaben.

Vor über einer Woche aktualisiert

Die automatische Detektion von Daten ist cool, aber kein Algorithmus ist perfekt. Es wird Fälle geben, in denen die benötigten Daten nicht genau detektiert werden. In dieses Tutorial werden wir über einige einfache Lösungen diskutieren, die angewendet werden können, um Ihre Scraping-Aufgabe zu optimieren.


1. Wenn Ihre Ziel-Datenfelder nicht detektiert werden

Wenn Octoparse die Daten auf einer beliebigen Webseite detektiert, durchsucht es die gesamte Seite und extrahiert mithilfe seines Algorithmus von maschinellem Lernen einen oder mehrere Datensätze. Wenn Ihre Zieldaten beim ersten Versuch nicht detektiert werden, können Sie auf den zweiten Datensatz umschalten, indem Sie auf „Auto-Detektionsergebnisse wechseln“ klicken. Der Bruch hier bedeutet, dass Octoparse 3 Daten-Sets erkannt hat und Sie zur Zeit den ersten betrachten.

Notiz: Nicht alle Daten können direkt zugegriffen werden. In vielen Fällen müssen Sie auf die eine oder andere Weise mit der Zielwebseite interagieren, um auf die benötigten Daten zuzugreifen, z. B. sich anmelden, mit Schlüsselwörtern suchen oder sogar durch ein Dropdown-Menü klicken.


2. Wenn die automatisch erstelle Pagination nicht richtig ist

Wenn die automatische Detektion vom Pagination-Button falsch findet, könnten Sie dies einfach durch den Klick auf „Bearbeiten“ beheben. Und dann folgen Sie den Anweisungen unter Tipps, damit der richtige Button „Nächste Seite“ erneut gewählt würde.

richtigen Button finden

Notiz: Wenn der Button „Nächst“ oder „Mehr anzeigen“ nie detektiert wird, lesen Sie in diesem Beitrag nach und dann erfahren Sie, wie Sie den Schritt manuell hinzufügen können:


3. Wenn Sie auf der Seite weiter nach unten scrollen müssen, um mehr Daten zu laden

Wenn eine Webseite mit dem unendlichen Scrollen detektiert wird, gibt Octoparse automatisch die Anzahl der Seitenabschnitte an, die nach unten gescrollt werden sollen. Wenn Sie vor der Datenerfassung es vorziehen, mehr zu scrollen, können Sie einfach durch den Klick auf „Bearbeiten“ die Anzahl der Scrollen-Laufzeit regulieren, und dann die Einstellungen abschließen.

In diesem Fall bedeutet „Wiederholungen“ es, wie oft Octoparse auf diese Webseite scrollen soll. Gleichzeitig bedeutet „Wartezeit“ die Verweilzeit zwischen jedem Scrollen.

Blättern anpassen

4. Wenn Sie Links auf die Seite klicken brauchen, um mehrere detallierte Daten zu erhalten

In vielen Fällen bräuchten Sie auf den Link jedes Produktes klicken, um die detallierte Seite zu erhalten, wo mehrere spezielle Information anzeigen wird, z.B. Produktbeschreibung. Octoparse bietet eine leichte Option für Sie auf Tipps-Platte an.

Einfach wählen Sie nach „Workflow erstellen“ zuerst „Unterseite-URL auswählen“ aus, und danach wählen Sie das Datenfeld, um darauf zu klicken.

Alternativ können Sie alle ähnliche Elemente auswählen und dann auf „Schleife auf jedes Element klicken“ klicken, um direkt jeden Link anzuklicken und dann in die Detailseite einzugehen.

Direkt anklicken


5. Arbeiten direkt mit dem Workflow

Wenn Sie eine Scraping-Aufgabe in Octoparse erstellt hätten, würde es die realen menschlichen Browsing-Aktionen simulieren, z.B. Öffnen einer Webseite und klicken auf ein Seitenelement oder einen Button, um Daten automatisch zu scrapen. Der gesamte Extraktionsprozess wird automatisch in einem Workflow definiert, wobei jeder einzelne Schritt/jede einzelne Aktion eine bestimmte Anweisung in der Scraping-Aufgabe darstellt.

Obwohl Octoparse versucht, Web Scraping für Sie einfacher zu machen, indem das den Workflow durch automatische Detektion automatisch generiert, können Sie auch den Workflow selbst erstellen oder den automatisch generierten Workflow bearbeiten, um sicherzustellen, dass die Aufgabe wie gewünscht läufen könnte.

Es gibt viele verschiedene Arten von Aktionen, die Sie dem Workflow hinzufügen können. Jeder Schritt/Jede Aktion hat unterschiedliche Einstellungen, die Sie zur Verbesserung Ihrer Scraping-Aufgabe modifizieren können.

  • Schritt 1: Ordnen Sie durch Ziehen und Ablegen an der richtigen Stelle die Schritte des Workflows an.

  • Schritt 2: Klicken Sie zu überprüfen und modifizieren Sie dann die Einstellungen des bestimmten Schritts.

  • Schritt 3: Um dem Workflow einen besonderen Schritt hinzuzufügen, setzen Sie Ihren Maus an der Stelle, an der Sie den Schritt einfügen möchten. Dann warten Sie bitte, bis das Zeichen „+“ erscheint. Anschließend sollten Sie darauf klicken und die Aktion auswählen, der Sie hinzufügen möchten.

Manuell Schritt hinzufügen
  • Schritt 4: Sie können einen Schritt beim Rechtsklick jedes Schrittes im Workflow umbenennen, kopieren, löschen oder andere Aktion machen.


Hat dies Ihre Frage beantwortet?