undefined

Advanced Mode - Erstellen Sie Ihren eigenen Crawler mit Zeigen und Klicken (Version 8)

Wednesday, July 07, 2021 5:20 PM

Das Tutorial soll Ihnen vorstellen, was "Advanced Mode" von Octoparse ist, warum Sie ihn verwenden sollten und wie der Ihnen beim Web-Scraping helfen können.

 

"Advanced Mode" ermöglicht es jedem, Daten von jeder beliebigen Website durch einfaches Zeigen und Klicken zu scrapen, selbst wenn Sie gar keine Programmierkenntnisse besitzen. Wenn Sie Daten aus komplizierten Webseiten scrapen möchten und  bereits erfolgreich Daten mit der automatischen Detektion extrahiert haben, empfehlen wir Ihnen dringend, "Advanced Mode" auszuprobieren und sich ein höheres Ziel beim Web-Scraping setzen.

 

Mit "Advanced Mode" können Sie:

• Informationen von fast allen Webseiten scrapen.
• Daten wie Text, URL, Bild und HTML extrahieren.
• mit Webseiten interagieren, um komplizierte Aktionen auszuführen, wie z. B. Login-Authentifizierung, Suche nach Schlüsselwörtern und Wählen in einem Dropdown-Menü.
• den Workflow optimieren, z. B. Verändern der Wartezeiten, Ändern von XPath und Neuformatierung der extrahierten Daten.

 

 

Erstellen eine Aufgabe mit "Advanced Mode"


Es gibt zwei Möglichkeiten, schnell eine neue Aufgabe mit "Advanced Mode" zu erstellen:

1) Gehen Sie direkt zur Startseite, geben Sie die URL(s) der Zielwebseite ein und klicken Sie auf "Start".

0.png

 

2) Finden Sie direkt unter dem Octoparse-Logo die Schaltfläche "+ New" und klicken Sie auf "Advanced Mode".

1.png

 

 

Lernen Sie die Oberfläche von "Advanced Mode" kennen


workspace3.jpg

 

The Built-in Brower: Der eingebaute Brower - Sobald Sie eine Ziel-Webseiten-URL eingegeben haben, wird die Webseite im eingebauten Browser von Octoparse geladen. Sie können die Webseite im Browse-Modus durchsuchen oder Datenfelder im Wählen-Modus anklicken, um die benötigten Daten zu extrahieren.

The Workflow: Der Arbeitsablauf - Wenn Sie fortfahren, mit der Webseite zu interagieren, z. B. eine Webseite zu öffnen und auf ein Seitenelement/eine Schaltfläche zu klicken, wird der gesamte Prozess automatisch in Form eines Workflows generiert.

Tips panel: Tipps-Panel - Octoparse verwendet intelligente Tipps, die während des Extraktionsprozesses mit Ihnen kommunizieren können, um Sie durch den Prozess der Aufgabenerstellung zu führen.

Data Preview: Datenvorschau - Die Vorschau der ausgewählten Daten wird hier angezeigt. Sie können auch die Datenfelder umbenennen oder die nicht benötigten entfernen.

 

 

 

So erstellen Sie Aufgaben mit "Advanced Mode"


Um eine Aufgabe manuell "Advanced Mode" zu erstellen, überspringen Sie die automatische Detektion, indem Sie auf "Turn OFF auto-detect" klicken.

2.png

 

Klicken Sie dann einfach auf die Zieldaten auf der Webseite. Befolgen Sie die Anweisungen im Feld "Tipps", um mit dem Erstellungsprozess der Aufgabe fortzufahren. Die allgemeinen Erstellungsschritte sind einfach:

Wählen die benötigten Daten auf der Webseite aus >> Befolgen die Anweisungen in den Aktionstipps >> Überprüfen Sie Ihren Arbeitsablauf >> Führen Sie die Aufgabe aus, um die Daten zu erhalten

Denn Webseiten ändern sich ständig, wurde "Advanced Mode" mit der Flexibilität und Vielseitigkeit entwickelt, um alle Arten von Scraping-Bedürfnissen zu bewältigen. Außerdem können Nicht-Programmierer mit den Schritt-für-Schritt-Anleitungen in den Aktionstipps auch Aufgaben mit "Advanced Mode" einfach erstellen.

 


1. Wählen Sie die Daten, die Sie auf der Webseite extrahieren möchten


Wählen Sie innerhalb des Browsers mit einfachen Klicks alle Daten aus, die Sie aus der Webseite extrahieren möchten. Wenn Sie mit dem Mauszeiger über die Webseite fahren, versucht Octoparse zu "verstehen", was Sie extrahieren möchten, indem es die Seitenelemente um Ihren Mauszeiger hervorhebt. Sie können den Cursor leicht verschieben, wenn der hervorgehobene Bereich nicht ganz, aber nahe an dem Element liegt, was Sie extrahieren möchten.

Sobald die gewünschten Daten blau hervorgehoben sind, können Sie darauf klicken, um die Auswahl zu bestätigen. Jetzt sollte das ausgewählte Seitenelement grün hervorgehoben sein, das anzeigt, dass es erfolgreich ausgewählt worden ist.

Wiederholen Sie den gleichen Vorgang, wenn Sie mehrere Elemente auf derselben Seite extrahieren möchten.

3.gif

 

2. Befolgen Sie die Anweisungen in den Aktionstipps


Octoparse versucht, Sie durch den Prozess der Aufgabenerstellung zu führen, indem es alle möglichen nächsten Schritte im Tipps-Panel anbietet. Es ist eine Möglichkeit für Octoparse, mit Ihnen zu "sprechen".

Jedes Mal, wenn Sie ein Element auswählen, wird die Aktionstipps mit einer Reihe von Optionen angezeigt, aus denen Sie wählen können. Folgen Sie einfach den Anweisungen und wählen Sie, wie Sie mit dem Element machen möchten. Wenn Sie z. B. den Text des ausgewählten Elements auslesen möchten, können Sie "Extract the text of the selected element" wählen, oder wenn Sie auf das ausgewählte Element klicken möchten, um zu der verlinkten Seite zu gelangen, können Sie "Click element" wählen.

 

4.png

 

Im Folgenden finden Sie die am häufigsten verwendeten Aktionen:

 

• Extract the text of the selected element: Text des ausgewählten Elements extrahieren - den Text des ausgewählten Seitenelements erfassen

 Click element: Element anklicken - das ausgewählte Seitenelement anklicken

 Extract the HTML of the selected element: HTML des gewählten Elements extrahieren - erfasst den Quelltext des gewählten Elements

 Loop click single element: Klicken mehrmals auf einzelnes Element - das ausgewählte Element wiederholt anklicken (ähnlich wie Loop click next page oder Loop click single URL)

 Extract URL of the selected: URL des ausgewählten Elements extrahieren - die URL des ausgewählten Links erfassen (wenn ein Link ausgewählt ist)

 Extract URL of the selected image: URL des ausgewählten Bildes extrahieren - die URL des Bildes erfassen (wenn ein Bild ausgewählt ist)

 Select all: Alles auswählen - alle ähnlichen Elemente auswählen (wenn ähnliche Elemente detektiert werden)

 

Tipps:

• In manchen Fällen sind die Zielelemente nur mit dem Cursor schwer zu lokalisieren. In solchen Situationen können Sie die HTML-Tags am unteren Rand des Tipps-Panels verwenden, um die Auswahl zu verfeinern.
5.png

• Mit der Schaltfläche mceclip1.png können Sie die Auswahl erweitern, d.h. Sie können die aktuelle Auswahl um das äußere HTML-Tag erweitern. Wenn Sie z. B. den gesamten Bereich um das ausgewählte Element herum extrahieren möchten, können Sie mehrmals auf die Schaltfläche "Erweitern" klicken, bis der gesamte Bereich grün hervorgehoben wird.

 

 

3. Überprüfen Sie den Arbeitsablauf


Während Sie mit der Erstellung der Scraping-Aufgabe fortfahren, erstellt Octoparse gleichzeitig einen Arbeitsablauf, der Ihrer Interaktion mit der Webseite und dem Tipps-Panel entsprechen.

Ein Beispiel-Workflow:

mceclip2.png

 

Ein paar Sachen, die Sie überprüfen sollten, bevor Sie eine Aufgabe ausführen:

1) Ob die Workflow-Aktionen richtig angeordnet sind.

Sie können die Aktionen des Workflows durch Ziehen und Ablegen an der richtigen Stelle neu anordnen.

workflow.gif

 

2) Ob eine Aktion mit weiteren Einstellungen optimiert werden muss.

Sie können überprüfen, ob jede Aktion richtig eingestellt ist, indem Sie mit dem Mauszeiger über die jeweilige Aktion fahren. Um die Einstellung einer Aktion zu ändern, klicken Sie auf mceclip4.png und nehmen bei Bedarf Änderungen vor.

 

setting.png

 

Tipps!

In diesem Tutorial erfahren Sie mehr darüber, wie Sie Ihren Arbeitsablauf Schritt für Schritt überprüfen können:

Lektion 4: Testen der Aufgabe

 



4. Ausführen der Aufgabe


Nachdem Sie die Erstellung und die Überprüfung Ihrer Aufgabe abgeschlossen haben, können Sie die Aufgabe ausführen, indem Sie auf die Schaltfläche "Run" klicken. Sie können die Aufgabe lokal auf Ihrem Gerät ausführen oder die in der Cloud ausführen.

6.png

 

Tipps!

Hier finden Sie einige Anleitungen darüber, wie Sie mit verschiedenen Strukturen der Webseiten umgehen können:


Erfahren Sie mehr unter Interaktiv mit Webseiten

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen