undefined

Extract data  

Tuesday, July 27, 2021 2:45 PM

Was ist "Extract data"?

 

"Extract data" ist ein unverzichtbarer Schritt für eine Scraping-Aufgabe. Alle Datenfelder, die Sie benötigen, sind in diesem Schritt zu finden. Unter diesem Schritt können Sie Daten bereinigen, XPath modifizieren, die Reihenfolge ändern, Datenfelder kopieren, Datenfelder löschen usw.

 

Ohne diesen Schritt kann Ihre Aufgabe nicht ausgeführt werden.

 mceclip0.png

 

Wie kann man "Extract data" zum Workflow hinzufügen?

 

Es gibt zwei Möglichkeiten, einen "Extract data"-Schritt zu erzeugen.

 

1. Klicken Sie auf das Element auf der Webseite, um automatisch einen"Extract data"-Schrittzu generieren.

 

Wenn Sie Daten von einer Seite erfassen wollen, müssen Sie nur zuerst auf das Element klicken. Klicken Sie dann auf die Option "Extract......" im Bedienfeld "Tipps" und eine Aktion "Extract data" wird im Workflow angezeigt.

 

Die möglichen Optionen sind:

 

"Extract text/URL of the selected element"

"Extract the inner/outer HTML of the selected element"

"Extract data"

"Extract data in the loop"

......

 mceclip3.png

 

 

 

2. Hinzufügen "Extract data"im Workflow

 

Wenn Sie den Mauszeiger über den Workflow bewegen, wird ein Symbol mceclip1.png angezeigt. Klicken Sie auf das Symbol, um die Dropdown-Optionen abrufen, dann wählen Sie "Extract data", um diesen Schritt zum Workflow hinzuzufügen.

mceclip2.png

 

Aktionseinstellungen

 

 

Um weitere Einstellungen von Datenfeldern vorzunehmen, können Sie auf "Extract data" doppelklicken oder auf das Zahnradsymbol klicken:

 mceclip4.png

 

Nach der Öffnung der Aktioneinstellung werden Sie sehen, dass die Einstellungen aus 4 Teilen besteht.

 mceclip5.png

 

 

1. Extract data in the loop

 

Diese Option ist normalerweise aktiviert, wenn Sie Daten direkt aus einer Auflistungsseite extrahieren, anstatt in die Detailseite zu klicken, um Daten zu erfassen.

 

Hier ist ein Beispiel für eine Produktauflistungsseite.

mceclip6.png

 

Um mehr über das Extrahieren von Daten aus einer Auflistungsergebnisseite zu erfahren, lesen Sie bitte diese Anleitung:  Extract a list.

 

 

2. Define data fields

 

Hier finden Sie Datenfelder und können Aktionen wie Löschen, Verschieben oder Bereinigen durchführen. Außerdem können Sie zusätzliche Felder wie Extraktionszeit, aktuelle Seiten-URL usw. aus einer vordefinierten Liste hinzufügen.

 

Sie können hier auch den XPath eines bestimmten Datenfeldes überarbeiten, wenn es das Datenfeld nicht richtig lokalisiert hat.

mceclip7.png

 

Um besser zu verstehen, wofür diese Symbole stehen, sehen Sie sich die folgenden Details an:

 

mceclip9.png: Mehrere Datenfelder löschen

 

mceclip10.png: Datenfeld(er) aus einer Datendatei importieren [Octoparse extract config (*.oec)]

 

mceclip11.png: Datenfeld(er) in eine Datendatei exportieren [Octoparse extract config (*.oec)]

 

mceclip12.png: Datenfelder aus einer vordefinierten Liste hinzufügen usw. (Add pre-defined data fields)

 

mceclip13.png: XPath anpassen (Um mehr über XPath zu erfahren, lesen Sie bitte diese Anleitung: What is XPath and how to use it in Octoparse)

 

mceclip14.png: Mehr Aktionen 

 

   - Customize field: Hier können Sie auswählen, welche Informationen (Text, HTML, ein Attributwert oder eine URL) Sie extrahieren möchten. Um mehr darüber zu erfahren, lesen Sie bitte diese Anleitung: Extract element text/URL/image/HTML/attribute.

 

   - Clean data: um die Datenausgabe in die gewünschte Form zu bereinigen (z. B. Präfix, Suffix hinzufügen, die Zeit umwandeln, ersetzen usw.). Um mehr darüber zu erfahren, können Sie diese Anleitung lesen:  Re-format data extracted.

 

   - Combine data: zum Kombinieren desselben Datenfeldes aus anderen „Loop Items“. Um mehr darüber zu erfahren, lesen Sie bitte diese Anleitung:  Combine data extracted.

 

    - When data cannot be found: wenn ein Datenfeld leer ist, können Sie wählen, alle Felder leer zu lassen, dieses Feld leer zu lassen oder einen festen Wert zu verwenden.

 

     - Move field: um die Position eines bestimmten Datenfelds zu verschieben.

 

     - Copy: um ein bestimmtes Datenfeld zu kopieren

 

3. Trigger

Trigger wird verwendet, wenn Sie Daten basierend auf bestimmten Bedingungen extrahieren möchten.

 

Wenn zum Beispiel eine Datenzeile im Feld 1 nicht leer ist, wird diese Datenzeile nicht erfasst. Erfahren Sie weitere Details über Trigger.

 mceclip17.png

 

 

4. Before action is performed (Wartezeit einstellen)

Hier können Sie eine Wartezeit einstellen, bevor die Aktion ausgeführt wird.

 

Verschiedene Webseiten benötigen unterschiedliche Wartezeit, um Daten zu laden, deswegen Sie sollen manchmal eine Wartezeit oder Wartebedingungen einstellen, um der Webseite mehr Zeit zum Laden zu geben.

 

Lesen Sie die Anleitung und erfahren Sie mehr über die Einstellung der Wartezeit: Wait before action.

mceclip19.png

 

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen