undefined

Batch-Input-URL (Version 8)  

Monday, August 02, 2021 11:54 AM

Was ist „Batch-Input-URL“?

Mit der Funktion „Batch-Input-URL“ können Sie eine große Anzahl von URLs in Octoparse importieren. Octoparse unterstützt Batch-Input-URL aus lokalen Dateien (Text oder Tabellenkalkulation), aus einer anderen Aufgabe. Außerdem können Sie mit Octoparse die URLs sogar auf der Grundlage eines vordefinierten Musters generieren.

 

Wie kann man die Funktion „Batch-Input-URL“ verwenden?

Klicken Sie auf "+New", um eine neue Aufgabe zu erstellen, wählen Sie "Advanced Mode", dann werden Sie das URL-Import-Panel finden.

 t1.gif

 

Es gibt drei Möglichkeiten, mehrere URLs in eine einzelne Aufgabe/einen Crawler zu importieren (bis zu einer Million URLs):

1)URLs aus einer Datei importieren

 

2) URLs aus einer anderen Aufgabe importieren

 

3) URLs auf der Grundlage eines vordefinierten Musters generieren

 

Tipps!

Sobald die Anzahl der importierten/generierten URLs die Grenze von 1 Million erreicht, wird Octoparse den Import/die Generierung sofort stoppen.

 

 

1) URLs aus einer Datei importieren

Sie können URLs aus jedem der folgenden Dateiformate importieren,

 

- CSV

 

- TXT

 

- Excel (.xlsx & .xls)

 

1. Wählen Sie "Import from file".

2. Klicken Sie auf "Select", wählen Sie die Datei mit den URLs aus, dann die Zeile und die Spalte, die URLs enthalten.

3. Klicken Sie auf "Save", um den Importvorgang abzuschließen.

1234.png

 

Hinweis: Es werden nur die ersten 100 URLs in der Vorschau angezeigt.

 

 

2) URLs aus einer anderen Aufgabe importieren

Diese Funktion ermöglicht es, zwei Aufgaben nahtlos zu integrieren, wenn die URL-Extraktion separat mit einer anderen Aufgabe durchgeführt werden muss. Es ist kein manueller URL-Export und -Import mehr erforderlich.

 

1. Wählen Sie "Import from task".

2. Wählen Sie die Aufgabe, die die Ziel-URLs enthält, und geben Sie dann das entsprechende Datenfeld an.

3. Klicken Sie auf "Save", um den Importvorgang abzuschließen.

t5.gif

 

Beachten Sie, dass die ausgewählte Aufgabe (diejenige, die die für das weitere Crawling benötigten URLs enthält) als übergeordnete Aufgabe bezeichnet wird und die neue Aufgabe, die mit den URLs konfiguriert werden soll, zur untergeordneten Aufgabe wird. Die beiden Aufgaben werden automatisch miteinander verknüpft und können gemeinsam ausgeführt werden.

 

Tipps!

1. Sie können festlegen, dass die untergeordnete Aufgabe entsprechend dem Status der übergeordneten Aufgabe in der Cloud ausgeführt wird. Wenn Sie eine verbundene Ausführung einrichten, indem Sie eine Option in den Einstellungen der übergeordneten Aufgabe auswählen, werden beide Aufgaben in der Cloud  ausgeführt. Für verknüpfte Ausführung ist die lokale Extraktion  nicht verfügbar.

2020-07-29_21-14-17.png

 

 

2. Wenn eine verknüpfte Ausführung eingerichtet ist, ist die Aufgabenplanung  für die Ausführung der untergeordneten Aufgabe nicht verfügbar.

 

 

3) URLs auf der Grundlage eines vordefinierten Musters generieren

Mit der Funktion "Batch generate" können Sie problemlos URLs nach bestimmten Mustern generieren, indem Sie verschiedene Parameter einer bestimmten URL ändern.

 

1. Wählen Sie "Batch generate".

2. Geben Sie eine URL als Basis für die Generierung ein.

3. Markieren Sie den ausgewählten URL-Parameter, und klicken Sie auf "Add parameter".

4. Wählen Sie einen Parametertyp, umdas gewünschte Muster zu definieren und klicken Sie auf "Save URL", um die Liste zu speichern.

t6.gif

 

Vier Optionen für den Parametertyp

 

    - Typ 1: Number

mceclip0.png

    - Typ 2: Letter

mceclip1.png

 

 

    - Typ 3: Time

mceclip2.png

 

 

    - Typ 4: Custom list

mceclip3.png

 

 

 

Tipps!

 

Sie können mehrere Parameter festlegen, um URLs zu generieren. Wenn die Basis-URL zum Beispiel www.XXX.com/[parameter1]/[parameter2] lautet:

 

Parameter1={A, B}, Parameter2={1, 2}

 

Die endgültige URL-Liste würde wie folgt aussehen:

 

www.XXX.com/A/1

 

www.XXX.com/B/1

 

www.XXX.com/A/2

 

www.XXX.com/B/2

 

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen