Batch-Input-URL (Version 8)
Monday, August 02, 2021 11:54 AMWas ist „Batch-Input-URL“?
Mit der Funktion „Batch-Input-URL“ können Sie eine große Anzahl von URLs in Octoparse importieren. Octoparse unterstützt Batch-Input-URL aus lokalen Dateien (Text oder Tabellenkalkulation), aus einer anderen Aufgabe. Außerdem können Sie mit Octoparse die URLs sogar auf der Grundlage eines vordefinierten Musters generieren.
Wie kann man die Funktion „Batch-Input-URL“ verwenden?
Klicken Sie auf "+New", um eine neue Aufgabe zu erstellen, wählen Sie "Advanced Mode", dann werden Sie das URL-Import-Panel finden.
Es gibt drei Möglichkeiten, mehrere URLs in eine einzelne Aufgabe/einen Crawler zu importieren (bis zu einer Million URLs):
1)URLs aus einer Datei importieren
2) URLs aus einer anderen Aufgabe importieren
3) URLs auf der Grundlage eines vordefinierten Musters generieren
Tipps!
Sobald die Anzahl der importierten/generierten URLs die Grenze von 1 Million erreicht, wird Octoparse den Import/die Generierung sofort stoppen.
1) URLs aus einer Datei importieren
Sie können URLs aus jedem der folgenden Dateiformate importieren,
- CSV
- TXT
- Excel (.xlsx & .xls)
1. Wählen Sie "Import from file".
2. Klicken Sie auf "Select", wählen Sie die Datei mit den URLs aus, dann die Zeile und die Spalte, die URLs enthalten.
3. Klicken Sie auf "Save", um den Importvorgang abzuschließen.
Hinweis: Es werden nur die ersten 100 URLs in der Vorschau angezeigt.
2) URLs aus einer anderen Aufgabe importieren
Diese Funktion ermöglicht es, zwei Aufgaben nahtlos zu integrieren, wenn die URL-Extraktion separat mit einer anderen Aufgabe durchgeführt werden muss. Es ist kein manueller URL-Export und -Import mehr erforderlich.
1. Wählen Sie "Import from task".
2. Wählen Sie die Aufgabe, die die Ziel-URLs enthält, und geben Sie dann das entsprechende Datenfeld an.
3. Klicken Sie auf "Save", um den Importvorgang abzuschließen.
Beachten Sie, dass die ausgewählte Aufgabe (diejenige, die die für das weitere Crawling benötigten URLs enthält) als übergeordnete Aufgabe bezeichnet wird und die neue Aufgabe, die mit den URLs konfiguriert werden soll, zur untergeordneten Aufgabe wird. Die beiden Aufgaben werden automatisch miteinander verknüpft und können gemeinsam ausgeführt werden.
Tipps!
1. Sie können festlegen, dass die untergeordnete Aufgabe entsprechend dem Status der übergeordneten Aufgabe in der Cloud ausgeführt wird. Wenn Sie eine verbundene Ausführung einrichten, indem Sie eine Option in den Einstellungen der übergeordneten Aufgabe auswählen, werden beide Aufgaben in der Cloud ausgeführt. Für verknüpfte Ausführung ist die lokale Extraktion
nicht verfügbar.
2. Wenn eine verknüpfte Ausführung eingerichtet ist, ist die Aufgabenplanung für die Ausführung der untergeordneten Aufgabe nicht verfügbar.
3) URLs auf der Grundlage eines vordefinierten Musters generieren
Mit der Funktion "Batch generate" können Sie problemlos URLs nach bestimmten Mustern generieren, indem Sie verschiedene Parameter einer bestimmten URL ändern.
1. Wählen Sie "Batch generate".
2. Geben Sie eine URL als Basis für die Generierung ein.
3. Markieren Sie den ausgewählten URL-Parameter, und klicken Sie auf "Add parameter".
4. Wählen Sie einen Parametertyp, umdas gewünschte Muster zu definieren und klicken Sie auf "Save URL", um die Liste zu speichern.
Vier Optionen für den Parametertyp
- Typ 1: Number
- Typ 2: Letter
- Typ 3: Time
- Typ 4: Custom list
Tipps!
Sie können mehrere Parameter festlegen, um URLs zu generieren. Wenn die Basis-URL zum Beispiel www.XXX.com/[parameter1]/[parameter2] lautet:
Parameter1={A, B}, Parameter2={1, 2}
Die endgültige URL-Liste würde wie folgt aussehen:
www.XXX.com/A/1
www.XXX.com/B/1
www.XXX.com/A/2
www.XXX.com/B/2