Alle Kollektionen
Octoparse Performance
Grundkenntnisse des Workflows
Scrapen und Herunterladen der Dateien aus Webseiten
Scrapen und Herunterladen der Dateien aus Webseiten
Vor über einer Woche aktualisiert

Sie folgen jetzt einem Tutorial für die neueste Version von Octoparse. Wenn Sie zur Zeit eine ältere Version verwenden, empfehlen wir Ihnen kräftig es, ein Upgrade zu machen, weil sie schneller, leichter und stärker ist! Herunterladen und Installierung eines Upgrades hier, wenn Sie nicht so bereits machen!

Die neueste Version führt die Funktion des Herunterladens von Dateien und Bildern auf lokale Geräte ein, so dass wir die Dateien und Bilder aus lokalen Ordnern direkt öffnen können. Derzeit werden Herunterladen von Dokumenten in den Formaten jpg, png, gif, doc, pdf, ppt, txt, xls und zip unterstützt.

In diesem Tutorial zeigen wir Ihnen, wie Sie Dateien und Bilder mit Octoparse herunterladen können. Bitte beachten Sie, dass Herunterladen von Dateien derzeit nur in lokalen Läufen verwendet werden können.


1. Herunterladen von Dateien

  • Schritt 1: Klicken Sie auf „PDF DOWNLOAD“ Button - Wählen Sie den Donwload-Button aus, den Sie herunterladen möchten. Das ausgewählte Element wird grün.

  • Schritt 2: Klicken Sie auf „Link“ unter „Daten extrahieren“ - Der Link von diesem Button wird als ein Datenfeld gescrapt.

  • Schritt 3: Klicken Sie auf „···“ oben rechts eines Feldes in der Datenvorschau - Wählen Sie danach „Dateien herunterladen“, um die Datei in Ihrem lokalen Ordner zu downloaden.

Das Datenfeld sieht dann wie unten abgebildet aus. Sie können auf das Symbol ... in der oberen rechten Ecke klicken, um die Datenfelder zu ändern.

NOTIZEN

  • Wenn Sie das Feld mit dem Ordnersymbol im Namen löschen, werden die Herunterladen-Einstellungen aufgehoben.

Download löschen
  • Name downloaded files: Es gibt fünf Möglichkeiten, die heruntergeladenen Dateien zu benennen. Sie können die Optionen in den Tipps sehen.

    • MD5 Hash Value: Verwenden Sie den MD5-Wert, um die Dateien zu benennen.

    • Original File Name: Standard-Originaldateiname

    • Download Complete Time: Benennen Sie die Dateien nach der vollständigen Downloadzeit.

    • Data Field Value: Verwenden Sie den Wert des Datenfeldes, um die Dateien zu benennen.

Name downloaded files
  • Alle Download-Dateien werden standardmäßig zu Octoparse-Ordner gespeichert. Sie können durch Aufgabeneinstellungen den Weg anpassen.


2. Herunterladen von Bildern

  • Schritt 1: Klicken Sie auf ein Bild - Wählen Sie ein Bild aus. Dann werden alle ähnlichen Bilder automatisch ausgewählt. Das ausgewählte Bild ist in Grün hervorgehoben und die anderen sind in Rot.

  • Schritt 2: Klicken Sie auf „Alle ähnlichen Elemente wählen“ unter Tipps - Wählen Sie alle Bilder aus.

  • Schritt 3: Passen Sie manuell den Matching-Xpath an - Wählen Sie "Daten extrahieren" und geben Sie diesen XPath in den Kasten von Gerenell ein: //li[@class="ad-listitem"]. Damit werden alle normalen Items ausgewählt. (Keine Anzeige und TOP-Items)

Notiz: Normalerweise benötigt man nicht manuell XPath hier anpassen. Aber hier möchten wir nur die normalen Items scrapen.

  • Schritt 4: Klicken Sie wieder auf das Bild - um sowohl Bild-URL als auch Bild-Datei scrapen.

Dann können Sie die Bilder auf Ihrem Gerät herunterladen!

Notiz: Nur vollständige URLs mit "https://" können direkt mit Octoparse heruntergeladen werden. Wenn der gescrapte URL-Wert nur ein Teil des vollständigen Download-Links ist, können Sie das Präfix hinzufügen oder andere Datenverfeinerungsfunktionen in der Funktion "Daten reinigen" verwenden, um die gültigen Download-Links zu erhalten.


3. Herunterladen von Einstellungen

3.1 Einstellungen zum Herunterladen von Dateien

  • Schritt 1: Klicken Sie auf das Pfeilsymbol neben dem Datenfeld.

Pfeilsymbol

  • Schritt 2: Sie können hier die heruntergeladenen Dateien umbenennen, mehrere URLs trennen und URLs zum Überspringen für die Herunterladen-Dateien eingeben.


3.2 Einstellungen zum Herunterladen von Ort

  • Schritt 1: Klicken Sie auf das Symbol für die Aufgabeneinstellungen in der oberen rechten Ecke des Bildschirms mit den Aufgabeneinstellungen - Da können Sie das Einstellungsfeld öffnen.

  • Schritt 2: Klicken Sie auf den Browser Button - Wählen Sie einen lokalen Ordner für die heruntergeladenen Dateien und Bilder

  • Schritt 3: Wählen Sie einen Modus für „Wenn ein lokaler Lauf startet“.

  • Schritt 4: Klicken Sie auf „Speichern“ - Speichern Sie alle Änderungen.

Hat dies Ihre Frage beantwortet?