Daten Scraping von Bilder aus dem Bildkarussell
Monday, June 13, 2022 10:26 AMAuf vielen Produktswebseiten ist es manchmal ein Bildkarussell zu benutzen, um mehre Detail eines Produkts anzuzeigen. Und man kann nur nach einander auf die Bilder klicken, um die Informationen zu lesen. Wie das foldgende Bild zeigt:

In diesem Turotial erfahren Sie, wie die Bilder aus dem Bildkarussell erfasst werden können.
Lösung 1: Die Bild-URLs in einer Zeile
• Wählen Sie „Extract the URL of the selected image” von „Tipps”.
• Wiederholen Sie die Aktion „Extract the URL of the selected image” auf dem nachfolgenden Bild.
• Dann werden die Bild-URLs in einer Zeile dargestellt.

Lösung 2: Die Bild-URLs in einer Spalte.
• Klicken Sie zuerst auf das erste Bild.
• Klicken Sie weiter auf das zweite Bild, und wählen die Option „Extract image URLs”. Dabei wird ein Loop aktiviert.
• Dann werden die Bild-URLs in einer Spalte dargestellt.

Lösung 3: Die Bild-URLs in einer Zelle.
Methode 1: Kombinieren Sie die extrahierten Bild-URLs in eine Zeile.
Wenn Sie die Bild-URLs extrahiert und in einer Spalte gespeichert haben, können Sie die Daten anschließend kombinieren, um die Zeilen in einer einzigen Zeile zusammenzuführen.
• Klicken Sie auf „More” auf dem Datenfeld und dann „Merge multiple rows of data into one”.
Methode 2: Extrahieren Sie den HTML-Code des Karussells und passen Sie die Bild-URLs aus dem Code.
Schritt 1: Wählen Sie zuerst das Karussell aus, dann klicken Sie auf „Extract the outer HTML of the selected element”.

Schritt 2: Klicken Sie auf „More” auf dem Datenfeld und dann „Clean data”.

Schritt 3: Klicken Sie auf „Add Step” und dann „Matching with Regular Expression”.

Schritt 4: Überprüfen Sie den Code, um den Ausgangs- und Endwert der Bild-URLs zu finden.

Schritt 5: Klicken Sie auf „Try the ReEx tool”.

Schritt 6: Geben Sie den Startwert und den Endwert in „Start mit” und „Ende mit” ein, um RegEx zu erzeugen. Dann klicken Sie auf „Apply”.

Schritt 7: Kreuzen Sie „Match all” an und bestätigen Sie die Einstellung.

Autor*in: Das Octoparse Team