logo
languageDEdown
menu

5 Schritte zum Scraping multipler Bilder mit Python

5 Minuten lesen

Einführung

Das automatisierte Extrahieren mehrerer Bilder aus Websites hat viele praktische Anwendungen, egal ob Sie Bilder für Marktforschung, Produktlisten für den elektronischen Handel, Datensätze für maschinelles Lernen oder andere Projekte benötigen. Dank Python-Bibliotheken und visuellen Web-Scraping-Tools ist es heute ein Leichtes, Hunderte oder sogar Tausende von Bildern innerhalb weniger Minuten aus dem Internet zu extrahieren.

In diesem Artikel werden wir zwei effektive Methoden für das Scrapen mehrerer Bilder in großem Umfang vorstellen: die Verwendung von Python-Bibliotheken und die Verwendung des visuellen Web Scrapers Octoparse. Jeder Ansatz hat seine Vor- und Nachteile, aber beide ermöglichen ein effizientes Crawling von Bildern aus Websites.

Option 1: Verwendung von Python-Bibliotheken

Der flexibelste Ansatz für das Scraping mehrerer Bilder ist die Codierung eines Python-Skripts, das Bibliotheken wie Beautiful Soup und Requests verwendet. Hier sind die grundlegenden Schritte:

Schritt 1: Installieren Sie die erforderlichen Python-Bibliotheken

pip install beautifulsoup4 
pip install requests
pip install pillow # For saving images

Schritt 2: Stellen Sie eine GET-Anfrage an die URL der Website

import requests
url = "https://www.website.com"
response = requests.get(url)

Schritt 3: Parsen des HTML mit Beautiful Soup

from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, "html.parser")

Schritt 4: Alle <img>-Tags auf der Seite finden

images = soup.find_all("img")

Schritt 5: Durchlaufen Sie jeden <img>-Tag und extrahieren Sie die Bild-URL aus dem ‘src’-Attribut

for image in images:
    img_url = image['src']

Vorteile:

  • Volle Kontrolle und Anpassungsmöglichkeiten
  • Flexibilität bei der Anpassung des Skripts für verschiedene Websites

Nachteile:

  • Erfordert Programmierkenntnisse in Python
  • Weniger benutzerfreundlich als ein visuelles Tool

Beispiel: Scraping von Amazon-Produktbildern mit Python

Amazon verfügt über Tausende von Produkten mit einer großen Anzahl von hochauflösenden Bildern, die das Produkt aus verschiedenen Blickwinkeln, in verschiedenen Farben/Varianten und vergrößert auf bestimmte Details zeigen. Ein E-Commerce-Unternehmen könnte vom Scraping einiger dieser Produktbilder für die folgenden Zwecke profitieren:

  • Marktforschung: Analyze how competitors display and describe similar products visually.
  • Produktinspiration: Get new product ideas by seeing related items Amazon recommends.
  • Datenwissenschaft: Erstellen Sie Bilddatensätze für das Training von Machine-Learning-Modellen.

Das Python-Skript könnte wie folgt aufgebaut sein:

  1. Geben Sie eine Amazon Produkt-URL an (z.B. Küchenarmaturen)
  2. Analysieren Sie den HTML-Code der Produktseite
  3. Extrahieren Sie alle <img>-Tags innerhalb des Hauptabschnitts “Produktbilder”.
  4. Führen Sie eine Schleife durch diese Bild-URLs und laden Sie sie herunter:
  • Hauptbild
  • Bilder der primären Variante
  • Vergrößerte Bilder
  1. Speichern Sie die Bilder in separaten Ordnern mit den Bezeichnungen “Haupt”, “Varianten” und “gezoomt”.
  2. Beheben Sie eventuelle Fehler und fahren Sie mit dem Scraping der nächsten Produktseiten-URL fort.

Hier ist ein Beispiel für Python-Code zum Scrapen mehrerer Bilder von Amazon-Produktseiten:

import requests
from bs4 import BeautifulSoup 
import os

# Specify Amazon product URL
url = "https://www.amazon.com/gp/product/B000LFX2RO"

# Make request and parse HTML
resp = requests.get(url)
soup = BeautifulSoup(resp.text, "html.parser")

# Find product image sections
main_images = soup.find(id="pp-product-feature-div")  
variants = soup.find(id="altImages")
zoomed = soup.find(id="dp-tile-image-accordion")

# Loop through each image section    
for section in [main_images, variants, zoomed]:
    
  # Extract all <img> tags
  img_tags = section.find_all("img")
    
  for img in img_tags:
        
    # Get image URL from src attribute  
    img_url = img.get("src")
        
    # Download image   
    img_data = requests.get(img_url).content
            
    # Save image with unique name     
    img_name = img_url.split("/")[-1]   
    img_path = os.path.join("images", img_name) 
    with open(img_path, "wb") as f:
        f.write(img_data)

Option 2: Verwendung von Octoparse

Für Benutzer ohne Programmierkenntnisse ist Octoparse ein visueller Web Scraper, der verwendet werden kann, um mehrere Bilder von Websites mit einem einfachen Drag-and-Drop-Prozess zu scrapen. Einige der wichtigsten Vorteile von Octoparse für das Scrapen von Bildern sind:

  • Einfache Schnittstelle: Keine Kodierung erforderlich. Fügen Sie einfach die URL der Webseite hinzu und wählen Sie Bildelemente mit CSS/XPath-Selektoren aus.
  • Automatisches Herunterladen: Konfigurieren Sie, wie die gescrapten Bilder gespeichert und benannt werden sollen. Octoparse wird alle angegebenen Bilder automatisch herunterladen.
  • Verarbeitet JS-gerenderte Seiten: Da Octoparse die Webseite tatsächlich in einem Browser öffnet, kann es dynamisch geladene und JS-gerenderte Inhalte scrapen.
  • Integriert sich in Business-Tools: Exportiert gescrapte Bilder direkt in Google Drive, Dropbox, Airtable und andere Dienste zur weiteren Verwendung.

Zusammenfassung

Die Möglichkeit, auf einfache Weise mehrere Bilder von Websites zu scrapen, ermöglicht viele Anwendungsfälle. Während Python-Bibliotheken volle Flexibilität bieten, rationalisiert ein visueller Scraper wie Octoparse den Prozess für nicht-technische Benutzer. Octoparse automatisiert Aufgaben wie das Auswählen von Bildern, das Herunterladen von Fotos und die Integration mit Business-Tools – und macht Web Scraping so einfach wie das Einfügen einer URL und die Angabe einiger Details. Wenn Sie eine schnelle, codefreie Lösung für das Scraping einer großen Anzahl von Bildern benötigen, können Sie Octoparse kostenlos testen. Extrahieren Sie relevante Produktfotos, Forschungsbilder und mehr mit einer einfachen Drag-and-Drop-Oberfläche.

Hier bekommen Sie Octoparse! 🤩

Preis: $0~$249 pro Monat

Packet & Preise:Octoparse Premium-Preise & Verpackung

Kostenlose Testversion: 14-tägige kostenlose Testversion

Herunterladen:Octoparse für Windows und MacOs

Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschlägen geben möchten, kontaktieren Sie bitte uns per E-Mail (support@octoparse.com). 💬

Autor*in: Das Octoparse Team ❤️

Themen untersuchen

Starten mit Octoparse heute

Download

Verwandte Artikel

  • avatarChristel Kiesel
    In diesem Artikel bieten wir Ihnen eine Schritt-für-Schritt-Anleitung, damit Sie einen Web-Crawler mit Python bauen können.
    30. April 2023 · 4 Minuten lesen
  • avatarChristel Kiesel
    Das Scraping der Börsendaten von Finanz-Websites wie Yahoo Finance ist einfach. Wenn Sie dieses Tutorial zu Ende gelesen haben, können Sie in 10 Minuten einen Scraper für Börsendaten erstellen.
    23. Februar 2023 · 4 Minuten lesen
  • avatarNeela Schmidt
    Datensammlung bezieht sich auf den Prozess der Erfassung von Daten aus verschiedenen Quellen, um Informationen zu sammeln und zu speichern. Dies kann manuell oder automatisch erfolgen und beinhaltet in der Regel das Sammeln von Informationen wie Namen, Adressen, Telefonnummern, E-Mail-Adressen, demografischen Informationen oder anderen relevanten Daten. Und Datensammlung kann für verschiedene Zwecke durchgeführt werden, wie zum Beispiel für Marktforschung, Kundenbeziehungsmanagement, Datenanalyse, wissenschaftliche Forschung oder zur Verbesserung der Dienstleistungen oder Produkte. Es gibt verschiedene Methoden, um Daten zu sammeln, wie z.B. Umfragen, Interviews, Beobachtungen, Webanalyse oder Datenbanken. Es ist wichtig zu beachten, dass bei der Datensammlung Datenschutz- und Ethikrichtlinien eingehalten werden müssen, um sicherzustellen, dass die Privatsphäre und die Rechte der betroffenen Personen geschützt werden.
    23. Februar 2023 · 5 Minuten lesen
  • avatarChristel Kiesel
    Wie kann man Bilder kostenlos herunterladen? Angesichts der erhaltenen Anfragen habe ich mich entschlossen, eine "Top 5 Bulk Image Downloader" Liste zu erstellen. Schauen Sie sich unbedingt diesen Artikel an, wenn Sie Bilder herunterladen möchten.
    06. Dezember 2022 · 3 Minuten lesen