Amazon-Daten-Scraping 2025: Python oder Octoparse – Vergleich der besten Lösungen

Stand Frühjahr 2025 liegt Amazons Anteil am deutschen B2C-Onlineumsatz – basierend auf den vollständigen 2024er Geschäftszahlen und der Hochrechnung der ersten beiden Quartale 2025 – bei rund 63 % [1]. Damit wird der digitale Marktplatz nicht nur für Händler, sondern auch für Analysten, Wettbewerbs‑Beobachter und Data‑Scientists zur zentralen Datenquelle. Preis‑Historien, Ranking‑Kurven, Lieferzeiten oder Rezensionstrends liefern wichtige Signale für Sortiments‑Entscheidungen, Dynamic‑Pricing‑Modelle und Sentiment‑Analysen. Doch der globale Versandriese hat in den vergangenen Jahren aufgerüstet und schützt sein Ökosystem zunehmend durch TLS‑Fingerprinting, signierte Header und ML‑getriebene Bot‑Erkennung [2]. Unternehmen müssen daher wählen zwischen einem flexiblen, aber wartungsintensiven Python‑Stack oder einer No‑Code‑Lösung wie Octoparse. Dieser Leitfaden erklärt beide Ansätze Schritt für Schritt, vergleicht ihre Stärken – und hilft Ihnen zu entscheiden, welcher Weg für Ihr Projekt der Beste ist.

Amazon‑Scraping mit Python

Python bleibt der Gold‑Standard für Data‑Engineering. Die Sprache verbindet mächtige Netzcrawl‑Bibliotheken (Requests, Scrapy, Playwright), eine gigantische Data‑Science‑Toolchain (pandas, Polars, DuckDB) und ausgereifte Cloud‑SDKs für AWS, Azure oder GCP (Bibliotheken, mit denen man Cloud‑Dienste direkt aus Python ansteuert). 2025 stehen darüber hinaus zahlreiche vorgefertigte Anti‑Bot‑Pakete bereit – etwa puppeteer‑stealth und cloudscraper‑h2 – die neue Amazon‑Checks wie JA3‑Fingerprints und HTTP/2‑Pseudo‑Headers zuverlässig abfangen.

Ein moderner Amazon-Crawler ähnelt heute eher einer digitalen Fertigungsstraße als einem einzelnen Skript: Jeder Abschnitt übernimmt eine klar abgegrenzte Aufgabe, damit der Gesamtprozess stabil und skalierbar bleibt. Die folgende Tabelle soll den Prozess musterhaft veranschaulichen: Der Entry Layer versteckt den Crawler, das Proxy-Mesh verteilt den Traffic, der Solver knackt Hindernisse, die Queue hält den Fluss stabil, der Data Lake bewahrt alle Rohdaten und das Monitoring stellt sicher, dass der Algorithmus 24/7 läuft.

Baustein	Was er tut	Warum er wichtig ist
Entry Layer (Play- wright / Chro- mium)	Startet einen sichtbaren oder „kopflosen“ Browser und imitiert dabei echte Nutzerspuren wie Bildschirmauflösung, installierte Schriften oder Mausbewegungen.	Verhindert, dass Amazons Bot-Filter den Crawler sofort enttarnt.
Proxy-Mesh	Leitet jeden Aufruf über ständig wechselnde Wohnhaus-IPs, unterstützt HTTP/2 und verteilt die Anfragen auf verschiedene Länder.	Amazon sieht so immer „neue“ Kunden aus echten Netzen – Geo-Targeting-Preisunterschiede bleiben erhalten und Blocklisten greifen seltener.
Solver-Service	Erkennt CAPTCHAs (Bild- oder Klick-Rätsel) automatisch und sendet sie an einen externen Dienst wie Anti-Captcha oder an ein Vision-Modell in AWS Bedrock.	Ohne gelöste CAPTCHAs bricht der Crawl schon auf Seite 1 ab.
Queue (Redis Streams / Kafka)	Legt alle zu scrapenden URLs in einer Warteschlange ab; mehrere Worker können sich parallel bedienen.	Verhindert Überlastung einzelner Server, sichert ab, dass keine URL verloren geht, und erlaubt stufenlosen Leistungsausbau.
Data Lake (S3 + Parquet, DuckDB)	Speichert Roh-HTML im spaltenorientierten Parquet-Format und fasst später Kennzahlen in DuckDB zusammen.	Rohdaten bleiben reproduzierbar erhalten; Analysten können jederzeit neue Kennzahlen berechnen, ohne erneut zu scrapen.
Monito- ring (Prome-theus + Grafana)	Erfasst laufend Fehlerquoten, Antwortzeiten und Kosten pro 1 000 Requests und stellt sie in Echtzeit-Dashboards dar	Teams erkennen sofort Blockierungen oder Kostenspitzen und können eingreifen, bevor der Crawler ausfällt oder zu teuer wird.

Architektur 2025 in der Praxis

Beispiel‑Spider (Scrapy + Playwright)

import scrapy
from scrapy_playwright.page import PageMethod

class AmazonSpider(scrapy.Spider):
    name = 'amazon2025'
    custom_settings = {
        'PLAYWRIGHT_BROWSER_TYPE': 'chromium',
        'PLAYWRIGHT_DEFAULT_NAVIGATION_TIMEOUT': 90_000,
        'DOWNLOAD_HANDLERS': {
            'http': 'scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler',
            'https': 'scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler',
        },
        'AUTOTHROTTLE_ENABLED': True,
        'AUTOTHROTTLE_START_DELAY': 1.0,
        'AUTOTHROTTLE_MAX_DELAY': 10.0,
    }
     # -------- Proxy‑Mesh (rotierende IPs) --------
     # meta={'proxy': 'http://user:pass@ip:port'} # <‑‑ hier Proxy rotation einschalten

    # -------- Solver‑Service (CAPTCHA) --------
    # hier würde man einen CAPTCHA‑Hook ergänzen


    def start_requests(self):
        search = 'usb+c+hub'
        url = f'https://www.amazon.de/s?k={search}&language=de_DE'
        yield scrapy.Request(
            url,
            meta={
                'playwright': True,
                'playwright_page_methods': [
                    PageMethod('wait_for_selector', 'div.s-result-item')
                ],
            },
            callback=self.parse_list,
        )
# -------- Queue / Persistenz würde hier folgen --------

    def parse_list(self, response):
        for product in response.css('div.s-result-item[data-asin]'):
            yield {
                'asin': product.attrib['data-asin'],
                'title': product.css('h2 span::text').get('').strip(),
                'price_eur': product.css('span.a-offscreen::text').re_first(r'[\d,.]+'),
                'rating': product.css('span.a-icon-alt::text').re_first(r'[\d,.]+'),
            }
        next_page = response.css('a.s-pagination-next::attr(href)').get()
        if next_page:
            yield response.follow(next_page, callback=self.parse_list, meta={'playwright': True})
    # -------- Data‑Lake & Monitoring in Pipelines / externen Jobs --------

Best Practices & Compliance

Beachten Sie Amazons AUP: kein Aufzeichnen sensibler Kunden‑ oder Verkäufer‑PII [3].
Requests < 1 RPS und exponentielles Backoff bei HTTP 429.
Nur notwendige Daten speichern (DSGVO‑Minimierung) [4].
Legitimes Interesse dokumentieren (Art. 6 Abs. 1 f DSGVO) [5].

Bottom Line:

Obwohl es ein allgemeines Skript gibt, kann dieses Skript sich ändern. Da unterschiedliche Anforderungen unterschiedliche Codeerstellungen und wiederholte Debuggingprozesse erfordern, ist dies sehr zeitaufwändig.

Alternative ohne Code: Mit wenigen Klicks Amazon-Daten scrapen

Octoparse ist ein benutzerfreundliches Web Scraping-Tool, das jeder unabhängig von seinen Programmierkenntnissen verwenden kann. Anstatt Skripte zu schreiben, können Sie mit wenigen Klicks einen Amazon Scraper erstellen. Darüber hinaus bietet Octoparse leistungsstarke Funktionen, die das Web-Scraping unkomplizierter und automatisierter gestalten – ganz gleich, welche Anforderungen Sie an die Datenerfassung haben.

Octoparse: Einfaches Web Scraping Tool für jede

Kostenloser Download

Anmeldung

Konvertiere Website-Daten direkt in Excel, CSV, Google Sheets und Ihre Datenbank.

Scrape Daten einfach mit Auto-Dedektion, ganz ohne Coding.

Scraping-Vorlagen für beliebte Websites, um Daten mit wenigen Klicks zu erhalten.

Mit IP-Proxys und fortschrittlicher API wird nie blockiert.

Cloud-Dienst zur Planung von Datenabfragen zu jedem gewünschten Zeitpunkt.

Voreingestellte Vorlagen

Octoparse bietet jetzt mehr als 500 Vorlagen zum Scrapen von Daten von bestimmten Websites. Vorlagen ermöglichen Ihnen das Extrahieren von Daten ohne Einrichtung durch Eingabe einiger erforderlicher Parameter. Für Amazon gibt es mehrere Vorlagen zum Scrapen von Preisen, Rezensionen, Bewertungen usw. aus verschiedenen Regionen. Sie können in der Vorlagengalerie von Octoparse nach „Amazon“ suchen, um die Scraper zu finden, die Ihren Anforderungen entsprechen. Oder probieren Sie direkt die unten stehende Online-Vorlage zum Scrapen von Amazon-Produktdaten aus.

https://www.octoparse.de/template/amazon-germany-review-scraper-mit-urls

https://www.octoparse.de/template/amazon-produkt-scraper-mit-schluesselwoerter

Web-Scraper in Octoparse einrichten – in drei Schritten zum Ziel

Schritt 1. URL einfügen: Kopieren Sie einfach die Adresse einer Amazon-Suchseite oder eines einzelnen Produkts in das Eingabefenster des neuen Projekts. Octoparse lädt die Seite in einem Mini-Browser, der intern wie ein vollwertiger Chrome arbeitet.

Schritt 2. Auto Detect anstoßen: Ein Klick auf „Auto Detect“ genügt – der Assistent scannt einmal durch das DOM (die zugrunde liegende HTML-Baumstruktur) und färbt alles ein, was er als Preis, Titel, Prime-Badge oder Lieferzeit erkennt. Das Ganze basiert auf Heuristiken für CSS-Klassennamen wie a-price oder s-result-item.

Schritt 3. Run Mode festlegen: Local Run ist ideal für einen schnellen Test auf Ihrem Rechner – ein paar Hundert Datensätze sind in Minuten erledigt. Für Dauerjobs oder große Volumina klicken Sie auf Cloud Run: Octoparse startet mehrere Headless-Browser in seiner eigenen Cloud, nutzt Rotating-Proxies sowie wechselnde User-Agents und liefert Ihnen die Daten per CSV, Excel-Sheet oder REST-/GraphQL-API.

Bottom Line: Nach drei kurzen Aktionen haben Sie einen vollwertigen Mini-Crawler gebaut, der jede neue Amazon-Seite nach demselben Muster abgrast – komplett ohne Python-Code, aber technisch sauber mit XPath, Regex und Proxy-Rotation im Gepäck.

Python vs. Octoparse – Schnellvergleich

Python

Lernkurve: Programmier‑ & DevOps‑Know‑how nötig

Update-Aufwand: Hohe Wartungskosten

Compliance-Kontrolle: Manuelle Einhaltung von Compliance-Standards

Vorteile:

Starke Community
Open Source

👍 Octoparse

Lernkurve: No Coding & Drag‑and‑Drop‑Workflow

Update-Aufwand: Visual Editor, weniger Maintenance

Compliance-Kontrolle: Automatische Compliance-Kontrolle, Einhaltung von Website-Richtlinien

Vorteile:

Benutzerfreundliche GUI
Kein Programmierkenntnis erforderlich
Cloud-basierte Lösung
Automatische Updates und Wartungsarbeiten
Compliance-Kontrolle

Rechtliche Rahmenbedingungen 2025

Seit Inkrafttreten des Digital Markets Act (DMA) im März 2024 gelten Amazon‑Produkt‑Daten als non‑personal user data. Das Scraping ist grundsätzlich zulässig, solange keine personenbezogenen Buyer‑Daten erfasst werden. Überschreiten Sie jedoch Amazons Richtwert von 1 Request pro Sekunde und IP (oder das global aggregierte Limit von 6 Mio. Requests pro Minute für die Product-Advertising-API), stuft Amazon den Traffic als potenziellen Denial-of-Service ein. Bewahren Sie deshalb Request‑Logs für 180 Tage auf, markieren Sie Consent‑Headers (x‑octo‑consent) und implementieren Sie ein Abuse‑Report‑Postfach [6].

Octoparse unterstützt das Festlegen von Zeitintervallen für die Datenextraktion und ermöglicht das automatische Wechseln von IP-Adressen, um das Risiko eines Blocks durch die Zielwebsite zu reduzieren und die Effizienz der Datenextraktion zu erhöhen.

Zusammenfassung

Durch die Nutzung der Leistungsfähigkeit von Python und Bibliotheken wie BeautifulSoup und Selenium können Sie wertvolle Daten von Amazon freischalten, um sie zu analysieren und umsetzbare Erkenntnisse zu gewinnen. Diese Methode erfordert Programmierkenntnisse und Erfahrung. Zudem kann die HTML-Struktur der Zielseiten den Scraping-Prozess beeinträchtigen, was zu hohen Wartungskosten führt.

Wenn Sie nach einer einfacheren und bequemeren Alternative suchen, sollte Octoparse in die engere Auswahl kommen. Es erfordert keine Programmierkenntnisse und bietet eine Lösung für automatisches Web Scraping. Neben diesen Optionen können Sie auch die Topliste der Amazon Scraper durchsehen , um einen zu finden, der Ihre Anforderungen zu 100 % erfüllt.

👍👍 Wenn Sie Interesse an Octoparse und Web Scraping haben, können Sie es zunächst 14 Tage lang kostenlos ausprobieren.

Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschlägen geben möchten, kontaktieren Sie bitte uns per E-Mail (support@octoparse.com). 💬

Quelle:

[1] Vgl. Handelsverband Deutschland – HDE e.V.; IFH Köln (Hrsg.): HDE-Online-Monitor 2025. Zahlen, Daten, Fakten zum E-Commerce in Deutschland. Berlin/Köln 2025, S. 25. URL: https://einzelhandel.de/online-monitor (abgerufen 27. 05. 2025).

[2] Vgl. u. a. Amazon Web Services: AWS Prescriptive Guidance – Implementing a Bot Control Strategy on AWS, Version 1.0, S. 5 ff. URL: https://docs.aws.amazon.com/prescriptive-guidance/latest/bot-control/bot-control.pdf (abgerufen 27. 05. 2025).

[3] Vgl. Amazon Seller Central – Acceptable Use Policy, Abschnitt „Prohibited Personal Data“, Version Februar 2025. URL: https://sellercentral.amazon.com/mws/static/policy?documentType=AUP&locale=de_DE (abgerufen 27. 05. 2025).

[4] EUR-Lex: Regulation (EU) 2016/679 – General Data Protection Regulation (GDPR), Art. 5 Abs. 1 lit. c. URL: https://eur-lex.europa.eu/eli/reg/2016/679/oj (abgerufen 27. 05. 2025).

[5] Vgl. DSGVO-Portal.de: GDPR Kapitel 2 – Artikel 6 „Rechtsmäßigkeit der Verarbeitung“, URL: https://www.dsgvo-portal.de/gdpr_article_6.php (abgerufen 27. 05. 2025).

[6] Vgl. Europäische Union – Verordnung (EU) 2022/1925 des Europäischen Parlaments und des Rates vom 27. September 2022 über faire und wettbewerbsfähige digitale Märkte (Digital Markets Act), Erwägungsgrund 9 und Art. 6 „Non-personal user data“. Amtsblatt der EU L 265, S. 1–66. Anwendung ab 7. März 2024. URL: https://eur-lex.europa.eu/eli/reg/2022/1925/oj (abgerufen 27. 05. 2025).