logo
languageDEdown
menu

Scrapen Amazon Produktrezensionen für die Sentiment-Analyse

4 Minuten lesen

Amazon ist eines der führenden E-Commerce-Unternehmen, das im Besitz von vielen Kundendaten ist. Wir können diese Kundendaten analysieren und eine klügere Strategie entwickeln, um unseren Service und unseren Umsatz zu steigern. In diesem Beitrag zeige ich Ihnen, wie Sie Bewertungen und zugehörige Informationen zu Amazon-Produkten scrapen und eine grundlegende Sentimentanalyse für die Bewertungen durchführen.

Wie scrapt man Amazon Produktrezensionen und -bewertungen?

Heutzutage sind fast alle Daten im Internet zu scrapen. Früher musste man Web-Scraping-Spezialisten einstellen, oder selbst den Code schreiben, um die wichtigen Daten zu erhalten. Heute kann jedoch jeder mithilfe von Web-Scraping-Tools einfach gewunschten Daten auslesen.

In diesem Beitrag erkläre ich mit einem einfachen Beispiel, wie Sie Rezensionen und Bewertungen mit dem Web-Scraping-Tool “Octoparse” erhalten und mit den Daten eine Stimmungsanalyse machen. Hier extrahiere ich die Bewertungen des Films “Me Before You”.

Lassen Sie uns zunächst einige Schritte unternehmen, um die Rezensionen auf Amazon zu scrapen.

✅ Schritt 1. Erstellen Sie eine Scraping-Aufgabe

  • Klicken Sie auf “New Task”. Und vervollständigen Sie dann die Informationen.

✅ Schritt 2. Öffnen Sie die Webseite

  • Geben Sie die Ziel-URL in das Suchfeld ein. Dann öffnet Octoparse die Webseite im integrierten Browser, so wie Sie Webseiten in anderen Browsern öffnen.
  • (https://www.amazon.com/Me-Before-You-Emilia-Clarke/product-reviews/B01GIIVF6K/ref=cm_cr_dp_d_show_all_btm?ie=UTF8&reviewerType=avp_only_reviews&sortBy=recent )

✅ Schritt 3. Stellen Sie das Umblättern ein, um auf die nächste Seite zu gelangen

  • Finden Sie die Schaltfläche “Next page”. Klicken Sie einfach auf die Schaltfläche „Nächste Seite“ und wählen Sie dann im Pop-up-Fenster “Loop click the element”.

✅ Schritt 4. Erstellen Sie ein “loop list” 

Um die Elemente in jedem Abschnitt zu extrahieren, müssen Sie ein “loop list” erstellen.

Bewegen Sie den Mauszeiger über den Abschnitt mit einem ähnlichen Layout, wo Sie Daten extrahieren möchten.

Klicken Sie auf den ersten Abschnitt

➜ Erstellen Sie eine Liste von Abschnitten mit einem ähnlichen Layout.

Klicken Sie auf “Create a list of items” (Abschnitte mit ähnlichem Layout).

➜ “Add current item to the list”.

Dann wurde der erste Abschnitt in die Liste aufgenommen.

➜ Klicken Sie auf “Continue to edit the list”.

Klicken Sie auf den zweiten Abschnitt

➜ Klicken Sie erneut auf “Add current item to the list”.

Jetzt erhalten wir alle Links mit ähnlichem Layout.

➜ Klicken Sie dann auf “Finish Creating List”

➜ Klicken Sie auf “loop”.

✅ Schritt 5. Wählen Sie die zu extrahierenden Daten aus und benennen Sie die Datenfelder um

Nun scrapen wir die Rezension und Bewertungen des Films.

  • Klicken Sie auf die Rezensionen ➜ Wählen Sie “Extract text”.
  • Führen Sie die gleichen Schritte aus, um die anderen Datenfelder zu extrahieren.
  • Benennen Sie die Feldnamen bei Bedarf um ➜ Klicken Sie auf „Save“.

Jetzt haben Sie die Erstellung einer Aufgabe in Octoparse abgeschlossen. Führen Sie die Aufgabe einfach auf dem lokalen Rechner aus, um die Daten zu erhalten.

Sentiment-Analyse in  Semantria

Jetzt haben wir die Daten erhalten, wie wir die analysieren? Natürlich können wir all diese Bewertungen durchlesen, um zu sehen, wie andere darüber denken, aber das würde ziemlich lange dauern. Deshalb führen wir eine Stimmungsanalyse durch.

Die Stimmungsanalyse ermöglicht es uns, die allgemeine Stimmung eines Textes zu ermitteln. Obwohl wir uns die Sternebewertungen ansehen könnten, stimmen diese nicht immer mit der Stimmung der Rezensionen überein. Die Stimmung wird mit drei verschiedenen Werten gemessen: ein negativer Wert steht für eine negative Stimmung, ein neutraler Wert für eine neutrale Stimmung und ein positiver Wert für eine positive Stimmung.

Hier habe ich das Sentiment-Tool Semantria verwendet, ein Plugin für Excel 2013. Semantria vereinfacht die Stimmungsanalyse und macht sie auch für Nicht-Programmierer zugänglich. Ich exportiere die extrahierten Daten in Excel (siehe die Ergebnisse unten).

Ich werde nur die ersten 100 Bewertungen analysieren, um Ihnen zu zeigen, wie Sie eine einfache Stimmungsanalyse durchführen können. Hier sind die Ergebnisse:

Die Spalte “Document Sentiment +/-” gibt mir die Gesamtstimmung jeder Bewertung an, d. h. ob sie positiv, negativ oder gemischt ist. Die Spalte “Document Sentiment” enthält die numerischen Werte, die mir sagen, wie positiv oder negativ jede Bewertung ist.

Die Informationen könnten durch die Erstellung eines Säulendiagramms deutlicher dargestellt werden.

Bei der Berechnung von Document Sentiment Value konnte man feststellen, dass die positiven Wahrnehmungen mit einem Wert von 26,89 viel höher sind als die anderen Wahrnehmungen, verglichen mit dem neutralen Wert 0,54, dem gemischten Wert 0,70 und dem negativen Wert -1,79. Angesichts der Gesamtbewertung 4,4 für den Film sind die Werte der verschiedenen Wahrnehmungen trotz kleiner Unterschiede sehr konsistent.

Um dies zu bestätigen, überprüfe ich weiter den Wert der Phasenstimmung.

Schauen wir uns das zusammen an.

Phrase SentimentPhrase Mentions Sentiment +/-
RatingnegativeneutralpositiveSum
2.0-0.5637298230.3926520050.6000000240.428922
4.0-14.945523056.09559649415.268272886.418346
5.0-31.1560202238.07776087131.7180169138.6398
Sum-46.665273144.56600937147.5862898145.487

Sie sehen hier eine große Übereinstimmung zwischen Sternen und Stimmung, obwohl der Bewertungsstern 5,0 den höchsten negativen Wert hat. Dies kann jedoch durch die Gesamtzahl der Bewertung 2,0 bedingt sein.

Vergleicht man die Verteilung der Bewertungen, so stellt man fest, dass die durchschnittliche Sternebewertung bei 5,0 liegt (positive Stimmung), was die hohe Übereinstimmung zwischen Sternen und Stimmung bestätigt.

Die obige Methode ist natürlich ein einfacher Ansatz, und es gibt eine Reihe anderer bekannter Methoden der Stimmungsanalyse, wie z. B. maschinelles Lernen. Die Stimmungsanalyse in diesem Beitrag ist eine ziemliche einfache Analyse. Sie können eine viel tiefgreifendere Analyse selbst erstellen.

Hier bekommen Sie Octoparse! 🤩

Preis: $0~$249 pro Monat

Packet & Preise:Octoparse Premium-Preise & Verpackung

Kostenlose Testversion: 14-tägige kostenlose Testversion

Herunterladen:Octoparse für Windows und MacOs

Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschlägen geben möchten, kontaktieren Sie bitte uns per E-Mail (support@octoparse.com). 💬

Autor*in: Das Octoparse Team ❤️

Themen untersuchen

Starten mit Octoparse heute

Download

Verwandte Artikel