undefined
Blog > Wissen > Post

Scrapen Amazon Produktrezensionen für die Sentiment-Analyse

Tuesday, October 12, 2021

 

Amazon ist eines der führenden E-Commerce-Unternehmen, das im Besitz von vielen Kundendaten ist. Wir können diese Kundendaten analysieren und eine klügere Strategie entwickeln, um unseren Service und unseren Umsatz zu steigern. In diesem Beitrag zeige ich Ihnen, wie Sie Bewertungen und zugehörige Informationen zu Amazon-Produkten scrapen und eine grundlegende Sentimentanalyse für die Bewertungen durchführen.

 

Wie scrapt man Amazon Produktrezensionen und -bewertungen

 

Heutzutage sind fast alle Daten im Internet zu scrapen. Früher musste man Web-Scraping-Spezialisten einstellen, oder selbst den Code schreiben, um die wichtigen Daten zu erhalten. Heute kann jedoch jeder mithilfe von Web-Scraping-Tools einfach gewunschten Daten auslesen.

 

In diesem Beitrag erkläre ich mit einem einfachen Beispiel, wie Sie Rezensionen und Bewertungen mit dem Web-Scraping-Tool "Octoparse" erhalten und mit den Daten eine Stimmungsanalyse machen. Hier extrahiere ich die Bewertungen des Films "Me Before You".

 

Lassen Sie uns zunächst einige Schritte unternehmen, um die Rezensionen auf Amazon zu scrapen.

 

Schritt 1. Erstellen Sie eine Scraping-Aufgabe

Klicken Sie auf “New Task”. Und vervollständigen Sie dann die Informationen.

amazon-scraping-tutorial-1

 

Schritt 2. Öffnen Sie die Webseite

 

Geben Sie die Ziel-URL in das Suchfeld ein. Dann öffnet Octoparse die Webseite im integrierten Browser, so wie Sie Webseiten in anderen Browsern öffnen.

(https://www.amazon.com/Me-Before-You-Emilia-Clarke/product-reviews/B01GIIVF6K/ref=cm_cr_dp_d_show_all_btm?ie=UTF8&reviewerType=avp_only_reviews&sortBy=recent )

scrape-amazon-reviews-and-ratings-1

 

Schritt 3. Stellen Sie das Umblättern ein, um auf die nächste Seite zu gelangen

 

Finden Sie die Schaltfläche “Next page”. Klicken Sie einfach auf die Schaltfläche „Nächste Seite“ und wählen Sie dann im Pop-up-Fenster “Loop click the element”.

scrape-amazon-reviews-and-ratings-2

 

 

Schritt 4. Erstellen Sie ein "loop list

 

Um die Elemente in jedem Abschnitt zu extrahieren, müssen Sie ein "loop list" erstellen.

 

Bewegen Sie den Mauszeiger über den Abschnitt mit einem ähnlichen Layout, wo Sie Daten extrahieren möchten.

 

Klicken Sie auf den ersten Abschnitt ➜ Erstellen Sie eine Liste von Abschnitten mit einem ähnlichen Layout. Klicken Sie auf "Create a list of items" (Abschnitte mit ähnlichem Layout). ➜ "Add current item to the list".

 

Dann wurde der erste Abschnitt in die Liste aufgenommen. ➜ Klicken Sie auf "Continue to edit the list".

 

Klicken Sie auf den zweiten Abschnitt ➜ Klicken Sie erneut auf "Add current item to the list". Jetzt erhalten wir alle Links mit ähnlichem Layout. ➜ Klicken Sie dann auf "Finish Creating List" ➜ Klicken Sie auf "loop".

 

Schritt 5. Wählen Sie die zu extrahierenden Daten aus und benennen Sie die Datenfelder um

 

Nun scrapen wir die Rezension und Bewertungen des Films.

Klicken Sie auf die Rezensionen ➜ Wählen Sie “Extract text”.

scrape-amazon-reviews-and-ratings-4

 

Führen Sie die gleichen Schritte aus, um die anderen Datenfelder zu extrahieren.

 

scrape-amazon-reviews-and-ratings-5

 

Benennen Sie die Feldnamen bei Bedarf um → Klicken Sie auf „Save“.

 

Jetzt haben Sie die Erstellung einer Aufgabe in Octoparse abgeschlossen. Führen Sie die Aufgabe einfach auf dem lokalen Rechner aus, um die Daten zu erhalten.

scrape-amazon-reviews-and-ratings-7

 

Wenn Sie daran interessiert sind, können Sie sich diese Beiträge/Videos über das Scraping von Amazon-Produktrezensionen ansehen, um Details zu erfahren.

 

Sentiment-Analyse in Semantria

 

Jetzt haben wir die Daten erhalten, wie wir die analysieren? Natürlich können wir all diese Bewertungen durchlesen, um zu sehen, wie andere darüber denken, aber das würde ziemlich lange dauern. Deshalb führen wir eine Stimmungsanalyse durch.

 

Die Stimmungsanalyse ermöglicht es uns, die allgemeine Stimmung eines Textes zu ermitteln. Obwohl wir uns die Sternebewertungen ansehen könnten, stimmen diese nicht immer mit der Stimmung der Rezensionen überein. Die Stimmung wird mit drei verschiedenen Werten gemessen: ein negativer Wert steht für eine negative Stimmung, ein neutraler Wert für eine neutrale Stimmung und ein positiver Wert für eine positive Stimmung.

 

Hier habe ich das Sentiment-Tool Semantria verwendet, ein Plugin für Excel 2013. Semantria vereinfacht die Stimmungsanalyse und macht sie auch für Nicht-Programmierer zugänglich. Ich exportiere die extrahierten Daten in Excel (siehe die Ergebnisse unten).

sentiment-analysis1

 

Ich werde nur die ersten 100 Bewertungen analysieren, um Ihnen zu zeigen, wie Sie eine einfache Stimmungsanalyse durchführen können. Hier sind die Ergebnisse:

sentiment-analysis-2

 

Die Spalte "Document Sentiment +/-" gibt mir die Gesamtstimmung jeder Bewertung an, d. h. ob sie positiv, negativ oder gemischt ist. Die Spalte "Document Sentiment" enthält die numerischen Werte, die mir sagen, wie positiv oder negativ jede Bewertung ist.

 

Die Informationen könnten durch die Erstellung eines Säulendiagramms deutlicher dargestellt werden.

sentiment-analysis-3

 

Bei der Berechnung von Document Sentiment Value konnte man feststellen, dass die positiven Wahrnehmungen mit einem Wert von 26,89 viel höher sind als die anderen Wahrnehmungen, verglichen mit dem neutralen Wert 0,54, dem gemischten Wert 0,70 und dem negativen Wert -1,79. Angesichts der Gesamtbewertung 4,4 für den Film sind die Werte der verschiedenen Wahrnehmungen trotz kleiner Unterschiede sehr konsistent.

sentiment-analysis-4

 

Um dies zu bestätigen, überprüfe ich weiter den Wert der Phasenstimmung.

 

Schauen wir uns das zusammen an.

Phrase Sentiment

Phrase Mentions Sentiment +/-

 

Rating

negative

neutral

positive

Sum

2.0

-0.563729823

0.392652005

0.600000024

0.428922

4.0

-14.94552305

6.095596494

15.26827288

6.418346

5.0

-31.15602022

38.07776087

131.7180169

138.6398

Sum

-46.6652731

44.56600937

147.5862898

145.487

 

Sie sehen hier eine große Übereinstimmung zwischen Sternen und Stimmung, obwohl der Bewertungsstern 5,0 den höchsten negativen Wert hat. Dies kann jedoch durch die Gesamtzahl der Bewertung 2,0 bedingt sein.

 

Vergleicht man die Verteilung der Bewertungen, so stellt man fest, dass die durchschnittliche Sternebewertung bei 5,0 liegt (positive Stimmung), was die hohe Übereinstimmung zwischen Sternen und Stimmung bestätigt.


Die obige Methode ist natürlich ein einfacher Ansatz, und es gibt eine Reihe anderer bekannter Methoden der Stimmungsanalyse, wie z. B. maschinelles Lernen. Die Stimmungsanalyse in diesem Beitrag ist eine ziemliche einfache Analyse. Sie können eine viel tiefgreifendere Analyse selbst erstellen.

 

Bearbeitet von: Milly

 

 

Laden Sie Octoparse herunter, um mit Web-Scraping zu beginnen, oder kontaktieren Sie uns
für die Fragen über Web Scraping!

Kontaktieren Sie uns Herunterladen
btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen