Scraping der Tweets von einem Twitter-Konto
Wednesday, June 15, 2022 9:46 AMMit 211 Millionen täglich aktiven Nutzern hat sich Twitter im Social Media Marketing bewährt. Twitter-Benutzer posten durchschnittlich 6000 Tweets pro Sekunde, was über 500 Millionen Tweets pro Tag ausmacht. Alle der Tweets sind den Vermarkter, Marken, Forscher und Analysten ganz wertvolle Informationen für die Verbesserung ihrer Geschäften.
In diesem Tutorial erfahren Sie, wie man die Tweets-Daten von einem Twitter-Konto extrahieren kann. Dazu ist eine URL als Beispiel herausgegeben und die Ziedaten beziehen sich um die Namen und URLs von den Followers.Hier ist eine URL als Beispiel:https://twitter.com/search?q=Latest%20News&src=tyah
Überblick
Lösung 1: Verwenden Sie einfach die Aufgabenvorlage für Twitter auf dem Template Octoparse.
Lösung 1: Verwenden Sie einfach die Aufgabenvorlage für Twitter auf dem Template Octoparse.
Lösung 2: Erstellen Sie Ihre eigne Aufgabe für die Daten-Scraping von Twitter.
In diesem Teil erfahren Sie in Video oder Text deutliche Hinweise über den Ablauf einer Erstellung der Daten-Scraping-Aufgabe.
Video Tutorial
Text Tutorial
Hier ist ein Überblick über die Schritte.
Schritt 1: „Go To Web Page” - Öffnen Sie die Ziel-Webseite
Tipps!
Falls Sie Ihr Konto zuerst anmelden sollten, klicken Sie auf den Link und bekommen die Hinweise über Daten-Scraping nach dem Anmelden.
Schritt 2: Erstellen Sie ein „Loop Item”, um alle Elemente in allen Tweet-Blocks zu extrahieren.
• Klicken Sie auf das erste Tweet auf der Webseite und wählen Sie das ganze Tweet-Block. ( Der gewählte Bereich eines Tweet-Blocks wird in Grüne gezeigt. )
• Wählen Sie das zweite Tweet-Block weiter.
• Wählen Sie „Extract text of the selected elements” von Tips und ein Workflow für „Loop Item” wird erstellt.
Schritt 3: Erstellen Sie dann andere „Loop Item” für Scrollen der Webseite.
• Fügen Sie ein neues „Loop Item” (Loop Item 1) im Workflow.
• Schleppen Sie das erste „Loop Item” ins „Loop Item 1”.
• Klicken Sie auf „Loop Item 1” und stellen Sie seinem „Loop Mode” zu „Scroll Page”, um die ganze Webseite nachunten zu scrollen.
• Klicken Sie auf die Option „for one screen”.
• Stellen Sie den Wert von „Repeats” auf 100 und „Wait” auf 1s.
• Aktivieren Sie „Capture data as page scrolls dynamically (possibly duplicates)”.
• Klicken Sie auf „Apply” zum Bestätigen.
Schritt 4: Editieren Sie XPath der Artikel von jedem Tweet-Block, um es präzis zu lokalisieren.
• Klicken Sie auf „Loop Item” (NICHT „Loop Item 1”)
• Geben Sie XPath ein: //article[@role="article"]/../../..
• Klicken Sie auf „Apply” zum Bestätigen.
Schritt 5: Erstellen Sie Daten-Scraping, um die Daten von jedem Tweet-Block zu extahieren.
• Klicken Sie „Extract Data” und jedes Block wird in Rote.
• Wählen Sie dann „Extract the text of selected element”.
• Wählen und extrahieren Sie die Daten, sowie Name, Zeit, Text, Reply, Retweet, Likes u.s.w.
• Doppelklicken Sie auf die Header vom Datenvorschau und benennen die Datenfelder nach Bedarf um.
• Reinigen Sie die Daten von Post-Zeit der Tweets.
• Klicken Sie auf den Button „More”.
• Wählen Sie „Customize field”.
• Wählen Sie „Extract attribute”—„datetime”.
Schritt 6: Scraping starten, um die Aufgabe auszuführen und Daten zu erhalten.
• Klicken Sie auf „Save”.
• Klicken Sie auf „Run”.
• Wählen Sie „Run task on your device”, um die Aufgabe mit Ihrem lokalen Gerät auszuführen.
Tipps!
Twitter-Aufgaben können nur lokal ausgeführt werden, sonst wird Ihr Konto von Twitter blockiert.
Hier ist eine Datenausgabe als Beispiel.
Autor*in: Das Octoparse Team