Wie extrahiert man Daten aus Twitter ohne Kodierung

4 Minuten lesen

In diesem Tutorial zeige ich Ihnen, wie Sie Twitter-Daten in 3 Minuten scrapen können, ohne die Twitter-API, Tweepy oder Python zu verwenden und keine einzige Zeile Code zu schreiben.

Um Daten aus Twitter zu extrahieren, können Sie ein automatisiertes Web-Scraping-Tool verwenden – Octoparse. Octoparse simuliert die menschliche Interaktion mit einer Webseite, und ermöglicht Ihnen, alle Informationen auf einer beliebigen Website zu extrahieren, wie z. B. Twitter. So können Sie beispielsweise ganz einfach Tweets eines Benutzers, Tweets, die bestimmte Hashtags enthalten oder innerhalb eines bestimmten Zeitraums gepostet wurden, usw. extrahieren. Sie brauchen nur die URL Ihrer Zielwebseite zu erfassen und die in den in Octoparse integrierten Browser einzufügen. Mit ein paar Mausklicks können Sie einen Crawler von Grund auf selbst erstellen. Wenn die Extraktion abgeschlossen ist, können Sie die Daten in Excel-Tabellen, CSV, HTML oder SQL exportieren oder sie über die Octoparse-APIs in Echtzeit in Ihre Datenbank exportieren.

Bevor wir loslegen, können Sie hier klicken, um Octoparse auf Ihrem Computer zu installieren. Schauen wir uns jetzt an, wie man einen Twitter-Crawler innerhalb von 3 Minuten erstellt.

Schritt 1: Geben Sie die URL ein und erstellen Sie das Umblättern

Relative Artikel: Daten Scraping mit Web-Scrollen

Nehmen wir an, dass wir versuchen, alle Tweets eines bestimmten Benutzers zu crawlen. In diesem Fall scrapen wir den offiziellen Twitter-Account von Octoparse. Sie können beobachten, dass die Website im integrierten Browser geladen wird. Normalerweise haben viele Websites eine Schaltfläche „Nächste Seite“. Octoparse kann auf die Schaltfläche klicken, um weitere Inhalte zu erhalten. In diesem Fall wendet Twitter jedoch die Technik namens „unendliches Scrollen“ an. Wegen der Technik müssen Sie zuerst die Seite nach unten scrollen, damit Twitter ein paar weitere Tweets laden kann, und dann die auf dem Bildschirm angezeigten Daten extrahieren. Der endgültige Extraktionsprozess läuft also folgendermaßen ab: Octoparse scrollt die Seite ein wenig herunter, extrahiert die Tweets, scrollt ein wenig herunter, extrahiert, und so weiter und so fort.

Um den Bot die Seite wiederholt nach unten scrollen zu lassen, können wir das Umblättern erstellen, indem wir auf den leeren Bereich klicken und „loop click single element“ im Tipps-Panel anklicken. Dann wird im Workflow-Bereich eine Paginierungsschleife angezeigt, was bedeutet, dass wir erfolgreich das Umblättern eingestellt haben.

Schritt 2: Erstellen Sie „Loop Item“, um die Daten zu extrahieren

Relative Artikel: Funktionvorstellung von „Loop Item“

Jetzt wollen wir Tweets extrahieren. Angenommen, wir möchten die folgenden Informationen extrahieren möchten: der Name, die Veröffentlichungszeit, der Textinhalt, die Anzahl der Kommentare, Retweets und Likes.

Zunächst erstellen wir eine Extraktionsschleife, um die Tweets abzurufen. Wir können mit dem Cursor auf die Ecke des ersten Tweets klicken. Wenn der gesamte Tweet grün hervorgehoben wird, bedeutet dies, dass der ausgewählt ist. Wiederholen Sie diesen Vorgang für den zweiten Tweet. Octoparse hat automatisch alle folgenden Tweets ausgewählt. Klicken Sie auf „extract text of the selected elements“ und eine Extraktionsschleife wird in den Workflow eingebaut.

Da wir verschiedene Datenfelder in separate Spalten extrahieren wollen, müssen wir die Extraktionseinstellungen ändern, und die Zieldaten manuell auszuwählen. Dies ist sehr einfach. Finden Sie unter „action setting“ den Schritt „extract data“. Klicken Sie auf den Namen des Benutzers und dann auf „extract the text of the selected element“. Wiederholen Sie diese Aktion, um alle gewünschten Datenfelder zu wählen. Wenn Sie fertig sind, löschen Sie die erste Spalte, die wir nicht brauchen, und speichern Sie den Crawler.

Schritt 3: Ändern Sie die Einstellung des Umblätterns und führen Sie den Crawler aus

Wir haben bereits eine Paginierungsschleife erstellt, aber wir müssen noch eine kleine Änderung an der Workflow-Einstellung vornehmen. Da wir wollen, dass Twitter den Inhalt vollständig lädt, bevor der Bot ihn extrahiert, stellen wir eine AJAX-Wartezeit auf 5 Sekunden ein, damit Twitter nach jedem Scrollen 5 Sekunden Zeit zum Laden hat. Dann legen wir sowohl die Scroll-Wiederholungen als auch die Wartezeit auf 2 fest, um sicherzustellen, dass Twitter den Inhalt erfolgreich lädt. Jetzt wird Octoparse jedesmal 2 Bildschirme nach unten scrollen, und jeder Bildschirm wird 2 Sekunden dauern.

Gehen Sie zurück zu den Einstellungen für „Loop Item“ und ändern Sie „loop time“ auf 20. Dies bedeutet, dass der Bot das Scrollen 20 Mal wiederholt. Sie können den Crawler nun auf Ihrem lokalen Gerät ausführen, um die Daten zu erhalten, oder ihn auf den Octoparse-Cloud-Servern ausführen, damit Sie Ihre Aufgaben planen und Ihre lokalen Ressourcen sparen können. Beachten Sie, dass die leeren Zellen in den Spalten bedeuten, dass es keine Originaldaten auf der Seite gibt, also nichts extrahiert wird.

Hier bekommen Sie Octoparse! 🤩

Preis: $0~$249 pro Monat

Packet & Preise:Octoparse Premium-Preise & Verpackung

Kostenlose Testversion: 14-tägige kostenlose Testversion

Herunterladen:Octoparse für Windows und MacOs

Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschlägen geben möchten, kontaktieren Sie bitte uns per E-Mail (support@octoparse.com). 💬

Autor*in: Das Octoparse Team ❤️

Themen untersuchen

Starten mit Octoparse heute

Verwandte Artikel

  • avatarNeela Schmidt
    Seit Jahren kommt E-Commerce mit dem rasanten Wachstum der globalen Wirtschaft zu einem Schlagwort. Alle Unternehmen bestreben sich daran, das Online Geschäft durch Amazon, eBay sowie Tiktok zu entwickeln und vergrößern. Und es ist auch ein dringender Trend, sich konkurrenzfähiger als anderen zu machen. Aber wodurch kann man das Ziel erreichen? Hier gibt es eine Lösung: die Daten. Es ist so zu sagen, dass die Daten, die bei allen Veranstaltungen von Kaufen und Verkaufen auf Internet entstanden sind, zu dem Schlüssel geworden ist. Man kann durch Analysieren solcher Daten Marketingstrategie treffen und Geschäft verbessern. In diesem Artikel erfahren Sie, wie man mit Hilfe der Web Scraping Tool die Daten aus E-Commerce Website extrahieren kann.
    10. Januar 2023 · 5 Minuten lesen
  • avatarNeela Schmidt
    Heutzutage wird PDF häufig verwenden zum Lesen, Präsentieren und für viele andere Zwecke. Viele Websites speichern Daten auch in einer PDF-Datei, die man herunterladen kann. Sie können PDF-Dateien ganz einfach anzeigen, speichern und drucken. Aber wenn Sie die PDF Datei extrahieren möchten, ist es immer ein Problem. Daher ist es schwierig, eine PDF-Datei zu bearbeiten und Daten draus zu exportieren. Glücklicherweise gibt es einige Lösungen, um Daten aus PDF zu extrahieren, und wir werden die in diesem Beitrag vorstellen.
    12. Dezember 2022 · 2 Minuten lesen
  • avatarNeela Schmidt
    Es wird immer wichtiger, Daten über Ihre Konkurrenten und die gesamte Branche zu erhalten, damit Sie bessere Marketingforschung und -analyse betreiben können. In diesem Artikel stellen wir Ihnen vor, wie Sie Hotel data Scraper können, insbesondere Hotelpreise.
    09. Dezember 2022 · 4 Minuten lesen
  • avatarNeela Schmidt
    Wie erfasst man Daten von Websites? Mit der Technologie des Web Scrapings, der Automatisierung und der RPA kann die Datenerfassung viel tiefer gehen, als nur Kopien von Daten zusammenzustellen. In diesem Artikel würden Sie für die Datenerfassung ein tiefes Verständnis haben.
    01. August 2022 · 4 Minuten lesen