Scrapen öffentliche Beiträge von Facebook
Wednesday, June 02, 2021 5:28 PMFacebook ist eine Plattform mit einer riesigen Menge von Inhalten. Mit den Daten von Facebook können Sie viele Sachen machen. Sie können verwendet werden, um Ihr Publikum für geschäftliche und politische Zwecke besser zu verstehen. Sie können auch Beiträge von Nutzern und Kommentaren sammeln, um eine Analyse durchzuführen.
Mit Octoparse können Sie ganz einfach Post-Informationen von Facebook erhalten, indem Sie Octoparse-Vorlagen verwenden. Es ist nicht notwendig, Scraping-Aufgaben selbst zu konfigurieren. Geben Sie einfach die Schlüsselwörter/URLs ein und warten Sie darauf, dass die Daten gescrapt werden. Für weitere Details können Sie hier nachlesen: Aufgabenvorlagen
Wenn Sie solche Aufgabe erstellen möchten, können Sie dem folgenden Tutorial folgen. Wir zeigen Ihnen, wie Sie öffentliche Beiträge eines Kontos von Facebook scrapen. Vielleicht möchten Sie die URL als Beispiel verwenden: https://www.facebook.com/cnn/
Hier sind die 5 Hauptschritte in diesem Lernprogramm [Aufgabendatei hier herunterladen]
1. "Go To Web Page" - Öffnen die Ziel-Webseite
2. Automatisch die Daten der Webseite detektieren - den Workflow erstellen
3. Ändern Sie den XPath des "Loop Item"
4. Ändern Sie die Einstellungen von "Extract Data"
5. Führen Sie Ihre Aufgabe aus - Erhalten Sie die gewünschten Daten
1. "Go To Web Page" - Öffnen die Ziel-Webseite
• Geben Sie die URL auf der Startseite ein und klicken Sie auf „Start“
Octoparse würde die Seite automatisch im integrierten Browser laden. Scrollen Sie manuell auf der Seite und Sie würden ein Pop-up erhalten.
• Wechseln Sie in den Browse-Modus, indem Sie auf klicken
• Klicken Sie auf "Not Now", um das Pop-up-Fenster zu schließen
• Schalten Sie den Browse-Modus aus
Tipps!
Wenn Sie sich anmelden möchten, um mehr Informationen zu sehen, folgen Sie dieser Anleitung, um zu sehen, wie man sich in Octoparse auf einer Website anmeldet:
Scrapen von Daten hinter einem Login
2. Automatisch die Daten der Webseite detektieren - den Workflow erstellen
• Klicken Sie auf "Auto-detect web page data" und warten Sie, bis die Detektion abgeschlossen ist (Es kann etwas länger dauern, denn diese Seite infinitiv nach unten scrollt, um zu laden)
• Deaktivieren Sie die Option "Click on Load More button"
• Klicken Sie auf "Edit" unter "Add a page scroll"
• Stellen Sie so Ein: scroll to the bottom, repeats 20 times, wait time as 5s
• Umbenennen oder löschen bei Bedarf Felder in der Datenvorschau
3. Ändern Sie den XPath von "Loop Item"
• Öffnen Sie die Einstellungsseite für die Aktion "Loop Item", indem Sie auf das Zahnradsymbol in der Aktionsleiste klicken
• Geben Sie den Xpath //div[@role="article"][not(@aria-label="Comment")]/../... ein
• Klicken Sie auf "OK", um die Einstellungen zu speichern.
Tipps!
XPath spielt eine wichtige Rolle beim Lokalisieren der richtigen Elemente in der Webseite. Sie können sich im folgenden Tutorial darüber mehr informieren:
Was ist XPath und wie man es in Octoparse verwendet
4. Ändern Sie die Einstellungen von "Extract Data"
Die Zeit des Beitrags wird als "1h" gescraped und es wäre schwer zu erkennen, wenn der Beitrag hochgeladen wird. Die detaillierte Zeit ist im Quellcode gespeichert. Wir können die Einstellung ändern, um sie zu erhalten.
• Öffnen Sie die Einstellungen von "Extract Data"
• Klicken Sie auf den Button "Customize XPath" von "Post_time"
• Geben Sie den XPath //abbr ein
• Klicken Sie auf die "..." und wählen Sie "Customize field"
• Wählen Sie "Extract attribute"
• Wählen Sie im Dropdown-Menü das Attribut "title" aus
• Klicken Sie auf "OK" zum Bestätigen.
5. Führen Sie Ihre Aufgabe aus - Erhalten Sie die gewünschten Daten
Hier ist die Beispielausgabe.