Scraping der Beiträge von Facebook
Tuesday, June 14, 2022 10:18 AMFacebook ist eine Plattform mit einer riesigen Menge von Inhalten. Mit den Daten von Facebook können Sie Ihr Publikum für geschäftliche und politische Zwecke besser verstehen. Sie können auch Beiträge von Nutzern und Kommentaren sammeln, um eine Analyse durchzuführen.
In diesem Tutorial erfahren Sie deutliche Hinweise über den Ablauf einer Erstellung der Daten-Scraping-Aufgabe. Damit ist eine URL als Beispiel herausgegeben.
Überblick
Schritt 1: „Go To Web Page” - Öffnen Sie die Ziel-Webseite.
• Geben Sie die URL auf der Startseite ein und klicken Sie auf „Start”.
Schritt 2: Melden Sie sich auf Facebook an und speichern die Cookies.
• Schalten Sie zuerst den Browser-Modus an.

• Geben Sie Ihre Informationen in dem Einloggen-Kasten ein und klicken Sie auf „log in”.
• Schalten Sie den Browser-Modus aus.
• Gehen Sie zurück zur Erstellung von „Go To Web Page” und speichern die Cookies.
Tipps!
Hier erfahren Sie mehr über Daten Scraping nach dem Anmelden.
Schritt 3: Erstellen Sie einen Workflow nach der automatische Detektion der Webseite.
• Klicken Sie auf „Auto-detect web page data” und warten Sie, bis die Detektion abgeschlossen ist.
• Aktivieren Sie „Add a page scroll” und klicken Sie auf „Edit”.
• Stellen Sie den Wert von „scroll to the bottom of the page” auf 20 Repeats und 5s Wartezeit.
• Überprüfen Sie die Datenfelder in der Datenvorschau, und Sie können auch bei Bedarf die unerwünschten Felder löschen oder Felder umbenennen.
• Wählen Sie „Create workflow” in „Tipps”.
Schritt 4: Modifizieren Sie XPath von „Loop Item”
• Klicken Sie auf „Loop Item”.
• Überprüfen Sie, ob es genau „Variable List” unter „loop mode” ist.
• Geben Sie XPath ein://div[@role="article"][not(contains(@aria-label,"Comment"))]/../..
• Klicken Sie auf „Apply” zum Bestätigen.
Tipps!
Hier erfahren Sie mehr über XPath.
Schritt 5: Klicken Sie auf „See more”, um völligen Intalt darstellen zu lassen.
Falls der Beitragsinhalt gefaltet angezeigt wäre, dann ist ein Klicken auf „See more” benötigt. Aber dies ist nicht allgemein bei jedem Beitrag, deshalb soll man ein „Branch” erstellen, um diese zwei Fälle zu unterscheiden.
• Fügen Sie „Branch Conditions” hinzu im Loop Item.
• Klicken Sie auf „Left Branch”.
• Wählen Sie „Execute if the current loop contains specific text”.
• Geben Sie XPath ein:
/DIV[3]/DIV[1]/DIV[1]/DIV[1]/DIV[1]/SPAN[1]/DIV[1]/DIV[1]//div[contains(text(),'See')]

• Fügen Sie ein „Click Item” in „Left Branch” hinzu.
• Stellen Sie „Click Item” ein und wählen „Relative XPath”.
• Geben Sie XPath ein:
/DIV[3]/DIV[1]/DIV[1]/DIV[1]/DIV[1]/SPAN[1]/DIV[1]/DIV[1]//div[contains(text(),'See')]

• Gehen Sie zur Einstellung von „AJAX Load” für „Click Item”.
Schritt 6: Scraping starten, um die Aufgabe auszuführen und Daten zu erhalten.
• Klicken Sie auf „Save”.
• Klicken Sie auf „Run”.
• Wählen Sie „Run on your device”, um die Aufgabe mit Ihrem lokalen Gerät auszuführen.
Hier ist eine Datenausgabe als Beispiel.

Autor*in: Das Octoparse Team