undefined
Blog > Web Scraping > Post

5 Sachen, die Sie wissen müssen, bevor Sie Daten von Facebook scrapen  

Tuesday, June 22, 2021

1. Eigentlich verbietet Facebook laut seiner robots.txt-Datei alle Scraper.

 

Wenn Sie möchten, eine Website zu scrapen, sollten Sie immer zuerst deren robots.txt überprüfen. Robots.txt ist eine Datei, die von Websites verwendet wird, um "Bots" wissen zu lassen, ob oder wie die Website gescrapt oder gecrawlt und indiziert werden kann. Sie können diese Datei finden, indem Sie "/robots.txt" am Ende des Links zu Ihrer Ziel-Website hinfügen.

 

Geben Sie https://www.facebook.com/robots.txt in Ihrem Browser ein, und überprüfen Sie die robots-Datei von Facebook. Diese beiden Zeilen sind am Ende der Datei zu finden:

 

Das bedeutet, dass Facebook alle automatisierten Scraper verbietet. Deswegen darf kein Teil der Website von einem automatisierten Crawler besucht werden.

 

 

Warum müssen wir die robots.txt beachten?

 

Websites verwenden die robots-Datei, um die Regeln festzulegen, wie Sie oder ein Bot mit ihnen interagieren sollen. Wenn eine Website alle Zugriffe von Crawler blockiert, ist es das Beste, diese Website in Ruhe zu lassen. Das Befolgen der robots-Datei dient dazu, unethische Datensammlung sowie jegliche rechtliche Konsequenzen zu vermeiden.

 

 

2. Technisch gesehen ist die einzige legale Möglichkeit, mit einem Crawler Daten von Facebook zu sammeln, die Einholung einer vorherigen schriftlichen Genehmigung

 

Facebook warnt ganz am Anfang seiner Robots-Datei: "Crawling Facebook is prohibited unless you have express written permission." Das bedeutet, dass das Crawling von Facebook verboten ist, außer Sie eine ausdrückliche schriftliche Erlaubnis haben."

 facebook scraping permission

 

 

Unter dem Link in der zweiten Zeile finden Sie die Bedingungen für die automatisierte Datensammlung von Facebook, zuletzt überarbeitet am 15. April 2010.

 

 facebook scraping terms

 

 

Wie alle anderen Geschäftsbedingungen auf der Welt sind Facebooks Bedingungen für die automatisierte Datensammlung lang (in ungewöhnlich kleiner Schriftgröße) und voller rechtlicher Begriffe, die nur wenige Menschen vollständig verstehen können.

 

Diese Bedingungen sehen so ähnlich aus, wie wir sie jedes Mal sehen würden, wenn wir eine neue App auf unserem Handy installieren oder uns auf einer Website anmelden.

 

"Mit dem Erhalt der Erlaubnis zu ... stimmen Sie zu, dass Sie ..."

"Sie stimmen zu, dass Sie nicht..."

"Sie stimmen zu, dass ein Verstoß gegen diese Bedingungen zu... führen kann."

 

Es handelt sich jedoch nicht unbedingt um dieselbe Sache.

 

Als Social-Media-Gigant verfügt Facebook über Geld, Zeit und ein Rechtsteam. Wenn Sie ihre Bedingungen für die automatisierte Datensammlung ignorieren und mit dem Scraping von Facebook fortfahren, ist das in Ordnung, aber vergessen Sie nicht, dass Sie schon von Facebook gewarnt werden, deswegen sollen Sie sich immer daran erinnern, zumindest eine "schriftliche Erlaubnis" einzuholen. Manchmal kann Facebook ziemlich streng gegen das illegitime Scraping sein.

 

 

3. Aber sicher können Sie immer noch Daten von Facebook crawlen, wie Sie es brauchen

 

Wenn Sie Crawling betrieben haben, ohne die robots.txt zu befolgen, bedeutet das auch nicht, dass Sie in rechtliche Problemen geraten würden.

 

Die Daten von sozialen Medien sind zweifellos der größte und dynamischste Datensatz über menschliches Verhalten und Ereignisse in der Welt. Seit mehr als einem Jahrzehnt sammeln Forscher und Wirtschaftsexperten auf der ganzen Welt mithilfe von Web-Scrapern Informationen aus Facebook und erstellen repräsentative Proben, um Einzelpersonen, Gruppen und die Gesellschaft zu verstehen sowie neue Chancen zu erkunden, die in den Daten verborgen sind.

 

Außerdem trägt die Verwendung von sozialen Daten auch zur Personalisierung von Marketing bei, die das Internet frei hält und die Anzeigen und Inhalte, die wir sehen, relevanter macht.

 

Tools, die Sie für die Beschaffung von Facebook-Daten verwenden können

 

Als Reaktion auf den öffentlichen Aufschrei nach dem Cambridge Analytica-Skandal hat Facebook im April letzten Jahres strenge Zugangsbeschränkungen für seine APIs eingeführt.

 

Application Programming Interfaces (APIs) sind Softwareschnittstellen, die für die Nutzung durch Computerprogramme konzipiert sind und es Menschen ermöglichen, mit automatisierten Prozessen große Datenmengen abzurufen. Heutzutage stellen viele Unternehmen eine öffentliche API zur Verfügung, damit Benutzer, Forscher und App-Entwickler von Drittanbietern auf ihre Infrastruktur zugreifen können.

 

Facebook versucht mit der API-Sperrung und der radikalen Datenzugriffsbeschränkungen, seine Nutzerdaten zu schützen, aber die Maßnahmen lassen sich streiten.

 

Ohne APIs kann man jetzt nur über die Webseiten Daten von Facebook erhalten. Genau an dieser Stelle kommen Web-Scraper-Tools ins Spiel. Wir haben einen Blog über die besten Scraping-Tools für soziale Medien geschrieben. Lesen Sie den Artikel für Details: Beste 5 Scraping-Tools für soziale Medien im Jahr 2021.

 

 

4. Nachdem die DSGVO in Kraft getreten ist, steigt das Risiko, verklagt zu werden, wenn Sie persönliche Daten scrapen.

 

Die EU-Datenschutzgrundverordnung (DSGVO), ist am 25. Mai 2018 in Kraft getreten. Sie gilt als die wichtigste Änderung der Datenschutzbestimmungen seit 20 Jahren und führt zu weitreichenden Änderungen in vielen Bereichen, von der Technologie bis zur Werbung, von der Medizin bis zum Bankwesen.

 

Unternehmen oder Organisationen, die große Mengen an Verbraucherdaten besitzen und verarbeiten, wie z. B. Technologieunternehmen wie Facebook, sind von der DSGVO am stärksten beeinflusst. Früher hängt es von diesen Unternehmen, ob sie die Regeln zum Schutz der Nutzerdaten befolgen. Jetzt, nach dem Erlass von DSGVO, müssen sie sicherstellen, dass sie in voller Übereinstimmung mit dem Gesetz sind.

 

Die gute Nachricht ist...

 

DSGVO gilt nur für personenbezogene Daten.

 

Hier beziehen sich "personenbezogene Daten" auf die Daten, die verwendet werden könnten, um direkt oder indirekt eine bestimmte Person zu identifizieren. Diese Art von Informationen ist als personenbezogene Daten bekannt, zu denen der Name einer Person, die Adresse, die E-Mail-Adresse, die Telefonnummer, die IP-Adresse, das Geburtsdatum, Beschäftigungsinformationen und sogar Video-/Audioaufnahmen gehören.

 

Wenn Sie keine persönlichen Daten auslesen, dann gilt die DSGVO nicht.

 

Kurz gesagt, wenn Sie keine ausdrückliche Zustimmung der Person haben, ist es jetzt nach DSGVO illegal, personenbezogene Daten eines EU-Bürgers zu scrapen.

 

 

5. Sie können alternative Quellen von Facebookfür Ihr Scraping-Projekt ausprobieren

 

Wie oben erwähnt, verbietet Facebook zwar alle automatisierten Crawler, aber es ist technisch immer noch möglich, Daten von der Seite zu scrapen. Das Problem ist -

 

Es ist riskant.

 

Abgesehen von den rechtlichen Konsequenzen könnte es auch schwierig sein, die gewünschten Daten regelmäßig von Facebook abzurufen, da Facebook verdächtige IPs blockiert und in Zukunft sogar noch strengere Blockierungsmechanismen einführen könnte, die das Scrapen von Daten von der Seite komplett unmöglich machen könnten.

 

Daher lässt es sich empfehlen, nach anderen zuverlässigen Quellen zu suchen, um Daten von sozialen Medien zu erhalten.

 

 

Vier Datenquellen als Alternative zu Facebook

 

Twitter

Mit etwa 500 Millionen Tweets, die jeden Tag generiert werden, ist Twitter ein Meer von Informationen, das als perfekte Quelle für die Überwachung von Marken und die Messung der Kundenstimmung genutzt werden kann. Im Gegensatz zu Facebook bietet Twitter die Möglichkeit, Daten in großem Umfang über die APIs von Twitter abzurufen.

 

Reddit

Mit ebenso vielen Nutzern wie Twitter ist Reddit eine der größten Quellen von UGC (User Generated Content) in der Welt. Reddit stellt auch öffentliche APIs zur Verfügung, die für viele Zwecken genutzt werden können, z. B. zur Datensammlung, für automatische Kommentar-Bots oder sogar zur Unterstützung bei der Moderation von Subreddits.

 

VKontakte (VK)

VK ist eine russische Social-Media-Plattform, die sich an Russen und andere osteuropäische Nutzer richtet. Die hat über 90 Millionen Besucher pro Monat und 9 Milliarden Seitenaufrufe pro Tag. Als russisches Unternehmen hält sich VK an die russischen Gesetze, deswegen wenn Sie die Robots-Datei überprüfen, werden Sie bemerken, dass die Plattform recht freundlich zu Crawlern ist.

 

Instagram

Instagram gehört zu Facebook und konzentriert sich mehr auf das Teilen von visuellen Inhalten, insbesondere Videos und Bilder. Die Plattform wird von vielen Marken genutzt, um ihre Inhalte zu vermenschlichen, um mit Kunden besser zu verbinden und die Markenbekanntheit zu steigern. Wegen der Datensperre von Facebook im letzten Jahr hat Instagram auch radikale Beschränkungen des Datenzugriffs eingeführt, folglich wurde die Seite nicht so geeignet für Datensammlung als zuvor.

 

 

Laden Sie Octoparse herunter, um mit Web-Scraping zu beginnen, oder kontaktieren Sie uns
für die Fragen über Web Scraping!

Kontaktieren Sie uns Herunterladen
btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen