Scrapen Beiträge von LinkedIn
Friday, June 04, 2021 2:57 PMLinkedIn ist eine gute Datenbank, um Informationen von verschiedenen Unternehmen zu erhalten. In diesem Tutorial zeigen wir Ihnen, wie Sie die Beiträge von LinkedIn.com scrapen können.
Zum Nachvollziehen können Sie diese URL im Tutorial verwenden:
https://www.linkedin.com/search/results/content/?keywords=octoparse&origin=SWITCH_SEARCH_VERTICAL
Stellen bitte Sie vorher sicher, dass Sie unsere neueste Version 8.1 heruntergeladen haben (Folgen Sie bitte der Anleitung zum Herunterladen: Neuigkeiten: Octoparse 8.1 Beta wird veröffentlicht!) LinkedIn kann man nicht mehr mit Octoparse 7.3.0 scrapen.
Hier sind die wichtigsten Schritte in diesem Tutorial. [Laden Sie die Demo-Aufgabe hier herunter]
1. "Go To Web Page" - Öffnen die Ziel-Webseite
2. Loggen in die Webseite ein
3. Automatische Detektion der Webseite - Erstellen einen Workflow
4. Wählen die Daten für die Extraktion aus
5. Extraktion starten - Führen die Aufgabe aus und Erhalten Daten
1. "Go To Web Page" - Öffnen die Ziel-Webseite
• Geben Sie die URL der Startseite ein und klicken Sie auf "Start
2. Loggen in die Webseite ein
LinkedIn verlangt, dass man sich zuerst anmelden muss, bevor man auf die gewünschten Daten zugreift. Deswegen zeigen wir Ihnen in diesem Tutorial, wie man in Octoparse durch "Cookies speichern" das Problem lösen kann.
• Wählen Sie "Auto-detect web page data", um die Aufgabe einzurichten
• Wählen Sie nach der Detektion "Not the right webpage?"
• Wählen Sie dann "Login to website"
Nachdem Sie auf "Login to website" geklickt haben, befinden Sie sich im "Browse-Modus". Sie können in diesem Modus wie in einem normalen Browser surfen. Und die Aktionen, die Sie ausführen, werden nicht zu Aktionen im Aufgaben-Workflow generiert.
Da die Beispielaufgabe sich gerade auf der Registrieren-Seite befindet, muss man auf "Sign in" klicken, um sich einzuloggen (Sie können dies überspringen, wenn Sie sich bereits auf der Einloggen-Seite befinden).
• Geben Sie Ihre LinkedIn-Kontodaten ein und klicken Sie dann auf "Sign in", um sich einzuloggen
Nun haben Sie sich bei Ihrem Konto eingeloggt. Sie werden auf die Webseite umgeleitet, die wir eingegeben haben (https://www.linkedin.com/search/results/content/?keywords=octoparse&origin=SWITCH_SEARCH_VERTICAL).
• Klicken Sie auf "Done" in „Tipps“
Sie werden oben einen Hinweis "Cookies saved" finden
Danach können Sie mit dem Scrapen der benötigten Daten fortfahren.
Tipps!
Octoparse hat verschiedene Möglichkeiten, um Daten nach dem Einloggen zu scrapen. In diesem Tutorial können Sie mehr darüber erfahren: Scrapen Daten hinter dem Einloggen.
3. Automatische Detektion der Webseite - Erstelleneinen Workflow
Sie können mit der Funktion "Auto-detect web page data" in "Tipps" einen Workflow erstellen.
• Klicken Sie auf "Auto-detect web page data".
• Warten Sie, bis die automatische Detektion abgeschlossen ist (es kann etwas länger dauern, da die Webseite die Technik „unendliches Scrollen“ verwendet)
• Klicken Sie auf "Edit" unter der Option "Add page scroll" in Tipps, um zu überprüfen, ob Sie die Zeiten für das Laden der Seite anpassen müssen.
• Gehen Sie zu "Data preview", um zu sehen, ob Sie mit der aktuellen Datenausgabe zufrieden sind
• Sie können die unnötige Datenfelder direkt löschen, indem Sie auf das Symbol klicken
• Sie können die Datenfeldnamen auch direkt verändern, indem Sie auf das Symbol klicken
• Wenn Sie mit der aktuellen Datenausgabe zufrieden sind, klicken Sie auf "Create workflow"
• Dann wird einen Workflow wie unten generiert.
Tipps!
Die Technik „unendliches Scrollen“ wird in verschiedenen Websites weit verwendet. Um solche Website zu scrapen, können Sie entweder die Funktion "Automatische Detektion" zur Hilfe nehmen oder das Scrollen der Seite selbst konfigurieren, indem Sie im Workflow auf den Schritt "Go to Web Page" doppelklicken.
Sie können Details in den folgenden Tutorials finden:
• Umgang mit Paginierung (unendliches Scrollen)
4. Wählen die Daten für die Extraktion aus
Jetzt haben Sie den Workflow schon erstellt. Sie können die Daten, die Sie mit "Automatische Detektion" extrahiert haben, überprüfen und sehen, ob Sie noch einige Felder hinzufügen möchten.
• Doppelklicken Sie im Workflow auf "Extract Data", um die Details zu überprüfen
• Wenn Sie Feldnamen ändern möchten, klicken Sie einfach auf die Feldnamen, um sie zu bearbeiten
• Wenn Sie weitere Daten auf der Webseite erfassen möchten, können Sie auf die Elemente in rot hervorgehobenen Bereich klicken und dann wählen "Extract the text of the selected element"
• Wenn Sie einige Felder wie "Aktuelle Uhrzeit" hinzufügen möchten, können Sie auf das "+" Symbol klicken, um die hinzuzufügen
Tipps!
Möchten Sie mehr über "Daten extrahieren" erfahren? Lesen Sie bitte die folgenden Anleitungen:
• Vordefinierte Datenfelder hinzufügen
5. Extraktion starten - Führen die Aufgabe aus und Erhalten Daten
• Klicken Sie auf "Save"
• Klicken Sie auf "Run" oben links
• Wählen Sie "Run task on your device", um die Aufgabe auf Ihrem Computer auszuführen
Hier ist die Beispielausgabe.
Tipps!
LinkedIn kann nur auf dem lokalen Gerät ausgeführt werden. Es kann nicht in der Cloud ausgeführt werden, da LinkedIns Anti-Scraping-Einstellungen dies verhindern.