undefined

Scrapen Beiträge von LinkedIn

Friday, June 04, 2021 2:57 PM

LinkedIn ist eine gute Datenbank, um Informationen von verschiedenen Unternehmen zu erhalten. In diesem Tutorial zeigen wir Ihnen, wie Sie die Beiträge von LinkedIn.com scrapen können.

 

Zum Nachvollziehen können Sie diese URL im Tutorial verwenden:

https://www.linkedin.com/search/results/content/?keywords=octoparse&origin=SWITCH_SEARCH_VERTICAL

 

Stellen bitte Sie vorher sicher, dass Sie unsere neueste Version 8.1 heruntergeladen haben (Folgen Sie bitte der Anleitung zum Herunterladen: Neuigkeiten: Octoparse 8.1 Beta wird veröffentlicht!) LinkedIn kann man nicht mehr mit Octoparse 7.3.0 scrapen.

 

Hier sind die wichtigsten Schritte in diesem Tutorial.  [Laden Sie die Demo-Aufgabe hier  herunter]

 

1. "Go To Web Page" - Öffnen die Ziel-Webseite

2. Loggen in die Webseite ein

3. Automatische Detektion der Webseite - Erstellen einen Workflow

4. Wählen die Daten für die Extraktion aus

5. Extraktion starten - Führen die Aufgabe aus und Erhalten Daten

 

 

1. "Go To Web Page" - Öffnen die Ziel-Webseite

• Geben Sie die URL der Startseite ein und klicken Sie auf "Start

 mceclip0.png

 

2. Loggen in die Webseite ein

LinkedIn verlangt, dass man sich zuerst anmelden muss, bevor man auf die gewünschten Daten zugreift. Deswegen zeigen wir Ihnen in diesem Tutorial, wie man in Octoparse durch "Cookies speichern" das Problem lösen kann.

 

• Wählen Sie "Auto-detect web page data", um die Aufgabe einzurichten

 mceclip2.png

 

• Wählen Sie nach der Detektion "Not the right webpage?"

• Wählen Sie dann "Login to website"

 mceclip5.png

Nachdem Sie auf  "Login to website" geklickt haben, befinden Sie sich im "Browse-Modus". Sie können in diesem Modus wie in einem normalen Browser surfen. Und die Aktionen, die Sie ausführen, werden nicht zu Aktionen im Aufgaben-Workflow generiert.  

Da die Beispielaufgabe sich gerade auf der Registrieren-Seite befindet, muss man auf "Sign in" klicken, um sich einzuloggen (Sie können dies überspringen, wenn Sie sich bereits auf der Einloggen-Seite befinden).

 mceclip6.png

 

• Geben Sie Ihre LinkedIn-Kontodaten ein und klicken Sie dann auf "Sign in", um sich einzuloggen

Nun haben Sie sich bei Ihrem Konto eingeloggt. Sie werden auf die Webseite umgeleitet, die wir eingegeben haben (https://www.linkedin.com/search/results/content/?keywords=octoparse&origin=SWITCH_SEARCH_VERTICAL).

• Klicken Sie auf "Done" in „Tipps“

 mceclip8.png

 

Sie werden oben einen Hinweis "Cookies saved" finden

 mceclip10.png

Danach können Sie mit dem Scrapen der benötigten Daten fortfahren.

 

Tipps!

Octoparse hat verschiedene Möglichkeiten, um Daten nach dem Einloggen zu scrapen. In diesem Tutorial können Sie mehr darüber erfahren: Scrapen Daten hinter dem Einloggen.

 

 

3. Automatische Detektion der Webseite - Erstelleneinen Workflow

Sie können mit der Funktion "Auto-detect web page data" in "Tipps" einen Workflow erstellen.

 

• Klicken Sie auf "Auto-detect web page data".

• Warten Sie, bis die automatische Detektion abgeschlossen ist (es kann etwas länger dauern, da die Webseite die Technik „unendliches Scrollen“ verwendet)

 mceclip11.png

 

• Klicken Sie auf "Edit" unter der Option "Add page scroll" in Tipps, um zu überprüfen, ob Sie die Zeiten für das Laden der Seite anpassen müssen.

 2.png

 

• Gehen Sie zu "Data preview", um zu sehen, ob Sie mit der aktuellen Datenausgabe zufrieden sind

• Sie können die unnötige Datenfelder direkt löschen, indem Sie auf das Symbol mceclip13.png klicken 

• Sie können die Datenfeldnamen auch direkt verändern, indem Sie auf das Symbol mceclip14.png klicken

 2.3.png

 

• Wenn Sie mit der aktuellen Datenausgabe zufrieden sind, klicken Sie auf "Create workflow"

 2.4.png

 

• Dann wird einen Workflow wie unten generiert.

 mceclip15.png

 

 

Tipps!

Die Technik „unendliches Scrollen“ wird in verschiedenen Websites weit verwendet. Um solche  Website zu scrapen, können Sie entweder die Funktion "Automatische Detektion" zur Hilfe nehmen oder das Scrollen der Seite selbst konfigurieren, indem Sie im Workflow auf den Schritt "Go to Web Page" doppelklicken.

 

Sie können Details in den folgenden Tutorials finden:

• Umgang mit Paginierung (unendliches Scrollen)

• Seite nach unten scrollen

 

  

4. Wählen die Daten für die Extraktion aus

 

Jetzt haben Sie den Workflow schon erstellt. Sie können die Daten, die Sie mit "Automatische Detektion" extrahiert haben, überprüfen und sehen, ob Sie noch einige Felder hinzufügen möchten.

 

• Doppelklicken Sie im Workflow auf "Extract Data", um die Details zu überprüfen

 

• Wenn Sie Feldnamen ändern möchten, klicken Sie einfach auf die Feldnamen, um sie zu bearbeiten

 3.1.png

 

• Wenn Sie weitere Daten auf der Webseite erfassen möchten, können Sie auf die Elemente in rot hervorgehobenen Bereich klicken und dann wählen "Extract the text of the selected element"

 mceclip2.png

 

• Wenn Sie einige Felder wie "Aktuelle Uhrzeit" hinzufügen möchten, können Sie auf das "+" Symbol klicken, um die hinzuzufügen

 mceclip3.png

 

 

Tipps!

Möchten Sie mehr über "Daten extrahieren" erfahren? Lesen Sie bitte die folgenden Anleitungen:

• Vordefinierte Datenfelder hinzufügen external-link-symbol-1.png

• Daten extrahieren external-link-symbol-1.png

 

   

5. Extraktion starten - Führen die Aufgabe aus und Erhalten Daten

 

• Klicken Sie auf "Save"

• Klicken Sie auf "Run" oben links

• Wählen Sie "Run task on your device", um die Aufgabe auf Ihrem Computer auszuführen

mceclip4.png

 

 

 

 

Hier ist die Beispielausgabe.

 mceclip5.png

 

Tipps!

LinkedIn kann nur auf dem lokalen Gerät ausgeführt werden. Es kann nicht in der Cloud ausgeführt werden, da LinkedIns Anti-Scraping-Einstellungen dies verhindern.

 

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen