undefined

Scrapen von Beitragsdaten von Instagram  

Monday, June 07, 2021 11:43 AM

Instagram ist eine beliebte Foto- und Video-Sharing-Website für soziale Medien. In diesem Tutorial erfahren Sie, wie Sie einen Crawler erstellen, um Beitrag-Inhalte, Foto-URL, Anzahl von „Gefällt“ usw. von einem Instagram-Konto zu scrapen.

Sie können direkt mit der gebrauchsfertigen Instagram-Vorlage beginnen, um Zeit zu sparen. Mit der Vorlage müssen Sie nicht Scraping-Aufgaben selbst konfigurieren. Für weitere Details können Sie hier klicken: Aufgabenvorlagen external-link-symbol-1.png

 0.png

 

Zum Üben verwenden wir diese URL als Beispiel: https://www.instagram.com/izkiz/

 

Sie müssen sich bei Instagram anmelden, wenn Sie die Beiträge anderer Konten ansehen möchten, deswegen sollten Sie zuerst ein Konto einrichten, wenn Sie noch kein haben.

 

Hier sind die wichtigsten Schritte in diesem Tutorial:  [Aufgabendatei hier herunterladen]

 

1. "Go To Web Page" - Öffnen die Ziel-Webseite

2. Melden Sie sich bei Ihrem Instagram-Konto an

3. "Extract Data"- Extrahieren Basisinformationen der Beiträge

4. "Click Item" - Öffnen den ersten Beitrag

5.  "Extract Data1" - Extrahieren die Beiträge 

6. "Pagination" - Klicken auf den Button "Nächste Seite", um weitere Beiträge zu extrahieren

7. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

 

 

1. "Go To Web Page" - Öffnen die Ziel-Webseite

• Geben Sie die URL auf der Startseite ein und klicken Sie auf „Start“

1.png

 

2. Melden Sie sich bei Ihrem Instagram-Konto an

Instagram verlangt, dass man sich zuerst eingeloggt, bevor man auf die gewünschten Daten zugreifen kann. In diesem Fall werden wir die Cookies speichern, um uns bei Instagram einzuloggen.

• Wechseln Sie in den Browse-Modus, indem Sie auf mceclip0.png  klicken.

• Geben Sie Ihren Instagram-Account und Ihr Passwort auf der Webseite manuell ein

• Klicken Sie auf "Einloggen"

 login.gif

 

• Klicken auf mceclip2.png von der Aktion  "Go to Web Page"

• Wählen "Use Cookie" 

• Klicken auf "Use cookie from the current page"

• Klicken auf "OK" zum Bestätigen

 save_cookies.gif

 

 

 Tipps!

Octoparse bietet verschiedene Möglichkeiten, die Daten hinter dem Einloggen zu extrahieren. In diesem Tutorial können Sie mehr darüber erfahren: Scrapen Daten hinter einem Einloggen.

 

*Nach dem Speichern der Cookies denken Sie bitte daran, den Browse-Modus auszuschalten, um mit den nächsten Schritten fortzufahren.

 

 

3. "Extract Data"- Extrahieren Basisinformationen derBeiträge

 

• Informationen auf der Webseite auswählen

• Wählen "Text des ausgewählten Elements extrahieren"

• Wiederholen die obigen Schritte, um alle Daten zu extrahieren, die Sie benötigen

 extract_data.gif

 

• Benennen die Felder bei Bedarf um

 3.2.png

 

4. "Click Item" - Öffnen den ersten Beitrag

• Fügen eine "Click Item" Aktion in den Workflow ein

 add_click_item.gif

• Klicken auf das Symbol mceclip0.png von "Click Item2"

• Klicken auf mceclip1.png

• Geben den XPath ein: //*[@id="react-root"]/section/main/div/div[3]/article/div[1]/div/div[1]/div[1]/a

• Stellen Sie den AJAX-Timeout auf 5-7s ein

• Bestätigen Sie mit "OK"

 add_Xpath.gif

 

Der erste Beitrag würde automatisch geöffnet werden.

 

 

 

5. "Extract Data1" - Extrahieren die Beiträge 

 

• Wählen die Beitragsdaten auf der Webseite aus

• Wählen "Extract text of the selected element"

• Wiederholen die obigen Schritte, um alle Daten zu extrahieren, die Sie benötigen

 Extract_data1.gif

 

Bild-Scraping - das Scraping der Bild-URL des Beitrags ist ein bisschen kompliziert.

 

• Wählen zuerst das Bild aus

• Klicken auf den Pfeil, der sich links auf das letzte DIV-Tag in Tipps befindet

 5.2.png

• Klicken auf das erste DIV-Tag im Pop-up-Fenster

 5.3.png

• Klicken auf den Pfeil, der rechts auf das letzte DIV-Tag befindet und wählen Sie IMG auf dem Popup-Fenster

 

 5.4.png

 

• Wählen"Extract the URL of the selected image"

 5.5.png

 

 

Scraping der Beitrag-Zeit - Der auf der Seite angezeigte Zeit, wie "6d", macht es uns schwer, die genaue Beitrag-Zeit zu erfahren. Wir können das detaillierte Beitrag-Zeit aus dem Quellcode scrapen.

 

• Öffnen die Einstellungen von "Extract Data 1"

• Klicken auf "..." und wählen Sie "Customize field"

• Wählen "Extract attribute" und wählen je nach Bedarf "datetime" (Datum und Uhrzeit) oder "title" (nur Datum) aus dem Dropdown-Menü

 post_time.gif

 

 

6. "Pagination" - Klicken auf den Button"Nächste Seite", um weitere Beiträge zu extrahieren

 

• Klicken auf den Button "Nächste Seite" mceclip2.png

• Wählen "Loop click next page" im Tipps-Panel

• Stellen die AJAX-Wartezeit auf 7-10s ein

 6.1.gif

 

• Ziehen "Extract Data1" in die Pagination

 6.2.gif

 

 

7. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

 

• Klicken auf "Save"

• Klicken auf "Run"

• Wählen "Run on your device" external-link-symbol-1.png, um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder Wählen "Run in the Cloud external-link-symbol-1.png", um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer)

 7.png

 

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen