Optionen von Anti-Blocking
Vor über einer Woche aktualisiert

Web-Scraping, wenn es nicht verantwortungsvoll gemacht wird, kann einige negative Auswirkungen auf die Ziel-Websites haben und so einige Websites begrüßen Web-Scraping nicht so sehr. Wenn die Webseiten, die Sie scrapen möchten, die Maßnahmen des Anti-Scraping wie IP-Blocking ergreifen, ermöglicht Octoparse es für Sie, das Risiko zu verringern, dass Sie blockiert werden.

Tipps!

Alle Optionen von Anti-Blocking können in den Aufgabeneinstellungen gefunden.

Aufgabeneinstellungen


1. Verwendung der IP-Proxys

Sie können in Octoparse manuell Proxys einrichten, wenn Sie mit externen Proxys auf die Website zugreifen möchten (z.B. von einem bestimmten Land aus) oder wenn Sie Ihre eigenen Proxys verwenden möchten, um Ihre lokale IP zu schützen. Weitere Informationen zum Einrichten von Proxys finden Sie in diesem Tutorial: Einrichtung der IP-Proxys.

  • Schritt 1: Kreuzen Sie den Kasten „Use IP proxies“ an und klicken Sie auf „Settings“ zu öffnen.

  • Schritt 2: Geben Sie die Proxys ein und stimmen Sie die Anzahl der Sekunden ab.

  • Schritt 3: Drücken Sie „Confirm“, um die Einstellungen zu speichern.

sto.gif

Octoparse würde automatisch die Proxys umschalten, wie Sie es eingestellt haben, wenn die bestimmten Aufgaben ausgeführt werden.


2. Automatische Drehung des Web Browsers (User-Agent)

Ihr Browser sendet die von Ihnen besuchte Webseite ein User-Agent. Dabei handelt es sich um einen String, die der Ziel-Website mitteilt, mit welchem Gerät Sie auf die Seite zugreifen. Wenn eine Website sehr häufig mit demselben Benutzer-Agenten aufgerufen wird, kann dies als Scraping-Bot-Aktivität erkannt werden. Mit der Funktion „Automatisches Umschalten des Browsers“ lässt sich das Risiko verringern, blockiert zu werden.

Um diesen Browser mit der Funktion „auto-rotate“ zu erstellen:

  • Schritt 1: Kreuzen Sie den Kasten „Auto-rotate web browsers“ an.

  • Schritt 2: Klicken Sie auf „Settings“, um eine User-Agent zu wählen.

  • Schritt 3: Drücken Sie „Confirm“, um die Einstellungen zu speichern.

„Confirm“  drücken

Manche UAs funktionieren nicht in manchen Websites. Aus diesem Grund brauchen Sie möglicherweise einige Tests durchzuführen. Wenn Sie möchten, dass Octoparse beim Scrapen der Website die Website „via PC“ besucht, sollten Sie das Kästchen für „Select all“ ankreuzen und die Kästchen aller User-Agents für Mobilgeräte deaktivieren, z.B. "Firefox for mobile". Wenn Sie Octoparse es möchten, die Webseite „via mobile“ zu besuchen, sollten Sie nur das Kästchen von Agenten für Mobile überprüfen.

  • Schritt: Stellen Sie es ein, wie oft Sie die User-Agenten drehen möchten oder wählen Sie „Switch IPs concurrently“.

Octoparse würde alle X Minuten automatisch den User-Agent schalten, wenn die Aufgabe in die Lokale oder in die Cloud ausgeführt wird.


3. Automatisches Löschen der Cookies

Wenn eine Website sehr häufig mit denselben Cookies gescrapt wird, kann dies einfach als Scraping-Bot-Aktivität erkannt werden. Mit dieser Funktion löscht Octoparse ab und zu die Cookies, um so zu verwirklichen, als wäre es das erste Mal ist, dass Sie auf die Webseite zugreifen.

  • Schritt 1: Überprüfen Sie den „Auto clear cookies“ Kasten.

  • Schritt 2: Stellen Sie es ein, wie oft Sie die Cookies löschen möchten oder wählen Sie „Clear cookies when IPs rotates“.

automatisches Löschen der Cookies

Octoparse würde alle X Sekunden automatisch die Cookies löschen, wenn die Aufgabe in die Lokale oder Cloud ausgeführt wird.

Vergessen Sie aber nicht, Ihre Einstellungen zu speichern!

Einstellungen speichern

Tipps!

Beachten Sie, dass die Einstellung von Anti-Blocking nicht zu 100% die Blockiermechanismen einer Website umgehen könnte. Die beste Methode ist, die Zugriffsgeschwindigkeit zu kontrollieren und eine Website langsamer zu scrapen.

Hat dies Ihre Frage beantwortet?