Anti-Blocking-Optionen
Monday, August 02, 2021 12:04 PMEinige Websites reagieren sehr empfindlich auf Web-Scraping und ergreifen Anti-Scraping-Maßnahmen wie IP-Sperren, um mögliche Scraping-Aktivitäten zu verhindern.
In diesem Tutorial zeigen wir Ihnen, wie Sie Octoparse Anti-Blocking in einer Aufgabe einrichten können, um das Risiko zu verringern, blockiert zu werden.
IP-Proxys verwenden (nur für lokale Extraktion)
Sie können in Octoparse manuell Proxys einrichten, wenn Sie mit externen Proxys auf die Website zugreifen möchten (z. B. von einem bestimmten Land aus) oder wenn Sie Ihre eigenen Proxys verwenden möchten, um Ihre lokale IP zu schützen. Weitere Informationen zum Einrichten von Proxys finden Sie in diesem Tutorial: Set up proxies.
• Kreuzen Sie "Use IP proxies" an und klicken auf "Settings "
• Geben Sie die Proxys und die Anzahl der Sekunden für den Wechsel der Proxys ein.
• Klicken Sie auf "OK", um die Änderung zu speichern.
Octoparse wird die Proxys automatisch so umschalten, wie Sie es eingestellt haben, wenn die Aufgabe lokal ausgeführt wird.
Automatisches Umschalten des Browsers (User-Agent)
Ihr Browser sendet die von Ihnen besuchte Webseite ein User-Agent. Dabei handelt es sich um eine Zeichenfolge, die der Ziel-Website mitteilt, mit welchem Gerät Sie auf die Seite zugreifen. Wenn eine Website sehr häufig mit demselben Benutzer-Agenten aufgerufen wird, kann dies als Scraping-Bot-Aktivität erkannt werden. Mit der Funktion „Automatisches Umschalten des Browsers“ lässt sich das Risiko verringern, blockiert zu werden.
So richten Sie den automatisch rotierenden Browser ein:
• Kreuzen Sie das Kontrollkästchen für "Auto-rotate browser (User-Agent)" an.
• Klicken Sie auf "Settings", um die Benutzer-Agenten auszuwählen.
Manche UAs funktionieren nicht in manchen Websites. Aus diesem Grund brauchen Sie möglicherweise einige Tests durchzuführen. Wenn Sie möchten, dass Octoparse beim Scrapen der Website die Website "über PC" besucht, sollten Sie das Kästchen für "Alle auswählen" ankreuzen und die Kästchen aller User-Agents für Mobilgeräte deaktivieren, z. B. "Firefox für Mobilgeräte".
• Klicken Sie auf OK, um die Änderung zu speichern.
• Wählen Sie entweder aus, wie oft Sie die Benutzeragenten wechseln möchten, oder aktivieren Sie das Kontrollkästchen "Switch IPs concurrently", wenn die Aufgabe mit IP-Proxys ausgeführt wird.
Octoparse wechselt den Benutzeragenten automatisch wie eingestellt, wenn die Aufgabe lokal oder in der Cloud ausgeführt wird.
Cookies automatisch löschen
Wenn eine Website sehr häufig mit denselben Cookies gescrapt wird, kann dies einfach als Scraping-Bot-Aktivität erkannt werden. Mit dieser Funktion löscht Octoparse von Zeit zu Zeit die Cookies, um so zu tun, als wäre es das erste Mal, dass Sie auf die Webseite zugreifen.
• Kreuzen Sie "Auto clear cookies" an.
• Stellen Sie entweder ein, wie oft Cookies gelöscht werden sollen, oder kreuzen Sie das Kontrollkästchen "Clear cookies when IPs switch" an.
Octoparse löscht Cookies automatisch wie von Ihnen eingestellt, wenn die Aufgabe lokal oder in der Cloud ausgeführt wird.
Nachdem Sie Octoparse Anti-Blocking eingerichtet haben, klicken Sie auf "Save", um die Einstellungen zu speichern.
*Beachten Sie, dass die Anti-Blocking-Einstellungen nicht zu 100 % die Blockiermechanismen einer Website umgehen kann. Die beste Methode ist, die Zugriffsgeschwindigkeit zu kontrollieren und eine Website langsamer zu scrapen.