undefined

Anti-Blocking-Optionen  

Monday, August 02, 2021 12:04 PM

Einige Websites reagieren sehr empfindlich auf Web-Scraping und ergreifen Anti-Scraping-Maßnahmen wie IP-Sperren, um mögliche Scraping-Aktivitäten zu verhindern.

 

In diesem Tutorial zeigen wir Ihnen, wie Sie Octoparse Anti-Blocking in einer Aufgabe einrichten können, um das Risiko zu verringern, blockiert zu werden.

1.png

 

 

 

IP-Proxys verwenden (nur für lokale Extraktion)

Sie können in Octoparse manuell Proxys einrichten, wenn Sie mit externen Proxys auf die Website zugreifen möchten (z. B. von einem bestimmten Land aus) oder wenn Sie Ihre eigenen Proxys verwenden möchten, um Ihre lokale IP zu schützen. Weitere Informationen zum Einrichten von Proxys finden Sie in diesem Tutorial:  Set up proxies.

 

• Kreuzen Sie "Use IP proxies" an und klicken auf "Settings "

• Geben Sie die Proxys und die Anzahl der Sekunden für den Wechsel der Proxys ein.

• Klicken Sie auf "OK", um die Änderung zu speichern.

1956145156151.gif

 

Octoparse wird die Proxys automatisch so umschalten, wie Sie es eingestellt haben, wenn die Aufgabe lokal ausgeführt wird.

 

 

Automatisches Umschalten des Browsers (User-Agent)

Ihr Browser sendet die von Ihnen besuchte Webseite ein User-Agent. Dabei handelt es sich um eine Zeichenfolge, die der Ziel-Website mitteilt, mit welchem Gerät Sie auf die Seite zugreifen. Wenn eine Website sehr häufig mit demselben Benutzer-Agenten aufgerufen wird, kann dies als Scraping-Bot-Aktivität erkannt werden. Mit der Funktion „Automatisches Umschalten des Browsers“ lässt sich das Risiko verringern, blockiert zu werden.

 

So richten Sie den automatisch rotierenden Browser ein:

 

• Kreuzen Sie das Kontrollkästchen für "Auto-rotate browser (User-Agent)" an.

• Klicken Sie auf "Settings", um die Benutzer-Agenten auszuwählen.

Manche UAs funktionieren nicht in manchen Websites. Aus diesem Grund brauchen Sie möglicherweise einige Tests durchzuführen. Wenn Sie möchten, dass Octoparse beim Scrapen der Website die Website "über PC" besucht, sollten Sie das Kästchen für "Alle auswählen" ankreuzen und die Kästchen aller User-Agents für Mobilgeräte deaktivieren, z. B. "Firefox für Mobilgeräte".

 

• Klicken Sie auf OK, um die Änderung zu speichern.

• Wählen Sie entweder aus, wie oft Sie die Benutzeragenten wechseln möchten, oder aktivieren Sie das Kontrollkästchen "Switch IPs concurrently", wenn die Aufgabe mit IP-Proxys ausgeführt wird.

 9561561561.gif

Octoparse wechselt den Benutzeragenten automatisch wie eingestellt, wenn die Aufgabe lokal oder in der Cloud ausgeführt wird.

 

 

Cookies automatisch löschen

Wenn eine Website sehr häufig mit denselben Cookies gescrapt wird, kann dies einfach als Scraping-Bot-Aktivität erkannt werden. Mit dieser Funktion löscht Octoparse von Zeit zu Zeit die Cookies, um so zu tun, als wäre es das erste Mal, dass Sie auf die Webseite zugreifen.

 

 Kreuzen Sie "Auto clear cookies" an.

 Stellen Sie entweder ein, wie oft Cookies gelöscht werden sollen, oder kreuzen Sie das Kontrollkästchen "Clear cookies when IPs switch" an.

 6516516516.gif

 

Octoparse löscht Cookies automatisch wie von Ihnen eingestellt, wenn die Aufgabe lokal oder in der Cloud ausgeführt wird.

 

Nachdem Sie Octoparse Anti-Blocking eingerichtet haben, klicken Sie auf "Save", um die Einstellungen zu speichern.

26162626.png

 

*Beachten Sie, dass die Anti-Blocking-Einstellungen nicht zu 100 % die Blockiermechanismen einer Website umgehen kann. Die beste Methode ist, die Zugriffsgeschwindigkeit zu kontrollieren und eine Website langsamer zu scrapen.

 

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen