Wenn Sie versuchen, sich bei einer Website anzumelden, werden Sie wahrscheinlich aufgefordert, Zeichen aus einem Bild einzugeben, das Legasthenie verursacht. Diese lästigen Zeichen oder Bilder werden als CAPTCHAs bezeichnet.
In diesem Artikel teilen wir fünf wichtige Fakten mit Ihnen, die Sie über Captchas wissen müssen und wie Sie diese beim Crawlen umgehen können.
Was ist CAPTCHA?
Laut Wikipedia ist CAPTCHA (Completely Automated Public Turing-Test to tell Computers and Humans Apart) eine Art von Challenge-Response-Test, der in der Informatik verwendet wird, um festzustellen, ob der Benutzer ein Mensch ist oder nicht.
Er wird häufig im Internet verwendet, insbesondere beim Online-Kauf oder beim Einloggen auf einer Website.
Wie funktioniert CAPTCHA?
Die CAPTCHA-Technologie basiert auf dem Turing-Test, der verwendet wird, um zu testen, ob eine Maschine wie ein Mensch denken kann. Das Ziel von CAPTCHA ist es, Fragen zu stellen oder Herausforderungen zu stellen, mit denen Computer nicht umgehen können. Es zeigt normalerweise eine verzerrte Zeichenfolge aus zufälligen Zeichen oder Zahlen. Wenn ein Mensch, der auf ein verzerrtes Bild schaut, kann die Wörter ohne Herausforderung lesen, während ein Scraping-Tool die nicht so einfach erkennen kann. Selbst das automatisierte System, das so programmiert wurde, ein Bild zu scannen und die Wörter im Bild zu lesen, hat auch Schwierigkeiten, die Wörter zu lesen, wenn die verdeckt oder zu stark verzerrt sind.
Was sind die gängigen Typen von CAPTCHA
Captchas gibt es in vielen Größen und Typen. Die gängigsten Typen sind:
- Text-Captcha
- Bild-Captcha
- Audio-Captcha
- ReCaptcha vs. Captcha
Text-Captcha
Ein Text-CAPTCHA-Test besteht aus zwei Teilen: einer zufällig generierten Buchstaben- oder Zahlenfolge, die als verzerrtes Bild angezeigt wird, und einem Eingabefeld. Um den Test zu bestehen und Ihre Identität zu beweisen, geben Sie einfach die im Bild angezeigten Zeichen in das Textfeld ein.

Das einfache Zeigen der Zeichen ist für Bots nicht so schwierig. Um den Schwierigkeitsgrad zu erhöhen, gibt es das mathematische CAPTCHA, das eine einfache Rechenaufgabe mit einfach lesbaren Zahlen beinhaltet, und das 3D CAPTCHA, bei dem die Zeichen mit 3D-Effekt angezeigt werden.


Bild-CAPTCHA
Bild-CAPTCHAs präsentieren Benutzern in der Regel Bilder von Objekten, Tieren, Personen oder Landschaften anstelle von verzerrtem Text und unterscheiden so Menschen von Computerprogrammen. Benutzer müssen das richtige Bild auswählen oder einen Block ziehen, um die Person zu identifizieren.

Sprach-Audio-Captcha
Audio-CAPTCHAs kombinieren zufällig ausgewählte Wörter oder Zahlen aus einer Aufnahme mit Geräuschen. Benutzer müssen die Wörter oder Zahlen, die sie in der Aufnahme hören, eingeben. Audio-CAPTCHAs sind anspruchsvoller als Text- oder Bild-CAPTCHAs, da es schwierig ist, Scraping-Bots darauf zu trainieren, sie zu hören.

ReCaptcha vs. hCaptcha
Im Vergleich zu herkömmlichen Captchas ist reCAPTCHA von Google am weitesten verbreitet. Zu seinen Vorteilen zählen:
- Für Entwickler ist die Einrichtung und Wartung einfacher.
- Dieser Test ist einfach zu lösen (weniger ärgerlich als unordentliche Bilder).
- Es handelt sich um einen kostenlosen Dienst, der von Google verwaltet wird.

Wenn Sie von hCaptcha gehört haben, fragen Sie sich vielleicht, was der Unterschied zwischen hCaptcha und reCaptcha ist.
Tatsächlich ist reCAPTCHA ein von Google bereitgestellter Dienst, der auf Websites installiert ist. Jedes Mal, wenn ein Nutzer ein CAPTCHA löst, werden Nutzerdaten an Google zurückgesendet. Google kann diese Daten verwenden, um seine Dienste zu verbessern.
Hcaptcha ist ein von Intuitive Machines bereitgestellter Dienst, der behauptet, die persönlichen Daten der Benutzer zu schützen.
Warum verwenden Websites CAPTCHAs
Mit der zunehmenden Verbreitung von PCs und Internet sowie der zunehmenden Zahl computergestützter Aufgaben und Dienste ist die Verbesserung der Sicherheit immer wichtiger geworden. Die Entwicklung computerbasierter Captchas (CAPTCHAs) zielt darauf ab, die Sicherheit persönlicher Daten in kritischen Situationen zu gewährleisten, beispielsweise beim Einloggen auf Websites oder bei Online-Zahlungen.
CAPTCHAs erfassen außerdem automatisch Online-Daten und blockieren Spammer und Bots, die versuchen, sich automatisch bei Websites, Blogs oder Foren anzumelden oder diese zu nutzen. Sie schützen Websites vor Spam, betrügerischen Registrierungen und anderen illegalen Aktivitäten.
Wie kann man CAPTCHA beim Web-Scraping umgeht
CAPTCHAs sind für das Web Scraping unerlässlich, da sie vorkonfigurierte Crawler leicht beschädigen können, wenn sie während des Extraktionsprozesses erkannt werden. Der beste Weg, mit CAPTCHAs umzugehen, besteht darin, alles zu tun, um zu verhindern, dass sie bemerkt werden.
Mit anderen Worten: Sie sollten Captchas so weit wie möglich vermeiden.
- Sie können die Crawling-/Scraping-Geschwindigkeit reduzieren, damit es menschlicher aussieht.
- Verwenden Sie einen Proxyserver, um die IP-Verfolgung zu minimieren.
- Vorsicht vor Honeypot-Fallen.
Auch wenn Sie das Captcha nicht vermeiden können, gibt es Möglichkeiten, es zu umgehen.
Sie können dieses Problem mit Octoparse lösen, dem besten kostenlosen und benutzerfreundlichen Web-Scraping-Tool , für das Sie keine Programmierkenntnisse benötigen. So lösen Sie CAPTCHA.
1. Sie können das Captcha im Browsermodus der lokalen Extraktion manuell lösen.
- Aktivieren Sie den Browsermodus in der oberen rechten Ecke , lösen Sie das Captcha wie in einem normalen Browser und deaktivieren Sie den Browsermodus anschließend wieder, um fortzufahren.
2. Speichern Sie das Captcha-Bypass-Cookie.
Nach dem Auflösen der Erfassung im Browsermodus können Sie das aktuelle Seiten-Cookie speichern, sodass es beim erneuten Erscheinen automatisch aufgelöst wird.
- Klicken Sie auf Zur Webseite gehen.
- Wählen Sie in den Optionseinstellungen die Option „Cookies verwenden“ aus.
3. Captcha für die lokale Extraktion manuell lösen
Wenn unmittelbar nach dem Start der lokalen Ausführung ein Captcha erscheint, können Sie Folgendes versuchen:
- Gehen Sie zu Ihrem Browser und klicken Sie sofort auf „ Pause“.
- Manuelles Auflösen der Erfassung im Exportfenster
- Klicken Sie auf die Schaltfläche „Neustart“ in der oberen linken Ecke des Exportfensters, um es auszuführen.
Wenn Sie Fragen zum Lösen von Captchas mit Octoparse beim Scraping haben, finden Sie unter dem Link weitere Details.
Wer Crawler mit eigenen Programmierkenntnissen entwickelt, kann folgende Captcha-Solver integrieren und nutzen:
- DeathbyCaptcha : Sie können über eine API eine Verbindung zu einem Dienst herstellen, um Captchas während des Scraping-Prozesses automatisch aufzulösen.
- Captcha umgehen : Dieser Captcha-Löser kann Captchas und Recaptchas im Klartext verarbeiten.
- 2CAPTCHA : 2CAPTCHA ist ein nützliches Tool zum Lösen von Captcha-Problemen.
CAPTCHAs können Web-Scraping-Entwicklern Kopfschmerzen bereiten. Aber keine Sorge. Neue CAPTCHAs bieten neue Lösungen. Mit dem Aufkommen von Scraping-Tools und CAPTCHA-Lösungen sind CAPTCHAs leichter zu knacken. Mit diesen Tools können Sie Web Scraping genießen, ohne durch CAPTCHAs behindert zu werden.
👍👍 Wenn Sie Interesse an Octoparse und Web Scraping haben, können Sie es zunächst 14 Tage lang kostenlos ausprobieren.
Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschlägen geben möchten, kontaktieren Sie bitte uns per E-Mail (support@octoparse.com). 💬
Konvertiere Website-Daten direkt in Excel, CSV, Google Sheets und Ihre Datenbank.
Scrape Daten einfach mit Auto-Dedektion, ganz ohne Coding.
Scraping-Vorlagen für beliebte Websites, um Daten mit wenigen Klicks zu erhalten.
Mit IP-Proxys und fortschrittlicher API wird nie blockiert.
Cloud-Dienst zur Planung von Datenabfragen zu jedem gewünschten Zeitpunkt.