Auflösung des Captcha
Friday, July 15, 2022 6:25 PMSie folgen jetzt einem Tutorial für die neueste Version von Octoparse. Wenn Sie zur Zeit eine ältere Version verwenden, empfehlen wir Ihnen kräftig es, ein Upgrade zu machen, weil sie schneller, leichter und stärker ist! Herunterladen und Installierung eines Upgrades hier, wenn Sie nicht so bereits machen!
CAPTCHA ist eine populäre Anti-Scraping-Technik, die von vielen Websites in verschiedenen Formen angewendet wird.
Um die Effizienz von Scraping zu verbessern, kann Octoprase derzeit die drei Arten von Captcha automatisch verarbeiten: hCaptcha, ReCaptcha V2 und ImageCaptcha.
hCaptcha und ReCaptcha V2 können auf ähnliche Weise gelöst werden, während es komplizierter ist, eine Auflösung für ImageCaptcha einzurichten.
Folgen Sie diesem Tutorial und Sie würden in der Lage sein, ein grundlegendes Verständnis für jedes Captcha zu haben und sie mit Octoparse zu behandeln.
Übersicht
1. Was sind hCaptcha & ReCaptcha V2?
● hCaptcha kombiniert normalerweise:
- einen „Ich bin kein Roboter“ Button mit das Logo von hCaptcha
- und einfache Fragen (in Bildern), die für Menschen leicht und für Maschinen schwierig erkannt werden:
● ReCaptcha V2
Die meisten ReCaptcha V2 haben einen „Ich bin kein Roboter“ Button; manchmal enthalten sie jedoch auch einfache Fragen ähnlich wie hCaptcha.
2. Auflösung für hCaptcha & ReCaptcha V2
Schritt 1: Klicken Sie auf
im Workflow.
Schirtt 2: Wählen Sie „Solve CAPTCHA“ aus.
Schritt 3: Klicken Sie auf den „Solve CAPTCHA“ Kasten.
Schritt 4: Selektieren Sie hCaptcha/ReCaptcha V2 als den CAPTCHA-Typ.
Schritt 5: Klicken Sie auf „Apply“ zur Speicherung der Einstellungen.
Tipps!
hCaptcha und ReCaptcha werden nicht automatisch aufgelöst, bis ein tatsächlicher Datenlauf stattfindet. Daher müssen Sie den Browser-Modus einschalten
und ihn manuell auflösen, um mit der Erstellung der Aufgabe fortzufahren.
3. Was ist ImageCaptcha?
ImageCaptcha ist die ursprüngliche Methode, mit der Menschen verifiziert wurden. Es kann bekannte Wörter, Phrasen oder zufällige Kombinationen von Ziffern und Buchstaben verwenden. Einige ImageCaptcha enthalten auch Variationen in der Großschreibung.
4. Auflösung für ImageCaptcha
Um das Tutorial weiterzuverfolgen und ImageCaptcha zu lösen, können Sie die folgende URL verwenden:
https://democaptcha.com/demo-form-eng/image.html
● A. Wählen des Eingabefeldes und Bildfeldes für Captcha
● B. Einrichtung eines Captcha-Lösungsfehlers
● C. Einrichtung eines Captcha-Lösungserfolges
A. Wählen des Eingabefeldes und Bildfeldes für Captcha
Schritt 1: Klicken Sie auf das Eingabefeld für Captcha.
Schritt 2: Wählen Sie „Solve Captcha“ in der Tips-Platte.
Schritt 3: Klicken Sie auf das Bildfeld.
Schritt 4: Klicken Sie auf den „Login/Submit/Confirm“ Button, um weiterzugehen. (Manchmal können es auch andere Schaltflächen sein, wie „Senden“ in diesem Fall.)
Schritt 5: Klicken Sie auf „Confirm“ in der Tips-Platte.
B. Einrichtung eines Captcha-Lösungsfehlers
Nun müssen wir Octoparse darauf trainieren, das Captcha zu lösen, indem wir einen Lösungsfehler einrichten.
Schritt 1: Klicken Sie auf die Fehlermeldung (in diesem Fall - Einige Fehler wurden in Ihrem Formular entdeckt: Ungültiger Verifizierungscode).
Schritt 2: Klicken Sie auf „Confirm Error“ in der Tips-Platte.
C. Einrichtung eines Captcha-Lösungserfolges
Schritt 1: Klicken Sie auf „Set Up CAPTCHA Solving Success“, um den letzten Schritt zu vollziehen.
Schritt 2: Geben Sie den Text in den Bildkasten ein.
Schritt 3: Klicken Sie auf „Submit CAPTCHA answer and complete setup“.
Das Bild-Captcha wurde jetzt gelöst. Der Schritt von Lösung des CAPTCHA wird dem Workflow hinzugefügt. Und dann können Sie auch die Einstellungen unter dem Workflow ändern.
Tipps!
hCaptcha und ReCaptcha V2 können automatisch erkannt werden, so dass es nicht notwendig ist, XPath einzurichten, um sie zu finden. Ohne XPath kann Image CAPTCHA nicht erkannt werden. Sie müssen in den Einstellungen auf den XPath achten.
Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschlägen geben möchten, reichen Sie bitte uns eine Anfrage ein. Erfüllen Sie eine Anfrage hier. Oder Sie können durch E-Mail (support@octoparse.com) uns kontaktieren.
Autor*in: Das Octoparse Team