Auflösung des Captcha
Vor über einer Woche aktualisiert

Sie folgen jetzt einem Tutorial für die neueste Version von Octoparse. Wenn Sie zur Zeit eine ältere Version verwenden, empfehlen wir Ihnen kräftig es, ein Upgrade zu machen, weil sie schneller, leichter und stärker ist! Herunterladen und Installierung eines Upgrades hier, wenn Sie nicht so bereits machen!

CAPTCHA ist eine populäre Anti-Scraping-Technik, die von vielen Websites in verschiedenen Formen angewendet wird.

Um die Effizienz von Scraping zu verbessern, kann Octoprase derzeit die drei Arten von Captcha automatisch verarbeiten: hCaptcha, ReCaptcha V2 und ImageCaptcha.

hCaptcha und ReCaptcha V2 können auf ähnliche Weise gelöst werden, während es komplizierter ist, eine Auflösung für ImageCaptcha einzurichten.

Folgen Sie diesem Tutorial und Sie würden in der Lage sein, ein grundlegendes Verständnis für jedes Captcha zu haben und sie mit Octoparse zu behandeln.


1. Was sind hCaptcha & ReCaptcha V2?

  • hCaptcha kombiniert normalerweise:

- einen „Ich bin kein Roboter“ Button mit das Logo von hCaptcha

hCaptcha

- und einfache Fragen (in Bildern), die für Menschen leicht und für Maschinen schwierig erkannt werden:

einfache Fragen

  • ReCaptcha V2

Die meisten ReCaptcha V2 haben einen „Ich bin kein Roboter“ Button; manchmal enthalten sie jedoch auch einfache Fragen ähnlich wie hCaptcha.

ReCaptcha V2


2. Auflösung für hCaptcha & ReCaptcha V2

  • Schritt 1: Klicken Sie auf den Button, der Nummer 1 im Bild ist, im Workflow.

  • Schirtt 2: Wählen Sie „Solve CAPTCHA“ aus.

Solve CAPTCHA

  • Schritt 3: Klicken Sie auf den „Solve CAPTCHA“ Kasten.

  • Schritt 4: Selektieren Sie hCaptcha/ReCaptcha V2 als den CAPTCHA-Typ.

CAPTCHA-Typ

  • Schritt 5: Klicken Sie auf „Apply“ zur Speicherung der Einstellungen.

auf Apply klicken

Tipps!

hCaptcha und ReCaptcha werden nicht automatisch aufgelöst, bis ein tatsächlicher Datenlauf stattfindet. Daher müssen Sie den Browser-Modus einschalten und ihn manuell auflösen, um mit der Erstellung der Aufgabe fortzufahren.


3. Was ist ImageCaptcha?

ImageCaptcha ist die ursprüngliche Methode, mit der Menschen verifiziert wurden. Es kann bekannte Wörter, Phrasen oder zufällige Kombinationen von Ziffern und Buchstaben verwenden. Einige ImageCaptcha enthalten auch Variationen in der Großschreibung.

ImageCaptcha


4. Auflösung für ImageCaptcha

Um das Tutorial weiterzuverfolgen und ImageCaptcha zu lösen, können Sie die folgende URL verwenden:

  • A. Wählen des Eingabefeldes und Bildfeldes für Captcha

  • B. Einrichtung eines Captcha-Lösungsfehlers

  • C. Einrichtung eines Captcha-Lösungserfolges

A. Wählen des Eingabefeldes und Bildfeldes für Captcha

Schritt 1: Klicken Sie auf das Eingabefeld für Captcha.

Schritt 2: Wählen Sie „Solve Captcha“ in der Tips-Platte.

Solve Captcha wählen

Schritt 3: Klicken Sie auf das Bildfeld.

Schritt 4: Klicken Sie auf den „Login/Submit/Confirm“ Button, um weiterzugehen. (Manchmal können es auch andere Schaltflächen sein, wie „Senden“ in diesem Fall.)

Schritt 5: Klicken Sie auf „Confirm“ in der Tips-Platte.

auf Confirm klicken

B. Einrichtung eines Captcha-Lösungsfehlers

Nun müssen wir Octoparse darauf trainieren, das Captcha zu lösen, indem wir einen Lösungsfehler einrichten.

Schritt 1: Klicken Sie auf die Fehlermeldung (in diesem Fall - Einige Fehler wurden in Ihrem Formular entdeckt: Ungültiger Verifizierungscode).

Schritt 2: Klicken Sie auf „Confirm Error“ in der Tips-Platte.

auf Confirm Error klicken

C. Einrichtung eines Captcha-Lösungserfolges

Schritt 1: Klicken Sie auf „Set Up CAPTCHA Solving Success“, um den letzten Schritt zu vollziehen.

Set Up CAPTCHA Solving Success

Schritt 2: Geben Sie den Text in den Bildkasten ein.

Schritt 3: Klicken Sie auf „Submit CAPTCHA answer and complete setup“.

Submit CAPTCHA answer and complete setup

Das Bild-Captcha wurde jetzt gelöst. Der Schritt von Lösung des CAPTCHA wird dem Workflow hinzugefügt. Und dann können Sie auch die Einstellungen unter dem Workflow ändern.

Einstellungen ändern

Tipps!

hCaptcha und ReCaptcha V2 können automatisch erkannt werden, so dass es nicht notwendig ist, XPath einzurichten, um sie zu finden. Ohne XPath kann Image CAPTCHA nicht erkannt werden. Sie müssen in den Einstellungen auf den XPath achten.

Hat dies Ihre Frage beantwortet?