Warum erhält die Aufgabe mit der Cloud-Ausführung keine Daten, funktioniert aber gut, wenn sie lokal ausgeführt wird? (Version 8)
Thursday, August 12, 2021 10:09 AMManchmal kann es vorkommen, dass der Cloud-Ausführung keine Daten für eine Aufgabe liefert, die aber im lokalen System einwandfrei läuft. In diesem Artikel zeigen wir Ihnen einige Tipps zur Behebung dieses Problems.
Nachfolgend sind einige Hauptgründe, warum keine Daten zurückgegeben werden:
1) Die Ziel-Website wird nicht vollständig geladen oder die zu extrahierenden Daten werden nicht geladen
Die Ladezeit der Website hängt von den Internetbedingungen und der Website selbst ab. Wenn Sie also feststellen, dass keine Daten extrahiert werden, versuchen Sie bitte, die Wartezeit für die Aktion "Go to Web Page" zu erhöhen.
2) Cloud-IPs sind aufgrund der hohen Scraping-Häufigkeit für den Zugriff auf die Website gesperrt
Viele Websites wenden Anti-Scraping-Techniken an, um zu verhindern, dass sie gescrapt werden. Solche Websites können die Zugriffszeiten für IPs während eines bestimmten Zeitraums begrenzen und jede IP blockieren, die diese Grenze überschreitet.
Einige Websites können sogar alle IPs eines Standorts sperren, z. B. manche japanische Website sind nicht in Kanada zu öffnen.
IPs, die aufgrund von zu häufigem Scraping auf der schwarzen Liste stehen, können durch das Hinzufügen von Wartezeiten gelöst werden, damit die Extraktion verlangsamt werden, aber die Beschränkung auf IP-Standorte ist derzeit noch ein Problem, da wir nur IPs aus den USA, Japan, Deutschland und dem Vereinigten Königreich haben.
3) Ein CAPTCHA muss vor dem Zugriff auf die Webseite gelöst werden
CAPTCHA ist auch eine häufig verwendete Methode von Website zum Schutz vor Scraping. Eine Website kann erkennen, dass es sich um eine Cloud-Server-IP handelt und nicht um eine private IP, die auf die Seiten zugreift. In vielen Fällen wird das CAPTCHA direkt beim Öffnen der ersten Seite der Website angezeigt, wodurch der gesamte Scraping-Prozess unterbrochen wird. Es ist schwierig, das CAPTCHA in der Cloud zu lösen. Wenn Sie diesen Fehler haben, kontaktieren Sie uns bitte und wir werden versuchen, eine Umgehungslösung für Sie zu finden.
4) Die Anmeldung auf der Ziel-Website schlägt fehl
Wenn Sie Anmeldeschritte einrichten oder Cookies in einer Aufgabe zum Scrapen einer Website speichern, würde die lokale Extraktion einwandfrei funktionieren, aber die Cloud-Extraktion kann aufgrund unterschiedlicher IPs, die während der Ausführung rotieren, fehlschlagen.
Viele Websites verlangen eine Überprüfung, bevor Sie sich anmelden. Solche Verifizierungen wie CAPTCHA sind bei der Cloud-Extraktion nicht auflösbar.
Das gespeicherte Cookie hat immer eine gültige Zeit und funktioniert nicht mehr, wenn es abläuft. Um dieses Problem zu lösen, müssen Sie die Anmeldeschritte erneut durchlaufen, um die aktualisierten Cookies zu erhalten und zu speichern (siehe "Cookie speichern").
5) Das HTML-Design der Website ist anders, wenn sie in der Cloud geöffnet wird
Für Octoparse besteht das Extrahieren von Webdaten darin, den Inhalt aus dem Quellcode/der HTML-Datei zu übernehmen. Es muss den HTML-Code erkennen, um zu wissen, welche Daten zu extrahieren sind. Es kann vorkommen, dass das Design der Website in der Cloud anders ist und die Extraktion fehlschlägt.
Wenn Sie z. B. Sephora.com mit einer IP aus China öffnen, wird die Seite auf Sephora.cn umgeleitet. Das Design der Websites für verschiedene Standorte ist völlig unterschiedlich. Wenn Sie also die Octopare Cloud-Extraktion verwenden, stellen Sie bitte sicher, dass Sie eine Website extrahieren, die nicht nach IP-Standorten umgeleitet wird.
Auch wenn die Website nicht umgeleitet wird, kann der Quellcode in einem anderen Browser unter anderen Netzwerkbedingungen ein wenig verändert werden.
Woher weiß ich, was die Ursache für die fehlgeschlagene Cloud-Extraktion ist?
Der Octoparse-Cloud-Extraktionsprozess wird nicht wie die lokale Extraktion in einem Fenster gezeigt. Es gibt einen einfachen Weg, um zu testen, was in der Cloud passiert: Extrahieren Sie den äußeren HTML-Code der gesamten Website-Seite.
Sie können die folgenden Schritte befolgen, um den HTML-Code zu extrahieren:
Schritt 1. Nachdem Sie die Webseite geöffnet haben, klicken Sie auf eine beliebige Stelle, um "Tipps" auszulösen
Schritt 2. Klicken Sie auf den HTML-Tag am unteren Rand der "Tipps" und extrahieren Sie dann den äußeren HTML-Code
Schritt 3. Führen Sie die Aufgabe in der Cloud aus und erhalten Sie den HTML-Code
Schritt 4. Kopieren Sie die extrahierten Daten in eine Textdatei und speichern Sie sie als HTML-Datei
Schritt 5. Öffnen Sie die HTML-Datei mit Chrome oder Firefox, um zu sehen, was die Website-Seite in der Cloud lädt
Schritt 6. Überprüfen Sie die Webseite, um herauszufinden, was der Grund für den Extraktionsfehler ist.
Wenn die Seite beispielsweise "Access Denied" anzeigt, bedeutet dies, dass die Cloud-IP blockiert ist. Wenn die Seite gleich aussieht, können Sie den HTML-Code sorgfältig prüfen, um den richtigen XPath für die Extraktion zu erhalten.