undefined

Warum erhält die Aufgabe mit der Cloud-Ausführung keine Daten, funktioniert aber gut, wenn sie lokal ausgeführt wird? (Version 8)  

Thursday, August 12, 2021 10:09 AM

Manchmal kann es vorkommen, dass der Cloud-Ausführung keine Daten für eine Aufgabe liefert, die aber im lokalen System einwandfrei läuft. In diesem Artikel zeigen wir Ihnen einige Tipps zur Behebung dieses Problems.

 

Nachfolgend sind einige Hauptgründe, warum keine Daten zurückgegeben werden:

 

1) Die Ziel-Website wird nicht vollständig geladen oder die zu extrahierenden Daten werden nicht geladen

 

Die Ladezeit der Website hängt von den Internetbedingungen und der Website selbst ab. Wenn Sie also feststellen, dass keine Daten extrahiert werden, versuchen Sie bitte, die Wartezeit für die Aktion "Go to Web Page" zu erhöhen.

16515615165156.png

1615615614156.png

 

2) Cloud-IPs sind aufgrund der hohen Scraping-Häufigkeit für den Zugriff auf die Website gesperrt

 

Viele Websites wenden Anti-Scraping-Techniken an, um zu verhindern, dass sie gescrapt werden. Solche Websites können die Zugriffszeiten für IPs während eines bestimmten Zeitraums begrenzen und jede IP blockieren, die diese Grenze überschreitet.

 

Einige Websites können sogar alle IPs eines Standorts sperren, z. B. manche japanische Website sind nicht in Kanada zu öffnen.

 

IPs, die aufgrund von zu häufigem Scraping auf der schwarzen Liste stehen, können durch das Hinzufügen von Wartezeiten  gelöst werden, damit die Extraktion verlangsamt werden, aber die Beschränkung auf IP-Standorte ist derzeit noch ein Problem, da wir nur IPs aus den USA, Japan, Deutschland und dem Vereinigten Königreich haben.

 

3) Ein CAPTCHA muss vor dem Zugriff auf die Webseite gelöst werden

 

CAPTCHA ist auch eine häufig verwendete Methode von Website zum Schutz vor Scraping. Eine Website kann erkennen, dass es sich um eine Cloud-Server-IP handelt und nicht um eine private IP, die auf die Seiten zugreift. In vielen Fällen wird das CAPTCHA direkt beim Öffnen der ersten Seite der Website angezeigt, wodurch der gesamte Scraping-Prozess unterbrochen wird. Es ist schwierig, das CAPTCHA in der Cloud zu lösen. Wenn Sie diesen Fehler haben, kontaktieren Sie uns bitte und wir werden versuchen, eine Umgehungslösung für Sie zu finden.

 

4) Die Anmeldung auf der Ziel-Website schlägt fehl

 

Wenn Sie Anmeldeschritte einrichten oder Cookies in einer Aufgabe zum Scrapen einer Website speichern, würde die lokale Extraktion einwandfrei funktionieren, aber die Cloud-Extraktion kann aufgrund unterschiedlicher IPs, die während der Ausführung rotieren, fehlschlagen.

Viele Websites verlangen eine Überprüfung, bevor Sie sich anmelden. Solche Verifizierungen wie CAPTCHA sind bei der Cloud-Extraktion nicht auflösbar.

 

Das gespeicherte Cookie hat immer eine gültige Zeit und funktioniert nicht mehr, wenn es abläuft. Um dieses Problem zu lösen, müssen Sie die Anmeldeschritte erneut durchlaufen, um die aktualisierten Cookies zu erhalten und zu speichern (siehe "Cookie speichern").  

 

5) Das HTML-Design der Website ist anders, wenn sie in der Cloud geöffnet wird

 

Für Octoparse besteht das Extrahieren von Webdaten darin, den Inhalt aus dem Quellcode/der HTML-Datei zu übernehmen. Es muss den HTML-Code erkennen, um zu wissen, welche Daten zu extrahieren sind. Es kann vorkommen, dass das Design der Website in der Cloud anders ist und die Extraktion fehlschlägt.

 

Wenn Sie z. B. Sephora.com mit einer IP aus China öffnen, wird die Seite auf Sephora.cn umgeleitet. Das Design der Websites für verschiedene Standorte ist völlig unterschiedlich. Wenn Sie also die Octopare Cloud-Extraktion verwenden, stellen Sie bitte sicher, dass Sie eine Website extrahieren, die nicht nach IP-Standorten umgeleitet wird.

 

Auch wenn die Website nicht umgeleitet wird, kann der Quellcode in einem anderen Browser unter anderen Netzwerkbedingungen ein wenig verändert werden.

 

Woher weiß ich, was die Ursache für die fehlgeschlagene Cloud-Extraktion ist?

Der Octoparse-Cloud-Extraktionsprozess wird nicht wie die lokale Extraktion in einem Fenster gezeigt. Es gibt einen einfachen Weg, um zu testen, was in der Cloud passiert: Extrahieren Sie den äußeren HTML-Code der gesamten Website-Seite.

 

Sie können die folgenden Schritte befolgen, um den HTML-Code zu extrahieren:

 

Schritt 1. Nachdem Sie die Webseite geöffnet haben, klicken Sie auf eine beliebige Stelle, um "Tipps" auszulösen

156165165.png

 

Schritt 2. Klicken Sie auf den HTML-Tag am unteren Rand der "Tipps" und extrahieren Sie dann den äußeren HTML-Code

 4984984158149.png

 

Schritt 3. Führen Sie die Aufgabe in der Cloud aus und erhalten Sie den HTML-Code

 

Schritt 4. Kopieren Sie die extrahierten Daten in eine Textdatei und speichern Sie sie als HTML-Datei

 

Schritt 5. Öffnen Sie die HTML-Datei mit Chrome oder Firefox, um zu sehen, was die Website-Seite in der Cloud lädt

 9849419962562.gif

 

Schritt 6. Überprüfen Sie die Webseite, um herauszufinden, was der Grund für den Extraktionsfehler ist.

 

Wenn die Seite beispielsweise "Access Denied" anzeigt, bedeutet dies, dass die Cloud-IP blockiert ist. Wenn die Seite gleich aussieht, können Sie den HTML-Code sorgfältig prüfen, um den richtigen XPath  für die Extraktion zu erhalten.

 

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen