undefined

Wie kann ich Daten in Cloud schneller scrapen (Version 8)?  

Tuesday, August 10, 2021 12:25 PM

Octoparse bietet eine Cloud-Plattform mit vielen Cloud-Servern, auf denen Sie Ihre Aufgaben rund um die Uhr ausführen können und die bis zu 6–20 Mal schneller als die lokale Extraktion sind.  Aber manchmal kann die Geschwindigkeit der Cloud nicht so zufriedenstellend sein. In diesem Tutorial erklären wir das Prinzip der Beschleunigung in der Cloud und wie man eine Aufgabe überarbeitet, damit sie schneller laufen kann.

 

Octoparse Cloud beschleunigt, indem es eine Aufgabe in mehrere Teilaufgaben aufteilt und die Teilaufgaben mit mehreren Cloud-Servern ausführt. Eine Unteraufgabe benötigt einen Cloud-Server zur Ausführung, daher hängt die Geschwindigkeit davon ab, wie viele Cloud-Server Ihr Konto hat und ob die Aufgabe aufgeteilt werden kann.  

 

Der Standardplan hat 6 Cloud-Server, während der Profi-Plan 20 hat. Sie können problemlos auf einen höheren Tarif aufsteigen, um die Geschwindigkeit zu erhöhen. Wenn Sie Ihren Plan nicht ändern wollen, ist es wichtig, die Aufgabe teilbar zu erstellen.

 

Welche Arten von Aufgaben sind teilbar?

 

Wenn Sie versuchen, ein „Loop Item“ in Octoparse zu erstellen, weist Octoparse ihm automatisch einen Schleifenmodus zu, basierend auf den ausgewählten Elementen und deren Interaktion mit der allgemeinen Webseitenstruktur.  

 mceclip0.png

 

 

Es gibt in Octoparse drei Arten von teilbaren Schleifenmodi.

 

• Liste von URLs

• Text-Liste

• Feste Liste

 

1. Liste von URLs

 

Eine URL-Schleife wird verwendet, wenn Sie eine Extraktionsaufgabe mit mehr als einer URL starten. Dies ist besonders praktisch, wenn Sie Daten auf mehreren Webseiten extrahieren, die die gleiche Seitenstruktur haben. Sie können einfach eine URL-Schleife einrichten, die jede dieser Seiten durchläuft. Octoparse lädt die URLs eine nach der anderen und führt auf jeder Seite die gleichen Extraktionsaktionen aus.

Eine URL-Schleife ist teilbar. Wenn also eine Aufgabe, die mit einer Liste von URLs erstellt wurde, in der Cloud ausgeführt werden soll, wird sie von Octoparse in mehrere Unteraufgaben aufgeteilt, um eine schnellere und effektivere Extraktion zu realisieren.

Um mehr über die URL-Liste zu erfahren, lesen Sie bitte Batch-Input-URL.

mceclip2.png

 

 

2. Text-Liste

 

Eine Textlistenschleife funktioniert ähnlich wie die URL-Listenschleife, aber anstatt eine Liste von URLs zu durchlaufen, wird nun eine Liste von vordefinierten Textwerten durchlaufen.

Weitere Informationen über die Textlistenschleife finden Sie HIER.

mceclip3.png

 

 

3. Feste Liste

 

Viele Webseiten, wie z. B. E-Commerce-Webseiten, organisieren den Inhalt der Webseite (z.B. Produktinformationen) oft als eine Sammlung von wiederkehrenden Elementen mit einem gemeinsamen HTML-Muster.

 

Bei der Erfassung solcher Elemente, wie z. B. der Produkttitel, würde Octoparse alle Elemente erkennen, die dasselbe HTML-Muster aufweisen, und eine Sammlung von XPath(s) generieren, um alle Elemente derselben Art zu lokalisieren.

mceclip4.png

 

Neben diesen 3 Arten von teilbaren Schleifenmodi gibt es noch 2 weitere Schleifenmodi, die nicht teilbaren sind: Einzelelementschleife und variable Listenschleife. Da beide Schleifenmodi nur einen einzigen XPath beinhalten, können sie nicht zur Beschleunigung weiter in Unteraufgaben aufgeteilt werden.

 

 

Wie kann ich meine Aufgabe teilbar machen?

 

1. Bei einer Aufgabe mit einer variablen Liste zum Klicken einer Liste von Elementen können wir

sie in eine feste Liste umwandeln, indem die XPaths für jedes Element auf der Seite aufgelistet werden

zuerst nur die URLs der Elemente scrapen, ohne auf die Seiten zu klicken, und dann eine andere Aufgabe mit den gescrapten URLs erstellen, um die detaillierten Daten zu erhalten. Hier ist ein Beispiel: Scraping Produktinformationen von Target.com (Version 8).


2. Bei einer Aufgabe, die mehrere Seiten abruft, können wir die URLs der einzelnen Seiten verwenden, um den Arbeitsablauf zu erstellen: Speed up scraping by using URL list.

 

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen