Scrapen Kryptowährungsinformationen von Yahoo Finance
Thursday, June 10, 2021 10:52 AM
Eine Kryptowährung ist eine digitale oder virtuelle Währung, die durch Kryptografie gesichert ist, was es nahezu unmöglich macht, sie zu fälschen oder doppelt auszugeben. Viele Kryptowährungen sind dezentralisierte Netzwerke, die auf der Blockchain-Technologie basieren - ein verteiltes Hauptbuch, das durch ein ungleiches Netzwerk von Computern erzwungen wird.
Kryptowährungsspieler müssen die Preisschwankungen der Währungen überwachen, da der Preis sich innerhalb von Sekunden ändert. Octoparse kann das Scraping so planen, dass es sofort ausgeführt wird, damit die Informationen rechtzeitig aktualisiert werden können.
In diesem Tutorial zeigen wir Ihnen, wie Sie Informationen der Kryptowährungen von Yahoo Finance scrapen können.
In diesem Fall können Sie einfach unsere "Aufgabenvorlage" für Yahoo Finance verwenden. Sie brauchen keine Aufgabe selbst zu konfigurieren, sondern nur einige Parameter einzugeben. Für weitere Details können Sie hier nachsehen: Aufgabenvorlagen
Zum Nachvollziehen können Sie diese URL im Tutorial verwenden:
https://finance.yahoo.com/cryptocurrencies?count=50&offset=0
Wir werden Daten wie das Symbol und den Namen aus der Kryptowährungen-Tabelle mit Octoparse scrapen.
Hier sind die wichtigsten Schritte in diesem Tutorial: [Aufgabendatei hier herunterladen]
1. "Go To Web Page" - Öffnen die Ziel-Webseite
2. Detektieren automatisch die Daten von der Webseite - Erstellen einen Workflow
3. Extrahieren Daten - Modifizieren die Datenfelder
4. Modifizieren den XPath der Paginierung - um endloses Scraping zu beenden
5. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten
1. "Go To Web Page" - Öffnen die Ziel-Webseite
• Geben Sie die Beispiel-URL ein und klicken Sie auf "Start".
2. Detektieren automatisch die Daten von der Webseite - Erstelleneinen Workflow
• Klicken auf "Auto-detect web page data" und warten, bis die Detektion abgeschlossen ist
• Klicken in "Tipps" auf "Switch auto-detect results", um die benötigte Daten zu lokalisieren
• Deaktivieren "Add a page scroll"
• Klicken auf "Create workflow"
• Öffnen die Einstellungen der Aktion "Click to Paginate action"
• Stellen die AJAX-Wartezeit auf 7-10s
3. Extrahieren Daten - Modifizieren die Datenfelder
• Öffnen die Einstellungen der Aktion "Extract Data"
• Löschen unerwünschte Felder, indem Sie auf das Symbol klicken
• Benennen die Felder um, indem Sie auf den Feldnamen klicken
Tipps!
• Ein Feldname darf nur Buchstaben, Zahlen und "_" enthalten.
• Ein Feldname kann nicht mit einer Zahl oder "_" beginnen.
4. Modifizierenden XPath der Paginierung - um endloses Scraping zu beenden
Der automatisch generierte XPath von Paginierung muss in diesem Fall geändert werden, sonst wird das Scraping nicht enden. Octoparse wird dann immer die letzte Seite scrapen. Details zu diesem Problem finden Sie hier.
• Öffnen die Einstellungen von Paginierung
• Geben den neuen XPath //button[not(@disabled)]//span[text()="Next"] ein
• Bestätigen mit OK
5. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten
• Klicken auf "Save"
• Klicken auf "Run"
• Wählen "Run on your device", um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder Wählen "Run in the Cloud", um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer). Sie können auch die Aufgabe planen, dass die Daten in einer Häufigkeit aktualisiert werden
Sie können die Ergebnisdaten in Formate wie EXCEL, CVS, JSON oder in Ihre Datenbank exportieren.
Hier sind die Beispieldaten.