Möchten Sie Filmdaten von Websites wie IMDb, Flixster und Rotten Tomatoes extrahieren? Ich werde einen einfach zu bedienenden Film Scraper vorstellen, mit dem Sie alle On-Page-Daten ohne Programmierkenntnisse sammeln können.
Was ist ein Movie-Scraper?
Scraper werden verwendet, um die Informationen auf der Seite zu scrapen. Movie-Scraper bedeutet, dass Metadaten für Video- und Musikelemente herunterzuladen sind. Eigentlich ist Movie-Scraper eine Form von Web Scraping oder Web Crawler.
Was wird von Movie-Scraper erhalten?
Ein Movie-Scraper könnte Ihnen helfen, diese Daten wie folgend zu scrapen:
- Filmname
- Jahr
- Kategorie
- Kundenbewertung
- Einführung
- Besetzung
- Titelbild (URL)
Sie können auch andere Daten wie Bewertung der Filme oder Informationen zu Fernsehsendungen extrahieren, solange sie auf der Webseite vorhanden sind. Sie können Ihren Scraper so inpiduell einrichten, dass Sie alle gewünschten Daten erhalten, sobald Sie den Dreh raus haben.
Der Einstieg
Um Ihnen bei der Datenerfassung zu helfen, wird dieser Artikel Sie durch einen Web-Scraping-Fall führen, um die Informationen aus der IMDb-Filmliste – IMDb Top 250 Movies – zu scrapen.
Wir werden mit den grundlegenden Informationen beginnen: Filmname, Jahr, URLs der vorgestellten Seiten, Titelbild und Kundenbewertungen.
(Wenn Sie die Technik beherrschen, können Sie die erweiterte Suche verwenden, um die Filme herauszufiltern, die Sie interessieren und die Liste der Daten ganz nach unten erhalten.)
Vorraussetzungen:
- Herunterladen von Octoparse (Mac- und Windows-Versionen sind verfügbar, hier können Sie ein Tutorial darüber finden.)
- Ziel-URL (in diesem Fall: https://www.imdb.com/chart/top/?ref_=nv_mv_250)
Alles klar, jetzt werden wir diesen Link verwenden, um die 250 besten Filme auf IMDb zu finden:
Wenn Sie zunächst einige Grundlagen dieses Movie Scrapers lernen möchten, finden Sie hier eine kleine Einführung: die grundlegende Logik der Verwendung von Octoparse.
Wenn Sie sich nicht die Mühe machen wollen, irgendetwas zu lesen, dann können Sie noch in dieses Tutorial bleiben, weil diese Anleitung ganz einfach zu befolgen ist. Tatsächlich gibt es nicht mehr als ein paar Schritte.
Scraping von Top 350 Filmen in 30 Sekunden
Dies ist ein Schritt-für-Schritt-Tutorial zur Datenextraktion von IMDb-Film mit dem automatischen Erkennungsmodus von Octoparse.
Ein kurzer Blick auf die Anleitung:
Schritt 1: Öffnen Sie die Zielseite im intergrierten Browser von Octoparse.
Schritt 2: Klicken Sie auf „Auto-detect web page data“.
Schritt 3: Wählen Sie den Datensazt, den Sie scrapen möchten, dann klicken Sie auf „Create workflow“ zu bestätigen.
Schritt 4: Nachdem der Workflow eingerichtet ist, klicken Sie auf „Run“ zur Durchführung des Workflows.
Schritt 5: Exportieren Sie die Daten für die Offline-Verwendung.
Schritt 1: Öffnen Sie die Zielseite im intergrierten Browser von Octoparse.
Geben Sie auf der Startseite einfach die URL in der Suchleiste ein und klicken Sie auf „Enter“. Der integrierte Browser beginnt, die Seite zu rendern.
Schritt 2: Klicken Sie auf „Auto-detect web page data“.
Sobald die URL erfolgreich im integrierten Octoparse-Browser gerendert wurde, würden Sie eine gelbe Tips-Platte sehen. Es gibt dort einige Optionen, um Ihnen die Vorschläge zu geben, was Sie für den nächsten Schritt tun sollen.
Klicken Sie an dieser Stelle auf die Option „Auto-detect web page data“ und Octoparse wird die Seite umfassend und detailliert scannen.
Schritt 3: Wählen Sie den Datensazt, den Sie scrapen möchten, dann klicken Sie auf „Create workflow“ zu bestätigen.
Sobald die automatische Erkennung abgeschlossen ist, teilt Octoparse Ihnen mit, was es auf der Seite gefunden hat, das sehr wahrscheinlich dem entspricht, was Sie suchen. Und es kann mehr als ein Datenergebnis zur Auswahl stehen.
Schauen Sie auf der Benutzeroberfläche nach unten. In der Vorschaubox sehen Sie jetzt das erste Ergebnis der Empfehlungsdaten. Woohoo, das ist ein perfektes Formular mit genau den Daten, die wir extrahieren wollen.
Wenn Sie zu einem anderen Ergebnis wechseln möchten, um zu prüfen, was Octoparse Ihnen anbietet, klicken Sie auf „Switch auto detect results“, um Ihre Neugierde zu befriedigen. Sobald Sie Ihre Entscheidung getroffen haben, klicken Sie auf „Create Workflow“, um Ihre Wahl zu bestätigen.
Schritt 4: Nachdem der Workflow eingerichtet ist, klicken Sie auf „Run“ zur Durchführung des Workflows.
Nachdem Sie auf „Create workflow“ geklickt haben, werden Sie einige Änderungen auf der Benutzeroberfläche sehen und auf der rechten Seite erscheint ein sogenannter Workflow Ihres Movie Scrapers.
Dabei geht es um einige Befehle und Regeln, die Sie für die Ausführung des Scrapers festlegen. In diesem Fall hat Octoparse mit seinem intelligenten Algorithmus die automatische Erkennung für Sie eingerichtet. Sie können lernen, wie Sie selbst einen Workflow aufbauen, um später einen inpiduelleren Scraper zu erstellen.
Auf jeden Fall haben wir schon es bekommen, was wir wollten. Und nun klicken wir oben rechts auf die kleine blaue Schaltfläche „Run“, um den Scraper zu starten. Wenn Sie mit Octoparse kostenlos starten, wählen Sie die Ausführung auf Ihrem lokalen Gerät.
Tipps!
Durchführung in der Cloud ist schneller und kann auch es vermeiden, blockiert zu werden. Klicken Sie hier, um mehrere Vorteile über Cloud-Datenextraktion zu erfahren.
Ich bekomme meine Daten nur in 30 Sekunden. Web Scraping ist so erstaunlich!
Schritt 5: Exportieren Sie die Daten für die Offline-Verwendung.
Sie haben sicher schon erlebt, wie schnell ein Web Scraper Daten aus dem Internet kopieren kann. Da die Daten gut geordnet und heruntergeladen sind, können Sie sie in Formate wie Excel, CSV, HTML oder JSON exportieren.
Wir haben es geschafft! So ein intelligenter IMDb Film Scraper. Auf die gleiche Weise können wir einen Flixster Film Scraper, Rotten Tomatoes Filmbewertung Scraper und Netflix TV-Serien Scraper machen, z.B. alle Filminformation, beste Kinofilme oder die besten Kinofilmen. Sie können alles scrapen, was Sie wollen.
Tipps!
Wenn Sie etwas Neues ausprobieren und die automatische Erkennung Sie nicht zufrieden stellt, können Sie uns gerne unter support@octoparse.com kontaktieren. Unser professioneller Support wird Ihnen weiterhelfen.
Zusammenfassung
Mit den oben beschriebenen Schritten kann jeder, auch jemand ohne Programmierkenntnisse, einen Film-Crawler mit Octoparse erstellen und mehr als 100.000 Zeilen an Filminformationen erhalten.
Abgesehen von den Daten geht es vor allem um die erlernten Fähigkeiten, die äußerst nützlich sind, wenn man Daten für die Marktforschung, die Analyse und viele andere Dinge benötigt.
Hier bekommen Sie Octoparse! 🤩
Preis: $0~$249 pro Monat
Packet & Preise:Octoparse Premium-Preise & Verpackung
Kostenlose Testversion: 14-tägige kostenlose Testversion
Herunterladen:Octoparse für Windows und MacOs
Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschlägen geben möchten, kontaktieren Sie bitte uns per E-Mail (support@octoparse.com). 💬
Autor*in: Das Octoparse Team ❤️