undefined
Blog > Datenerfassung > Post

Automatisches Extrahieren der Daten aus einer Website in Excel

Friday, September 10, 2021

Um Daten aus Websites zu extrahieren, können Sie Datenextraktionstools wie Octoparse nutzen. Solche Tools können Daten automatisch aus Websites extrahieren und sie in vielen Formaten wie Excel, JSON, CSV, HTML oder über APIs in Ihrer eigenen Datenbank exportieren. Es dauert nur ein paar Minuten, um Tausende von Datenzeilen zu extrahieren, und das Beste daran ist, dass für den ganzen Prozess keine Codierung erforderlich ist. 

 

Inhaltsübersicht

 

Nehmen wir Google-Suche als Beispiel. Angenommen, wir sind an Informationen zum Thema "Smoothie" interessiert und möchten alle Titel, Beschreibungen und URLs aus den Suchergebnissen extrahieren. Um Daten aus Google-Suche zu extrahieren, können Sie eine Web-Scraping-Vorlage verwenden, die ein vorformatierter Crawler ist, der ohne Konfiguration einsatzbereit ist. Es gibt über 50 Vorlagen, aus denen Sie wählen können. Die Vorlagen reichen von eCommerce-Websites wie Amazon und eBay bis hin zu Social-Media-Websites wie Facebook, Twitter und Instagram. 

 

How to Extract Data from Website to Excel Automatically

 

 

Methode Nr. 1: Extraktion mit Aufgabenvorlage

Schritt 1: Wählen Sie eine Vorlage für Web Scraping

Um die Vorlagen zu verwenden, müssen Sie Octoparse auf Ihrem Computer installiert haben. Wählen Sie den Modus "Task Template". Finden Sie die Web-Scraping-Vorlage für Google Search unter der Kategorie "search engine". 

Schritt 2: Lesen Sie die Anleitung zur Vorlage

Öffnen Sie die Vorlage. Lesen Sie die Anweisungen und die Beispielausgabe, um zu überprüfen, ob Sie mit dieser Vorlage die benötigten Daten erhalten können. Fahren Sie mit dem Mauszeiger über die Datenfelder, um zu sehen, welche Elemente auf den Websites extrahiert werden. 

Sehen Sie sich die Parameter an, um zu erfahren, was Sie eingeben müssen. Die Parameter variieren in den verschiedenen Vorlagen, da sie möglicherweise andere Suchbegriffe erfordern, um den Prozess fortzufahren. Es kann eine URL, ein Schlüsselwort, eine Liste von URLs/Schlüsselwörtern, die Anzahl der Seiten sein. In diesem Fall geben wir den Suchbegriff "Smoothie" ein.

Schritt 3: Verwenden Sie die Vorlage und beginnen Sie mit der Extraktion

Klicken Sie auf "use template", geben Sie "Smoothie" ein und klicken Sie auf "save and run". Wenn es sich um ein einmaliges Projekt handelt, können Sie den Crawler einfach auf Ihrem lokalen Computer ausführen. Wenn Sie hingegen ein laufendes Projekt bearbeiten, können Sie die Extraktion auf der Octoparse-Cloud-Plattform planen. Wenn die Extraktion abgeschlossen ist, können Sie die Daten in viele Formate exportieren, wie Excel, CSV und txt.

 

Wir haben Ihnen schon gezeigt, wie Sie eine Web-Scraping-Vorlage verwenden, um Webdaten aus der Google-Suche zu extrahieren. Sie können auch Ihren eigenen Crawler innerhalb weniger Klicks erstellen, indem Sie den "Advanced Mode" verwenden. Es sind zwar einige Konfigurationen erforderlich, aber er ist im Vergleich zu den Vorlagen flexibler.

 

Methode Nr. 2: Benutzerdefinierte Extraktion mit Advanced Mode

Schritt 1: Geben Sie die Ziel-URL ein, um einen Crawler zu erstellen

Wenn Sie versuchen, Daten in großem Umfang zu extrahieren, können Sie eine Liste von bis zu 10.000 URLs in das Feld eingeben. Da wir in diesem Beispiel nur eine Website scrapen wollen, fügen wir einfach unsere Ziel-URL in das Feld ein und klicken auf "save URL", um fortzufahren. 

Schritt 2: Erstellen das Umblättern

Wechseln Sie den Browser zu Firefox 45. Jetzt hat Octoparse die Webseite erfolgreich in den integrierten Browser geladen. Dann müssen wir eine Paginierung erstellen, indem wir auf die Schaltfläche "Next page" klicken und "Loop click next page" in Aktionstipps wählen. Ein Loop für das Umblättern wird im Workflow generiert. 

Schritt 3: Extrahieren der Daten und Starten der Extraktion

Jetzt können wir auf den Titel eines Suchergebnisses klicken und "select all" anklicken. Sobald alle Titel ausgewählt sind, werden sie grün hervorgehoben. Klicken Sie auf "extract text of the selected element", um alle Titel zu extrahieren. Lassen Sie uns einen Moment innehalten, um einen Blick auf den Arbeitsablauf zu werfen. Wir haben gerade eine Extraktionsschleife innerhalb der Paginierungsschleife erstellt. Der gesamte Extraktionsprozess läuft folgendermaßen ab: Der Bot öffnet zunächst die Webseite, extrahiert die Titel der ersten Seite nacheinander und geht dann zur nächsten Seite, um die Extraktion zu wiederholen, bis die Extraktion gestoppt oder abgeschlossen ist. 

Sie können die gleiche Methode anwenden, um die Beschreibungen zu extrahieren. Um schließlich die URLs zu extrahieren, klicken Sie auf das "A"-Tag und wählen Sie "extract the URL of the selected link". Wenn die Beschreibung und die URL in der oberen rechten Ecke angezeigt werden, bedeutet dies, dass wir sie erfolgreich extrahiert haben. Jetzt können wir den Feldnamen bearbeiten, die Scraping-Aufgabe speichern und die Extraktion starten. 

 

Neben Google können Datenextraktionstools Daten von vielen anderen Websites abrufen, und sie werden in vielen Branchen eingesetzt. Unternehmen können zum Beispiel Yellowpages, Yelp und Google Maps extrahieren, um Vertriebskontakte zu generieren. Weitere Verwendungszwecke und Anwendungen der Datenextraktion können Sie hier finden. 

 

 

Autor: Milly

 

Relative Artikel

 

  1. 9 kostenlose Web Scraper, die Sie im Jahr 2021 nicht verpassen können
  2. Scrapen Daten aus Website mit Excel (Tutorial 2020)
  3. 10 beste E-Mail-Scraping-Tools im Jahr 2020
  4. 10 beste Open Source Web Scraper im Jahr 2020
  5. Einfaches Web-Scraping mit Google Tabellen (aktualisiert 2020)
  6. Die 15 bestbezahlten Programmiersprachen im Jahr 2021

 

 

Laden Sie Octoparse herunter, um mit Web-Scraping zu beginnen, oder kontaktieren Sie uns
für die Fragen über Web Scraping!

Kontaktieren Sie uns Herunterladen
btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen