undefined

Scrapen Unternehmensinformationen von Crunchbase  

Wednesday, June 09, 2021 3:14 PM

Crunchbase ist eine Website, auf der man Geschäftsinformationen über verschiedene Unternehmen finden kann. Sie bietet Informationen wie Investitionen und Finanzierungsinformationen, Gründungsmitglieder und Personen in Führungspositionen, Fusionen und Übernahmen, Nachrichten, Branchentrends und so weiter.

 

In diesem Tutorial zeigen wir Ihnen, wie Sie Unternehmensinformationen von Crunchbase mit einer URL der Suchergebnisseite scrapen können.

 

In diesem Fall können Sie einfach unsere "Aufgabenvorlage" für Crunchbase verwenden. Sie brauchen keine Aufgabe selbst zu konfigurieren, sondern nur einige Parameter einzugeben. Für weitere Details können Sie hier nachsehen: Aufgabenvorlagen external-link-symbol-1.png

 1.1.png

 

Crunchbase zeigt nur die ersten 5 Suchergebnisse für kostenlose Benutzer an. Stellen Sie bitte sicher, dass Sie einen Pro-Account bei Crunchbase haben, bevor Sie mit der Aufgabenkonfiguration anfangen.

 

Wir werden zuerst in Aufgabe 1 die URLs der Unternehmen in der Detailseite scrapen, dann in Aufgabe 2 Daten wie den Firmennamen, den Standort, die Einführung und Informationen zur Finanzierung scrapen.

 

Zum Üben können Sie die URL im Tutorial verwenden: https://www.crunchbase.com/discover/organization.companies/9472f4f3410c0010e2780a286ce97f9e

 

 

Hier sind die wichtigsten Schritte in diesem Tutorial:

 

Aufgabe 1: Extrahieren alle URLs der Detailseiten auf den Suchergebnisseiten [Aufgabendatei hier  herunterladen]

 

1. "Go To Web Page" - Öffnen die Ziel-Webseite

2. Loggen Sie sich auf der Webseite ein und speichern Sie Cookies

3. Detektieren automatisch die Daten von der Webseite - Erstellen einen Workflow

4. Wählen den Unternehmenslink zum Scrapen aus

5. Erstellen Paginierung - Extrahieren Daten von mehreren Seiten

6. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

 

 

Aufgabe 2: Scrapen die Produktinformationen von gescrapten URLs [Aufgabendatei hier  herunterladen]

 

1. Geben die gescrapten URLs ein - Öffnen die Detailseiten

2. Extrahieren Daten - Wählen die Daten für die Extraktion aus

3. Modifizieren den XPath der Felder

4. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

 

 

Aufgabe 1: Extrahieren der Detailseiten-URLs auf den Suchergebnisseiten

 

1."Go To Web Page" - Öffnen die Ziel-Webseite

 

• Geben Sie die Beispiel-URL ein und klicken Sie auf "Start".

1.png

 

2. Loggen Sie sich auf der Webseite ein und speichern Sie Cookies

 

• Klicken auf mceclip0.png , um in den Browser-modus zu wechseln

• Loggen Sie sich auf der Website ein, wie Sie es in einem normalen Browser tun

 2.gif

 

• Öffnen die Einstellungen der Aktion "Go to Web Page"

• Wählen "Use cookie" und klicken auf  "Use cookie from the current page"

• Klicken auf "OK"

2.1gif.gif

 

3. Detektieren automatisch die Daten von der Webseite - Erstelleneinen Workflow

 

• Schalten den "Browser-Modus" aus

• Klicken auf "Auto-detect web page data" und warten Sie, bis die Detektion abgeschlossen ist

 3.gif

 

• Löschen unerwünschte Felder in der Datenvorschau

 3.2.png

 

• Wählen "Create workflow" in Tipps

 3.1.png

 

Octoparse wird ein „Loop Item“ im Workflow generieren:

mceclip1.png

 

4. Wählen den Unternehmenslink zum Scrapen aus

 

• Wählen den ersten Firmennamen auf der Webseite aus (die erste Zeile sollte rot hervorgehoben sein)

• Klicken auf das Tag "A" in Tipps

• Wählen "Extract the URL of the selected link"

 4.gif

 

• Wählen weitere Informationen der ersten Firma aus, um den Text zu scrapen

• Benennen die Felder bei Bedarf um

 4.1.gif

 

5. Erstellen Paginierung - ExtrahierenDaten von mehreren Seiten

 

• Klicken auf den Button "Weiter" auf der Webseite

• Wählen "Loop click single element"

• Stellen eine geeignete AJAX-Warte-Zeit ein

 5.gif

 

6. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

 

• Klicken auf „Start Extraction“ auf der oberen linken Seite

• Wählen „Local Extraction“, um die Aufgabe auf Ihrem Computer auszuführen

 6.png

 

Nach dem Scraping der Daten können Sie die Daten in eine Excel-Datei exportieren.

 

 

Aufgabe 2: Scrapen die Produktinformationen von gescrapten URLs

 

1. Geben die gescrapten URLs ein - Öffnen die Detailseiten

 

• Klicken auf „+ New“, und wählen „Advanced Mode“

• Geben die gescrapten URLs ein

 6.gif

 

2. Extrahieren Daten - Wählen die Daten für die Extraktion aus

 

• Wählen den Firmennamen auf der Webseite

• Wählen "Extract text of the selected element"

• Wiederholen die obigen Schritte, um alle Daten zu extrahieren, die Sie benötigen

 7.gif

 

• Benennen die Felder bei Bedarf um

 8.gif

 

3. Modifizieren den XPath der Felder

Die Orte der Finanzierungsinformationen verändern auf verschiedenen Firmenseiten. Zum Beispiel enthält die Webseite der Firma Apple Felder wie "Number of Acquisitions" und "Stock Symbol", aber die befinden sich nicht auf der Seite der Firma Shine. Außerdem befindet sich manche gleichen Felder wie "Total Funding Amount" nicht an der gleichen Position auf verschiedene Webseiten.

 7.1.png

 

 

Deswegen müssen wir den XPath dieser Felder ändern, um die auf den verschiedenen Webseiten richtig zu lokalisieren. Wir nehmen das Feld "Total Funding Amount" als Beispiel. Solange der Titel sich nicht ändert, können wir das Feld immer durch den Titel lokalisieren. Der neue XPath für den "Total Funding Amount" ist //span[contains(text(),'Total Funding')]/../../following-sibling::*[1]

 

• Öffnen die Einstellungen der Aktion "Extract Data" 

• Klicken auf "Customize XPath"

• Geben den neuen XPath ein

• Klicken auf "OK"

 9.1.gif

 

Der XPath anderer Felder kann auf die gleiche Weise geändert werden.

 

4. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

 

• Klicken auf "Save"

• Klicken auf "Run"

• Wählen "Run on your device ", um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder Wählen "Run in the Cloud ", um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer)

 10.png

 

Hier sind die Beispieldaten.

mceclip3.png

 

 

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen