undefined

Extrahieren Element text/URL/Bild/HTML/Attribut

Thursday, August 05, 2021 12:04 PM

Es gibt verschiedene Arten von Informationen auf Webseiten, wie z. B. Text, Bilder, usw. Octoparse ist in der Lage, verschiedene Informationen zu extrahieren. In diesem Tutorial zeigen wir Ihnen, wie Sie mit Octoparse Text, URL, Bild-URL, HTML und Attribute extrahieren können.

 

1) Text extrahieren

 

2) Extrahieren der URL eines Links oder eines Bildes

 

3) Extrahieren des inneres/äußeres HTML

 

4) Extrahieren der Attribute

 

 

 

 

1) Text extrahieren

 

Die meisten Daten werden im Internet als lesbarer Text dargestellt, z. B. Nachrichtenartikel, Produktinformationen und Blogs.

 

 

Sehen wir uns an, wie man die Textdaten mit Octoparse auswählt und extrahiert.

 

1. Klicken auf die gewünschten Zieldaten

 

Wenn Sie auf das gewünschte Element klicken, wird der Auswahlbereich grün hervorgehoben.

 

2. Extrahieren Text

 

Klicken Sie auf "Extract text of the selected element", um den Text zu extrahieren

 1.gif

 

 

2) Extrahieren der URL eines Links oder eines Bildes

 

 

Eine URL ist ein Hyperlink. Mit einem einzigen Klick auf eine URL können Sie eine neue Webseite öffnen oder zu einer neuen Website gehen.

 

Neben einer Webseite ermöglicht Ihnen die URL auch den Zugriff auf eine bestimmte Dateiressource im Internet, z. B. ein Bild oder ein PDF-Dokument. Wenn Sie die URL erhalten, können Sie die entsprechende Datei oder das Bild über die URL aus dem Internet herunterladen.

 

Sehen wir uns an, wie man die URL eines Links oder eines Bildes mit Octoparse auswählt und extrahiert.

 

Extrahieren der URL eines Links

 

1. Klicken Sie auf den gewünschten Link

 

Wenn Sie auf den gewünschten Link/das gewünschte Bild klicken, wird der Auswahlbereich grün hervorgehoben.

 

Tipps!

 

Wenn Sie ein Element mit einer URL auswählen, sollte das ausgewählte Tag am unteren Rand von "Tipps" "A" sein, was für einen Anker steht, mit dem eine Seite mit einer anderen verbindet wird. Sie können feststellen, ob Sie das richtige Element ausgewählt haben, indem Sie das Tag überprüfen.

 2020-08-02_14-03-18.png

 

2. Extrahieren der URL

 

Klicken Sie in den Tipps auf "Extract the URL of the selected element", um die URL zu erhalten

 scrape_URL.gif

 

Extrahieren der Bild-URL

 

1. Klicken Sie auf das gewünschte Bild

 

Tipps!

Wenn Sie ein Bild auswählen, sollte das ausgewählte Tag am unteren Rand von "Tipps" "IMG" sein.

 2020-08-02_14-02-14.png

 

2. Extrahieren Sie die URL des Bildes

 

Klicken Sie auf "Extract the URL of the selected image", um die URL zu erhalten

scrape_image.gif

 

Tipps!

Kann ich Octoparse nur verwenden, um ein Bild direkt von der Webseite zu extrahieren, nicht aber dessen URL?

 

Leider können Sie Octoparse nicht verwenden, um das Bild direkt zu extrahieren. Wenn Sie Bilder herunterladen möchten, können Sie zuerst die URLs der Bilder mit Octoparse extrahieren und dann die Bilder mit einem "Download von URL"-Tool herunterladen (bulk download the images with a "download from URL" tool  ).

 

3) Extrahieren des inneres/äußeres HTML

 

 

Im Gegensatz zu Text und URL können Daten wie Symbole nicht direkt extrahiert werden. Wenn Sie visuelle Nicht-Text-Inhalte wie die Sterne-Bewertung in E-Commerce-Website extrahieren möchten, müssen Sie das innere/äußere HTML der Inhalte extrahieren.

 

Außerhalb der Symbole können Sie auch versteckte Texte, Diagramme und Grafiken aus einer Webseite extrahieren, indem Sie zunächst den HTML-Code dieser Elemente extrahieren. Nachdem Sie den HTML-Code erhalten haben, können Sie reguläre Ausdrücke anwenden, um die Daten zu bereinigen.

 

Sehen wir uns zunächst an, wie man mit Octoparse inneren/äußeren HTML-Code auswählt und extrahiert.

 

1. Klicken Sie auf die gewünschten Zieldaten

Wenn Sie auf das gewünschte Element klicken, wird der Auswahlbereich grün hervorgehoben.

 

2. Extrahieren inneres/äußeres HTML

Klicken Sie auf "Extract inner/outer HTML of the selected" in "Tipps".

t7.gif

 

Tipps!

Octoparse bietet sowohl nützliche Funktionen als auch Werkzeuge für die Anwendung regulärer Ausdrücke.

 

Relative Artikel:

Extract Text from HTML - Using RegExp Tool 

Re-format data extracted 

 

 

4) Extrahieren der Attribute

 

 

Attribute befinden sich innerhalb des HTML-Codes und liefern zusätzliche Informationen über HTML-Elemente. Zum Beispiel wird die Sternebewertung normalerweise in einem Attribut gespeichert. Es wird in Name/Wert-Paaren wie name="Wert" gespeichert. Octoparse kann helfen, den Wert direkt auszulesen.

 

1. Wählen Sie das Element aus (hier nehmen wir die Sternebewertung als Beispiel)

2. Extrahierenden Text oder HTML des Elements

 scrape_attribute.gif

 

 

3. Gehen Sie zu den Einstellungen von "Extract Data" und klicken Sie auf mceclip0.png, um die Option "Customize data field" zu finden

 2020-08-02_14-34-44.png

 

 

4. Wählen Sie "Extract attribute" und wählen Sie das Zielattribut aus der Dropdown-Liste

2020-08-02_14-46-33.png

 

 

Tipps!

1. Sie können auch andere Informationen aus dem Element extrahieren, indem Sie "Customize data field" verwenden. Zum Beispiel, wenn Sie ausgewählthaben, den Text zu extrahieren, möchten aber später den HTML-Code des Elements auslesen. In solcher Situation können Sie sie einfach zum "Customize data field"gehen und die Option "Extract the outer HTML" wählen.

 2020-08-02_14-50-12.png

 

2. Alle Arten von Daten werden beim Exportieren in eine Datei im Textformat gespeichert.

 

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen