Extrahieren Element text/URL/Bild/HTML/Attribut
Thursday, August 05, 2021 12:04 PMEs gibt verschiedene Arten von Informationen auf Webseiten, wie z. B. Text, Bilder, usw. Octoparse ist in der Lage, verschiedene Informationen zu extrahieren. In diesem Tutorial zeigen wir Ihnen, wie Sie mit Octoparse Text, URL, Bild-URL, HTML und Attribute extrahieren können.
2) Extrahieren der URL eines Links oder eines Bildes
3) Extrahieren des inneres/äußeres HTML
1) Text extrahieren
Die meisten Daten werden im Internet als lesbarer Text dargestellt, z. B. Nachrichtenartikel, Produktinformationen und Blogs.
Sehen wir uns an, wie man die Textdaten mit Octoparse auswählt und extrahiert.
1. Klicken auf die gewünschten Zieldaten
Wenn Sie auf das gewünschte Element klicken, wird der Auswahlbereich grün hervorgehoben.
2. Extrahieren Text
Klicken Sie auf "Extract text of the selected element", um den Text zu extrahieren
2) Extrahieren der URL eines Links oder eines Bildes
Eine URL ist ein Hyperlink. Mit einem einzigen Klick auf eine URL können Sie eine neue Webseite öffnen oder zu einer neuen Website gehen.
Neben einer Webseite ermöglicht Ihnen die URL auch den Zugriff auf eine bestimmte Dateiressource im Internet, z. B. ein Bild oder ein PDF-Dokument. Wenn Sie die URL erhalten, können Sie die entsprechende Datei oder das Bild über die URL aus dem Internet herunterladen.
Sehen wir uns an, wie man die URL eines Links oder eines Bildes mit Octoparse auswählt und extrahiert.
Extrahieren der URL eines Links
1. Klicken Sie auf den gewünschten Link
Wenn Sie auf den gewünschten Link/das gewünschte Bild klicken, wird der Auswahlbereich grün hervorgehoben.
Tipps!
Wenn Sie ein Element mit einer URL auswählen, sollte das ausgewählte Tag am unteren Rand von "Tipps" "A" sein, was für einen Anker steht, mit dem eine Seite mit einer anderen verbindet wird. Sie können feststellen, ob Sie das richtige Element ausgewählt haben, indem Sie das Tag überprüfen.
2. Extrahieren der URL
Klicken Sie in den Tipps auf "Extract the URL of the selected element", um die URL zu erhalten
Extrahieren der Bild-URL
1. Klicken Sie auf das gewünschte Bild
Tipps!
Wenn Sie ein Bild auswählen, sollte das ausgewählte Tag am unteren Rand von "Tipps" "IMG" sein.
2. Extrahieren Sie die URL des Bildes
Klicken Sie auf "Extract the URL of the selected image", um die URL zu erhalten
Tipps!
Kann ich Octoparse nur verwenden, um ein Bild direkt von der Webseite zu extrahieren, nicht aber dessen URL?
Leider können Sie Octoparse nicht verwenden, um das Bild direkt zu extrahieren. Wenn Sie Bilder herunterladen möchten, können Sie zuerst die URLs der Bilder mit Octoparse extrahieren und dann die Bilder mit einem "Download von URL"-Tool herunterladen (bulk download the images with a "download from URL" tool ).
3) Extrahieren des inneres/äußeres HTML
Im Gegensatz zu Text und URL können Daten wie Symbole nicht direkt extrahiert werden. Wenn Sie visuelle Nicht-Text-Inhalte wie die Sterne-Bewertung in E-Commerce-Website extrahieren möchten, müssen Sie das innere/äußere HTML der Inhalte extrahieren.
Außerhalb der Symbole können Sie auch versteckte Texte, Diagramme und Grafiken aus einer Webseite extrahieren, indem Sie zunächst den HTML-Code dieser Elemente extrahieren. Nachdem Sie den HTML-Code erhalten haben, können Sie reguläre Ausdrücke anwenden, um die Daten zu bereinigen.
Sehen wir uns zunächst an, wie man mit Octoparse inneren/äußeren HTML-Code auswählt und extrahiert.
1. Klicken Sie auf die gewünschten Zieldaten
Wenn Sie auf das gewünschte Element klicken, wird der Auswahlbereich grün hervorgehoben.
2. Extrahieren inneres/äußeres HTML
Klicken Sie auf "Extract inner/outer HTML of the selected" in "Tipps".
Tipps!
Octoparse bietet sowohl nützliche Funktionen als auch Werkzeuge für die Anwendung regulärer Ausdrücke.
Relative Artikel:
Extract Text from HTML - Using RegExp Tool
4) Extrahieren der Attribute
Attribute befinden sich innerhalb des HTML-Codes und liefern zusätzliche Informationen über HTML-Elemente. Zum Beispiel wird die Sternebewertung normalerweise in einem Attribut gespeichert. Es wird in Name/Wert-Paaren wie name="Wert" gespeichert. Octoparse kann helfen, den Wert direkt auszulesen.
1. Wählen Sie das Element aus (hier nehmen wir die Sternebewertung als Beispiel)
2. Extrahierenden Text oder HTML des Elements
3. Gehen Sie zu den Einstellungen von "Extract Data" und klicken Sie auf , um die Option "Customize data field" zu finden
4. Wählen Sie "Extract attribute" und wählen Sie das Zielattribut aus der Dropdown-Liste
Tipps!
1. Sie können auch andere Informationen aus dem Element extrahieren, indem Sie "Customize data field" verwenden. Zum Beispiel, wenn Sie ausgewählthaben, den Text zu extrahieren, möchten aber später den HTML-Code des Elements auslesen. In solcher Situation können Sie sie einfach zum "Customize data field"gehen und die Option "Extract the outer HTML" wählen.
2. Alle Arten von Daten werden beim Exportieren in eine Datei im Textformat gespeichert.