Scrapen Daten auf Seitenebene (Metadaten, Seiten-URL, Seitentitel, Quellcode)
Tuesday, July 20, 2021 12:38 PMIn diesem Tutorial zeigen wir Ihnen, wie Sie Octoparse verwenden, um Daten auf Seitenebene zu extrahieren, einschließlich Webseiten-URL, Seitentitel, Meta-Beschreibung, Meta-Keyword und HTML-Quellcode.
Wie fügen Sie Daten hinzu
1. Öffnen Sie die Aktionseinstellungen von der Aktion "Extract Data"
2. Klicken Sie auf zu "Add data field(s)"
3. Bewegen Sie den Mauszeiger auf "Page-level data", dann wählen die gewünschten Daten auf Seitenebene aus
Die ausgewählten Daten der Seitenebene werden automatisch in "Data Field" hinzugefügt.
4. Benennen Sie das Datenfeld nach Bedarf um
Tipps!
Sie können die Felder auch im Bereich "Data Preview" hinzufügen. Klicken Sie auf das Symbol mceclip1.png, um die Dropdown-Optionen abzurufen.
Bedeutung der Felder
• Page URL: Seiten-URL: Die URL der aktuellen Seite wird hinzugefügt.
Es ist nützlich, wenn Sie die fehlenden Datenfelder auf einer Seite überprüfen möchten: What to do with those blank fields I got in the extracted result?
• Page title: Seitentitel: Der Inhalt des Titel-Tags wird extrahiert.
Das ist eine kurze Beschreibung einer Webseite und erscheint oben im Browserfenster.
• Meta description: Meta-Beschreibung: Den Inhalt der Meta-Beschreibung wird extrahiert.
Meta-Beschreibung ist eine kurze Zusammenfassung des Seiteninhalts.
• Meta-Keyword: Der Inhalt des Meta-Keyword-Tags wird extrahiert.
Das Scraping des Seitentitels, der Meta-Description und der Meta-Keywords ist nützlich, wenn Sie Ihre SEO verbessern möchten.
• HTML-Quellcode: der komplette HTML-Code der Webseite