undefined

Advanced Mode - Automatische Detektion der Webseite

Wednesday, July 07, 2021 10:03 AM

Haben Sie immer Schwierigkeit dabei, Workflow selbst zu gestalten? Schaffen Sie es immer noch nicht, die Daten selbst zu extrahieren? Hier ist die neue Lösung für Anfänger: Automatische Detektion der Webseite

Die Funktion "Automatische Detektion" ist eine der neuesten Innovationen von Octoparse 8. Mit der Funktion können Anwender ihre Scraping-Aufgaben einfach mit einem Klick beginnen. Die Funktion kann Webseiten mit verschiedenen Strukturen wie Auflistungen, Tabellen, unendliches Scrollen, "Mehr laden"-Buttons, usw. unterstützen. In diesem Artikel wird diese äußerst nützliche und leistungsstarke Funktion unseren wertvollen Anwendern vorstellen.

 

 

Wie verwenden Sie die Funktion


1. Geben die URL auf der Startseite ein

Geben Sie die Beispiel-URL "https://www.ebay.com/b/Laptops-Netbooks/175672/bn_1648276" in das Suchfeld ein. Klicken Sie auf "Start", um eine neue Aufgabe zu erstellen.

mceclip0.png

 

2. Starten die automatische Detektion

Die Detektion wird gestartet, nachdem Sie auf "Auto-detect web page data" geklickt haben, und wir können einfach warten, bis der Prozess abgeschlossen ist.

 

yyyyy1111.gif

 

3. Modifizieren die Einstellungen

• Unerwünschte Daten entfernen
Klicken Sie auf das Symbol mceclip0.png in der Datenvorschau, um Ihre unerwünschten Datenfelder zu entfernen.

yyyyy1111111.gif

 

• Umbenennen Ihrer Daten

Benennen Sie Datenfelder bei Bedarf um, indem Sie auf das Symbol mceclip1.png klicken.

_____.gif

 

• Bestätigen Sie die Einstellungen unter "Tipps".


In "Tipps" werden mehreren Optionen aufgelistet,

1. "Extract the data in the list": Extrahiere die Daten in der Liste - Diese Option ist standardmäßig ausgewählt, um das Scrapen der Liste von Daten auf der Seite zu unterstützen.
2. "Paginate to scrape more pages": Paginieren, um mehr Seiten zu scrapen - Es befindet sich eine Schaltfläche "Nächste Seite", um zu helfen, Daten von mehreren Seiten zu erhalten.
3. "Add a page scroll": Add a page scroll - Diese Option dient dazu, die Seite nach dem Laden nach unten zu scrollen.

 

1.png

 

Sie können die Einstellungen prüfen/modifizieren/abwählen.

 

a) Prüfen Sie die Einstellungen

Klicken Sie auf "Check" unter "Paginate to scrape more pages", dann werden Sie bemerken, dass die Schaltfläche der Paginierung hervorgehoben wird.

 2.gif

 

 

b) Modifizieren Sie die Einstellungen

Klicken Sie auf die Schaltfläche "Edit", um die Einstellungen zu modifizieren.

3.png

 

c) Abwählen Sie die Einstellungen

Wenn Sie eine Option nicht mehr benötigen, können Sie die Option einfach abwählen.

4.png

• Klicken Sie auf "Create Workflow"
Nachdem Sie die Optionen bestätigt haben, können Sie auf "Create Workflow" klicken, um ein Workflow zu erzeugen

5.png

 

4. Weitere Scraping-Aktionen

 

Die automatische Detektion kann helfen, den Basis-Workflow mit Paginierung und Datenextraktion zu generieren. Wenn Sie auf jeden Link klicken möchten, um weitere Informationen zu erhalten, oder auf die Schaltfläche "Mehr laden" klicken möchten, können Sie die Optionen in "Tipps" benutzen, damit Sie die Aktionen einfach konfigurieren können.

7.png

 

1. Click on a "Load More" button: Auf eine "Mehr laden"-Schaltfläche klicken - Wenn auf der Webseite eine "Mehr laden" Schaltfläche vorhanden ist, können Sie diese Option wählen, damit die "Mehr laden" Schaltfläche auf der Seite ausgewählt und Anzahl des Klicks festgelegt werden, und der Scraper wird automatisch auf die Schaltfläche klicken, um mehr Daten für das Scrapen zu laden.


mceclip1.png

 

2. Click on link(s) to scrape the linked pages: Auf Link(s) klicken, um die verlinkten Seiten zu scrapen - Wenn Sie auf die erkannten Links klicken und weitere Informationen aus den Detailseiten extrahieren möchten, wählen Sie diese Option und dann wählen Sie den Link, auf den Sie klicken möchten.

8.png

 

Tipps:

Um zu bestätigen, ob die richtigen Links ausgewählt sind, können Sie auf "Check" klicken, damit die ausgewälten Links auf der Webseite hervorgehoben werden.

 

5. Fehlende Daten manuell hinzufügen

Manchmal gibt es Datenfelder, die von der automatischen Detektion übersehen werden. Dann müssen Sie die Datenfelder manuell hinzufügen. Markieren Sie einfach die Informationen auf der Webseite und wählen Sie "Extract the text of the element".

6.gif

 

6. Einstellungen speichern und Extraktion starten

Klicken Sie zunächst auf die Schaltfläche "Save", um alle vorgenommenen Einstellungen zu speichern, und dann auf "Run", um Ihre Aufgabe entweder lokal oder in der Cloud auszuführen.

mceclip3.png

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen