Advanced Mode - Automatische Detektion der Webseite
Wednesday, July 07, 2021 10:03 AMHaben Sie immer Schwierigkeit dabei, Workflow selbst zu gestalten? Schaffen Sie es immer noch nicht, die Daten selbst zu extrahieren? Hier ist die neue Lösung für Anfänger: Automatische Detektion der Webseite
Die Funktion "Automatische Detektion" ist eine der neuesten Innovationen von Octoparse 8. Mit der Funktion können Anwender ihre Scraping-Aufgaben einfach mit einem Klick beginnen. Die Funktion kann Webseiten mit verschiedenen Strukturen wie Auflistungen, Tabellen, unendliches Scrollen, "Mehr laden"-Buttons, usw. unterstützen. In diesem Artikel wird diese äußerst nützliche und leistungsstarke Funktion unseren wertvollen Anwendern vorstellen.
Wie verwenden Sie die Funktion
1. Geben die URL auf der Startseite ein
Geben Sie die Beispiel-URL "https://www.ebay.com/b/Laptops-Netbooks/175672/bn_1648276" in das Suchfeld ein. Klicken Sie auf "Start", um eine neue Aufgabe zu erstellen.
2. Starten die automatische Detektion
Die Detektion wird gestartet, nachdem Sie auf "Auto-detect web page data" geklickt haben, und wir können einfach warten, bis der Prozess abgeschlossen ist.
3. Modifizieren die Einstellungen
• Unerwünschte Daten entfernen
Klicken Sie auf das Symbol in der Datenvorschau, um Ihre unerwünschten Datenfelder zu entfernen.
• Umbenennen Ihrer Daten
Benennen Sie Datenfelder bei Bedarf um, indem Sie auf das Symbol klicken.
• Bestätigen Sie die Einstellungen unter "Tipps".
In "Tipps" werden mehreren Optionen aufgelistet,
1. "Extract the data in the list": Extrahiere die Daten in der Liste - Diese Option ist standardmäßig ausgewählt, um das Scrapen der Liste von Daten auf der Seite zu unterstützen.
2. "Paginate to scrape more pages": Paginieren, um mehr Seiten zu scrapen - Es befindet sich eine Schaltfläche "Nächste Seite", um zu helfen, Daten von mehreren Seiten zu erhalten.
3. "Add a page scroll": Add a page scroll - Diese Option dient dazu, die Seite nach dem Laden nach unten zu scrollen.
Sie können die Einstellungen prüfen/modifizieren/abwählen.
a) Prüfen Sie die Einstellungen
Klicken Sie auf "Check" unter "Paginate to scrape more pages", dann werden Sie bemerken, dass die Schaltfläche der Paginierung hervorgehoben wird.
b) Modifizieren Sie die Einstellungen
Klicken Sie auf die Schaltfläche "Edit", um die Einstellungen zu modifizieren.
c) Abwählen Sie die Einstellungen
Wenn Sie eine Option nicht mehr benötigen, können Sie die Option einfach abwählen.
• Klicken Sie auf "Create Workflow"
Nachdem Sie die Optionen bestätigt haben, können Sie auf "Create Workflow" klicken, um ein Workflow zu erzeugen
4. Weitere Scraping-Aktionen
Die automatische Detektion kann helfen, den Basis-Workflow mit Paginierung und Datenextraktion zu generieren. Wenn Sie auf jeden Link klicken möchten, um weitere Informationen zu erhalten, oder auf die Schaltfläche "Mehr laden" klicken möchten, können Sie die Optionen in "Tipps" benutzen, damit Sie die Aktionen einfach konfigurieren können.
1. Click on a "Load More" button: Auf eine "Mehr laden"-Schaltfläche klicken - Wenn auf der Webseite eine "Mehr laden" Schaltfläche vorhanden ist, können Sie diese Option wählen, damit die "Mehr laden" Schaltfläche auf der Seite ausgewählt und Anzahl des Klicks festgelegt werden, und der Scraper wird automatisch auf die Schaltfläche klicken, um mehr Daten für das Scrapen zu laden.
2. Click on link(s) to scrape the linked pages: Auf Link(s) klicken, um die verlinkten Seiten zu scrapen - Wenn Sie auf die erkannten Links klicken und weitere Informationen aus den Detailseiten extrahieren möchten, wählen Sie diese Option und dann wählen Sie den Link, auf den Sie klicken möchten.
Tipps:
Um zu bestätigen, ob die richtigen Links ausgewählt sind, können Sie auf "Check" klicken, damit die ausgewälten Links auf der Webseite hervorgehoben werden.
5. Fehlende Daten manuell hinzufügen
Manchmal gibt es Datenfelder, die von der automatischen Detektion übersehen werden. Dann müssen Sie die Datenfelder manuell hinzufügen. Markieren Sie einfach die Informationen auf der Webseite und wählen Sie "Extract the text of the element".
6. Einstellungen speichern und Extraktion starten
Klicken Sie zunächst auf die Schaltfläche "Save", um alle vorgenommenen Einstellungen zu speichern, und dann auf "Run", um Ihre Aufgabe entweder lokal oder in der Cloud auszuführen.