Kombination der Daten bei „Merge multiple rows“
Wednesday, June 29, 2022 2:21 PMSie folgen jetzt einem Tutorial für die neueste Version von Octoparse. Wenn Sie zur Zeit eine ältere Version verwenden, empfehlen wir Ihnen kräftig es, ein Upgrade zu machen, weil sie schneller, leichter und stärker ist! Herunterladen und Installierung eines Upgrades hier, wenn Sie nicht so bereits machen!
Die Besonderheit „Merge multiple rows“ könnte verwendet werden, um einfach die Daten von unterschiedlichen Zeilen in eine einzelne Zeile umzuwandeln.
Nehmen wir an, dass Sie Beiträge aus einem Blog extrahieren möchten. In manchen Fällen ist es nicht möglich, den gesamten Beitrag zu scrapen, aber Sie möchten trotzdem den gesamten Beitrag in einer einzigen Zeile haben, anstatt verschiedene Absätze in verschiedenen Zeilen wie das Beispiel:
Das ist eine gute Wahl für Sie, die Funktion „Merge multiple rows“ zu nehmen, damit die extrahierten Daten in eine einzige Zeile umgewandelt werden. Lassen wir zusammen lernen, wie man dies verwirklichen könnte.
Hier ist eine Beispiel-URL, was Sie zur Übung benutzen können: https://philipyancey.com/a-view-from-abroad.
Schritt 1: Selektieren Sie die gewünschten Daten zu scrapen.
Prozess 1: Klicken Sie auf den ersten Absatz des Artikels und dann wählen Sie „Select all“ in der Tipps-Platte. Ein Loop Item würde erstellt, um jeden Absatz des Beitrags zu scrapen.
Prozess 2: Selektieren Sie „Extract text of the selected elements“.
Schritt 2: Verschmelzen Sie die extrahierten Daten.
Prozess 1: Klicken Sie auf die Aktion „Extract Data“ und gehen Sie zur Datenvorschau-Platte.
Prozess 2: Klicken Sie auf
, und wählen Sie „Merge multiple rows of data into one“.
Sie haben schon alles gemacht! Jetzt führen wir die Aufgabe durch und beobachten, wie die jeweilig exportierten Daten aussehen. Nun können Sie sehen, dass die in „Field 1“ gescrapten Absätze zur Zeit als eine große Zeile zusammengeführt werden.
Tipps!
1. „Merge multiple rows of data into one“ ist besonders nützlich für die Extraktion der Artikeln aus beliebigen Websites.
Sie können den Artikel als ein ganzes Stück scrapen, ohne andere Elemente wie Leerzeilen, Kommentare oder Bilder zu bekommen.
2. Wenn die Daten zusammengefügt sind, können Sie mit „Data reformat tools“ ein Präfix oder Suffix wie "|" und "\" hinzufügen, um die Daten neu zu formatieren.
3. Wenn zahlreiche Felder zu scrapen sind, würden Sie einen Schritt von „Merge multiple rows of data into one“ für jedes Feld erstellen.
4. Diese Funktion könnte auch zur Kombination von zwei Feldern verwendet werden. Richten Sie im Workflow zwei „Extract Data“ ein, und es ist wichtig, dass ein Feld in einer Aktion „Extract Data“ liegt. Dann geben Sie den Feldern die gleichen Namen und stellen Sie einen Schritt von „merge multiple rows“ für diese Felder ein. Schließlich würde die in zwei Feldern gescrapten Daten in eine Zeile umgewandelt.
Autor*in: Das Octoparse Team