Duplikate entfernen
Monday, August 23, 2021 2:39 PMBei der Datenextraktion können Sie bemerken, dass manchmal es Duplikate in der Datenausgabe gibt.
Octoparse bietet zwei Möglichkeiten, damit Sie Duplikaten entfernen können.
• Entfernen von Duplikate auf Basis der gesamten Datenzeile (Standard)
• Entfernen von Duplikaten auf Basis der bestimmten Datenfelder (manuelle Einstellung, unterstützt 8.1.16 und höhere Versionen)
1. Entfernen von Duplikaten auf Basis der gesamten Datenzeile (Standard)
Wenn die Datenextraktion abgeschlossen ist, verfügt Octoparse über eine Standardeinstellung zum Entfernen von Duplikaten.
Wenn alle Datenfelder in einer bestimmten Datenzeile gleich sind wie in den anderen Zeilen, wird diese Datenzeile als Duplikat erkannt. Nach dem Entfernen behält Octoparse nur die erste extrahierte Datenzeile.
Beispiel: Die 1. und die 4. Zeile der Daten unten haben den gleichen Wert für jedes Datenfeld, also sind sie Duplikate. Nach der Standardentfernung durch Octoparse wird nur die 1. Zeile der Daten beibehalten.
2. Entfernen von Duplikaten auf Basis der bestimmten Datenfelder (manuelle Einstellung)
Hinweis: Diese Funktion ist für Octoparse 8.1.16 und höher verfügbar.
Mechanismus
Wenn Sie den Aufgaben-Workflow anpassen, können Sie so einstellen, dass Duplikate auf Basis der bestimmten Duplikate entfernt werden.
Das Entfernen von Duplikaten basiert auf einem bestimmten oder mehreren Datenfeldern, um zu prüfen, ob die Werte dieser ausgewählten Datenfelder mit denen der anderen Zeilen übereinstimmen. Bei dieser Einstellung werden nur die ausgewählten Datenfelder verglichen. Solange die Werte der ausgewählten Datenfelder übereinstimmen, werden die Daten als Duplikat erkannt. Andere nicht ausgewählte Datenfelder werden nicht berücksichtigt. Nach dem Entfernen von Duplikaten behält Octoparse nur die erste extrahierte Datenzeile.
Beispiel 1: Wenn wir "Feld2" zum Vergleich für die Entfernung von Duplikaten auswählen, dann haben die erste, zweite und vierte Datenzeile denselben Wert für "Feld2". In diesem Fall werden die Daten in der 1., 2. und 4. Zeile als Duplikate erkannt. Nach der Entfernung behält Octoparse nur die erste extrahierte Datenzeile.
Beispiel 2: Wenn wir "Feld3" und "Feld4" zum Vergleich für die Entfernung von Duplikaten auswählen, haben die erste und die vierte Datenzeile den gleichen Wert für "Feld3" und "Feld4". In diesem Fall werden die 1. und 4. Datenzeile als Duplikate erkannt. Nach dem Entfernen behält Octoparse nur die erste extrahierte Datenzeile.
Wo können Duplikate entfernt werden?
Schritte:
1. Legen Sie die Aufgabe und die zu erfassenden Datenfelder fest
2. Klicken Sie zunächst auf das Symbol in der rechten oberen Ecke des Bereichs "Data Preview". Wählen Sie dann "Remove duplicates", um die Einstellungsseite zu öffnen
3. Wählen Sie das/die Datenfeld(er) aus, das/die Sie zum Entfernen von Duplikaten vergleichen möchten. Klicken Sie nach der Auswahl auf "OK", um die Einstellungen zu übernehmen.
Hinweis: Klicken Sie auf das Symbol . Sie können sehen, dass die Einstellung gespeichert wurde.
Wichtige Hinweise:
Bei Cloud-Ausführungen werden nur die historischen Daten mit denselben Einstellungen zur Entfernung von Duplikaten verglichen, um Duplikate zu entfernen.
Hier ist ein Beispiel.
Wenn Sie die erste Einstellung zur Entfernung von Duplikaten auf A setzen (z. B. "Feld1" zum Vergleich auswählen), haben Sie die erste Gruppe von Cloud-Daten.
Wenn Sie dann zu Ihrer Aufgabe zurückkehren und die Einstellung auf B ändern (z. B. "Feld2" zum Vergleichen auswählen), erhalten Sie die zweite Gruppe von Cloud-Daten. Diese Gruppe wird nicht mit der ersten Gruppe verglichen, um Duplikate zu entfernen.
Wenn Sie danach die Einstellung wieder auf A ändern (z. B. "Feld1" zum Vergleichen auswählen), erhalten Sie die dritte Gruppe von Cloud-Daten, der mit der ersten Gruppe von Cloud-Daten zum Entfernen von Duplikaten verglichen wird. Die Duplikate werden automatisch entfernt. Sie werden nicht mit der zweiten Gruppe zur Entfernung von Duplikaten verglichen.