undefined

Duplikate entfernen  

Monday, August 23, 2021 2:39 PM

Bei der Datenextraktion können Sie bemerken, dass manchmal es Duplikate in der Datenausgabe gibt.

 

Octoparse bietet zwei Möglichkeiten, damit Sie Duplikaten entfernen können.

 

• Entfernen von Duplikate auf Basis der gesamten Datenzeile (Standard)

• Entfernen von Duplikaten auf Basis der bestimmten Datenfelder (manuelle Einstellung, unterstützt 8.1.16 und höhere Versionen)

 

1. Entfernen von Duplikaten auf Basis der gesamten Datenzeile (Standard)

 

Wenn die Datenextraktion abgeschlossen ist, verfügt Octoparse über eine Standardeinstellung zum Entfernen von Duplikaten.

 

Wenn alle Datenfelder in einer bestimmten Datenzeile gleich sind wie in den anderen Zeilen, wird diese Datenzeile als Duplikat erkannt. Nach dem Entfernen behält Octoparse nur die erste extrahierte Datenzeile.

 

Beispiel: Die 1. und die 4. Zeile der Daten unten haben den gleichen Wert für jedes Datenfeld, also sind sie Duplikate. Nach der Standardentfernung durch Octoparse wird nur die 1. Zeile der Daten beibehalten.

 mceclip1.png

 

 

 

2. Entfernen von Duplikaten auf Basis der bestimmten Datenfelder (manuelle Einstellung)

 

 

Hinweis: Diese Funktion ist für Octoparse 8.1.16 und höher verfügbar.

 

Mechanismus

Wenn Sie den Aufgaben-Workflow anpassen, können Sie so einstellen, dass Duplikate auf Basis der bestimmten Duplikate entfernt werden.

 

Das Entfernen von Duplikaten basiert auf einem bestimmten oder mehreren Datenfeldern, um zu prüfen, ob die Werte dieser ausgewählten Datenfelder mit denen der anderen Zeilen übereinstimmen. Bei dieser Einstellung werden nur die ausgewählten Datenfelder verglichen. Solange die Werte der ausgewählten Datenfelder übereinstimmen, werden die Daten als Duplikat erkannt. Andere nicht ausgewählte Datenfelder werden nicht berücksichtigt. Nach dem Entfernen von Duplikaten behält Octoparse nur die erste extrahierte Datenzeile.

 

Beispiel 1: Wenn wir "Feld2" zum Vergleich für die Entfernung von Duplikaten auswählen, dann haben die erste, zweite und vierte Datenzeile denselben Wert für "Feld2". In diesem Fall werden die Daten in der 1., 2. und 4. Zeile als Duplikate erkannt. Nach der Entfernung behält Octoparse nur die erste extrahierte Datenzeile.

 mceclip2.png

 

Beispiel 2: Wenn wir "Feld3" und "Feld4" zum Vergleich für die Entfernung von Duplikaten auswählen, haben die erste und die vierte Datenzeile den gleichen Wert für "Feld3" und "Feld4". In diesem Fall werden die 1. und 4. Datenzeile als Duplikate erkannt. Nach dem Entfernen behält Octoparse nur die erste extrahierte Datenzeile.

mceclip3.png

 

 

Wo können Duplikate entfernt werden?

 

Schritte:

 

1. Legen Sie die Aufgabe und die zu erfassenden Datenfelder fest

2. Klicken Sie zunächst auf das Symbol mceclip5.png in der rechten oberen Ecke des Bereichs "Data Preview". Wählen Sie dann "Remove duplicates", um die Einstellungsseite zu öffnen

 mceclip4.png

 

3. Wählen Sie das/die Datenfeld(er) aus, das/die Sie zum Entfernen von Duplikaten vergleichen möchten. Klicken Sie nach der Auswahl auf "OK", um die Einstellungen zu übernehmen.

 mceclip6.png

 

Hinweis: Klicken Sie auf das Symbol mceclip5.png. Sie können sehen, dass die Einstellung gespeichert wurde.

 mceclip7.png

 

 

Wichtige Hinweise:

 

Bei Cloud-Ausführungen werden nur die historischen Daten mit denselben Einstellungen zur Entfernung von Duplikaten verglichen, um Duplikate zu entfernen.

 

Hier ist ein Beispiel.

 

Wenn Sie die erste Einstellung zur Entfernung von Duplikaten auf A setzen (z. B. "Feld1" zum Vergleich auswählen), haben Sie die erste Gruppe von Cloud-Daten.

 

Wenn Sie dann zu Ihrer Aufgabe zurückkehren und die Einstellung auf B ändern (z. B. "Feld2" zum Vergleichen auswählen), erhalten Sie die zweite Gruppe von Cloud-Daten. Diese Gruppe wird nicht mit der ersten Gruppe verglichen, um Duplikate zu entfernen.

 

Wenn Sie danach die Einstellung wieder auf A ändern (z. B. "Feld1" zum Vergleichen auswählen), erhalten Sie die dritte Gruppe von Cloud-Daten, der mit der ersten Gruppe von Cloud-Daten zum Entfernen von Duplikaten verglichen wird. Die Duplikate werden automatisch entfernt. Sie werden nicht mit der zweiten Gruppe zur Entfernung von Duplikaten verglichen.

 

 

btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen