Video: Excel: trovare, rimuovere e prevenire i duplicati 2024
I dati sono memorizzati in modi diversi in sistemi diversi. Quindi non sorprende che quando raccogli e consolidi dati da varie fonti, è possibile che compaiano dei duplicati. In particolare, ciò che rende unico un record individuale è diverso per i diversi sistemi.
Un riepilogo dell'account di investimento è associato a un numero di conto. Un sommario del portfolio potrebbe essere archiviato a livello individuale o domestico. E le cronologie di trading di tutti questi account sono archiviate a livello di singola transazione.
È importante essere chiari su cosa dovrebbe differenziare i record univoci nel file di dati. Ad esempio, se si tratta di un file a livello di transazione, i numeri di account e gli ID delle famiglie verranno duplicati. Finché lo capisci e stai facendo un'analisi a livello di transazione, starai bene.
Ma se sei interessato a utilizzare questi dati per analizzare il numero di account posseduti da ciascuna famiglia, ti imbatterai in problemi. Le famiglie che commerciano più frequentemente avranno più record di quelli che non commerciano molto. Devi avere un file a livello di account.
La rimozione di record duplicati non è particolarmente difficile. La maggior parte dei pacchetti statistici e dei sistemi di database dispongono di comandi incorporati che raggruppano i record. (In effetti, nel linguaggio SQL del database, questo comando è chiamato Raggruppamento.)