Video: Ogni quanto controllare le vibrazioni dei ventilatori? - Come fare manutenzione predittiva. 2024
Prima di eseguire un'analisi predittiva, devi assicurarti che i dati siano puliti da cose estranee prima che tu possa utilizzarli nel tuo modello. Ciò include la ricerca e la correzione di tutti i record che contengono valori errati e il tentativo di inserire eventuali valori mancanti. Dovrai anche decidere se includere record duplicati (due account cliente, ad esempio).
L'obiettivo generale è garantire l'integrità delle informazioni che stai utilizzando per costruire il tuo modello predittivo. Prestare particolare attenzione alla completezza, correttezza e tempestività dei dati.
È utile creare statistiche descrittive (caratteristiche quantitative) per vari campi, come il calcolo di min e max, controllo distribuzione di frequenza (quanto spesso accade qualcosa) e verificando gli intervalli previsti. L'esecuzione di un controllo regolare può aiutare a segnalare eventuali dati al di fuori dell'intervallo previsto per ulteriori indagini. Qualsiasi documento che mostra i pensionati con date di nascita negli anni '90 può essere contrassegnato da questo metodo.
Inoltre, il controllo incrociato delle informazioni è importante per garantire che i dati siano accurati. Per un'analisi più approfondita delle caratteristiche dei dati e l'identificazione della relazione tra i record di dati, è possibile utilizzare profiling dati (analisi della disponibilità dei dati e raccolta di statistiche sulla qualità dei dati) e strumenti di visualizzazione.
I dati mancanti potrebbero essere dovuti al fatto che informazioni particolari non sono state registrate. In tal caso, puoi tentare di riempire il più possibile; i valori predefiniti adatti possono essere facilmente aggiunti per riempire gli spazi vuoti di determinati campi.
Ad esempio, per i pazienti in un reparto maternità ospedaliero in cui al campo di genere manca un valore, l'applicazione può semplicemente riempirlo come femminile. Del resto, per ogni maschio che è stato ammesso in un ospedale con un record mancante per lo stato di gravidanza, tale registrazione può essere compilata allo stesso modo in quanto non applicabile.
Un codice postale mancante per un indirizzo può essere dedotto dal nome della via e dalla città fornita in quell'indirizzo.
Nei casi in cui l'informazione è sconosciuta o non può essere dedotta, è necessario utilizzare valori altro di uno spazio vuoto per indicare che i dati sono mancanti senza influire sulla correttezza dell'analisi. Uno spazio vuoto nei dati può significare più cose, molte delle quali non sono né buone né utili. Ogni volta che puoi, devi specificare la natura di quel vuoto con un riempitivo significativo.
Proprio come è possibile definire una rosa in un campo di grano come un'erbaccia, i valori anomali possono significare cose diverse per analisi diverse.È normale che alcuni modelli siano costruiti esclusivamente per tracciare quei valori anomali e contrassegnarli.
I modelli di rilevamento delle frodi e il monitoraggio delle attività criminali sono interessati a quei valori anomali, che in tali casi indicano che si sta verificando qualcosa di indesiderato. Pertanto, è consigliabile mantenere i valori anomali nel set di dati in casi come questi. Tuttavia, quando i valori anomali sono considerati anomalie all'interno dei dati, e si limitano a distorcere le analisi e portare a risultati errati, rimuoverli dai dati.
La duplicazione dei dati può anche essere utile o fastidiosa; alcuni di essi possono essere necessari, possono indicare un valore e possono riflettere uno stato accurato dei dati. Ad esempio, un record di un cliente con più account può essere rappresentato con più voci che sono (tecnicamente, comunque) duplicate e ripetitive degli stessi record.
Allo stesso modo, quando i record duplicati non apportano valore all'analisi e non sono necessari, rimuoverli può essere di enorme valore. Ciò è particolarmente vero per dataset di grandi dimensioni in cui la rimozione di record duplicati può semplificare la complessità dei dati e ridurre il tempo necessario per l'analisi.
È possibile impedire preventivamente l'inserimento di dati errati nei sistemi adottando alcune procedure specifiche:
-
Verifica della qualità dell'Istituto e convalida dei dati per tutti i dati raccolti.
-
Consenti ai tuoi clienti di convalidare e correggere automaticamente i propri dati personali.
-
Fornisci ai tuoi clienti i valori possibili e attesi tra cui scegliere.
-
Eseguire regolarmente controlli sull'integrità, coerenza e accuratezza dei dati.