8 Best practice nella preparazione dei dati - dummies

I pacchetti software statistici sono estremamente potenti in questi giorni, ma non possono superare i dati di scarsa qualità. Di seguito è riportata una lista di cose che devi fare prima di iniziare a costruire modelli statistici.

Verifica formati dati

L'analisi inizia sempre con un file di dati non elaborati. I file di dati grezzi sono disponibili in diverse forme e dimensioni. I dati del mainframe sono diversi dai dati del PC, i dati del foglio di calcolo sono formattati in modo diverso rispetto ai dati web e così via. E nell'era dei big data, sicuramente ti troverai di fronte a dati provenienti da una varietà di fonti. Il primo passo per analizzare i tuoi dati è assicurarti di poter leggere i file che ti vengono forniti.

Devi effettivamente vedere cosa contiene ciascun campo. Ad esempio, non è saggio confidare che solo perché un campo è elencato come un campo di carattere, in realtà contiene dati di carattere.

Verifica tipi di dati

Tutti i dati rientrano in una delle quattro categorie che influenzano il tipo di statistiche che è possibile applicare in modo appropriato:

I dati nominali sono essenzialmente solo un nome o un identificatore.
I dati ordinali mettono i record in ordine dal più basso al più alto.
I dati dell'intervallo rappresentano valori in cui le differenze tra loro sono comparabili.
I dati relativi ai rapporti sono come i dati dell'intervallo tranne per il fatto che consente anche un valore di 0.

È importante capire in quali categorie rientrano i dati prima di inserirli nel software statistico. Altrimenti, rischi di finire con un linguaggio senza senso perfettamente ragionevole.

Rappresenta graficamente i dati

È importante avere un'idea di come vengono distribuiti i dati. Puoi eseguire le procedure statistiche finché non sei blu in faccia, ma nessuna di queste ti darà informazioni dettagliate su come appaiono i tuoi dati come un semplice grafico.

Verifica dell'accuratezza dei dati

Una volta che hai dimestichezza con la formattazione dei dati nel modo desiderato, devi comunque assicurarti che sia accurato e che abbia senso. Questo passaggio richiede che tu abbia una certa conoscenza dell'area in cui lavori.

Non esiste un approccio preciso per verificare l'accuratezza dei dati. L'idea di base è formulare alcune proprietà che ritieni debbano esporre e testare i dati per vedere se tali proprietà valgono. I prezzi delle azioni sono sempre positivi? Tutti i codici prodotto corrispondono all'elenco di quelli validi? In sostanza, stai cercando di capire se i dati sono davvero ciò che ti è stato detto.

Identificazione dei valori anomali

I valori anomali sono punti di dati non più disponibili con il resto dei dati. Sono valori molto grandi o molto piccoli rispetto al resto del set di dati.

I valori anomali sono problematici perché possono compromettere seriamente le statistiche e le procedure statistiche. Un singolo outlier può avere un impatto enorme sul valore della media. Poiché la media dovrebbe rappresentare il centro dei dati, in un certo senso, questo outlier rende il significato inutile.

Di fronte a valori anomali, la strategia più comune è eliminarli. In alcuni casi, tuttavia, potresti volerli prendere in considerazione. In questi casi, è solitamente consigliabile eseguire due volte l'analisi, una volta inclusi i valori anomali e una volta esclusi i valori anomali. Questo ti permette di valutare quale metodo fornisce risultati più utili.

Gestire valori mancanti

I valori mancanti sono uno dei problemi di dati più comuni (e fastidiosi) che si incontreranno. Il tuo primo impulso potrebbe essere quello di eliminare i record con valori mancanti dalla tua analisi. Il problema con questo è che i valori mancanti spesso non sono solo piccoli errori di dati casuali.

Controlla le tue ipotesi su come i dati sono distribuiti

Molte procedure statistiche dipendono dal presupposto che i dati siano distribuiti in un certo modo. Se questo presupposto non è il caso, l'accuratezza delle tue previsioni soffre.

L'assunto più comune per le tecniche di modellazione discusse in questo libro è che i dati sono normalmente distribuiti.

Oppure no. Nei casi in cui i dati non sono distribuiti come è necessario, tutto non è necessariamente perso. Esistono diversi modi per trasformare i dati per ottenere la distribuzione nella forma che ti serve.

Uno dei modi migliori per verificare l'accuratezza di un modello statistico è testarlo effettivamente contro i dati una volta che è stato creato. Un modo per farlo è dividere casualmente il set di dati in due file. Potresti chiamare questi file Analisi e Test, rispettivamente.

È necessario suddividere i dati casualmente per essere efficaci. Non puoi semplicemente dividere il set di dati nella metà superiore e nella metà inferiore, ad esempio. Quasi tutti i file di dati sono ordinati in qualche modo - per data se non altro. Questo introduce pattern sistematici che daranno diverse porzioni del file differenti proprietà statistiche. Quando dividi il file in modo casuale, dai a ciascun record una uguale possibilità di trovarsi in entrambi i file. In senso figurato, stai lanciando una moneta per ogni record per decidere quale file debba contenere. La casualità fornisce a entrambi i file le stesse proprietà statistiche dei dati originali.

Dopo aver diviso il set di dati, mettere da parte il file di test. Quindi procedere alla creazione del modello predittivo utilizzando il file di analisi. Una volta che il modello è stato creato, applicalo al file di test e guarda come funziona.

Il test dei modelli in questo modo aiuta a salvaguardarsi da un fenomeno noto come eccessivo . Essenzialmente, è possibile che le procedure statistiche memorizzino il file di dati piuttosto che scoprire relazioni significative tra le variabili. Se si verifica un adattamento eccessivo, il modello eseguirà un test piuttosto negativo sul file di test.

Eseguire il backup e documentare tutto ciò che fai

Poiché il software statistico sta diventando così semplice da usare, è un gioco da ragazzi iniziare a generare report e grafici, per non parlare dei file di dati.È possibile eseguire le procedure letteralmente con il semplice tocco di un pulsante. Puoi generare decine di grafici basati su diverse trasformazioni di dati nel giro di pochi minuti. Ciò rende abbastanza facile perdere traccia di ciò che hai fatto e perché.

È importante assicurarsi di tenere una registrazione scritta di ciò che si sta facendo. I grafici dovrebbero essere etichettati con il nome (e la versione) dei dati utilizzati per crearli. Le procedure statistiche che si costruiscono devono essere salvate e documentate.

È anche importante eseguire il backup dei file di dati. Nel corso della tua analisi, probabilmente creerai diverse versioni dei tuoi dati che riflettono varie correzioni e trasformazioni di variabili. Dovresti salvare le procedure che hanno creato queste versioni. Dovrebbero anche essere documentati in un modo che descriva quali trasformazioni hai fatto e perché.

La documentazione non è il compito preferito di nessuno, ma parliamo per esperienza quando ti incoraggiamo fortemente a non fare affidamento sulla tua memoria quando si tratta dei tuoi progetti di analisi.

Eseguendo i passaggi appena descritti, si massimizza l'affidabilità dei propri modelli statistici. In molti casi, il lavoro di preparazione è in realtà più dispendioso in termini di tempo rispetto al modello attuale. Ma è necessario. E alla fine ti ringrazierai per averlo lavorato metodicamente.