Casa Finanza personale 8 Best practice nella preparazione dei dati - dummies

8 Best practice nella preparazione dei dati - dummies

Sommario:

Video: Come ricordare quello che leggi (11 tecniche) 2025

Video: Come ricordare quello che leggi (11 tecniche) 2025
Anonim

I pacchetti software statistici sono estremamente potenti in questi giorni, ma non possono superare i dati di scarsa qualità. Di seguito è riportata una lista di cose che devi fare prima di iniziare a costruire modelli statistici.

Verifica formati dati

L'analisi inizia sempre con un file di dati non elaborati. I file di dati grezzi sono disponibili in diverse forme e dimensioni. I dati del mainframe sono diversi dai dati del PC, i dati del foglio di calcolo sono formattati in modo diverso rispetto ai dati web e così via. E nell'era dei big data, sicuramente ti troverai di fronte a dati provenienti da una varietà di fonti. Il primo passo per analizzare i tuoi dati è assicurarti di poter leggere i file che ti vengono forniti.

Devi effettivamente vedere cosa contiene ciascun campo. Ad esempio, non è saggio confidare che solo perché un campo è elencato come un campo di carattere, in realtà contiene dati di carattere.

Verifica tipi di dati

Tutti i dati rientrano in una delle quattro categorie che influenzano il tipo di statistiche che è possibile applicare in modo appropriato:

  • I dati nominali sono essenzialmente solo un nome o un identificatore.

  • I dati ordinali mettono i record in ordine dal più basso al più alto.

  • I dati dell'intervallo rappresentano valori in cui le differenze tra loro sono comparabili.

  • I dati relativi ai rapporti sono come i dati dell'intervallo tranne per il fatto che consente anche un valore di 0.

È importante capire in quali categorie rientrano i dati prima di inserirli nel software statistico. Altrimenti, rischi di finire con un linguaggio senza senso perfettamente ragionevole.

Rappresenta graficamente i dati

È importante avere un'idea di come vengono distribuiti i dati. Puoi eseguire le procedure statistiche finché non sei blu in faccia, ma nessuna di queste ti darà informazioni dettagliate su come appaiono i tuoi dati come un semplice grafico.

Verifica dell'accuratezza dei dati

Una volta che hai dimestichezza con la formattazione dei dati nel modo desiderato, devi comunque assicurarti che sia accurato e che abbia senso. Questo passaggio richiede che tu abbia una certa conoscenza dell'area in cui lavori.

Non esiste un approccio preciso per verificare l'accuratezza dei dati. L'idea di base è formulare alcune proprietà che ritieni debbano esporre e testare i dati per vedere se tali proprietà valgono. I prezzi delle azioni sono sempre positivi? Tutti i codici prodotto corrispondono all'elenco di quelli validi? In sostanza, stai cercando di capire se i dati sono davvero ciò che ti è stato detto.

Identificazione dei valori anomali

I valori anomali sono punti di dati non più disponibili con il resto dei dati. Sono valori molto grandi o molto piccoli rispetto al resto del set di dati.

I valori anomali sono problematici perché possono compromettere seriamente le statistiche e le procedure statistiche. Un singolo outlier può avere un impatto enorme sul valore della media. Poiché la media dovrebbe rappresentare il centro dei dati, in un certo senso, questo outlier rende il significato inutile.

Di fronte a valori anomali, la strategia più comune è eliminarli. In alcuni casi, tuttavia, potresti volerli prendere in considerazione. In questi casi, è solitamente consigliabile eseguire due volte l'analisi, una volta inclusi i valori anomali e una volta esclusi i valori anomali. Questo ti permette di valutare quale metodo fornisce risultati più utili.

Gestire valori mancanti

I valori mancanti sono uno dei problemi di dati più comuni (e fastidiosi) che si incontreranno. Il tuo primo impulso potrebbe essere quello di eliminare i record con valori mancanti dalla tua analisi. Il problema con questo è che i valori mancanti spesso non sono solo piccoli errori di dati casuali.

Controlla le tue ipotesi su come i dati sono distribuiti

Molte procedure statistiche dipendono dal presupposto che i dati siano distribuiti in un certo modo. Se questo presupposto non è il caso, l'accuratezza delle tue previsioni soffre.

L'assunto più comune per le tecniche di modellazione discusse in questo libro è che i dati sono normalmente distribuiti.

Oppure no. Nei casi in cui i dati non sono distribuiti come è necessario, tutto non è necessariamente perso. Esistono diversi modi per trasformare i dati per ottenere la distribuzione nella forma che ti serve.

Uno dei modi migliori per verificare l'accuratezza di un modello statistico è testarlo effettivamente contro i dati una volta che è stato creato. Un modo per farlo è dividere casualmente il set di dati in due file. Potresti chiamare questi file Analisi e Test, rispettivamente.

È necessario suddividere i dati casualmente per essere efficaci. Non puoi semplicemente dividere il set di dati nella metà superiore e nella metà inferiore, ad esempio. Quasi tutti i file di dati sono ordinati in qualche modo - per data se non altro. Questo introduce pattern sistematici che daranno diverse porzioni del file differenti proprietà statistiche. Quando dividi il file in modo casuale, dai a ciascun record una uguale possibilità di trovarsi in entrambi i file. In senso figurato, stai lanciando una moneta per ogni record per decidere quale file debba contenere. La casualità fornisce a entrambi i file le stesse proprietà statistiche dei dati originali.

Dopo aver diviso il set di dati, mettere da parte il file di test. Quindi procedere alla creazione del modello predittivo utilizzando il file di analisi. Una volta che il modello è stato creato, applicalo al file di test e guarda come funziona.

Il test dei modelli in questo modo aiuta a salvaguardarsi da un fenomeno noto come eccessivo . Essenzialmente, è possibile che le procedure statistiche memorizzino il file di dati piuttosto che scoprire relazioni significative tra le variabili. Se si verifica un adattamento eccessivo, il modello eseguirà un test piuttosto negativo sul file di test.

Eseguire il backup e documentare tutto ciò che fai

Poiché il software statistico sta diventando così semplice da usare, è un gioco da ragazzi iniziare a generare report e grafici, per non parlare dei file di dati.È possibile eseguire le procedure letteralmente con il semplice tocco di un pulsante. Puoi generare decine di grafici basati su diverse trasformazioni di dati nel giro di pochi minuti. Ciò rende abbastanza facile perdere traccia di ciò che hai fatto e perché.

È importante assicurarsi di tenere una registrazione scritta di ciò che si sta facendo. I grafici dovrebbero essere etichettati con il nome (e la versione) dei dati utilizzati per crearli. Le procedure statistiche che si costruiscono devono essere salvate e documentate.

È anche importante eseguire il backup dei file di dati. Nel corso della tua analisi, probabilmente creerai diverse versioni dei tuoi dati che riflettono varie correzioni e trasformazioni di variabili. Dovresti salvare le procedure che hanno creato queste versioni. Dovrebbero anche essere documentati in un modo che descriva quali trasformazioni hai fatto e perché.

La documentazione non è il compito preferito di nessuno, ma parliamo per esperienza quando ti incoraggiamo fortemente a non fare affidamento sulla tua memoria quando si tratta dei tuoi progetti di analisi.

Eseguendo i passaggi appena descritti, si massimizza l'affidabilità dei propri modelli statistici. In molti casi, il lavoro di preparazione è in realtà più dispendioso in termini di tempo rispetto al modello attuale. Ma è necessario. E alla fine ti ringrazierai per averlo lavorato metodicamente.

8 Best practice nella preparazione dei dati - dummies

Scelta dell'editore

Il programma in cinque passaggi per superare la menopausa - dummy

Il programma in cinque passaggi per superare la menopausa - dummy

Alcune donne capiscono a malapena che la menopausa è loro. Altre donne, tuttavia, sono meno fortunate. Se sei uno di questi, prendi in mano questi pochi modi per rendere la tua esperienza più facile per te stesso: capisci e accetta che stai attraversando una transizione naturale, proprio come la pubertà. Fortunatamente, sei più vecchio e più saggio di te ...

Menopausa For Dummies Cheat Sheet (edizione UK) - dummies

Menopausa For Dummies Cheat Sheet (edizione UK) - dummies

Menopausa segna la fine della fase riproduttiva della tua vita e così è un momento significativo di cambiamento fisico, emotivo e mentale per molte donne ma, per generazioni, donne di tutte le età hanno vagato alla cieca in menopausa senza sapere cosa aspettarsi. Qui puoi scoprire alcune delle nozioni di base.

Perimenopausa: facilitare la transizione dalle mestruazioni alla menopausa - manichini

Perimenopausa: facilitare la transizione dalle mestruazioni alla menopausa - manichini

Mestruazioni e menopausa sono ben noti biologici pietre miliari nella vita di una femmina. Contrariamente al pensiero popolare, la menopausa non è il periodo di mesi o anni in cui una donna sta "attraversando il cambiamento". "Questo lasso di tempo è chiamato perimenopausa. La menopausa è una data effettiva nel tempo. In particolare, è il 12 ° anniversario dell'ultimo ciclo mestruale di una donna. ...

Scelta dell'editore

Come utilizzare il filtro automatico personalizzato su una tabella di Excel - dummies

Come utilizzare il filtro automatico personalizzato su una tabella di Excel - dummies

È Possibile creare un filtro automatico personalizzato . Per fare ciò, seleziona il comando Filtro testo dal menu della tabella e scegli una delle opzioni di filtro del testo. Indipendentemente dall'opzione di filtro del testo selezionata, Excel visualizza la finestra di dialogo Filtro automatico personalizzato. Questa finestra di dialogo consente di specificare con estrema precisione quali record si desidera ...

Come utilizzare la funzione DPRODUCT in un database Excel - dummies

Come utilizzare la funzione DPRODUCT in un database Excel - dummies

DPRODUCT moltiplica i valori che corrispondono al criterio in un database Excel. Questo è potente ma anche in grado di produrre risultati che non sono l'intenzione. In altre parole, è una cosa da aggiungere e ricavare una somma. Questa è un'operazione comune su un set di dati. Osservando la seguente figura, è possibile ...

Come utilizzare la funzione DPRODUCT in Excel - dummy

Come utilizzare la funzione DPRODUCT in Excel - dummy

La funzione DPRODUCT in Excel è strana. La funzione DPRODUCT moltiplica i valori nei campi da un elenco di database in base ai criteri di selezione. Perché vorresti farlo? Chissà. La funzione utilizza la sintassi = DPRODUCT (database, campo, criteri) in cui il database è un riferimento all'intervallo alla tabella di Excel che contiene il valore desiderato ...

Scelta dell'editore

Programmazione con Java: riutilizzo dei nomi nella tua app per Android - dummies

Programmazione con Java: riutilizzo dei nomi nella tua app per Android - dummies

Ci sono un paio di cose a cui vuoi pensare quando riutilizzi i nomi nella tua app per Android. È possibile dichiarare due variabili Java - bag1 e bag2 - per fare riferimento a due diversi oggetti BagOfCheese. Va bene. Ma a volte, avere solo una variabile e riutilizzarla per il secondo oggetto funziona altrettanto bene, ...

Java: Mettere a frutto l'uso della classe - dummies

Java: Mettere a frutto l'uso della classe - dummies

La classe Employee nell'elenco non ha alcun metodo principale , quindi non c'è un punto di partenza per l'esecuzione del codice. Per risolvere questo problema, il programmatore scrive un programma separato con un metodo principale e utilizza tale programma per creare istanze Employee. Questo elenco di codici mostra una classe con un metodo principale - uno che inserisce il ...

Classi wrapper java - dummies

Classi wrapper java - dummies

La differenza tra tipi primitivi e tipi di riferimento è una delle funzionalità più controverse di Java e gli sviluppatori si lamentano spesso sulle differenze tra valori primitivi e valori di riferimento. Ogni tipo primitivo viene cotto nella lingua. Java ha otto tipi primitivi. Ogni tipo di riferimento è una classe o un'interfaccia. È possibile definire il proprio ...