Casa Finanza personale 8 Best practice nella preparazione dei dati - dummies

8 Best practice nella preparazione dei dati - dummies

Sommario:

Video: Come ricordare quello che leggi (11 tecniche) 2024

Video: Come ricordare quello che leggi (11 tecniche) 2024
Anonim

I pacchetti software statistici sono estremamente potenti in questi giorni, ma non possono superare i dati di scarsa qualità. Di seguito è riportata una lista di cose che devi fare prima di iniziare a costruire modelli statistici.

Verifica formati dati

L'analisi inizia sempre con un file di dati non elaborati. I file di dati grezzi sono disponibili in diverse forme e dimensioni. I dati del mainframe sono diversi dai dati del PC, i dati del foglio di calcolo sono formattati in modo diverso rispetto ai dati web e così via. E nell'era dei big data, sicuramente ti troverai di fronte a dati provenienti da una varietà di fonti. Il primo passo per analizzare i tuoi dati è assicurarti di poter leggere i file che ti vengono forniti.

Devi effettivamente vedere cosa contiene ciascun campo. Ad esempio, non è saggio confidare che solo perché un campo è elencato come un campo di carattere, in realtà contiene dati di carattere.

Verifica tipi di dati

Tutti i dati rientrano in una delle quattro categorie che influenzano il tipo di statistiche che è possibile applicare in modo appropriato:

  • I dati nominali sono essenzialmente solo un nome o un identificatore.

  • I dati ordinali mettono i record in ordine dal più basso al più alto.

  • I dati dell'intervallo rappresentano valori in cui le differenze tra loro sono comparabili.

  • I dati relativi ai rapporti sono come i dati dell'intervallo tranne per il fatto che consente anche un valore di 0.

È importante capire in quali categorie rientrano i dati prima di inserirli nel software statistico. Altrimenti, rischi di finire con un linguaggio senza senso perfettamente ragionevole.

Rappresenta graficamente i dati

È importante avere un'idea di come vengono distribuiti i dati. Puoi eseguire le procedure statistiche finché non sei blu in faccia, ma nessuna di queste ti darà informazioni dettagliate su come appaiono i tuoi dati come un semplice grafico.

Verifica dell'accuratezza dei dati

Una volta che hai dimestichezza con la formattazione dei dati nel modo desiderato, devi comunque assicurarti che sia accurato e che abbia senso. Questo passaggio richiede che tu abbia una certa conoscenza dell'area in cui lavori.

Non esiste un approccio preciso per verificare l'accuratezza dei dati. L'idea di base è formulare alcune proprietà che ritieni debbano esporre e testare i dati per vedere se tali proprietà valgono. I prezzi delle azioni sono sempre positivi? Tutti i codici prodotto corrispondono all'elenco di quelli validi? In sostanza, stai cercando di capire se i dati sono davvero ciò che ti è stato detto.

Identificazione dei valori anomali

I valori anomali sono punti di dati non più disponibili con il resto dei dati. Sono valori molto grandi o molto piccoli rispetto al resto del set di dati.

I valori anomali sono problematici perché possono compromettere seriamente le statistiche e le procedure statistiche. Un singolo outlier può avere un impatto enorme sul valore della media. Poiché la media dovrebbe rappresentare il centro dei dati, in un certo senso, questo outlier rende il significato inutile.

Di fronte a valori anomali, la strategia più comune è eliminarli. In alcuni casi, tuttavia, potresti volerli prendere in considerazione. In questi casi, è solitamente consigliabile eseguire due volte l'analisi, una volta inclusi i valori anomali e una volta esclusi i valori anomali. Questo ti permette di valutare quale metodo fornisce risultati più utili.

Gestire valori mancanti

I valori mancanti sono uno dei problemi di dati più comuni (e fastidiosi) che si incontreranno. Il tuo primo impulso potrebbe essere quello di eliminare i record con valori mancanti dalla tua analisi. Il problema con questo è che i valori mancanti spesso non sono solo piccoli errori di dati casuali.

Controlla le tue ipotesi su come i dati sono distribuiti

Molte procedure statistiche dipendono dal presupposto che i dati siano distribuiti in un certo modo. Se questo presupposto non è il caso, l'accuratezza delle tue previsioni soffre.

L'assunto più comune per le tecniche di modellazione discusse in questo libro è che i dati sono normalmente distribuiti.

Oppure no. Nei casi in cui i dati non sono distribuiti come è necessario, tutto non è necessariamente perso. Esistono diversi modi per trasformare i dati per ottenere la distribuzione nella forma che ti serve.

Uno dei modi migliori per verificare l'accuratezza di un modello statistico è testarlo effettivamente contro i dati una volta che è stato creato. Un modo per farlo è dividere casualmente il set di dati in due file. Potresti chiamare questi file Analisi e Test, rispettivamente.

È necessario suddividere i dati casualmente per essere efficaci. Non puoi semplicemente dividere il set di dati nella metà superiore e nella metà inferiore, ad esempio. Quasi tutti i file di dati sono ordinati in qualche modo - per data se non altro. Questo introduce pattern sistematici che daranno diverse porzioni del file differenti proprietà statistiche. Quando dividi il file in modo casuale, dai a ciascun record una uguale possibilità di trovarsi in entrambi i file. In senso figurato, stai lanciando una moneta per ogni record per decidere quale file debba contenere. La casualità fornisce a entrambi i file le stesse proprietà statistiche dei dati originali.

Dopo aver diviso il set di dati, mettere da parte il file di test. Quindi procedere alla creazione del modello predittivo utilizzando il file di analisi. Una volta che il modello è stato creato, applicalo al file di test e guarda come funziona.

Il test dei modelli in questo modo aiuta a salvaguardarsi da un fenomeno noto come eccessivo . Essenzialmente, è possibile che le procedure statistiche memorizzino il file di dati piuttosto che scoprire relazioni significative tra le variabili. Se si verifica un adattamento eccessivo, il modello eseguirà un test piuttosto negativo sul file di test.

Eseguire il backup e documentare tutto ciò che fai

Poiché il software statistico sta diventando così semplice da usare, è un gioco da ragazzi iniziare a generare report e grafici, per non parlare dei file di dati.È possibile eseguire le procedure letteralmente con il semplice tocco di un pulsante. Puoi generare decine di grafici basati su diverse trasformazioni di dati nel giro di pochi minuti. Ciò rende abbastanza facile perdere traccia di ciò che hai fatto e perché.

È importante assicurarsi di tenere una registrazione scritta di ciò che si sta facendo. I grafici dovrebbero essere etichettati con il nome (e la versione) dei dati utilizzati per crearli. Le procedure statistiche che si costruiscono devono essere salvate e documentate.

È anche importante eseguire il backup dei file di dati. Nel corso della tua analisi, probabilmente creerai diverse versioni dei tuoi dati che riflettono varie correzioni e trasformazioni di variabili. Dovresti salvare le procedure che hanno creato queste versioni. Dovrebbero anche essere documentati in un modo che descriva quali trasformazioni hai fatto e perché.

La documentazione non è il compito preferito di nessuno, ma parliamo per esperienza quando ti incoraggiamo fortemente a non fare affidamento sulla tua memoria quando si tratta dei tuoi progetti di analisi.

Eseguendo i passaggi appena descritti, si massimizza l'affidabilità dei propri modelli statistici. In molti casi, il lavoro di preparazione è in realtà più dispendioso in termini di tempo rispetto al modello attuale. Ma è necessario. E alla fine ti ringrazierai per averlo lavorato metodicamente.

8 Best practice nella preparazione dei dati - dummies

Scelta dell'editore

Scattare foto digitali con uno zoom ottico - dummy

Scattare foto digitali con uno zoom ottico - dummy

La fotocamera digitale potrebbe avere uno zoom ottico, che è un Obiettivo zoom attuale vecchio stile (al contrario di uno zoom digitale). Per utilizzare lo zoom ottico della fotocamera digitale per scatti ravvicinati, segui questi passaggi di preparazione delle immagini prima di attivare il pulsante o lo switch di zoom:

La reflex digitale e la sensibilità alla luce - dummy

La reflex digitale e la sensibilità alla luce - dummy

La tua reflex digitale ha un'opzione per determinare la sensibilità del sensore della fotocamera è alla luce. Le fotocamere digitali sono le stesse delle fotocamere a pellicola in quanto la sensibilità alla luce è determinata dalla valutazione ISO. Il vantaggio di una fotocamera digitale è che non è necessario cambiare pellicola per modificare le valutazioni ISO. Quando aumenti ...

Scatti grandangolari con obiettivi standard - manichini

Scatti grandangolari con obiettivi standard - manichini

Fotografia grandangolare con un angolo di campo maggiore rispetto alla lunghezza focale normale o teleobiettivo. A volte si percepiscono le foto come molto espansive. Altre volte, a malapena lo si nota. Dipende tutto dal soggetto e da come si inquadra la scena. Questa figura mostra una scena di terreni agricoli che è stata scattata utilizzando un Sony APS-C ...

Scelta dell'editore

Come usare il meta tag DESCRIPTION - dummies

Come usare il meta tag DESCRIPTION - dummies

I meta tag sono tag HTML speciali che puoi utilizzare per trasportare informazioni, che i browser o altri programmi possono quindi leggere. Quando i motori di ricerca di Internet furono creati per la prima volta, i webmaster includevano i meta tag nelle loro pagine per rendere più facile per i motori di ricerca determinare le pagine. I motori di ricerca hanno utilizzato anche questi meta ...

Come scrivere un grande tag Title Web Marketing - dummies

Come scrivere un grande tag Title Web Marketing - dummies

Scrivere un tag title è fondamentale per il successo del web marketing e coinvolge più che mettere le parole chiave prima. I motori di ricerca mostrano il tag parola chiave nella parte superiore di ciascun elemento nelle pagine dei risultati dei motori di ricerca (SERP). Un tag del titolo ben scritto potrebbe aumentare le probabilità che un cliente in ricerca faccia clic sul tuo annuncio. Se ...

In che modo Yahoo! Cerca negli elenchi di Internet e dei ranghi - dummies

In che modo Yahoo! Cerca negli elenchi di Internet e dei ranghi - dummies

Quando le persone effettuano ricerche sul Web utilizzando Yahoo! , ottengono una combinazione di risultati organici e pagati. Se lavori per una società più grande, potresti provare Yahoo! La ricerca inoltra Pro per ottenere un vantaggio rispetto alla concorrenza e puoi persino registrare il tuo sito con Yahoo! Directory. Yahoo! I risultati di ricerca organica ...

Scelta dell'editore

Di Spotify su ShareMyPlaylists. it Funzionalità del sito - dummies

Di Spotify su ShareMyPlaylists. it Funzionalità del sito - dummies

ShareMyPlaylists (o SMP, in breve) è stato uno dei primi siti di condivisione di playlist Spotify e continua a innovare e offrire nuove funzionalità ai visitatori. Il mantra del sito è "Long Live the Mixtape", e qui troverai tantissime creazioni accuratamente compilate da migliaia di utenti. Dopo aver creato una playlist Spotify piena di ...

Spotify Unlimited - dummies

Spotify Unlimited - dummies

Spotify Unlimited è un modo brillante per ascoltare tutta la musica che vuoi senza limiti. È come una persona speciale che ti compra da mangiare e da bere tutta la sera per non doverti preoccupare del conto. È come essere in grado di dormire nel weekend senza preoccuparsi del lavoro o se ...

I generi di Spotify - dummies

I generi di Spotify - dummies

Che si tratti di hard rock, techno, pop, jazz, industrial, indie pop, folk , classico, heavy metal, valzer o qualsiasi altra cosa ti piaccia, Spotify ha il genere o il tipo di musica coperto. Puoi cercare i generi comuni da Spotify. Sebbene Spotify abbia pubblicato un elenco di quasi 1, 000 generi noti, non tutti saranno in grado di offrire ...