Casa Finanza personale 8 Best practice nella preparazione dei dati - dummies

8 Best practice nella preparazione dei dati - dummies

Sommario:

Video: Come ricordare quello che leggi (11 tecniche) 2025

Video: Come ricordare quello che leggi (11 tecniche) 2025
Anonim

I pacchetti software statistici sono estremamente potenti in questi giorni, ma non possono superare i dati di scarsa qualità. Di seguito è riportata una lista di cose che devi fare prima di iniziare a costruire modelli statistici.

Verifica formati dati

L'analisi inizia sempre con un file di dati non elaborati. I file di dati grezzi sono disponibili in diverse forme e dimensioni. I dati del mainframe sono diversi dai dati del PC, i dati del foglio di calcolo sono formattati in modo diverso rispetto ai dati web e così via. E nell'era dei big data, sicuramente ti troverai di fronte a dati provenienti da una varietà di fonti. Il primo passo per analizzare i tuoi dati è assicurarti di poter leggere i file che ti vengono forniti.

Devi effettivamente vedere cosa contiene ciascun campo. Ad esempio, non è saggio confidare che solo perché un campo è elencato come un campo di carattere, in realtà contiene dati di carattere.

Verifica tipi di dati

Tutti i dati rientrano in una delle quattro categorie che influenzano il tipo di statistiche che è possibile applicare in modo appropriato:

  • I dati nominali sono essenzialmente solo un nome o un identificatore.

  • I dati ordinali mettono i record in ordine dal più basso al più alto.

  • I dati dell'intervallo rappresentano valori in cui le differenze tra loro sono comparabili.

  • I dati relativi ai rapporti sono come i dati dell'intervallo tranne per il fatto che consente anche un valore di 0.

È importante capire in quali categorie rientrano i dati prima di inserirli nel software statistico. Altrimenti, rischi di finire con un linguaggio senza senso perfettamente ragionevole.

Rappresenta graficamente i dati

È importante avere un'idea di come vengono distribuiti i dati. Puoi eseguire le procedure statistiche finché non sei blu in faccia, ma nessuna di queste ti darà informazioni dettagliate su come appaiono i tuoi dati come un semplice grafico.

Verifica dell'accuratezza dei dati

Una volta che hai dimestichezza con la formattazione dei dati nel modo desiderato, devi comunque assicurarti che sia accurato e che abbia senso. Questo passaggio richiede che tu abbia una certa conoscenza dell'area in cui lavori.

Non esiste un approccio preciso per verificare l'accuratezza dei dati. L'idea di base è formulare alcune proprietà che ritieni debbano esporre e testare i dati per vedere se tali proprietà valgono. I prezzi delle azioni sono sempre positivi? Tutti i codici prodotto corrispondono all'elenco di quelli validi? In sostanza, stai cercando di capire se i dati sono davvero ciò che ti è stato detto.

Identificazione dei valori anomali

I valori anomali sono punti di dati non più disponibili con il resto dei dati. Sono valori molto grandi o molto piccoli rispetto al resto del set di dati.

I valori anomali sono problematici perché possono compromettere seriamente le statistiche e le procedure statistiche. Un singolo outlier può avere un impatto enorme sul valore della media. Poiché la media dovrebbe rappresentare il centro dei dati, in un certo senso, questo outlier rende il significato inutile.

Di fronte a valori anomali, la strategia più comune è eliminarli. In alcuni casi, tuttavia, potresti volerli prendere in considerazione. In questi casi, è solitamente consigliabile eseguire due volte l'analisi, una volta inclusi i valori anomali e una volta esclusi i valori anomali. Questo ti permette di valutare quale metodo fornisce risultati più utili.

Gestire valori mancanti

I valori mancanti sono uno dei problemi di dati più comuni (e fastidiosi) che si incontreranno. Il tuo primo impulso potrebbe essere quello di eliminare i record con valori mancanti dalla tua analisi. Il problema con questo è che i valori mancanti spesso non sono solo piccoli errori di dati casuali.

Controlla le tue ipotesi su come i dati sono distribuiti

Molte procedure statistiche dipendono dal presupposto che i dati siano distribuiti in un certo modo. Se questo presupposto non è il caso, l'accuratezza delle tue previsioni soffre.

L'assunto più comune per le tecniche di modellazione discusse in questo libro è che i dati sono normalmente distribuiti.

Oppure no. Nei casi in cui i dati non sono distribuiti come è necessario, tutto non è necessariamente perso. Esistono diversi modi per trasformare i dati per ottenere la distribuzione nella forma che ti serve.

Uno dei modi migliori per verificare l'accuratezza di un modello statistico è testarlo effettivamente contro i dati una volta che è stato creato. Un modo per farlo è dividere casualmente il set di dati in due file. Potresti chiamare questi file Analisi e Test, rispettivamente.

È necessario suddividere i dati casualmente per essere efficaci. Non puoi semplicemente dividere il set di dati nella metà superiore e nella metà inferiore, ad esempio. Quasi tutti i file di dati sono ordinati in qualche modo - per data se non altro. Questo introduce pattern sistematici che daranno diverse porzioni del file differenti proprietà statistiche. Quando dividi il file in modo casuale, dai a ciascun record una uguale possibilità di trovarsi in entrambi i file. In senso figurato, stai lanciando una moneta per ogni record per decidere quale file debba contenere. La casualità fornisce a entrambi i file le stesse proprietà statistiche dei dati originali.

Dopo aver diviso il set di dati, mettere da parte il file di test. Quindi procedere alla creazione del modello predittivo utilizzando il file di analisi. Una volta che il modello è stato creato, applicalo al file di test e guarda come funziona.

Il test dei modelli in questo modo aiuta a salvaguardarsi da un fenomeno noto come eccessivo . Essenzialmente, è possibile che le procedure statistiche memorizzino il file di dati piuttosto che scoprire relazioni significative tra le variabili. Se si verifica un adattamento eccessivo, il modello eseguirà un test piuttosto negativo sul file di test.

Eseguire il backup e documentare tutto ciò che fai

Poiché il software statistico sta diventando così semplice da usare, è un gioco da ragazzi iniziare a generare report e grafici, per non parlare dei file di dati.È possibile eseguire le procedure letteralmente con il semplice tocco di un pulsante. Puoi generare decine di grafici basati su diverse trasformazioni di dati nel giro di pochi minuti. Ciò rende abbastanza facile perdere traccia di ciò che hai fatto e perché.

È importante assicurarsi di tenere una registrazione scritta di ciò che si sta facendo. I grafici dovrebbero essere etichettati con il nome (e la versione) dei dati utilizzati per crearli. Le procedure statistiche che si costruiscono devono essere salvate e documentate.

È anche importante eseguire il backup dei file di dati. Nel corso della tua analisi, probabilmente creerai diverse versioni dei tuoi dati che riflettono varie correzioni e trasformazioni di variabili. Dovresti salvare le procedure che hanno creato queste versioni. Dovrebbero anche essere documentati in un modo che descriva quali trasformazioni hai fatto e perché.

La documentazione non è il compito preferito di nessuno, ma parliamo per esperienza quando ti incoraggiamo fortemente a non fare affidamento sulla tua memoria quando si tratta dei tuoi progetti di analisi.

Eseguendo i passaggi appena descritti, si massimizza l'affidabilità dei propri modelli statistici. In molti casi, il lavoro di preparazione è in realtà più dispendioso in termini di tempo rispetto al modello attuale. Ma è necessario. E alla fine ti ringrazierai per averlo lavorato metodicamente.

8 Best practice nella preparazione dei dati - dummies

Scelta dell'editore

HDR Fotografia: Regola le impostazioni in Photomatix Dettagli Enhancer - dummies

HDR Fotografia: Regola le impostazioni in Photomatix Dettagli Enhancer - dummies

Dettagli Enhancer in Photomatix Pro ti consente di toni mappa le tue immagini ad alta gamma dinamica (HDR). Come puoi vedere da questa figura, ci sono un certo numero di controlli. Per fortuna, sono ben organizzati in aree funzionali. Le tre finestre mobili mostrano le impostazioni, l'anteprima dell'immagine e l'istogramma. Forza: controlla la forza di potenziamento del contrasto, sia locale ...

HDR Fotografia - Miscela materiale da fonti alternative - manichini

HDR Fotografia - Miscela materiale da fonti alternative - manichini

Cerca le aree dove potresti aver bisogno per mescolare il materiale da fonti alternative. Ad esempio, se una parte del cielo è saltata fuori, potresti voler sostituire il cielo scoppiato con una versione che è stata mappata in modo diverso in modo che il cielo appaia meglio (ciò che spesso accade è il resto ...

HDR Fotografia: scegli un formato file - dummies

HDR Fotografia: scegli un formato file - dummies

Quando crei un'immagine ad alta gamma dinamica, spesso viene data la possibilità di salvarlo come file HDR per un uso successivo. Se lo si salva come file HDR dipende in parte dalle preferenze e in parte da ciò che si intende fare. Normalmente, salti a destra nella mappatura dei toni, salva il minimo finale ...

Scelta dell'editore

Farmaci Opzioni per gestire la rabbia - manichini

Farmaci Opzioni per gestire la rabbia - manichini

La maggior parte dei programmi di gestione della rabbia non affronta il problema dei farmaci. In parte, probabilmente perché i farmaci non sono in realtà un modo per gestire la tua rabbia. E gli studi sull'efficacia dei farmaci per la rabbia sono stati alquanto incoerenti. Tuttavia, dovresti sapere che i farmaci possono essere un'opzione per alcune persone, specialmente quando altri disturbi emotivi, come ...

Gestione di amici e parenti con intelligenza emotiva - manichini

Gestione di amici e parenti con intelligenza emotiva - manichini

Ecco alcuni modi in cui si praticano tecniche di intelligenza emotiva con amici intimi e i parenti possono aiutarti a disinnescare situazioni difficili ea mantenere relazioni equilibrate e soddisfacenti con i tuoi cari. A partire dal finale le persone a volte interrompono completamente i contatti con parenti e amici e potresti trovarti in una situazione in cui ...

Mini questionario motivazionale - manichini

Mini questionario motivazionale - manichini

Dai un'occhiata al seguente elenco di compiti e decidi se vuoi ottenerne uno. Seleziona le attività che pensi di voler intraprendere: Acquistare una nuova casa Decorare la tua casa Sviluppare uno stile di vita più salutare Ottenere un nuovo lavoro Ottenere una promozione di lavoro Passare gli esami Lavorare per un ...

Scelta dell'editore

Come identificare i trigger di rabbia - dummies

Come identificare i trigger di rabbia - dummies

Conoscere i trigger di rabbia - gli eventi e le situazioni che ti fanno impazzire - è importante perché risponderai in modo più efficace alla tua rabbia quando ti sentirai preparato. Anticipare la possibilità di rabbia aumenta la capacità di esprimerlo in modo più costruttivo. Ecco alcuni trigger di rabbia comuni. Molte persone si sentono ...

Come misurare il tuo stress - manichini

Come misurare il tuo stress - manichini

Riconoscere i sintomi dello stress e quanto spesso si verificano può aiutarti ad affrontare lo stress. Utilizza le due settimane precedenti come periodo di tempo e registra l'occorrenza dei seguenti segni e sintomi fisici ed emotivi di stress. Dopo aver identificato i sintomi dello stress e quanto spesso si verificano, utilizzare la scala di valutazione dello stress per trovare il ...

Come calmare la mente - dummies

Come calmare la mente - dummies

Trovare modi per ridurre i livelli di stress aumenterà la tua felicità. A volte distrarti non è abbastanza per calmare la tua mente. A volte avete bisogno di misure più forti per eliminare, o almeno rallentare, quelle preoccupazioni e preoccupazioni indesiderate e che producono stress. Forse hai una preoccupazione inquietante che ti intrude continuamente nel tuo pensiero e ti impedisce di goderti ...