Casa Finanza personale 8 Best practice nella preparazione dei dati - dummies

8 Best practice nella preparazione dei dati - dummies

Sommario:

Video: Come ricordare quello che leggi (11 tecniche) 2025

Video: Come ricordare quello che leggi (11 tecniche) 2025
Anonim

I pacchetti software statistici sono estremamente potenti in questi giorni, ma non possono superare i dati di scarsa qualità. Di seguito è riportata una lista di cose che devi fare prima di iniziare a costruire modelli statistici.

Verifica formati dati

L'analisi inizia sempre con un file di dati non elaborati. I file di dati grezzi sono disponibili in diverse forme e dimensioni. I dati del mainframe sono diversi dai dati del PC, i dati del foglio di calcolo sono formattati in modo diverso rispetto ai dati web e così via. E nell'era dei big data, sicuramente ti troverai di fronte a dati provenienti da una varietà di fonti. Il primo passo per analizzare i tuoi dati è assicurarti di poter leggere i file che ti vengono forniti.

Devi effettivamente vedere cosa contiene ciascun campo. Ad esempio, non è saggio confidare che solo perché un campo è elencato come un campo di carattere, in realtà contiene dati di carattere.

Verifica tipi di dati

Tutti i dati rientrano in una delle quattro categorie che influenzano il tipo di statistiche che è possibile applicare in modo appropriato:

  • I dati nominali sono essenzialmente solo un nome o un identificatore.

  • I dati ordinali mettono i record in ordine dal più basso al più alto.

  • I dati dell'intervallo rappresentano valori in cui le differenze tra loro sono comparabili.

  • I dati relativi ai rapporti sono come i dati dell'intervallo tranne per il fatto che consente anche un valore di 0.

È importante capire in quali categorie rientrano i dati prima di inserirli nel software statistico. Altrimenti, rischi di finire con un linguaggio senza senso perfettamente ragionevole.

Rappresenta graficamente i dati

È importante avere un'idea di come vengono distribuiti i dati. Puoi eseguire le procedure statistiche finché non sei blu in faccia, ma nessuna di queste ti darà informazioni dettagliate su come appaiono i tuoi dati come un semplice grafico.

Verifica dell'accuratezza dei dati

Una volta che hai dimestichezza con la formattazione dei dati nel modo desiderato, devi comunque assicurarti che sia accurato e che abbia senso. Questo passaggio richiede che tu abbia una certa conoscenza dell'area in cui lavori.

Non esiste un approccio preciso per verificare l'accuratezza dei dati. L'idea di base è formulare alcune proprietà che ritieni debbano esporre e testare i dati per vedere se tali proprietà valgono. I prezzi delle azioni sono sempre positivi? Tutti i codici prodotto corrispondono all'elenco di quelli validi? In sostanza, stai cercando di capire se i dati sono davvero ciò che ti è stato detto.

Identificazione dei valori anomali

I valori anomali sono punti di dati non più disponibili con il resto dei dati. Sono valori molto grandi o molto piccoli rispetto al resto del set di dati.

I valori anomali sono problematici perché possono compromettere seriamente le statistiche e le procedure statistiche. Un singolo outlier può avere un impatto enorme sul valore della media. Poiché la media dovrebbe rappresentare il centro dei dati, in un certo senso, questo outlier rende il significato inutile.

Di fronte a valori anomali, la strategia più comune è eliminarli. In alcuni casi, tuttavia, potresti volerli prendere in considerazione. In questi casi, è solitamente consigliabile eseguire due volte l'analisi, una volta inclusi i valori anomali e una volta esclusi i valori anomali. Questo ti permette di valutare quale metodo fornisce risultati più utili.

Gestire valori mancanti

I valori mancanti sono uno dei problemi di dati più comuni (e fastidiosi) che si incontreranno. Il tuo primo impulso potrebbe essere quello di eliminare i record con valori mancanti dalla tua analisi. Il problema con questo è che i valori mancanti spesso non sono solo piccoli errori di dati casuali.

Controlla le tue ipotesi su come i dati sono distribuiti

Molte procedure statistiche dipendono dal presupposto che i dati siano distribuiti in un certo modo. Se questo presupposto non è il caso, l'accuratezza delle tue previsioni soffre.

L'assunto più comune per le tecniche di modellazione discusse in questo libro è che i dati sono normalmente distribuiti.

Oppure no. Nei casi in cui i dati non sono distribuiti come è necessario, tutto non è necessariamente perso. Esistono diversi modi per trasformare i dati per ottenere la distribuzione nella forma che ti serve.

Uno dei modi migliori per verificare l'accuratezza di un modello statistico è testarlo effettivamente contro i dati una volta che è stato creato. Un modo per farlo è dividere casualmente il set di dati in due file. Potresti chiamare questi file Analisi e Test, rispettivamente.

È necessario suddividere i dati casualmente per essere efficaci. Non puoi semplicemente dividere il set di dati nella metà superiore e nella metà inferiore, ad esempio. Quasi tutti i file di dati sono ordinati in qualche modo - per data se non altro. Questo introduce pattern sistematici che daranno diverse porzioni del file differenti proprietà statistiche. Quando dividi il file in modo casuale, dai a ciascun record una uguale possibilità di trovarsi in entrambi i file. In senso figurato, stai lanciando una moneta per ogni record per decidere quale file debba contenere. La casualità fornisce a entrambi i file le stesse proprietà statistiche dei dati originali.

Dopo aver diviso il set di dati, mettere da parte il file di test. Quindi procedere alla creazione del modello predittivo utilizzando il file di analisi. Una volta che il modello è stato creato, applicalo al file di test e guarda come funziona.

Il test dei modelli in questo modo aiuta a salvaguardarsi da un fenomeno noto come eccessivo . Essenzialmente, è possibile che le procedure statistiche memorizzino il file di dati piuttosto che scoprire relazioni significative tra le variabili. Se si verifica un adattamento eccessivo, il modello eseguirà un test piuttosto negativo sul file di test.

Eseguire il backup e documentare tutto ciò che fai

Poiché il software statistico sta diventando così semplice da usare, è un gioco da ragazzi iniziare a generare report e grafici, per non parlare dei file di dati.È possibile eseguire le procedure letteralmente con il semplice tocco di un pulsante. Puoi generare decine di grafici basati su diverse trasformazioni di dati nel giro di pochi minuti. Ciò rende abbastanza facile perdere traccia di ciò che hai fatto e perché.

È importante assicurarsi di tenere una registrazione scritta di ciò che si sta facendo. I grafici dovrebbero essere etichettati con il nome (e la versione) dei dati utilizzati per crearli. Le procedure statistiche che si costruiscono devono essere salvate e documentate.

È anche importante eseguire il backup dei file di dati. Nel corso della tua analisi, probabilmente creerai diverse versioni dei tuoi dati che riflettono varie correzioni e trasformazioni di variabili. Dovresti salvare le procedure che hanno creato queste versioni. Dovrebbero anche essere documentati in un modo che descriva quali trasformazioni hai fatto e perché.

La documentazione non è il compito preferito di nessuno, ma parliamo per esperienza quando ti incoraggiamo fortemente a non fare affidamento sulla tua memoria quando si tratta dei tuoi progetti di analisi.

Eseguendo i passaggi appena descritti, si massimizza l'affidabilità dei propri modelli statistici. In molti casi, il lavoro di preparazione è in realtà più dispendioso in termini di tempo rispetto al modello attuale. Ma è necessario. E alla fine ti ringrazierai per averlo lavorato metodicamente.

8 Best practice nella preparazione dei dati - dummies

Scelta dell'editore

Come registrare note di credito in QuickBooks 2010 - dummies

Come registrare note di credito in QuickBooks 2010 - dummies

Note di credito mostrano quando un cliente non ti deve più soldi o quando devi un denaro del cliente. QuickBooks 2010 ti consente di registrare note di credito, che possono verificarsi perché il cliente restituisce gli articoli o emette un rimborso al cliente.

Come registrare una ricevuta di vendita con QuickBooks 2010 - dummies

Come registrare una ricevuta di vendita con QuickBooks 2010 - dummies

QuickBooks 2010 consente di creare vendite ricevuta quando un cliente acquista un articolo senza la necessità di una fattura. Una ricevuta di vendita sembra molto, molto simile a una fattura. Tuttavia, non include le informazioni sulla spedizione (perché è irrilevante) e consente di registrare l'importo pagato dal cliente.

Come registrare un credito fornitore in QuickBooks online - dummies

Come registrare un credito fornitore in QuickBooks online - dummies

In QuickBooks Online (QBO), tu inserisci un credito fornitore per registrare resi a fornitori o rimborsi da parte dei fornitori. Un venditore potrebbe fornirti un documento di credito che indica che non devi più l'importo indicato sul documento, o che il venditore potrebbe emettere un assegno di rimborso. Se un fornitore emette un credito ...

Scelta dell'editore

Come accettare e inoltrare richieste di introduzione di LinkedIn - dummies

Come accettare e inoltrare richieste di introduzione di LinkedIn - dummies

Una volta che inizi a costruire la tua rete di LinkedIn, dovrà essere in grado di accettare e inoltrare richieste di amicizia. Quando sei pronto per accettare la richiesta del tuo amico e inoltrare la sua introduzione, procedi nel seguente modo:

Come LinkedIn ti aiuta a trovare le risposte alle tue domande - dummies

Come LinkedIn ti aiuta a trovare le risposte alle tue domande - dummies

L'obiettivo di LinkedIn Answers è consentire ai professionisti di scambiare competenze. I membri di LinkedIn hanno molte esperienze personali e professionali da condividere, quindi non c'è fine alle domande che puoi porre. Inoltre, la rete LinkedIn Answers facilita l'organizzazione e la raccolta delle informazioni. LinkedIn organizza domande nelle seguenti categorie: Amministrazione: ...

Come accettare i consigli su LinkedIn - dummies

Come accettare i consigli su LinkedIn - dummies

LinkedIn non aggiunge automaticamente alcuna approvazione in entrata al tuo profilo; per prima cosa devi accettare quelle approvazioni. Quando ricevi un avallo, compare nell'elenco delle notifiche nell'angolo in alto a destra della schermata di LinkedIn e ricevi anche un messaggio di posta elettronica (a seconda delle impostazioni della tua e-mail) che ti informa su chi ti ha sostenuto e ...

Scelta dell'editore

Come misurare la liquidità con QuickBooks 2013 - manichini

Come misurare la liquidità con QuickBooks 2013 - manichini

Per molte piccole imprese, la liquidità è importante. Se lavori con QuickBooks 2013 in un contesto di piccola impresa, devi comprendere l'importanza della liquidità. Hai solo un numero limitato di investimenti che puoi realizzare. Inoltre, hai una quantità limitata di capitale - meno di quanto ti piace, quasi sempre. Nuove opportunità e ...

Come misurare la liquidità con QuickBooks 2014 - dummies

Come misurare la liquidità con QuickBooks 2014 - dummies

Per molte piccole imprese, la liquidità è importante. Se stai lavorando con QuickBooks in un contesto di piccola impresa, devi capire l'importanza della liquidità. È possibile effettuare solo un numero limitato di investimenti. Inoltre, hai una quantità limitata di capitale - meno di quanto ti piace, quasi sempre. Nuove opportunità e modi per investire il tuo ...

Come modificare un rapporto QuickBooks con la scheda Filtri - dummies

Come modificare un rapporto QuickBooks con la scheda Filtri - dummies

La scheda Filtri è probabilmente la scheda più interessante e utile fornita dalla finestra di dialogo Modifica rapporto in QuickBooks. La scheda Filtri consente di impostare i filtri che è possibile utilizzare per specificare quali informazioni vengono riepilogate nel report. Per utilizzare la scheda Filtri, qui mostrata, devi prima selezionare il campo su ...