Casa Finanza personale I tuoi dati sembrano corretti? - dummies

I tuoi dati sembrano corretti? - dummies

Sommario:

Video: Si esto es la vida Dios está loco; por Mª José Cabanillas 2025

Video: Si esto es la vida Dios está loco; por Mª José Cabanillas 2025
Anonim

La maggior parte dei set di dati ha una sorta di metadati, che è essenzialmente una descrizione dei dati nel file. I metadati in genere includono descrizioni dei formati, alcune indicazioni su quali valori sono presenti in ciascun campo dati e cosa significano questi valori.

Quando ti trovi di fronte a un nuovo set di dati, non prendi mai i metadati al valore nominale. La natura stessa dei big data richiede che i sistemi che li generano siano mantenuti operativi il più possibile. Per questo motivo, l'aggiornamento dei metadati per questi sistemi quando vengono implementate le modifiche non è sempre una priorità assoluta. Devi confermare che i dati sono realmente come affermano i metadati.

Controllo delle sorgenti

Per quanto possa sembrare ovvio, è importante che tu abbia fiducia nella provenienza dei tuoi dati. Questo è particolarmente importante quando acquisti i dati. Migliaia di venditori offrono tutti i tipi di dati immaginabili. E non sono tutti uguali credibilità.

Prima di acquistare i dati, cerca di capire esattamente dove e come il venditore lo sta raccogliendo. La misteriosità e la vaghezza sono bandiere rosse.

Non prendere in parola i venditori. Non fare affidamento esclusivamente sui messaggi di soddisfazione dei clienti sul sito Web o sui riferimenti dei clienti forniti dal venditore. Se possibile, prova a rintracciare qualcuno che sta usando o ha usato i dati.

Se i tuoi dati provengono da sistemi interni, è comunque importante valutare le fonti. Sistemi diversi hanno scopi diversi e quindi si concentrano su dati diversi. Possono anche raccogliere dati in momenti diversi.

Ad esempio, non è raro che alcune catene alberghiere prenotino prenotazioni in un sistema separato da quello che utilizzano alla reception quando l'ospite effettua il check-in. È possibile che l'ospite possa ricevere un'offerta scontata tra prenotazione e check-in. Ciò significa che la tariffa della camera nel sistema di prenotazione potrebbe non corrispondere alla tariffa del sistema di front desk. Inoltre, la prenotazione potrebbe essere cancellata e non arrivare mai alla reception!

Ora, supponiamo che tu stia eseguendo un'analisi delle entrate dell'hotel per città. È piuttosto importante sapere che i dati relativi alla tariffa della camera vengono prelevati dal sistema di front desk piuttosto che dal sistema di prenotazione. Ma cosa succede se stai cercando di analizzare quante prenotazioni sono state generate dallo spot del Super Bowl della tua azienda? In questo caso, vuoi vedere i dati dal sistema di prenotazione.

L'esempio dell'hotel illustra che anche i dati intrinsecamente puliti possono essere problematici. Anche se i dati sono accurati e esattamente ciò che pretende di essere, la tempistica può essere un problema.I dati cambiano nel tempo.

Verifica dei formati

Come menzionato in precedenza in questo capitolo, una delle cose che i tuoi metadati ti forniranno è qualche indicazione su come i dati sono formattati. Con formattato, intendiamo il modo in cui ogni particolare elemento di dati appare. "Codice prodotto" è un carattere o un numero? "Data di inizio" è una data o è davvero un timbro datetime?

I tipi di dati sono importanti nell'analisi statistica perché dettano quali statistiche e procedure statistiche possono essere applicate a quali elementi di dati. Se provi a prendere il valore medio di un campo di caratteri come "Nome", riceverai ogni volta un messaggio di errore.

In genere, questo tipo di metadati è piuttosto accurato. Generalmente viene memorizzato dal sistema che contiene i dati e può essere generato automaticamente. La verifica dei formati è in genere abbastanza semplice. Tale verifica è essenzialmente un sottoprodotto della convalida degli intervalli di dati discussi nella sezione seguente. Ma ci sono casi in cui può essere un po 'più difficile.

Abbiamo visto uno di questi scenari più volte di quanto pensiamo di ricordare. A volte capita che quando un sistema viene progettato per la prima volta, il team di sviluppo cerca di mettere un po 'di flessibilità nelle strutture dati per adattarsi ai futuri miglioramenti. A volte aggiungono semplicemente un mucchio di colonne di dati alfanumerici vuote (e larghe) alla fine di ogni record. Queste colonne ausiliarie inizialmente non sono usate per nulla.

Gli analisti sbagliano sempre sul lato di chiedere più dati piuttosto che meno - frequentemente, tutti dati piuttosto che alcuni. Questo fatto, unito alla necessità di ottenere rapidamente i dati, a volte produce un dump di dati . Questo dump generalmente include le colonne ausiliarie. In questi casi, i metadati ti dicono qualcosa come "Fields 1-11" sono formattati come "200 caratteri alfanumerici. "

Tale informazione è praticamente inutile. Per dare un senso a un campo dati come questo, devi praticamente sporcarti le mani. Non c'è molto che puoi fare se non sfogliare una dozzina di dischi e cercare di fare una congettura informata su ciò che è effettivamente sul campo. Nella maggior parte dei casi, questi campi tendono ad essere vuoti. Ma non sempre. La buona notizia è che se il campo viene effettivamente utilizzato, dovresti essere in grado di trovare un programmatore da qualche parte che sa a cosa serve.

Inserimento a macchina dei dati

Uno dei passaggi più critici nell'esecuzione di un'analisi statistica è assicurarsi che i dati siano ciò che pretende di essere. Le procedure statistiche invariabilmente si bloccano se non si forniscono loro informazioni valide sui formati dei dati. Ma queste procedure sono in gran parte cieche ai problemi con la validità dei dati.

Capire come un campo dati è formattato non è abbastanza. Prima di trasformare un set di dati in una procedura statistica, è necessario capire quale sia effettivamente il dato in ciascuno dei campi che si stanno utilizzando.

La maggior parte dei dati rientra in una delle quattro categorie: nominale, ordinale, intervallo e rapporto.Il tipo di dati determina quale tipo di statistiche e procedure statistiche possono essere applicate a particolari campi di dati. Ad esempio, non puoi prendere una media di un campo come "Cognome".

La confusione dei tipi di dati con i formati di dati è facile (e fin troppo comune). Sapere se un campo dati è un carattere, intero o continuo non ti dice il tipo di dati.

I campi carattere vengono talvolta utilizzati come segnaposto per i dati che potrebbero essere catturati nelle versioni future di un sistema. Non c'è nulla che impedisca l'utilizzo di questo campo per acquisire dati monetari o altri dati numerici.

L'errore di tipo di dati più comune consiste nell'assumere che un campo numerico, in particolare un campo con valore intero, contenga effettivamente i dati numerici ordinali . È estremamente comune per le aziende utilizzare codici numerici ( nominali dati) per rappresentare prodotti, regioni, negozi e varie altre entità.

I codici di volo delle compagnie aeree sono un esempio. Le regioni del censimento sono un'altra. Anche i numeri di carta di credito e di previdenza sociale sono in genere memorizzati come numeri interi. Ma tutte queste entità sono solo identificatori. Sono variabili nominali . Il numero di carta di credito medio nel portafoglio di una banca è una statistica priva di significato.

I tuoi dati sembrano corretti? - dummies

Scelta dell'editore

Come salvare le immagini in un file immagine in R - dummies

Come salvare le immagini in un file immagine in R - dummies

Se vuoi pubblicare le tue risultati, è necessario salvare la trama in un file in R e quindi importare questo file grafico in un altro documento. Tuttavia, per la maggior parte del tempo, potresti semplicemente voler utilizzare la grafica R in modo interattivo per esplorare i tuoi dati. Per salvare un grafico su un'immagine ...

Come cercare più parole in R - dummies

Come cercare più parole in R - dummies

Quando si lavora con il testo in R, potrebbe essere necessario per trovare parole o motivi all'interno del testo. Immagina di avere una lista degli stati negli Stati Uniti e vuoi scoprire quali nomi di stato consistono in due parole. Per trovare sottostringhe, è possibile utilizzare la funzione grep (), che prende due argomenti essenziali: ...

Come cercare le singole parole in R - dummies

Come cercare le singole parole in R - dummies

Quando lavori con il testo, spesso tu può risolvere i problemi se riesci a trovare parole o motivi all'interno del testo. R rende questo facile da fare. Immagina di avere una lista degli stati negli Stati Uniti e vuoi scoprire quale di questi stati contiene la parola Nuovo. Per indagare su questo ...

Scelta dell'editore

Come calcolare le detrazioni e i crediti di imposta sugli investimenti immobiliari per l'esame di licenza immobiliare

Come calcolare le detrazioni e i crediti di imposta sugli investimenti immobiliari per l'esame di licenza immobiliare

Una detrazione fiscale è qualcosa che puoi vedere nell'esame di licenza immobiliare che puoi detrarre dal reddito di un investimento immobiliare per ridurre le tasse. Un credito d'imposta è qualcosa che puoi detrarre dalle tasse dovute. I governi federali e talvolta statali creano programmi che consentono crediti d'imposta o detrazioni per ...

Fattori economici che influenzano il valore per l'esame di licenza immobiliare - dummies

Fattori economici che influenzano il valore per l'esame di licenza immobiliare - dummies

Valore doesn ' semplicemente succede; le persone devono crearlo. La maggior parte di queste azioni personali che saranno trattate durante l'esame di licenza immobiliare, di solito chiamate influenze economiche, non sono altro che normali comportamenti umani. Il test pone due tipi di domande su questi principi o fattori economici. Vedrai domande sulle definizioni e ...

Come calcolare le aliquote fiscali per l'esame di licenza immobiliare - dummy

Come calcolare le aliquote fiscali per l'esame di licenza immobiliare - dummy

Pur calcolando la tassa le tariffe non sono qualcosa che devi sapere esattamente come fare per l'esame di licenza immobiliare, è qualcosa che devi capire in generale per rispondere a domande di non-matematica sul processo. Sapere come calcolare le tasse non è una cosa brutta da sapere, perché probabilmente si pagano le tasse di proprietà e ...

Scelta dell'editore

Suggerimenti per la registrazione Regole di gioco logiche sull'LSAT - manichini

Suggerimenti per la registrazione Regole di gioco logiche sull'LSAT - manichini

La maggior parte dei giochi di logica sull'LSAT hanno tre, quattro o cinque condizioni o regole che limitano il modo in cui giochi con i pezzi. Per ordinare i giochi, le restrizioni forniscono indizi su come i pezzi possono essere posizionati in relazione l'uno con l'altro. I tipi comuni di regole di ordinazione sono obiettivi, distanziatori e arrangiatori. Regole di destinazione I bersagli danno ...

Come gestire il tuo tempo con saggezza sul TASC - dummies

Come gestire il tuo tempo con saggezza sul TASC - dummies

Perché ogni sezione del TASC, oppure Prova l'esame di completamento secondario, ha un limite di tempo, vorrai essere consapevole di quanto tempo è passato mentre stai facendo il test. Un modo per gestire efficacemente il tuo tempo è semplicemente indossando un orologio. I centri di test potrebbero non avere sempre un orologio disponibile e ...

Rendendo più semplice il giorno di prova SSAT o ISEE - manichini

Rendendo più semplice il giorno di prova SSAT o ISEE - manichini

Non è possibile effettuare SSAT o ISEE più facile, ma puoi iniziare la giornata di test correttamente e renderlo più semplice e meno stressante, il che può portare a risultati migliori durante l'esame di ammissione. Ecco alcuni suggerimenti da tenere a mente al giorno del test SSAT o ISEE: riposati molto. La ...