I tuoi dati sembrano corretti? - dummies

La maggior parte dei set di dati ha una sorta di metadati, che è essenzialmente una descrizione dei dati nel file. I metadati in genere includono descrizioni dei formati, alcune indicazioni su quali valori sono presenti in ciascun campo dati e cosa significano questi valori.

Quando ti trovi di fronte a un nuovo set di dati, non prendi mai i metadati al valore nominale. La natura stessa dei big data richiede che i sistemi che li generano siano mantenuti operativi il più possibile. Per questo motivo, l'aggiornamento dei metadati per questi sistemi quando vengono implementate le modifiche non è sempre una priorità assoluta. Devi confermare che i dati sono realmente come affermano i metadati.

Controllo delle sorgenti

Per quanto possa sembrare ovvio, è importante che tu abbia fiducia nella provenienza dei tuoi dati. Questo è particolarmente importante quando acquisti i dati. Migliaia di venditori offrono tutti i tipi di dati immaginabili. E non sono tutti uguali credibilità.

Prima di acquistare i dati, cerca di capire esattamente dove e come il venditore lo sta raccogliendo. La misteriosità e la vaghezza sono bandiere rosse.

Non prendere in parola i venditori. Non fare affidamento esclusivamente sui messaggi di soddisfazione dei clienti sul sito Web o sui riferimenti dei clienti forniti dal venditore. Se possibile, prova a rintracciare qualcuno che sta usando o ha usato i dati.

Se i tuoi dati provengono da sistemi interni, è comunque importante valutare le fonti. Sistemi diversi hanno scopi diversi e quindi si concentrano su dati diversi. Possono anche raccogliere dati in momenti diversi.

Ad esempio, non è raro che alcune catene alberghiere prenotino prenotazioni in un sistema separato da quello che utilizzano alla reception quando l'ospite effettua il check-in. È possibile che l'ospite possa ricevere un'offerta scontata tra prenotazione e check-in. Ciò significa che la tariffa della camera nel sistema di prenotazione potrebbe non corrispondere alla tariffa del sistema di front desk. Inoltre, la prenotazione potrebbe essere cancellata e non arrivare mai alla reception!

Ora, supponiamo che tu stia eseguendo un'analisi delle entrate dell'hotel per città. È piuttosto importante sapere che i dati relativi alla tariffa della camera vengono prelevati dal sistema di front desk piuttosto che dal sistema di prenotazione. Ma cosa succede se stai cercando di analizzare quante prenotazioni sono state generate dallo spot del Super Bowl della tua azienda? In questo caso, vuoi vedere i dati dal sistema di prenotazione.

L'esempio dell'hotel illustra che anche i dati intrinsecamente puliti possono essere problematici. Anche se i dati sono accurati e esattamente ciò che pretende di essere, la tempistica può essere un problema.I dati cambiano nel tempo.

Verifica dei formati

Come menzionato in precedenza in questo capitolo, una delle cose che i tuoi metadati ti forniranno è qualche indicazione su come i dati sono formattati. Con formattato, intendiamo il modo in cui ogni particolare elemento di dati appare. "Codice prodotto" è un carattere o un numero? "Data di inizio" è una data o è davvero un timbro datetime?

I tipi di dati sono importanti nell'analisi statistica perché dettano quali statistiche e procedure statistiche possono essere applicate a quali elementi di dati. Se provi a prendere il valore medio di un campo di caratteri come "Nome", riceverai ogni volta un messaggio di errore.

In genere, questo tipo di metadati è piuttosto accurato. Generalmente viene memorizzato dal sistema che contiene i dati e può essere generato automaticamente. La verifica dei formati è in genere abbastanza semplice. Tale verifica è essenzialmente un sottoprodotto della convalida degli intervalli di dati discussi nella sezione seguente. Ma ci sono casi in cui può essere un po 'più difficile.

Abbiamo visto uno di questi scenari più volte di quanto pensiamo di ricordare. A volte capita che quando un sistema viene progettato per la prima volta, il team di sviluppo cerca di mettere un po 'di flessibilità nelle strutture dati per adattarsi ai futuri miglioramenti. A volte aggiungono semplicemente un mucchio di colonne di dati alfanumerici vuote (e larghe) alla fine di ogni record. Queste colonne ausiliarie inizialmente non sono usate per nulla.

Gli analisti sbagliano sempre sul lato di chiedere più dati piuttosto che meno - frequentemente, tutti dati piuttosto che alcuni. Questo fatto, unito alla necessità di ottenere rapidamente i dati, a volte produce un dump di dati . Questo dump generalmente include le colonne ausiliarie. In questi casi, i metadati ti dicono qualcosa come "Fields 1-11" sono formattati come "200 caratteri alfanumerici. "

Tale informazione è praticamente inutile. Per dare un senso a un campo dati come questo, devi praticamente sporcarti le mani. Non c'è molto che puoi fare se non sfogliare una dozzina di dischi e cercare di fare una congettura informata su ciò che è effettivamente sul campo. Nella maggior parte dei casi, questi campi tendono ad essere vuoti. Ma non sempre. La buona notizia è che se il campo viene effettivamente utilizzato, dovresti essere in grado di trovare un programmatore da qualche parte che sa a cosa serve.

Inserimento a macchina dei dati

Uno dei passaggi più critici nell'esecuzione di un'analisi statistica è assicurarsi che i dati siano ciò che pretende di essere. Le procedure statistiche invariabilmente si bloccano se non si forniscono loro informazioni valide sui formati dei dati. Ma queste procedure sono in gran parte cieche ai problemi con la validità dei dati.

Capire come un campo dati è formattato non è abbastanza. Prima di trasformare un set di dati in una procedura statistica, è necessario capire quale sia effettivamente il dato in ciascuno dei campi che si stanno utilizzando.

La maggior parte dei dati rientra in una delle quattro categorie: nominale, ordinale, intervallo e rapporto.Il tipo di dati determina quale tipo di statistiche e procedure statistiche possono essere applicate a particolari campi di dati. Ad esempio, non puoi prendere una media di un campo come "Cognome".

La confusione dei tipi di dati con i formati di dati è facile (e fin troppo comune). Sapere se un campo dati è un carattere, intero o continuo non ti dice il tipo di dati.

I campi carattere vengono talvolta utilizzati come segnaposto per i dati che potrebbero essere catturati nelle versioni future di un sistema. Non c'è nulla che impedisca l'utilizzo di questo campo per acquisire dati monetari o altri dati numerici.

L'errore di tipo di dati più comune consiste nell'assumere che un campo numerico, in particolare un campo con valore intero, contenga effettivamente i dati numerici ordinali . È estremamente comune per le aziende utilizzare codici numerici ( nominali dati) per rappresentare prodotti, regioni, negozi e varie altre entità.

I codici di volo delle compagnie aeree sono un esempio. Le regioni del censimento sono un'altra. Anche i numeri di carta di credito e di previdenza sociale sono in genere memorizzati come numeri interi. Ma tutte queste entità sono solo identificatori. Sono variabili nominali . Il numero di carta di credito medio nel portafoglio di una banca è una statistica priva di significato.