Casa Finanza personale I tuoi dati sembrano corretti? - dummies

I tuoi dati sembrano corretti? - dummies

Sommario:

Video: Si esto es la vida Dios está loco; por Mª José Cabanillas 2024

Video: Si esto es la vida Dios está loco; por Mª José Cabanillas 2024
Anonim

La maggior parte dei set di dati ha una sorta di metadati, che è essenzialmente una descrizione dei dati nel file. I metadati in genere includono descrizioni dei formati, alcune indicazioni su quali valori sono presenti in ciascun campo dati e cosa significano questi valori.

Quando ti trovi di fronte a un nuovo set di dati, non prendi mai i metadati al valore nominale. La natura stessa dei big data richiede che i sistemi che li generano siano mantenuti operativi il più possibile. Per questo motivo, l'aggiornamento dei metadati per questi sistemi quando vengono implementate le modifiche non è sempre una priorità assoluta. Devi confermare che i dati sono realmente come affermano i metadati.

Controllo delle sorgenti

Per quanto possa sembrare ovvio, è importante che tu abbia fiducia nella provenienza dei tuoi dati. Questo è particolarmente importante quando acquisti i dati. Migliaia di venditori offrono tutti i tipi di dati immaginabili. E non sono tutti uguali credibilità.

Prima di acquistare i dati, cerca di capire esattamente dove e come il venditore lo sta raccogliendo. La misteriosità e la vaghezza sono bandiere rosse.

Non prendere in parola i venditori. Non fare affidamento esclusivamente sui messaggi di soddisfazione dei clienti sul sito Web o sui riferimenti dei clienti forniti dal venditore. Se possibile, prova a rintracciare qualcuno che sta usando o ha usato i dati.

Se i tuoi dati provengono da sistemi interni, è comunque importante valutare le fonti. Sistemi diversi hanno scopi diversi e quindi si concentrano su dati diversi. Possono anche raccogliere dati in momenti diversi.

Ad esempio, non è raro che alcune catene alberghiere prenotino prenotazioni in un sistema separato da quello che utilizzano alla reception quando l'ospite effettua il check-in. È possibile che l'ospite possa ricevere un'offerta scontata tra prenotazione e check-in. Ciò significa che la tariffa della camera nel sistema di prenotazione potrebbe non corrispondere alla tariffa del sistema di front desk. Inoltre, la prenotazione potrebbe essere cancellata e non arrivare mai alla reception!

Ora, supponiamo che tu stia eseguendo un'analisi delle entrate dell'hotel per città. È piuttosto importante sapere che i dati relativi alla tariffa della camera vengono prelevati dal sistema di front desk piuttosto che dal sistema di prenotazione. Ma cosa succede se stai cercando di analizzare quante prenotazioni sono state generate dallo spot del Super Bowl della tua azienda? In questo caso, vuoi vedere i dati dal sistema di prenotazione.

L'esempio dell'hotel illustra che anche i dati intrinsecamente puliti possono essere problematici. Anche se i dati sono accurati e esattamente ciò che pretende di essere, la tempistica può essere un problema.I dati cambiano nel tempo.

Verifica dei formati

Come menzionato in precedenza in questo capitolo, una delle cose che i tuoi metadati ti forniranno è qualche indicazione su come i dati sono formattati. Con formattato, intendiamo il modo in cui ogni particolare elemento di dati appare. "Codice prodotto" è un carattere o un numero? "Data di inizio" è una data o è davvero un timbro datetime?

I tipi di dati sono importanti nell'analisi statistica perché dettano quali statistiche e procedure statistiche possono essere applicate a quali elementi di dati. Se provi a prendere il valore medio di un campo di caratteri come "Nome", riceverai ogni volta un messaggio di errore.

In genere, questo tipo di metadati è piuttosto accurato. Generalmente viene memorizzato dal sistema che contiene i dati e può essere generato automaticamente. La verifica dei formati è in genere abbastanza semplice. Tale verifica è essenzialmente un sottoprodotto della convalida degli intervalli di dati discussi nella sezione seguente. Ma ci sono casi in cui può essere un po 'più difficile.

Abbiamo visto uno di questi scenari più volte di quanto pensiamo di ricordare. A volte capita che quando un sistema viene progettato per la prima volta, il team di sviluppo cerca di mettere un po 'di flessibilità nelle strutture dati per adattarsi ai futuri miglioramenti. A volte aggiungono semplicemente un mucchio di colonne di dati alfanumerici vuote (e larghe) alla fine di ogni record. Queste colonne ausiliarie inizialmente non sono usate per nulla.

Gli analisti sbagliano sempre sul lato di chiedere più dati piuttosto che meno - frequentemente, tutti dati piuttosto che alcuni. Questo fatto, unito alla necessità di ottenere rapidamente i dati, a volte produce un dump di dati . Questo dump generalmente include le colonne ausiliarie. In questi casi, i metadati ti dicono qualcosa come "Fields 1-11" sono formattati come "200 caratteri alfanumerici. "

Tale informazione è praticamente inutile. Per dare un senso a un campo dati come questo, devi praticamente sporcarti le mani. Non c'è molto che puoi fare se non sfogliare una dozzina di dischi e cercare di fare una congettura informata su ciò che è effettivamente sul campo. Nella maggior parte dei casi, questi campi tendono ad essere vuoti. Ma non sempre. La buona notizia è che se il campo viene effettivamente utilizzato, dovresti essere in grado di trovare un programmatore da qualche parte che sa a cosa serve.

Inserimento a macchina dei dati

Uno dei passaggi più critici nell'esecuzione di un'analisi statistica è assicurarsi che i dati siano ciò che pretende di essere. Le procedure statistiche invariabilmente si bloccano se non si forniscono loro informazioni valide sui formati dei dati. Ma queste procedure sono in gran parte cieche ai problemi con la validità dei dati.

Capire come un campo dati è formattato non è abbastanza. Prima di trasformare un set di dati in una procedura statistica, è necessario capire quale sia effettivamente il dato in ciascuno dei campi che si stanno utilizzando.

La maggior parte dei dati rientra in una delle quattro categorie: nominale, ordinale, intervallo e rapporto.Il tipo di dati determina quale tipo di statistiche e procedure statistiche possono essere applicate a particolari campi di dati. Ad esempio, non puoi prendere una media di un campo come "Cognome".

La confusione dei tipi di dati con i formati di dati è facile (e fin troppo comune). Sapere se un campo dati è un carattere, intero o continuo non ti dice il tipo di dati.

I campi carattere vengono talvolta utilizzati come segnaposto per i dati che potrebbero essere catturati nelle versioni future di un sistema. Non c'è nulla che impedisca l'utilizzo di questo campo per acquisire dati monetari o altri dati numerici.

L'errore di tipo di dati più comune consiste nell'assumere che un campo numerico, in particolare un campo con valore intero, contenga effettivamente i dati numerici ordinali . È estremamente comune per le aziende utilizzare codici numerici ( nominali dati) per rappresentare prodotti, regioni, negozi e varie altre entità.

I codici di volo delle compagnie aeree sono un esempio. Le regioni del censimento sono un'altra. Anche i numeri di carta di credito e di previdenza sociale sono in genere memorizzati come numeri interi. Ma tutte queste entità sono solo identificatori. Sono variabili nominali . Il numero di carta di credito medio nel portafoglio di una banca è una statistica priva di significato.

I tuoi dati sembrano corretti? - dummies

Scelta dell'editore

Scattare foto digitali con uno zoom ottico - dummy

Scattare foto digitali con uno zoom ottico - dummy

La fotocamera digitale potrebbe avere uno zoom ottico, che è un Obiettivo zoom attuale vecchio stile (al contrario di uno zoom digitale). Per utilizzare lo zoom ottico della fotocamera digitale per scatti ravvicinati, segui questi passaggi di preparazione delle immagini prima di attivare il pulsante o lo switch di zoom:

La reflex digitale e la sensibilità alla luce - dummy

La reflex digitale e la sensibilità alla luce - dummy

La tua reflex digitale ha un'opzione per determinare la sensibilità del sensore della fotocamera è alla luce. Le fotocamere digitali sono le stesse delle fotocamere a pellicola in quanto la sensibilità alla luce è determinata dalla valutazione ISO. Il vantaggio di una fotocamera digitale è che non è necessario cambiare pellicola per modificare le valutazioni ISO. Quando aumenti ...

Scatti grandangolari con obiettivi standard - manichini

Scatti grandangolari con obiettivi standard - manichini

Fotografia grandangolare con un angolo di campo maggiore rispetto alla lunghezza focale normale o teleobiettivo. A volte si percepiscono le foto come molto espansive. Altre volte, a malapena lo si nota. Dipende tutto dal soggetto e da come si inquadra la scena. Questa figura mostra una scena di terreni agricoli che è stata scattata utilizzando un Sony APS-C ...

Scelta dell'editore

Come usare il meta tag DESCRIPTION - dummies

Come usare il meta tag DESCRIPTION - dummies

I meta tag sono tag HTML speciali che puoi utilizzare per trasportare informazioni, che i browser o altri programmi possono quindi leggere. Quando i motori di ricerca di Internet furono creati per la prima volta, i webmaster includevano i meta tag nelle loro pagine per rendere più facile per i motori di ricerca determinare le pagine. I motori di ricerca hanno utilizzato anche questi meta ...

Come scrivere un grande tag Title Web Marketing - dummies

Come scrivere un grande tag Title Web Marketing - dummies

Scrivere un tag title è fondamentale per il successo del web marketing e coinvolge più che mettere le parole chiave prima. I motori di ricerca mostrano il tag parola chiave nella parte superiore di ciascun elemento nelle pagine dei risultati dei motori di ricerca (SERP). Un tag del titolo ben scritto potrebbe aumentare le probabilità che un cliente in ricerca faccia clic sul tuo annuncio. Se ...

In che modo Yahoo! Cerca negli elenchi di Internet e dei ranghi - dummies

In che modo Yahoo! Cerca negli elenchi di Internet e dei ranghi - dummies

Quando le persone effettuano ricerche sul Web utilizzando Yahoo! , ottengono una combinazione di risultati organici e pagati. Se lavori per una società più grande, potresti provare Yahoo! La ricerca inoltra Pro per ottenere un vantaggio rispetto alla concorrenza e puoi persino registrare il tuo sito con Yahoo! Directory. Yahoo! I risultati di ricerca organica ...

Scelta dell'editore

Di Spotify su ShareMyPlaylists. it Funzionalità del sito - dummies

Di Spotify su ShareMyPlaylists. it Funzionalità del sito - dummies

ShareMyPlaylists (o SMP, in breve) è stato uno dei primi siti di condivisione di playlist Spotify e continua a innovare e offrire nuove funzionalità ai visitatori. Il mantra del sito è "Long Live the Mixtape", e qui troverai tantissime creazioni accuratamente compilate da migliaia di utenti. Dopo aver creato una playlist Spotify piena di ...

Spotify Unlimited - dummies

Spotify Unlimited - dummies

Spotify Unlimited è un modo brillante per ascoltare tutta la musica che vuoi senza limiti. È come una persona speciale che ti compra da mangiare e da bere tutta la sera per non doverti preoccupare del conto. È come essere in grado di dormire nel weekend senza preoccuparsi del lavoro o se ...

I generi di Spotify - dummies

I generi di Spotify - dummies

Che si tratti di hard rock, techno, pop, jazz, industrial, indie pop, folk , classico, heavy metal, valzer o qualsiasi altra cosa ti piaccia, Spotify ha il genere o il tipo di musica coperto. Puoi cercare i generi comuni da Spotify. Sebbene Spotify abbia pubblicato un elenco di quasi 1, 000 generi noti, non tutti saranno in grado di offrire ...