Video: Free Webinar - Big data e gestione del personale: il quadro normativo della workforce analytics 2024
Come per molti aspetti di qualsiasi sistema aziendale, i dati sono una creazione umana - quindi è probabile che abbia dei limiti alla sua usabilità quando si inizia ottenerlo Ecco una panoramica di alcune limitazioni che potresti incontrare:
-
I dati potrebbero essere incompleti. I valori mancanti, anche la mancanza di una sezione o di una parte sostanziale dei dati, potrebbero limitare la sua usabilità.
Ad esempio, i tuoi dati potrebbero riguardare solo una o due condizioni di un set più grande che stai cercando di modellare - come quando un modello costruito per analizzare le performance del mercato azionario ha solo i dati disponibili degli ultimi 5 anni, che distorce entrambi i dati e il modello verso l'assunzione di un mercato toro.
Nel momento in cui il mercato subisce una correzione che porta a un mercato ribassista, il modello non si adatta - semplicemente perché non è stato addestrato e testato con dati che rappresentano un mercato ribassista.
Assicurati di guardare un periodo di tempo che ti dia un'immagine completa delle naturali fluttuazioni dei tuoi dati; i tuoi dati non dovrebbero essere limitati da stagionalità .
-
Se utilizzi i dati dei sondaggi, tieni presente che le persone non sempre forniscono informazioni accurate. Non tutti risponderanno in modo veritiero (diciamo) quante volte esercitano - o quante bevande alcoliche consumano - a settimana. Le persone potrebbero non essere disoneste quanto autocoscienti, ma i dati sono ancora distorti.
-
I dati raccolti da fonti diverse possono variare in termini di qualità e formato. I dati raccolti da fonti così diverse come sondaggi, e-mail, moduli per l'immissione dei dati e il sito Web della società avranno attributi e strutture diversi. I dati provenienti da varie fonti potrebbero non avere molta compatibilità tra i campi di dati. Tali dati richiedono una preprocessazione prima che sia pronto per l'analisi. La barra laterale di accompagnamento fornisce un esempio.
I dati raccolti da più fonti possono presentare differenze nella formattazione, nei record duplicati e nelle incoerenze tra i campi di dati uniti. Aspettatevi di dedicare molto tempo alla pulizia di tali dati e ancora più a convalidarne l'affidabilità.
Per determinare i limiti dei tuoi dati, assicurati di:
-
Verifica tutte le variabili che utilizzerai nel tuo modello.
-
Valuta l'ambito dei dati, soprattutto nel tempo, in modo che il tuo modello possa evitare la trappola della stagionalità.
-
Controlla i valori mancanti, identificali e valuta il loro impatto sull'analisi complessiva.
-
Fai attenzione ai valori estremi (valori anomali) e decidi se includerli nell'analisi.
-
Confermare che il pool di dati di addestramento e test è sufficientemente grande.
-
Assicurarsi che tipo di dati (numeri interi, valori decimali o caratteri e così via) sia corretto e impostare i limiti superiore e inferiore dei valori possibili.
-
Prestare particolare attenzione all'integrazione dei dati quando i dati provengono da più fonti.
Assicurati di comprendere le tue origini dati e il loro impatto sulla qualità complessiva dei tuoi dati.
-
Scegli un set di dati pertinente che sia rappresentativo dell'intera popolazione.
-
Scegli i parametri corretti per la tua analisi.
Anche dopo tutta questa cura e attenzione, non sorprenderti se i tuoi dati necessitano ancora di pre-elaborazione prima di poterli analizzare in modo accurato. La preelaborazione richiede spesso molto tempo e uno sforzo significativo perché deve affrontare diversi problemi relativi ai dati originali, tra cui:
-
Qualsiasi valore mancante dai dati.
-
Eventuali incongruenze e / o errori esistenti nei dati.
-
Eventuali duplicati o valori anomali nei dati.
-
Qualsiasi normalizzazione o altra trasformazione dei dati.
-
Qualsiasi dato derivato necessario per l'analisi.