Limitazioni del campionamento in Hadoop - manichini

Video: Statistica medica - Statistica inferenziale: Teorema del limite centrale 2025

L'analisi statistica è lontana dall'essere un nuovo bambino sul blocco, ed è certamente una vecchia notizia che dipende dall'elaborazione di grandi quantità di dati per ottenere nuove informazioni. Tuttavia, la quantità di dati tradizionalmente elaborati da questi sistemi era compresa nell'intervallo tra 10 e 100 (o centinaia di) gigabyte - in altre parole, non le gamme terabyte o di petabyte viste oggi.

E spesso richiedeva una costosa macchina multi-processing simmetrica (SMP) con la maggiore quantità di memoria possibile per contenere i dati analizzati. Questo perché molti degli algoritmi utilizzati dagli approcci analitici erano piuttosto "intensi di calcolo" e sono stati progettati per essere eseguiti in memoria, in quanto richiedono passaggi multipli e spesso frequenti attraverso i dati.

Di fronte a hardware costosi e un impegno piuttosto elevato in termini di tempo e RAM, la gente ha cercato di rendere il carico di lavoro analitico un po 'più ragionevole analizzando solo un campionamento dei dati. L'idea era di mantenere le montagne su montagne di dati archiviate in modo sicuro nei data warehouse, spostando solo un campionamento statisticamente significativo dei dati dai loro repository a un motore statistico.

Mentre il campionamento è una buona idea in teoria, nella pratica questa è spesso una tattica inaffidabile. Trovare un campionamento statisticamente significativo può essere difficile per set di dati sparsi e / o distorti, che sono abbastanza comuni. Ciò porta a campionamenti scarsamente giudicati, che possono introdurre valori anomali e dati anomali e possono, a loro volta, condizionare i risultati della vostra analisi.