Video: Scoperto Un Nuovo Continente Nel Mezzo Dell'Oceano Pacifico 2024
Quando si lavora con statistiche di big data, si identifica la diffusione di un set di dati dal centro con diverse misure di riepilogo: varianza, standard deviazione, quartili, intervallo interquartile (IQR).
La varianza è la deviazione quadratica media tra gli elementi dell'insieme di dati e la media. Per un campione di dati, la varianza è calcolata in questo modo:
dove
-
x i è il valore di un singolo elemento nell'esempio.
-
è la media del campione.
-
n è la dimensione del campione.
La deviazione standard è la radice quadrata della varianza. Per la maggior parte delle applicazioni, la deviazione standard è più comoda da utilizzare rispetto alla varianza come misura di diffusione. Questo perché la varianza viene misurata in unità al quadrato , mentre la deviazione standard viene misurata nelle stesse unità dei dati. Ad esempio, la varianza di un set di dati costituito da prezzi sarebbe misurata in dollari al quadrato, e la deviazione standard sarebbe misurata in dollari. La deviazione standard è la misura più utilizzata della diffusione in un set di dati.
I quartili dividono un set di dati in quattro parti uguali. Il primo quartile (Q 1 ) divide i dati nel 25% più basso delle osservazioni e il più alto 75% (il 25% delle osservazioni è inferiore a Q 1 < e il 75 percento sono superiori a Q 1 ). Il secondo quartile (Q 2 ) divide i dati nel 50% più basso delle osservazioni e il 50% più alto. Il terzo quartile (Q 3 ) divide i dati nel 75% più basso delle osservazioni e il 25% più alto. L'intervallo interquartile (IQR) è uguale alla differenza tra il terzo e il primo quartile:
I quartili di un set di dati sono illustrati al meglio con un grafico a riquadri
. La figura seguente mostra un grafico a riquadri dei ritorni giornalieri a ExxonMobil nel 2013. Grafico a riquadri dei rendimenti giornalieri su azioni ExxonMobil nel 2013.
Il grafico a riquadri mostra diverse statistiche chiave per i ritorni di ExxonMobil: > Il ritorno minimo è mostrato su un grafico come un singolo punto nella parte inferiore del grafico (un grafico a riquadri mostra valori anomali
come punti individuali). Q 1 è mostrato come il fondo della scatola, Q 2 è la linea nera piena al centro della scatola, e Q 3 è la cima di la scatola. Il massimo ritorno è mostrato come un singolo punto nella parte superiore del grafico.