Fattori che aumentano la scala dell'analisi statistica in Hadoop - dummies

Video: La prima lezione di Introduzione all'econometria 2025

Il motivo le persone campionano i loro dati prima di eseguire analisi statistiche in Hadoop è che questo tipo di analisi richiede spesso notevoli risorse di calcolo. Non si tratta solo di volumi di dati: ci sono cinque fattori principali che influenzano la scala dell'analisi statistica:

Questo è facile, ma dobbiamo menzionarlo: il volume di dati su cui eseguirai l'analisi determinerà sicuramente la scala dell'analisi.
Il numero di trasformazioni necessarie sul set di dati prima dell'applicazione dei modelli statistici è sicuramente un fattore.
Il numero di correlazioni a coppie da calcolare ha un ruolo.
Il grado di complessità dei calcoli statistici da applicare è un fattore.
Il numero di modelli statistici da applicare al set di dati gioca un ruolo significativo.

Hadoop offre una via d'uscita da questo dilemma fornendo una piattaforma per eseguire calcoli di elaborazione massivamente paralleli sui dati in Hadoop.

In tal modo, è in grado di capovolgere il flusso di dati analitici; piuttosto che spostare i dati dal proprio repository al server di analisi, Hadoop fornisce analisi direttamente ai dati. Più specificamente, HDFS consente di memorizzare le montagne di dati e quindi portare il calcolo (sotto forma di attività MapReduce) ai nodi slave.

La comune sfida posta dal passaggio dai tradizionali sistemi statistici multi-processing simmetrici (SMP) all'architettura Hadoop è la localizzazione dei dati. Sulle piattaforme SMP tradizionali, più processori condividono l'accesso a una singola risorsa di memoria principale.

In Hadoop, HDFS replica partizioni di dati su più nodi e macchine. Inoltre, gli algoritmi statistici progettati per l'elaborazione dei dati in memoria devono ora adattarsi a set di dati che si estendono su più nodi / rack e non possono sperare di adattarsi a un singolo blocco di memoria.