Gestione dei Big Data con Hadoop: HDFS e MapReduce - dummies

Video: Sqoop Import and Export data from RDMBS and HDFS 2025

Parte di Big Data For Dummies Cheat Sheet

Hadoop, un framework software open source, utilizza HDFS (il file system distribuito Hadoop) e MapReduce per analizzare i big data sui cluster di prodotti hardware, cioè in un ambiente di calcolo distribuito.

Il file system distribuito Hadoop (HDFS) è stato sviluppato per consentire alle aziende di gestire più facilmente enormi volumi di dati in modo semplice e pragmatico. Hadoop consente di scomporre i grandi problemi in elementi più piccoli, in modo che l'analisi possa essere eseguita rapidamente ed economicamente. HDFS è un approccio versatile, resiliente e in cluster alla gestione dei file in un ambiente big data.

HDFS non è la destinazione finale per i file. Piuttosto si tratta di un "servizio" di dati che offre un insieme unico di funzionalità necessarie quando i volumi di dati e la velocità sono elevati.

MapReduce è un framework software che consente agli sviluppatori di scrivere programmi in grado di elaborare enormi quantità di dati non strutturati in parallelo su un gruppo distribuito di processori. MapReduce è stato progettato da Google come un modo per eseguire in modo efficiente una serie di funzioni rispetto a una grande quantità di dati in modalità batch.

Il componente "mappa" distribuisce il problema o le attività di programmazione su un numero elevato di sistemi e gestisce il posizionamento delle attività in un modo che bilancia il carico e gestisce il ripristino da errori. Una volta completato il calcolo distribuito, un'altra funzione chiamata "reduce" aggrega tutti gli elementi di nuovo insieme per fornire un risultato. Un esempio di utilizzo di MapReduce potrebbe essere determinare il numero di pagine di un libro scritte in ciascuna delle 50 lingue diverse.