Cos'è Hadoop? - dummies - Finanza personale 2025

Video: Ecosistema Hadoop 2025

Hadoop è uno strumento di elaborazione dei dati open source sviluppato da Apache Software Foundation. Hadoop è attualmente il programma go-to per gestire enormi volumi e varietà di dati perché è stato progettato per rendere il computing su larga scala più accessibile e flessibile. Con l'arrivo di Hadoop, l'elaborazione dei dati di massa è stata introdotta a un numero significativamente maggiore di persone e di più organizzazioni.

Hadoop può offrirti un'ottima soluzione per gestire, elaborare e raggruppare flussi di massa di dati strutturati, semi-strutturati e non strutturati. Configurando e implementando Hadoop, si ottiene un modo relativamente economico di iniziare a utilizzare e trarre informazioni da tutti i dati dell'organizzazione, invece di continuare a fare affidamento esclusivamente su quel set di dati transazionali che si trovano in un vecchio data warehouse.

Hadoop è uno dei programmi più popolari disponibili per i requisiti di elaborazione su larga scala. Hadoop fornisce uno strato map-and-reduction in grado di gestire i requisiti di elaborazione dei dati della maggior parte dei progetti Big Data.

A volte i dati diventano troppo grandi e veloci da gestire persino con Hadoop. In questi casi, le organizzazioni si rivolgono a distribuzioni MapReduce alternative e più personalizzate.

Hadoop utilizza cluster di hardware di base per la memorizzazione dei dati. L'hardware in ciascun cluster è connesso e questo hardware è composto da commodity server - server generici a basso costo ea basso rendimento che offrono potenti capacità di calcolo quando vengono eseguiti in parallelo in un cluster condiviso. Questi server commodity sono anche chiamati nodi . L'elaborazione con commodity riduce drasticamente i costi legati alla gestione e all'archiviazione di big data.

Hadoop comprende i seguenti due componenti:

Un framework di elaborazione distribuito: Hadoop utilizza Hadoop MapReduce come framework di elaborazione distribuito. Ancora una volta, un framework di elaborazione distribuito è un potente framework in cui le attività di elaborazione vengono distribuite tra i cluster di nodi in modo che i grandi volumi di dati possano essere elaborati molto rapidamente nell'intero sistema.
Un file system distribuito: Hadoop utilizza il file system distribuito Hadoop (HDFS) come file system distribuito.

I carichi di lavoro delle applicazioni eseguite su Hadoop sono suddivisi tra i nodi del cluster Hadoop, quindi l'output viene archiviato su HDFS. Il cluster Hadoop può essere composto da migliaia di nodi. Per mantenere bassi i costi dei processi di input / output (I / O), i lavori Hadoop MapReduce vengono eseguiti il più vicino possibile ai dati.

Ciò significa che i processori di riduzione delle attività sono posizionati il più vicino possibile ai dati delle attività della mappa in uscita che devono essere elaborati. Questo design facilita la condivisione di requisiti computazionali nell'elaborazione di big data.

Hadoop supporta anche l'organizzazione gerarchica. Alcuni dei suoi nodi sono classificati come nodi principali e altri sono classificati come schiavi. Il servizio principale, noto come JobTracker , è progettato per controllare diversi servizi slave. I servizi slave (chiamati anche TaskTrackers ) sono distribuiti uno per ogni nodo. JobTracker controlla TaskTracker e assegna loro compiti Hadoop MapReduce.

In una versione più recente di Hadoop, nota come Hadoop 2, è stato aggiunto un gestore risorse chiamato Hadoop YARN. Per quanto riguarda MapReduce in Hadoop, YARN agisce come un sistema integrato che esegue funzioni di gestione delle risorse e di pianificazione.

Hadoop elabora i dati in batch. Di conseguenza, se stai lavorando con dati in streaming in tempo reale, non sarai in grado di utilizzare Hadoop per gestire i tuoi problemi relativi ai Big Data. Detto questo, è molto utile per risolvere molti altri tipi di problemi relativi ai big data.