L'origine e il design di Hadoop - manichini

Video: Hadoop Rack Awareness 2025

Quindi cos'è esattamente questa cosa con il nome divertente - Hadoop? Al suo interno, Hadoop è un framework per la memorizzazione di dati su grandi cluster di < Hardware commodity - hardware di tutti i giorni che è conveniente e facilmente disponibile - e che esegue applicazioni contro tali dati. Un cluster è un gruppo di computer interconnessi (noti come nodi ) che può lavorare insieme sullo stesso problema.

L'uso di reti di risorse di calcolo a prezzi accessibili per acquisire informazioni di business è la proposta di valore chiave di Hadoop.

Come per quel nome, Hadoop, non cercare alcun significato importante, è semplicemente il nome che il figlio di Doug Cutting ha dato al suo elefante imbottito (Doug Cutting è, naturalmente, il co-creatore di Hadoop). Il nome è unico e facile da ricordare - caratteristiche che lo hanno reso un'ottima scelta.

Hadoop è costituito da due componenti principali: una struttura di elaborazione distribuita chiamato MapReduce (che ora è supportato da un componente chiamato YARN) e un file system distribuito noto come file system distribuito Hadoop o HDFS.

Un'applicazione in esecuzione su Hadoop ottiene il lavoro diviso tra i nodi (macchine) nel cluster e HDFS memorizza i dati che verranno elaborati. Un cluster Hadoop può estendersi su migliaia di macchine, dove HDFS memorizza i dati, mentre i lavori MapReduce eseguono l'elaborazione vicino ai dati, il che riduce i costi di I / O. MapReduce è estremamente flessibile e consente lo sviluppo di un'ampia varietà di applicazioni.

Come potresti aver ipotizzato, un cluster Hadoop è una forma di cluster di calcolo

, un tipo di cluster che viene utilizzato principalmente per scopi computazionali. In un cluster di calcolo, molti computer ( nodi di calcolo ) possono condividere carichi di lavoro computazionali e trarre vantaggio da una larghezza di banda aggregata molto ampia all'interno del cluster. I cluster Hadoop sono in genere costituiti da pochi

nodi master, che controllano i sistemi di archiviazione e elaborazione in Hadoop e molti nodi slave, che memorizzano tutti i dati del cluster ed è anche dove i dati vengono elaborati.