Casa Finanza personale Hadoop Distributed File System (HDFS) per progetti Big Data - dummies

Hadoop Distributed File System (HDFS) per progetti Big Data - dummies

Sommario:

Video: Apache Spark Tutorial | Spark Tutorial for Beginners | Apache Spark Training | Edureka 2025

Video: Apache Spark Tutorial | Spark Tutorial for Beginners | Apache Spark Training | Edureka 2025
Anonim

Il file system distribuito Hadoop è un approccio versatile, flessibile e in cluster per la gestione dei file in un ambiente di big data. HDFS non è la destinazione finale per i file. Piuttosto, si tratta di un servizio dati che offre un set unico di funzionalità necessarie quando i volumi e la velocità dei dati sono elevati. Poiché i dati vengono scritti una volta e quindi letti molte volte in seguito, anziché le costanti scritture di lettura di altri file system, HDFS è una scelta eccellente per supportare l'analisi dei big data.

Big data NameNodes

HDFS funziona spezzando file di grandi dimensioni in pezzi più piccoli chiamati blocchi . I blocchi sono memorizzati su nodi dati ed è responsabilità del NameNode sapere quali blocchi su quali nodi dati compongono il file completo. Il NameNode funge anche da "agente del traffico", gestendo tutti gli accessi ai file.

La raccolta completa di tutti i file nel cluster viene talvolta definita spazio dei nomi del file system . È il lavoro del NameNode per gestire questo spazio dei nomi.

Anche se esiste una forte relazione tra il NameNode e i nodi di dati, operano in modo "debolmente accoppiato". Ciò consente agli elementi del cluster di comportarsi in modo dinamico, aggiungendo server all'aumentare della domanda. In una configurazione tipica, si trova un NameNode e possibilmente un nodo dati in esecuzione su un server fisico nel rack. Altri server eseguono solo i nodi dati.

I nodi dati comunicano tra loro in modo che possano cooperare durante le normali operazioni del file system. Ciò è necessario perché è probabile che i blocchi per un file vengano archiviati su più nodi di dati. Poiché il NameNode è così critico per il corretto funzionamento del cluster, può e deve essere replicato per evitare un errore di un singolo punto.

Nodi di dati di grandi dimensioni

I nodi di dati non sono intelligenti, ma sono resilienti. All'interno del cluster HDFS, i blocchi di dati vengono replicati su più nodi di dati e l'accesso è gestito dal NameNode. Il meccanismo di replica è progettato per l'efficienza ottimale quando tutti i nodi del cluster vengono raccolti in un rack. In effetti, il NameNode utilizza un "ID rack" per tenere traccia dei nodi di dati nel cluster.

I nodi dati forniscono anche messaggi "heartbeat" per rilevare e garantire la connettività tra NameNode e i nodi dati. Quando un heartbeat non è più presente, il NameNode cancella il nodo dati dal cluster e continua a funzionare come se nulla fosse accaduto. Quando l'heartbeat ritorna, viene aggiunto al cluster in modo trasparente rispetto all'utente o all'applicazione.

L'integrità dei dati è una caratteristica chiave. HDFS supporta una serie di funzionalità progettate per garantire l'integrità dei dati. Come ci si potrebbe aspettare, quando i file vengono suddivisi in blocchi e quindi distribuiti su server diversi nel cluster, qualsiasi variazione nell'operazione di qualsiasi elemento potrebbe influire sull'integrità dei dati. HDFS utilizza i registri delle transazioni e la convalida del checksum per garantire l'integrità all'interno del cluster.

I registri delle transazioni tengono traccia di ogni operazione e sono efficaci nel controllo o nella ricostruzione del file system in caso di problemi.

Le convalide dei checksum vengono utilizzate per garantire il contenuto dei file in HDFS. Quando un client richiede un file, può verificare il contenuto esaminando il suo checksum. Se il checksum corrisponde, l'operazione del file può continuare. In caso contrario, viene segnalato un errore. I file di checksum sono nascosti per evitare la manomissione.

I nodi dati utilizzano i dischi locali nel server commodity per la persistenza. Tutti i blocchi di dati sono memorizzati localmente, principalmente per motivi di prestazioni. I blocchi di dati vengono replicati su più nodi di dati, quindi l'errore di un server potrebbe non danneggiare necessariamente un file. Il grado di replica, il numero di nodi di dati e lo spazio dei nomi HDFS vengono stabiliti quando il cluster è implementato.

HDFS per i big data

HDFS risolve i problemi dei big data rompendo i file in una raccolta correlata di blocchi più piccoli. Questi blocchi sono distribuiti tra i nodi dati nel cluster HDFS e sono gestiti dal NameNode. Le dimensioni dei blocchi sono configurabili e di solito sono 128 megabyte (MB) o 256 MB, il che significa che un file da 1 GB consuma otto blocchi da 128 MB per le sue esigenze di archiviazione di base.

HDFS è resiliente, quindi questi blocchi vengono replicati in tutto il cluster in caso di errore del server. In che modo HDFS tiene traccia di tutti questi pezzi? La risposta breve è il file system metadati .

I metadati sono definiti come "dati sui dati. "Pensa ai metadati HDFS come modello per fornire una descrizione dettagliata di quanto segue:

  • Quando il file è stato creato, consultato, modificato, cancellato e così via

  • Dove i blocchi del file sono memorizzati nel cluster < Chi ha i diritti per visualizzare o modificare il file

  • Quanti file sono memorizzati nel cluster

  • Quanti nodi dati esistono nel cluster

  • La posizione del log delle transazioni per il cluster

  • HDFS i metadati sono memorizzati nel NameNode e mentre il cluster è in funzione, tutti i metadati vengono caricati nella memoria fisica del server NameNode. Come ci si potrebbe aspettare, maggiore è il cluster, maggiore è il footprint dei metadati.

Che cosa fa esattamente un server di blocco? Controlla il seguente elenco:

Memorizza i blocchi di dati nel file system locale del server. HDFS è disponibile su diversi sistemi operativi e si comporta allo stesso modo su Windows, Mac OS o Linux.

  • Memorizza i metadati di un blocco nel file system locale in base al modello di metadati nel NameNode.

  • Esegue convalide periodiche dei checksum dei file.

  • Invia report regolari al NameNode su quali blocchi sono disponibili per le operazioni sui file.

  • Fornisce metadati e dati ai clienti su richiesta. HDFS supporta l'accesso diretto ai nodi dati dai programmi applicativi client.

  • inoltra i dati ad altri nodi di dati in base a un modello di "pipelining".

  • Il posizionamento dei blocchi sui nodi dati è fondamentale per la replica dei dati e il supporto per il pipelining dei dati. HDFS mantiene una replica di ogni blocco localmente. HDFS è serio per la replica e la resilienza dei dati.

Hadoop Distributed File System (HDFS) per progetti Big Data - dummies

Scelta dell'editore

Il programma in cinque passaggi per superare la menopausa - dummy

Il programma in cinque passaggi per superare la menopausa - dummy

Alcune donne capiscono a malapena che la menopausa è loro. Altre donne, tuttavia, sono meno fortunate. Se sei uno di questi, prendi in mano questi pochi modi per rendere la tua esperienza più facile per te stesso: capisci e accetta che stai attraversando una transizione naturale, proprio come la pubertà. Fortunatamente, sei più vecchio e più saggio di te ...

Menopausa For Dummies Cheat Sheet (edizione UK) - dummies

Menopausa For Dummies Cheat Sheet (edizione UK) - dummies

Menopausa segna la fine della fase riproduttiva della tua vita e così è un momento significativo di cambiamento fisico, emotivo e mentale per molte donne ma, per generazioni, donne di tutte le età hanno vagato alla cieca in menopausa senza sapere cosa aspettarsi. Qui puoi scoprire alcune delle nozioni di base.

Perimenopausa: facilitare la transizione dalle mestruazioni alla menopausa - manichini

Perimenopausa: facilitare la transizione dalle mestruazioni alla menopausa - manichini

Mestruazioni e menopausa sono ben noti biologici pietre miliari nella vita di una femmina. Contrariamente al pensiero popolare, la menopausa non è il periodo di mesi o anni in cui una donna sta "attraversando il cambiamento". "Questo lasso di tempo è chiamato perimenopausa. La menopausa è una data effettiva nel tempo. In particolare, è il 12 ° anniversario dell'ultimo ciclo mestruale di una donna. ...

Scelta dell'editore

Come utilizzare il filtro automatico personalizzato su una tabella di Excel - dummies

Come utilizzare il filtro automatico personalizzato su una tabella di Excel - dummies

È Possibile creare un filtro automatico personalizzato . Per fare ciò, seleziona il comando Filtro testo dal menu della tabella e scegli una delle opzioni di filtro del testo. Indipendentemente dall'opzione di filtro del testo selezionata, Excel visualizza la finestra di dialogo Filtro automatico personalizzato. Questa finestra di dialogo consente di specificare con estrema precisione quali record si desidera ...

Come utilizzare la funzione DPRODUCT in un database Excel - dummies

Come utilizzare la funzione DPRODUCT in un database Excel - dummies

DPRODUCT moltiplica i valori che corrispondono al criterio in un database Excel. Questo è potente ma anche in grado di produrre risultati che non sono l'intenzione. In altre parole, è una cosa da aggiungere e ricavare una somma. Questa è un'operazione comune su un set di dati. Osservando la seguente figura, è possibile ...

Come utilizzare la funzione DPRODUCT in Excel - dummy

Come utilizzare la funzione DPRODUCT in Excel - dummy

La funzione DPRODUCT in Excel è strana. La funzione DPRODUCT moltiplica i valori nei campi da un elenco di database in base ai criteri di selezione. Perché vorresti farlo? Chissà. La funzione utilizza la sintassi = DPRODUCT (database, campo, criteri) in cui il database è un riferimento all'intervallo alla tabella di Excel che contiene il valore desiderato ...

Scelta dell'editore

Programmazione con Java: riutilizzo dei nomi nella tua app per Android - dummies

Programmazione con Java: riutilizzo dei nomi nella tua app per Android - dummies

Ci sono un paio di cose a cui vuoi pensare quando riutilizzi i nomi nella tua app per Android. È possibile dichiarare due variabili Java - bag1 e bag2 - per fare riferimento a due diversi oggetti BagOfCheese. Va bene. Ma a volte, avere solo una variabile e riutilizzarla per il secondo oggetto funziona altrettanto bene, ...

Java: Mettere a frutto l'uso della classe - dummies

Java: Mettere a frutto l'uso della classe - dummies

La classe Employee nell'elenco non ha alcun metodo principale , quindi non c'è un punto di partenza per l'esecuzione del codice. Per risolvere questo problema, il programmatore scrive un programma separato con un metodo principale e utilizza tale programma per creare istanze Employee. Questo elenco di codici mostra una classe con un metodo principale - uno che inserisce il ...

Classi wrapper java - dummies

Classi wrapper java - dummies

La differenza tra tipi primitivi e tipi di riferimento è una delle funzionalità più controverse di Java e gli sviluppatori si lamentano spesso sulle differenze tra valori primitivi e valori di riferimento. Ogni tipo primitivo viene cotto nella lingua. Java ha otto tipi primitivi. Ogni tipo di riferimento è una classe o un'interfaccia. È possibile definire il proprio ...