Casa Finanza personale Tiene traccia dei blocchi dati con NameNode in HDFS - dummies

Tiene traccia dei blocchi dati con NameNode in HDFS - dummies

Sommario:

Video: Hadoop Rack Awareness 2024

Video: Hadoop Rack Awareness 2024
Anonim

Il NameNode funge da rubrica per Hadoop Distributed File System (HDFS) perché non conosce solo quali blocchi costituiscono singoli file ma anche dove sono memorizzati ciascuno di questi blocchi e le loro repliche. Quando un utente memorizza un file in HDFS, il file viene diviso in blocchi di dati e tre copie di questi blocchi di dati vengono archiviate in nodi slave in tutto il cluster Hadoop.

Ci sono molti blocchi di dati da tenere sotto controllo. Come ci si potrebbe aspettare, sapere dove sono sepolti i corpi rende il NameNode un componente estremamente importante in un cluster Hadoop. Se il NameNode non è disponibile, le applicazioni non possono accedere ai dati memorizzati in HDFS.

Se si dà un'occhiata alla figura seguente, è possibile vedere il daemon NameNode in esecuzione su un server nodo principale. Tutte le informazioni di mappatura relative ai blocchi di dati e ai loro file corrispondenti sono memorizzate in un file chiamato.

HDFS è un file system di journaling, il che significa che qualsiasi modifica di dati viene registrata in un giornale di modifica che tiene traccia degli eventi dall'ultimo checkpoint - l'ultima volta in cui il registro di modifica è stato unito. In HDFS, il giornale di modifica viene mantenuto in un file denominato che è memorizzato sul NameNode.

Avvio e funzionamento del NameNode

Per capire come funziona il NameNode, è utile dare un'occhiata a come viene avviato. Poiché lo scopo del NameNode è di informare le applicazioni di quanti blocchi di dati devono elaborare e di tenere traccia della posizione esatta in cui sono archiviati, ha bisogno di tutte le posizioni dei blocchi e dei mapping da block-to-file disponibili in RAM.

Questi sono i passaggi necessari per il NameNode. Per caricare tutte le informazioni necessarie al NameNode dopo l'avvio, si verifica quanto segue:

  1. Il NameNode carica il file in memoria.

  2. Il NameNode carica il file e riproduce le modifiche registrate su giornale per aggiornare i metadati del blocco già in memoria.

  3. I daemon DataNode inviano i report del blocco NameNode.

    Per ogni nodo slave, è presente un report a blocchi che elenca tutti i blocchi di dati memorizzati e descrive lo stato di salute di ognuno.

Una volta completato il processo di avvio, il NameNode ha un'immagine completa di tutti i dati memorizzati in HDFS ed è pronto a ricevere richieste di applicazioni dai client Hadoop.

Poiché i file di dati vengono aggiunti e rimossi in base alle richieste dei client, le modifiche vengono scritte sui volumi del disco del nodo slave, gli aggiornamenti del journal vengono apportati al file e le modifiche si riflettono nelle posizioni dei blocchi e nei metadati memorizzati nella memoria del NameNode.

Durante tutta la vita del cluster, i daemon DataNode inviano gli heartbeat NameNode (un segnale rapido) ogni tre secondi, a indicare che sono attivi.(Questo valore predefinito è configurabile.) Ogni sei ore (di nuovo, un valore predefinito configurabile), i DataNodes inviano al NameNode un report a blocchi che descrive quali sono i blocchi di file sui loro nodi. In questo modo, il NameNode ha sempre una vista corrente delle risorse disponibili nel cluster.

Scrittura dei dati

Per creare nuovi file in HDFS, è necessario eseguire la seguente procedura:

  1. Il client invia una richiesta al NameNode per creare un nuovo file.

    Il NameNode determina quanti blocchi sono necessari e al client viene concesso un lease per la creazione di questi nuovi blocchi di file nel cluster. Come parte di questo contratto, il cliente ha un limite di tempo per completare l'attività di creazione. (Questo limite di tempo assicura che lo spazio di archiviazione non venga occupato da applicazioni client non riuscite.)

  2. Il client scrive quindi le prime copie dei blocchi di file sui nodi slave utilizzando il lease assegnato dal NameNode.

    Il NameNode gestisce le richieste di scrittura e determina dove devono essere scritti i blocchi di file e le loro repliche, bilanciando disponibilità e prestazioni. La prima copia di un blocco di file viene scritta in un rack e la seconda e la terza copia vengono scritte su un rack diverso rispetto alla prima copia, ma in diversi nodi slave nello stesso rack. Questa disposizione riduce al minimo il traffico di rete assicurando che nessun blocco di dati si trovi nello stesso punto di errore.

  3. Poiché ogni blocco viene scritto su HDFS, un processo speciale scrive le rimanenti repliche sugli altri nodi slave identificati dal NameNode.

  4. Dopo che i daemon DataNode confermano che le repliche dei blocchi di file sono state create, l'applicazione client chiude il file e notifica il NameNode, che quindi chiude il lease aperto.

Lettura dei dati

Per leggere i file da HDFS, dovrebbe essere eseguita la seguente procedura:

  1. Il client invia una richiesta al NameNode per un file.

    Il NameNode determina quali blocchi sono coinvolti e sceglie, in base alla vicinanza generale dei blocchi tra loro e al client, il percorso di accesso più efficiente.

  2. Il client accede quindi ai blocchi utilizzando gli indirizzi forniti dal NameNode.

Bilanciamento dei dati nel cluster Hadoop

Nel tempo, con combinazioni di pattern di ingestione dei dati non uniformi (in cui alcuni nodi slave potrebbero avere più dati scritti) o errori del nodo, è probabile che i dati vengano distribuiti in modo non uniforme tra i rack e i nodi slave nel tuo cluster Hadoop.

Questa distribuzione non uniforme può avere un impatto negativo sulle prestazioni perché la richiesta sui singoli nodi slave diventa sbilanciata; i nodi con pochi dati non saranno completamente utilizzati; e i nodi con molti blocchi saranno abusati. ( Nota: L'uso eccessivo e sottoutilizzato si basano sull'attività del disco, non su CPU o RAM.)

HDFS include un'utilità di bilanciamento per ridistribuire i blocchi da nodi slave sovrautilizzati a quelli sottoutilizzati mantenendo la politica di inserimento blocchi su diversi nodi e rack slave. Gli amministratori di Hadoop dovrebbero controllare regolarmente l'integrità di HDFS e, se i dati vengono distribuiti in modo non uniforme, dovrebbero richiamare l'utilità di bilanciamento.

Design del server master NameNode

A causa della sua natura mission-critical, il server master che esegue il daemon NameNode richiede requisiti hardware notevolmente diversi rispetto a quelli per un nodo slave. Più significativamente, i componenti di livello aziendale devono essere utilizzati per ridurre al minimo la probabilità di un'interruzione. Inoltre, avrai bisogno di abbastanza RAM per caricare in memoria tutti i metadati e i dati sulla posizione di tutti i blocchi di dati archiviati in HDFS.

Tiene traccia dei blocchi dati con NameNode in HDFS - dummies

Scelta dell'editore

Scattare foto digitali con uno zoom ottico - dummy

Scattare foto digitali con uno zoom ottico - dummy

La fotocamera digitale potrebbe avere uno zoom ottico, che è un Obiettivo zoom attuale vecchio stile (al contrario di uno zoom digitale). Per utilizzare lo zoom ottico della fotocamera digitale per scatti ravvicinati, segui questi passaggi di preparazione delle immagini prima di attivare il pulsante o lo switch di zoom:

La reflex digitale e la sensibilità alla luce - dummy

La reflex digitale e la sensibilità alla luce - dummy

La tua reflex digitale ha un'opzione per determinare la sensibilità del sensore della fotocamera è alla luce. Le fotocamere digitali sono le stesse delle fotocamere a pellicola in quanto la sensibilità alla luce è determinata dalla valutazione ISO. Il vantaggio di una fotocamera digitale è che non è necessario cambiare pellicola per modificare le valutazioni ISO. Quando aumenti ...

Scatti grandangolari con obiettivi standard - manichini

Scatti grandangolari con obiettivi standard - manichini

Fotografia grandangolare con un angolo di campo maggiore rispetto alla lunghezza focale normale o teleobiettivo. A volte si percepiscono le foto come molto espansive. Altre volte, a malapena lo si nota. Dipende tutto dal soggetto e da come si inquadra la scena. Questa figura mostra una scena di terreni agricoli che è stata scattata utilizzando un Sony APS-C ...

Scelta dell'editore

Come usare il meta tag DESCRIPTION - dummies

Come usare il meta tag DESCRIPTION - dummies

I meta tag sono tag HTML speciali che puoi utilizzare per trasportare informazioni, che i browser o altri programmi possono quindi leggere. Quando i motori di ricerca di Internet furono creati per la prima volta, i webmaster includevano i meta tag nelle loro pagine per rendere più facile per i motori di ricerca determinare le pagine. I motori di ricerca hanno utilizzato anche questi meta ...

Come scrivere un grande tag Title Web Marketing - dummies

Come scrivere un grande tag Title Web Marketing - dummies

Scrivere un tag title è fondamentale per il successo del web marketing e coinvolge più che mettere le parole chiave prima. I motori di ricerca mostrano il tag parola chiave nella parte superiore di ciascun elemento nelle pagine dei risultati dei motori di ricerca (SERP). Un tag del titolo ben scritto potrebbe aumentare le probabilità che un cliente in ricerca faccia clic sul tuo annuncio. Se ...

In che modo Yahoo! Cerca negli elenchi di Internet e dei ranghi - dummies

In che modo Yahoo! Cerca negli elenchi di Internet e dei ranghi - dummies

Quando le persone effettuano ricerche sul Web utilizzando Yahoo! , ottengono una combinazione di risultati organici e pagati. Se lavori per una società più grande, potresti provare Yahoo! La ricerca inoltra Pro per ottenere un vantaggio rispetto alla concorrenza e puoi persino registrare il tuo sito con Yahoo! Directory. Yahoo! I risultati di ricerca organica ...

Scelta dell'editore

Di Spotify su ShareMyPlaylists. it Funzionalità del sito - dummies

Di Spotify su ShareMyPlaylists. it Funzionalità del sito - dummies

ShareMyPlaylists (o SMP, in breve) è stato uno dei primi siti di condivisione di playlist Spotify e continua a innovare e offrire nuove funzionalità ai visitatori. Il mantra del sito è "Long Live the Mixtape", e qui troverai tantissime creazioni accuratamente compilate da migliaia di utenti. Dopo aver creato una playlist Spotify piena di ...

Spotify Unlimited - dummies

Spotify Unlimited - dummies

Spotify Unlimited è un modo brillante per ascoltare tutta la musica che vuoi senza limiti. È come una persona speciale che ti compra da mangiare e da bere tutta la sera per non doverti preoccupare del conto. È come essere in grado di dormire nel weekend senza preoccuparsi del lavoro o se ...

I generi di Spotify - dummies

I generi di Spotify - dummies

Che si tratti di hard rock, techno, pop, jazz, industrial, indie pop, folk , classico, heavy metal, valzer o qualsiasi altra cosa ti piaccia, Spotify ha il genere o il tipo di musica coperto. Puoi cercare i generi comuni da Spotify. Sebbene Spotify abbia pubblicato un elenco di quasi 1, 000 generi noti, non tutti saranno in grado di offrire ...