Casa Finanza personale Dati Blocchi nel file system distribuito Hadoop (HDFS) - dummies

Dati Blocchi nel file system distribuito Hadoop (HDFS) - dummies

Video: Hadoop Rack Awareness 2024

Video: Hadoop Rack Awareness 2024
Anonim

Quando si archivia un file in HDFS, il sistema lo suddivide in un insieme di singoli blocchi e memorizza questi blocchi in vari nodi slave nel cluster Hadoop. Questa è una cosa assolutamente normale da fare, poiché tutti i file system rompono i file in blocchi prima di memorizzarli sul disco.

HDFS non ha idea (e non gli interessa) di ciò che è memorizzato all'interno del file, quindi i file non elaborati non vengono suddivisi in base a regole che noi umani intendiamo. Gli esseri umani, per esempio, vorrebbero confini del record - le linee che mostrano dove inizia e finisce un disco - devono essere rispettate.

HDFS è spesso del tutto ignaro del fatto che il record finale in un blocco può essere solo un record parziale, con il resto del suo contenuto deviato al blocco successivo. HDFS vuole solo assicurarsi che i file siano suddivisi in blocchi di dimensioni uguali che corrispondono alla dimensione di blocco predefinita per l'istanza di Hadoop (a meno che non sia stato inserito un valore personalizzato per il file che si sta memorizzando). Nella figura precedente, quella dimensione del blocco è 128 MB.

Non tutti i file che è necessario memorizzare sono un multiplo esatto delle dimensioni del blocco del sistema, quindi il blocco dati finale per un file utilizza solo lo spazio necessario. Nel caso della figura precedente, il blocco finale di dati è 1 MB.

Il concetto di memorizzare un file come una raccolta di blocchi è del tutto coerente con il modo in cui i file system normalmente funzionano. Ma ciò che è diverso su HDFS è la scala. Una tipica dimensione di blocco che si vedrebbe in un file system sotto Linux è 4KB, mentre una dimensione di blocco tipica in Hadoop è 128 MB. Questo valore è configurabile e può essere personalizzato, sia come nuovo predefinito di sistema sia come valore personalizzato per singoli file.

Hadoop è stato progettato per archiviare i dati alla scala dei petabyte, dove sono ridotti al minimo eventuali limiti di ridimensionamento. L'elevata dimensione del blocco è una diretta conseguenza di questa necessità di archiviare dati su vasta scala.

Prima di tutto, ogni blocco di dati memorizzato in HDFS ha i propri metadati e deve essere monitorato da un server centrale in modo che le applicazioni che necessitano di accedere a un file specifico possano essere indirizzate ovunque siano memorizzati tutti i blocchi del file. Se la dimensione del blocco fosse compresa nell'intervallo dei kilobyte, anche i volumi di dati modesti nella scala del terabyte sovraccaricherebbero il server dei metadati con troppi blocchi da tracciare.

In secondo luogo, HDFS è progettato per consentire un throughput elevato in modo che l'elaborazione parallela di questi grandi set di dati avvenga il più rapidamente possibile. La chiave per la scalabilità di Hadoop sul lato dell'elaborazione dei dati è, e sarà sempre, parallelismo - la capacità di elaborare i singoli blocchi di questi file di grandi dimensioni in parallelo.

Per consentire un'elaborazione efficiente, è necessario trovare un equilibrio. Da una parte, la dimensione del blocco deve essere abbastanza grande da giustificare le risorse dedicate a una singola unità di elaborazione dei dati (ad esempio, una mappa o ridurre l'attività). D'altra parte, la dimensione del blocco non può essere così grande che il sistema attende un tempo molto lungo perché un'ultima unità di elaborazione dati finisca il suo lavoro.

Queste due considerazioni dipendono ovviamente dal tipo di lavoro svolto sui blocchi di dati.

Dati Blocchi nel file system distribuito Hadoop (HDFS) - dummies

Scelta dell'editore

Scattare foto digitali con uno zoom ottico - dummy

Scattare foto digitali con uno zoom ottico - dummy

La fotocamera digitale potrebbe avere uno zoom ottico, che è un Obiettivo zoom attuale vecchio stile (al contrario di uno zoom digitale). Per utilizzare lo zoom ottico della fotocamera digitale per scatti ravvicinati, segui questi passaggi di preparazione delle immagini prima di attivare il pulsante o lo switch di zoom:

La reflex digitale e la sensibilità alla luce - dummy

La reflex digitale e la sensibilità alla luce - dummy

La tua reflex digitale ha un'opzione per determinare la sensibilità del sensore della fotocamera è alla luce. Le fotocamere digitali sono le stesse delle fotocamere a pellicola in quanto la sensibilità alla luce è determinata dalla valutazione ISO. Il vantaggio di una fotocamera digitale è che non è necessario cambiare pellicola per modificare le valutazioni ISO. Quando aumenti ...

Scatti grandangolari con obiettivi standard - manichini

Scatti grandangolari con obiettivi standard - manichini

Fotografia grandangolare con un angolo di campo maggiore rispetto alla lunghezza focale normale o teleobiettivo. A volte si percepiscono le foto come molto espansive. Altre volte, a malapena lo si nota. Dipende tutto dal soggetto e da come si inquadra la scena. Questa figura mostra una scena di terreni agricoli che è stata scattata utilizzando un Sony APS-C ...

Scelta dell'editore

Come usare il meta tag DESCRIPTION - dummies

Come usare il meta tag DESCRIPTION - dummies

I meta tag sono tag HTML speciali che puoi utilizzare per trasportare informazioni, che i browser o altri programmi possono quindi leggere. Quando i motori di ricerca di Internet furono creati per la prima volta, i webmaster includevano i meta tag nelle loro pagine per rendere più facile per i motori di ricerca determinare le pagine. I motori di ricerca hanno utilizzato anche questi meta ...

Come scrivere un grande tag Title Web Marketing - dummies

Come scrivere un grande tag Title Web Marketing - dummies

Scrivere un tag title è fondamentale per il successo del web marketing e coinvolge più che mettere le parole chiave prima. I motori di ricerca mostrano il tag parola chiave nella parte superiore di ciascun elemento nelle pagine dei risultati dei motori di ricerca (SERP). Un tag del titolo ben scritto potrebbe aumentare le probabilità che un cliente in ricerca faccia clic sul tuo annuncio. Se ...

In che modo Yahoo! Cerca negli elenchi di Internet e dei ranghi - dummies

In che modo Yahoo! Cerca negli elenchi di Internet e dei ranghi - dummies

Quando le persone effettuano ricerche sul Web utilizzando Yahoo! , ottengono una combinazione di risultati organici e pagati. Se lavori per una società più grande, potresti provare Yahoo! La ricerca inoltra Pro per ottenere un vantaggio rispetto alla concorrenza e puoi persino registrare il tuo sito con Yahoo! Directory. Yahoo! I risultati di ricerca organica ...

Scelta dell'editore

Di Spotify su ShareMyPlaylists. it Funzionalità del sito - dummies

Di Spotify su ShareMyPlaylists. it Funzionalità del sito - dummies

ShareMyPlaylists (o SMP, in breve) è stato uno dei primi siti di condivisione di playlist Spotify e continua a innovare e offrire nuove funzionalità ai visitatori. Il mantra del sito è "Long Live the Mixtape", e qui troverai tantissime creazioni accuratamente compilate da migliaia di utenti. Dopo aver creato una playlist Spotify piena di ...

Spotify Unlimited - dummies

Spotify Unlimited - dummies

Spotify Unlimited è un modo brillante per ascoltare tutta la musica che vuoi senza limiti. È come una persona speciale che ti compra da mangiare e da bere tutta la sera per non doverti preoccupare del conto. È come essere in grado di dormire nel weekend senza preoccuparsi del lavoro o se ...

I generi di Spotify - dummies

I generi di Spotify - dummies

Che si tratti di hard rock, techno, pop, jazz, industrial, indie pop, folk , classico, heavy metal, valzer o qualsiasi altra cosa ti piaccia, Spotify ha il genere o il tipo di musica coperto. Puoi cercare i generi comuni da Spotify. Sebbene Spotify abbia pubblicato un elenco di quasi 1, 000 generi noti, non tutti saranno in grado di offrire ...