Casa Finanza personale Dati Blocchi nel file system distribuito Hadoop (HDFS) - dummies

Dati Blocchi nel file system distribuito Hadoop (HDFS) - dummies

Video: Hadoop Rack Awareness 2025

Video: Hadoop Rack Awareness 2025
Anonim

Quando si archivia un file in HDFS, il sistema lo suddivide in un insieme di singoli blocchi e memorizza questi blocchi in vari nodi slave nel cluster Hadoop. Questa è una cosa assolutamente normale da fare, poiché tutti i file system rompono i file in blocchi prima di memorizzarli sul disco.

HDFS non ha idea (e non gli interessa) di ciò che è memorizzato all'interno del file, quindi i file non elaborati non vengono suddivisi in base a regole che noi umani intendiamo. Gli esseri umani, per esempio, vorrebbero confini del record - le linee che mostrano dove inizia e finisce un disco - devono essere rispettate.

HDFS è spesso del tutto ignaro del fatto che il record finale in un blocco può essere solo un record parziale, con il resto del suo contenuto deviato al blocco successivo. HDFS vuole solo assicurarsi che i file siano suddivisi in blocchi di dimensioni uguali che corrispondono alla dimensione di blocco predefinita per l'istanza di Hadoop (a meno che non sia stato inserito un valore personalizzato per il file che si sta memorizzando). Nella figura precedente, quella dimensione del blocco è 128 MB.

Non tutti i file che è necessario memorizzare sono un multiplo esatto delle dimensioni del blocco del sistema, quindi il blocco dati finale per un file utilizza solo lo spazio necessario. Nel caso della figura precedente, il blocco finale di dati è 1 MB.

Il concetto di memorizzare un file come una raccolta di blocchi è del tutto coerente con il modo in cui i file system normalmente funzionano. Ma ciò che è diverso su HDFS è la scala. Una tipica dimensione di blocco che si vedrebbe in un file system sotto Linux è 4KB, mentre una dimensione di blocco tipica in Hadoop è 128 MB. Questo valore è configurabile e può essere personalizzato, sia come nuovo predefinito di sistema sia come valore personalizzato per singoli file.

Hadoop è stato progettato per archiviare i dati alla scala dei petabyte, dove sono ridotti al minimo eventuali limiti di ridimensionamento. L'elevata dimensione del blocco è una diretta conseguenza di questa necessità di archiviare dati su vasta scala.

Prima di tutto, ogni blocco di dati memorizzato in HDFS ha i propri metadati e deve essere monitorato da un server centrale in modo che le applicazioni che necessitano di accedere a un file specifico possano essere indirizzate ovunque siano memorizzati tutti i blocchi del file. Se la dimensione del blocco fosse compresa nell'intervallo dei kilobyte, anche i volumi di dati modesti nella scala del terabyte sovraccaricherebbero il server dei metadati con troppi blocchi da tracciare.

In secondo luogo, HDFS è progettato per consentire un throughput elevato in modo che l'elaborazione parallela di questi grandi set di dati avvenga il più rapidamente possibile. La chiave per la scalabilità di Hadoop sul lato dell'elaborazione dei dati è, e sarà sempre, parallelismo - la capacità di elaborare i singoli blocchi di questi file di grandi dimensioni in parallelo.

Per consentire un'elaborazione efficiente, è necessario trovare un equilibrio. Da una parte, la dimensione del blocco deve essere abbastanza grande da giustificare le risorse dedicate a una singola unità di elaborazione dei dati (ad esempio, una mappa o ridurre l'attività). D'altra parte, la dimensione del blocco non può essere così grande che il sistema attende un tempo molto lungo perché un'ultima unità di elaborazione dati finisca il suo lavoro.

Queste due considerazioni dipendono ovviamente dal tipo di lavoro svolto sui blocchi di dati.

Dati Blocchi nel file system distribuito Hadoop (HDFS) - dummies

Scelta dell'editore

Come salvare le immagini in un file immagine in R - dummies

Come salvare le immagini in un file immagine in R - dummies

Se vuoi pubblicare le tue risultati, è necessario salvare la trama in un file in R e quindi importare questo file grafico in un altro documento. Tuttavia, per la maggior parte del tempo, potresti semplicemente voler utilizzare la grafica R in modo interattivo per esplorare i tuoi dati. Per salvare un grafico su un'immagine ...

Come cercare più parole in R - dummies

Come cercare più parole in R - dummies

Quando si lavora con il testo in R, potrebbe essere necessario per trovare parole o motivi all'interno del testo. Immagina di avere una lista degli stati negli Stati Uniti e vuoi scoprire quali nomi di stato consistono in due parole. Per trovare sottostringhe, è possibile utilizzare la funzione grep (), che prende due argomenti essenziali: ...

Come cercare le singole parole in R - dummies

Come cercare le singole parole in R - dummies

Quando lavori con il testo, spesso tu può risolvere i problemi se riesci a trovare parole o motivi all'interno del testo. R rende questo facile da fare. Immagina di avere una lista degli stati negli Stati Uniti e vuoi scoprire quale di questi stati contiene la parola Nuovo. Per indagare su questo ...

Scelta dell'editore

Come calcolare le detrazioni e i crediti di imposta sugli investimenti immobiliari per l'esame di licenza immobiliare

Come calcolare le detrazioni e i crediti di imposta sugli investimenti immobiliari per l'esame di licenza immobiliare

Una detrazione fiscale è qualcosa che puoi vedere nell'esame di licenza immobiliare che puoi detrarre dal reddito di un investimento immobiliare per ridurre le tasse. Un credito d'imposta è qualcosa che puoi detrarre dalle tasse dovute. I governi federali e talvolta statali creano programmi che consentono crediti d'imposta o detrazioni per ...

Fattori economici che influenzano il valore per l'esame di licenza immobiliare - dummies

Fattori economici che influenzano il valore per l'esame di licenza immobiliare - dummies

Valore doesn ' semplicemente succede; le persone devono crearlo. La maggior parte di queste azioni personali che saranno trattate durante l'esame di licenza immobiliare, di solito chiamate influenze economiche, non sono altro che normali comportamenti umani. Il test pone due tipi di domande su questi principi o fattori economici. Vedrai domande sulle definizioni e ...

Come calcolare le aliquote fiscali per l'esame di licenza immobiliare - dummy

Come calcolare le aliquote fiscali per l'esame di licenza immobiliare - dummy

Pur calcolando la tassa le tariffe non sono qualcosa che devi sapere esattamente come fare per l'esame di licenza immobiliare, è qualcosa che devi capire in generale per rispondere a domande di non-matematica sul processo. Sapere come calcolare le tasse non è una cosa brutta da sapere, perché probabilmente si pagano le tasse di proprietà e ...

Scelta dell'editore

Suggerimenti per la registrazione Regole di gioco logiche sull'LSAT - manichini

Suggerimenti per la registrazione Regole di gioco logiche sull'LSAT - manichini

La maggior parte dei giochi di logica sull'LSAT hanno tre, quattro o cinque condizioni o regole che limitano il modo in cui giochi con i pezzi. Per ordinare i giochi, le restrizioni forniscono indizi su come i pezzi possono essere posizionati in relazione l'uno con l'altro. I tipi comuni di regole di ordinazione sono obiettivi, distanziatori e arrangiatori. Regole di destinazione I bersagli danno ...

Come gestire il tuo tempo con saggezza sul TASC - dummies

Come gestire il tuo tempo con saggezza sul TASC - dummies

Perché ogni sezione del TASC, oppure Prova l'esame di completamento secondario, ha un limite di tempo, vorrai essere consapevole di quanto tempo è passato mentre stai facendo il test. Un modo per gestire efficacemente il tuo tempo è semplicemente indossando un orologio. I centri di test potrebbero non avere sempre un orologio disponibile e ...

Rendendo più semplice il giorno di prova SSAT o ISEE - manichini

Rendendo più semplice il giorno di prova SSAT o ISEE - manichini

Non è possibile effettuare SSAT o ISEE più facile, ma puoi iniziare la giornata di test correttamente e renderlo più semplice e meno stressante, il che può portare a risultati migliori durante l'esame di ammissione. Ecco alcuni suggerimenti da tenere a mente al giorno del test SSAT o ISEE: riposati molto. La ...