Nodo slave e guasti del disco in HDFS - manichini

Video: Week 9, continued 2025

Come la morte e le tasse, i guasti del disco (e dato abbastanza tempo, persino errori di nodo o rack), sono inevitabile in Hadoop Distributed File System (HDFS). Nell'esempio mostrato, anche se un rack dovesse fallire, il cluster potrebbe continuare a funzionare. Le prestazioni ne risentirebbero perché hai perso metà delle risorse di elaborazione, ma il sistema è ancora online e tutti i dati sono ancora disponibili.

In uno scenario in cui un'unità disco o un nodo slave non riesce, il server di metadati centrale per HDFS (chiamato NameNode) scopre che i blocchi di file memorizzati nella risorsa non riuscita non sono più disponibili. Ad esempio, se il nodo slave 3 fallisce, significherebbe che i blocchi A, C e D sono sottostimati .

In altre parole, poche copie di questi blocchi sono disponibili in HDFS. Quando HDFS rileva che un blocco è sottostimato, ordina una nuova copia.

Per continuare l'esempio, dire che il nodo slave 3 ritorna online dopo alcune ore. Nel frattempo, HDFS ha assicurato che ci sono tre copie di tutti i blocchi di file. Così ora, i blocchi A, C e D hanno quattro copie a testa e sono sovrascritti . Come per i blocchi sottodimensionati, anche il server di metadati centrale HDFS scoprirà ciò e ordinerà una copia di ogni file da eliminare.

Un buon risultato della disponibilità dei dati è che quando si verificano errori del disco, non è necessario sostituire immediatamente i dischi rigidi guasti. Questo può essere fatto più efficacemente a intervalli regolari programmati.