Video: Tutorial: How to Provision Clusters for Big Data Processing with E-MapReduce 2024
Come con qualsiasi sistema distribuito, la rete può creare o distruggere un cluster Hadoop: non "andare a buon mercato. "Una grande quantità di chatter avviene tra i nodi master e i nodi slave in un cluster Hadoop, essenziale per mantenere il cluster in esecuzione, quindi gli switch di classe enterprise sono decisamente raccomandati.
Per ciascun rack nel cluster, sono necessari due switch top-of-rack (ToR), sia per ridondanza che per prestazioni. Utilizzare 10GbE per gli interruttori ToR.
Gli interruttori ToR sono switch di rete che collegano tutti i computer di un rack. Normalmente li vedi nella parte superiore di un rack, motivo per cui la gente dice "top-of-rack". "Un approccio di rete alternativo consiste nell'usare switch end-of-row (EoR) ma non lo si vede molto spesso.
L'approccio ToR è più semplice da una prospettiva di networking per cluster in crescita. Ad esempio, l'aggiunta di nodi slave e rack aggiuntivi è molto più semplice con gli interruttori ToR rispetto a EoR.
Quando si hanno più di tre rack, sono necessari almeno due switch principali (di nuovo, principalmente per la ridondanza, ma anche per le prestazioni). Questi switch centrali gestiscono enormi quantità di traffico, quindi il 40GbE è una necessità.
Se stai costruendo o espandendo un cluster su più rack, coinvolgi esperti di networking che hanno familiarità con Hadoop, i tuoi piani di crescita futuri e il tuo carico di lavoro. Una cattiva rete può ostacolare gravemente le prestazioni, ma può anche rendere la crescita futura dolorosa e costosa.