Sommario:
- Reti fisiche di grandi dimensioni ridondanti
- Gestire hardware di big data: storage e server
- Operazioni di infrastruttura dati di grandi dimensioni
Video: Cloud Computing - Computer Science for Business Leaders 2016 2024
Al livello più basso del grande stack di dati c'è l'infrastruttura fisica. La tua azienda potrebbe già disporre di un data center o effettuare investimenti in infrastrutture fisiche, quindi dovrai trovare un modo per utilizzare le risorse esistenti.
Le implementazioni di Big Data hanno requisiti molto specifici su tutti gli elementi dell'architettura di riferimento, quindi è necessario esaminare questi requisiti a livello di strato per assicurare che l'implementazione funzioni e si adatti alle esigenze della tua azienda.
Un elenco prioritario di principi sui big data dovrebbe includere affermazioni su quanto segue:
-
Prestazioni: Quanto è reattivo il sistema? Le prestazioni, anche chiamate latenza, sono spesso misurate end to end, in base a una singola transazione o richiesta di query.
-
Disponibilità: Avete bisogno di una garanzia di servizio al 100% di uptime? Per quanto tempo può attendere la tua azienda in caso di interruzione o guasto del servizio?
-
Scalabilità: Quanto deve essere grande la tua infrastruttura? Quanto spazio su disco è necessario oggi e in futuro? Di quanta potenza di calcolo hai bisogno? In genere, è necessario decidere cosa è necessario e quindi aggiungere un po 'più di scala per sfide inaspettate.
-
Flessibilità: Con quale velocità puoi aggiungere più risorse all'infrastruttura? Con quale velocità la tua infrastruttura può riprendersi dai guasti?
-
Costo: Cosa puoi permetterti? Poiché l'infrastruttura è un insieme di componenti, potresti essere in grado di acquistare il "migliore" collegamento in rete e decidere di risparmiare sull'archiviazione. È necessario stabilire i requisiti per ciascuna di queste aree nel contesto di un budget complessivo e quindi effettuare dei trade-off laddove necessario.
Dal momento che i big data riguardano la varietà ad alta velocità, ad alto volume e ad alto numero di dati, l'infrastruttura fisica letteralmente "crea o spezza" l'implementazione. La maggior parte delle implementazioni di Big Data deve essere altamente disponibile, quindi le reti, i server e lo storage fisico devono essere entrambi resilienti e ridondanti. La resilienza e la ridondanza sono correlate.
Un'infrastruttura, o un sistema, resiliente al guasto o alle modifiche quando sono presenti sufficienti risorse ridondanti, pronte per entrare in azione. La ridondanza garantisce che tale malfunzionamento non causi un'interruzione. La resilienza aiuta a eliminare singoli punti di errore nell'infrastruttura.
Nei data center di grandi dimensioni con requisiti di business continuity, la maggior parte della ridondanza è presente e può essere sfruttata per creare un ambiente di big data.Nelle nuove implementazioni, i progettisti hanno la responsabilità di mappare l'implementazione alle esigenze dell'azienda in base a costi e prestazioni.
Ciò significa che la complessità tecnica e operativa è mascherata da una serie di servizi, ciascuno con termini specifici per prestazioni, disponibilità, ripristino e così via. Questi termini sono descritti negli accordi sul livello di servizio (SLA) e sono generalmente negoziati tra il fornitore del servizio e il cliente, con sanzioni per non conformità.
In effetti, questo crea un centro dati virtuale. Anche con questo approccio, è necessario sapere ancora quali sono necessari per creare ed eseguire una distribuzione di grandi quantità di dati in modo da poter effettuare le selezioni più appropriate dalle offerte di servizi disponibili. Nonostante abbia uno SLA, la tua organizzazione ha ancora la massima responsabilità per le prestazioni.
Reti fisiche di grandi dimensioni ridondanti
Le reti devono essere ridondanti e devono avere una capacità sufficiente per accogliere il volume e la velocità previsti dei dati in entrata e in uscita, oltre al traffico di rete "normale" dell'azienda. Quando inizi a fare dei big data parte integrante della tua strategia di elaborazione, è ragionevole aspettarsi che aumentino volume e velocità.
I progettisti di infrastrutture dovrebbero pianificare questi aumenti previsti e provare a creare implementazioni fisiche che siano "elastiche". "Il flusso e il traffico di rete diminuiscono, così come l'insieme di risorse fisiche associate all'implementazione. L'infrastruttura deve offrire funzionalità di monitoraggio in modo che gli operatori possano reagire quando sono necessarie più risorse per affrontare le modifiche nei carichi di lavoro.
Gestire hardware di big data: storage e server
Allo stesso modo, le risorse hardware (storage e server) devono avere velocità e capacità sufficienti per gestire tutte le funzionalità previste per i big data. È poco utile avere una rete ad alta velocità con server lenti perché i server molto probabilmente diventeranno un collo di bottiglia. Tuttavia, un set molto rapido di server di storage e di elaborazione può superare le prestazioni di rete variabili. Ovviamente, nulla funzionerà correttamente se le prestazioni della rete sono scadenti o inaffidabili.
Operazioni di infrastruttura dati di grandi dimensioni
Un'altra considerazione importante del progetto è la gestione delle operazioni infrastrutturali. I più alti livelli di prestazioni e flessibilità saranno presenti solo in un ambiente ben gestito. I responsabili dei centri dati devono essere in grado di anticipare e prevenire guasti catastrofici, in modo da mantenere l'integrità dei dati e, per estensione, i processi aziendali. Le organizzazioni IT spesso trascurano e quindi non investono in questo settore.