Sommario:
- L'hypervisor dei big data
- Astrazione e virtualizzazione di big data
- Implementazione della virtualizzazione per lavorare con i big data
Video: How Much Energy Does The Internet Use? 2024
La virtualizzazione separa risorse e servizi dal sottostante ambiente di consegna fisica, che consente di creare molti sistemi virtuali all'interno di un singolo sistema fisico. Uno dei motivi principali per cui le aziende hanno implementato la virtualizzazione è il miglioramento delle prestazioni e dell'efficienza dell'elaborazione di un diverso mix di carichi di lavoro
L'hypervisor dei big data
In un mondo ideale, non ti devi preoccupare del sottostante sistema operativo e hardware fisico. Un hypervisor è la tecnologia responsabile per garantire che la condivisione delle risorse avvenga in modo ordinato e ripetibile.
L'hypervisor si trova ai livelli più bassi dell'ambiente hardware e utilizza un sottile strato di codice per abilitare la condivisione dinamica delle risorse. L'hypervisor fa sembrare che ogni sistema operativo abbia le risorse fisiche tutto per sé.
Nel mondo dei big data, potrebbe essere necessario supportare molti diversi ambienti operativi. L'hypervisor diventa un meccanismo di consegna ideale per i componenti tecnologici del big data stack. L'hypervisor consente di mostrare la stessa applicazione su molti sistemi senza dover copiare fisicamente quell'applicazione su ciascun sistema.
Come ulteriore vantaggio, a causa dell'architettura hypervisor, può caricare qualsiasi sistema operativo diverso come se fosse solo un'altra applicazione. Quindi, l'hypervisor è un modo molto pratico per rendere le cose virtualizzate in modo rapido ed efficiente.
I sistemi operativi guest sono i sistemi operativi in esecuzione sulle macchine virtuali. Con la tecnologia di virtualizzazione, è possibile impostare l'hypervisor per suddividere le risorse del computer fisico. Le risorse possono essere suddivise 50/50 o 80/20 tra due sistemi operativi guest, ad esempio.
La bellezza di questa disposizione è che l'hypervisor fa tutto il lavoro pesante. Il sistema operativo guest non si cura che sia in esecuzione in una partizione virtuale; pensa di avere un computer tutto per sé.
Si trovano fondamentalmente due tipi di hypervisor:
-
Gli ipervisori di tipo 1 vengono eseguiti direttamente sulla piattaforma hardware. Raggiungono una maggiore efficienza perché funzionano direttamente sulla piattaforma.
-
Gli hypervisor di tipo 2 vengono eseguiti sul sistema operativo host. Vengono spesso utilizzati quando esiste un'esigenza per supportare un'ampia gamma di dispositivi I / O.
Astrazione e virtualizzazione di big data
Per la virtualizzazione di risorse e servizi IT, questi sono separati dall'ambiente di consegna fisico sottostante.Il termine per questo atto di separazione è chiamato astrazione. L'astrazione è un concetto chiave nei big data. MapReduce e Hadoop sono ambienti di calcolo distribuiti in cui tutto è astratto. Il dettaglio è astratto in modo che lo sviluppatore o l'analista non debba preoccuparsi di dove si trovano gli elementi dei dati.
L'astrazione riduce al minimo la complessità di qualcosa nascondendo i dettagli e fornendo solo le informazioni pertinenti. Ad esempio, se hai intenzione di prendere qualcuno che non hai mai incontrato prima, potrebbe dirti il luogo in cui incontrarlo e cosa indosserà. Non ha bisogno di dirti dove è nato, quanti soldi ha in banca, la sua data di nascita, e così via.
Questa è l'idea con l'astrazione: si tratta di fornire una specifica di alto livello piuttosto che entrare in molti dettagli su come funziona qualcosa.
Implementazione della virtualizzazione per lavorare con i big data
La virtualizzazione aiuta a rendere l'ambiente IT abbastanza intelligente da gestire l'analisi dei big data. Ottimizzando tutti gli elementi della tua infrastruttura, inclusi hardware, software e storage, ottieni l'efficienza necessaria per elaborare e gestire grandi volumi di dati strutturati e non strutturati. Con i big data, è necessario accedere, gestire e analizzare i dati strutturati e non strutturati in un ambiente distribuito.
I big data presuppongono la distribuzione. In pratica, qualsiasi tipo di MapReduce funzionerà meglio in un ambiente virtualizzato. È necessaria la capacità di spostare i carichi di lavoro in base ai requisiti di potenza di elaborazione e archiviazione.
La virtualizzazione ti consentirà di affrontare problemi più grandi che non sono ancora stati definiti. Potresti non sapere in anticipo quanto velocemente dovrai ridimensionare.
La virtualizzazione ti consentirà di supportare una varietà di archivi operativi di big data. Ad esempio, un database grafico può essere convertito in immagine.
Il vantaggio più diretto della virtualizzazione è garantire che i motori MapReduce funzionino meglio. La virtualizzazione si tradurrà in una migliore scala e prestazioni per MapReduce. Ciascuna delle attività Mappa e Riduci deve essere eseguita in modo indipendente. Se il motore MapReduce è parallelizzato e configurato per l'esecuzione in un ambiente virtuale, è possibile ridurre il sovraccarico di gestione e consentire espansioni e contrazioni nei carichi di lavoro delle attività.
MapReduce stesso è intrinsecamente parallelo e distribuito. Incapsulando il motore MapReduce in un contenitore virtuale, puoi eseguire ciò di cui hai bisogno ogni volta che ne hai bisogno. Con la virtualizzazione, aumenti l'utilizzo delle risorse che hai già pagato trasformandole in pool di risorse generiche.