I grandi fornitori di cloud di dati - dummies

I cloud provider sono disponibili in tutte le forme e dimensioni e offrono molti prodotti diversi per i big data. Alcuni sono nomi familiari mentre altri stanno emergendo di recente. Alcuni dei fornitori di servizi cloud che offrono servizi IaaS che possono essere utilizzati per i big data includono Amazon. com, AT & T, GoGrid, Joyent, Rackspace, IBM e Verizon / Terremark.

Amazon Elastic Compute Cloud di Amazon per i big data

Attualmente, uno dei provider di servizi IaaS di più alto profilo è Amazon Web Services con il suo Elastic Compute Cloud (Amazon EC2). Amazon non ha iniziato con la visione di costruire un grande business di servizi infrastrutturali.

Invece, la società ha costruito una massiccia infrastruttura per supportare la propria attività di vendita al dettaglio e ha scoperto che le sue risorse erano sottoutilizzate. Invece di consentire a questa risorsa di rimanere inattiva, ha deciso di sfruttare questa risorsa aggiungendo al risultato finale. Il servizio EC2 di Amazon è stato lanciato nel 2006 e continua ad evolversi.

Amazon EC2 offre scalabilità sotto il controllo dell'utente, con l'utente che paga risorse per ora. L'uso del termine elastico nella denominazione di Amazon EC2 è significativo. Qui, l'elasticità si riferisce alla capacità che gli utenti di EC2 devono aumentare o diminuire le risorse di infrastruttura assegnate per soddisfare le loro esigenze.

Amazon offre anche altri servizi di big data ai clienti del suo portafoglio di servizi web Amazon. Questi includono quanto segue:

Amazon Elastic MapReduce: Destinato all'elaborazione di enormi volumi di dati. Elastic MapReduce utilizza un framework Hadoop ospitato su EC2 e Amazon Simple Storage Service (Amazon S3). Gli utenti ora possono eseguire HBase.
Amazon DynamoDB: Un servizio di database completamente gestito non solo SQL (NoSQL). DynamoDB è un servizio di archiviazione dati altamente disponibile e fault tolerant che offre self-provisioning, scalabilità trasparente e amministrazione semplice. È implementato su SSD (dischi a stato solido) per una maggiore affidabilità e alte prestazioni.
Amazon Simple Storage Service (S3): Un servizio su scala Web progettato per memorizzare qualsiasi quantità di dati. La forza del suo centro di progettazione è rappresentata dalle prestazioni e dalla scalabilità, quindi non è così ricca come gli altri archivi di dati. I dati vengono archiviati in "bucket" ed è possibile selezionare una o più regioni globali per l'archiviazione fisica per soddisfare le esigenze di latenza o normative.
Amazon High Performance Computing: Ottimizzato per attività specializzate, questo servizio fornisce cluster di elaborazione ad alte prestazioni ottimizzati a bassa latenza. Utilizzato più spesso da scienziati e accademici, HPC sta entrando nel mainstream a causa dell'offerta di Amazon e di altri fornitori di HPC.I cluster Amazon HPC sono creati appositamente per carichi di lavoro specifici e possono essere riconfigurati facilmente per nuove attività.
Amazon RedShift: Disponibile in anteprima limitata, RedShift è un servizio di data warehousing su scala di petabyte costruito su un'architettura MPP scalabile. Gestita da Amazon, offre un'alternativa sicura e affidabile ai data warehouse interni ed è compatibile con numerosi strumenti di business intelligence.

Servizi di big data di Google

Google, il gigante della ricerca su Internet, offre anche una serie di servizi cloud mirati ai big data. Questi includono:

Google Compute Engine: Una funzionalità basata su cloud per l'elaborazione di macchine virtuali, Google Compute Engine offre un ambiente di elaborazione flessibile e protetto da data center a basso consumo energetico. Google offre anche soluzioni per la gestione dei carichi di lavoro di numerosi partner tecnologici che hanno ottimizzato i loro prodotti per Google Compute Engine.
Google Big Query: Consente di eseguire query SQL come ad alta velocità contro insiemi di dati di grandi dimensioni potenzialmente pari a miliardi di righe. Sebbene sia utile per interrogare i dati, i dati non possono essere modificati dopo che è stato inserito. Considera Google Big Query una sorta di sistema OLAP (Online Analytical Processing) per i big data. È utile per la creazione di report ad hoc o analisi esplorative.
Google Prediction API: Uno strumento di apprendimento automatico basato su cloud per grandi quantità di dati, la Prediction è in grado di identificare i pattern nei dati e quindi di ricordarli. Può imparare di più su un modello ogni volta che viene utilizzato. I modelli possono essere analizzati per una varietà di scopi, tra cui rilevamento di frodi, analisi di abbandono e opinione dei clienti.

Microsoft Azure per i big data

Basato su astrazioni Windows e SQL, Microsoft ha prodotto una serie di strumenti di sviluppo, supporto di macchine virtuali, servizi di gestione e media e servizi di dispositivi mobili in un'offerta PaaS. Per i clienti con profonda esperienza in.Net, SQLServer e Windows, l'adozione del PaaS basato su Azure è semplice.

Per soddisfare i requisiti emergenti per integrare i big data nelle soluzioni Windows Azure, Microsoft ha anche aggiunto Windows Azure HDInsight. Basato su Hortonworks Data Platform (HDP), che secondo Microsoft offre il 100% di compatibilità con Apache Hadoop, HDInsight supporta la connessione con Microsoft Excel e altri strumenti di Business Intelligence (BI). Oltre a Azure HDInsight può anche essere distribuito su Windows Server.

OpenStack for big data

Avviato da Rackspace e NASA, OpenStack sta implementando una piattaforma open-cloud rivolta a cloud pubblici o privati. Mentre l'organizzazione è strettamente gestita da Rackspace, è passata a una fondazione OpenStack separata. Sebbene le aziende possano sfruttare OpenStack per creare implementazioni proprietarie, la designazione OpenStack richiede conformità ad un'implementazione standard di servizi.

L'obiettivo di OpenStack è quello di fornire una specifica cloud multitenant su larga scala che possa essere eseguita su qualsiasi hardware. OpenStack sta costruendo un ampio ecosistema di partner interessati ad adottare la sua piattaforma cloud, tra cui Dell, HP, Intel, Cisco, Red Hat e IBM, insieme ad almeno altri 100 che stanno utilizzando OpenStack come base per le loro offerte cloud.

In sostanza, OpenStack è un'iniziativa IaaS open source basata su Ubuntu, un sistema operativo basato sulla distribuzione Debian Linux. Può anche funzionare sulla versione di Linux di Red Hat.

OpenStack offre una gamma di servizi, tra cui elaborazione, archiviazione di oggetti, catalogo e repository, dashboarding, identità e networking. In termini di big data, Rackspace e Hortonworks (fornitore di una piattaforma di gestione dei dati open source basata su Apache Hadoop) hanno annunciato che Rackspace pubblicherà un servizio Hadoop pubblico OpenStack basato su cloud, che verrà convalidato e supportato da Hortonworks e consentirà ai clienti per creare rapidamente un ambiente di big data.