Sommario:
Video: Human brain project in poche parole: Sanzio Bassini at TEDxBologna 2024
L'architettura dei Big Data deve anche esibirsi di concerto con l'infrastruttura di supporto della tua organizzazione. Ad esempio, potresti essere interessato a eseguire modelli per determinare se è sicuro trivellare per petrolio in un'area offshore dati dati in tempo reale di temperatura, salinità, risospensione dei sedimenti e una miriade di altre proprietà biologiche, chimiche e fisiche di la colonna d'acqua.
Potrebbero essere necessari giorni per eseguire questo modello utilizzando una configurazione server tradizionale. Tuttavia, utilizzando un modello di calcolo distribuito, ciò che impiegava giorni potrebbe richiedere alcuni minuti.
Le prestazioni potrebbero anche determinare il tipo di database che si desidera utilizzare. Ad esempio, in alcune situazioni, potresti voler capire come sono collegati due elementi di dati molto distinti. Qual è la relazione tra buzz su un social network e la crescita delle vendite? Questa non è la tipica query che si potrebbe chiedere a un database relazionale strutturato.
Un database di grafici potrebbe essere una scelta migliore, poiché è specificamente progettato per separare i "nodi" o entità dalle sue "proprietà" o le informazioni che definiscono quell'entità, e il "bordo" o relazione tra nodi e proprietà. Anche l'utilizzo del database corretto migliorerà le prestazioni. In genere il database grafico verrà utilizzato in applicazioni scientifiche e tecniche.
Altri approcci importanti al database operativo includono i database colonnari che memorizzano le informazioni in modo efficiente in colonne piuttosto che in righe. Questo approccio porta a prestazioni più veloci perché l'input / output è estremamente veloce. Quando l'archiviazione dei dati geografici è parte dell'equazione, un database spaziale è ottimizzato per archiviare e interrogare i dati in base a come gli oggetti sono correlati nello spazio.
Organizzazione di servizi e strumenti per big data
Non tutti i dati utilizzati dalle organizzazioni sono operativi. Una quantità crescente di dati proviene da una varietà di fonti che non sono altrettanto organizzate o dirette, compresi i dati provenienti da macchine o sensori e enormi fonti di dati pubbliche e private. In passato, la maggior parte delle aziende non era in grado né di acquisire né archiviare questa enorme quantità di dati. Era semplicemente troppo costoso o troppo opprimente.
Anche se le aziende fossero in grado di acquisire i dati, non avevano gli strumenti per fare qualcosa al riguardo. Pochissimi strumenti potrebbero dare un senso a queste enormi quantità di dati. Gli strumenti esistenti erano complessi da usare e non producevano risultati in tempi ragionevoli.
Alla fine, coloro che volevano davvero dedicarsi all'enorme sforzo di analizzare questi dati furono costretti a lavorare con istantanee di dati.Questo ha l'effetto indesiderato di perdere eventi importanti perché non erano in una particolare istantanea.
MapReduce, Hadoop e Big Table per i big data
Con l'evoluzione della tecnologia informatica, è ora possibile gestire enormi volumi di dati. I prezzi dei sistemi sono diminuiti e, di conseguenza, le nuove tecniche di calcolo distribuito sono mainstream. La vera svolta è avvenuta in aziende come Yahoo!, Google e Facebook hanno capito che avevano bisogno di aiuto per monetizzare le enormi quantità di dati che stavano creando.
Queste aziende emergenti avevano bisogno di trovare nuove tecnologie che consentissero loro di archiviare, accedere e analizzare enormi quantità di dati in tempo quasi reale in modo che potessero monetizzare i vantaggi di possedere molti dati sui partecipanti nelle loro reti.
Le loro soluzioni risultanti stanno trasformando il mercato della gestione dei dati. In particolare, le innovazioni MapReduce, Hadoop e Big Table hanno dimostrato di essere le scintille che hanno portato a una nuova generazione di gestione dei dati. Queste tecnologie affrontano uno dei problemi più fondamentali: la capacità di elaborare enormi quantità di dati in modo efficiente, a costi contenuti e in modo tempestivo.
MapReduce
MapReduce è stato progettato da Google come un modo per eseguire in modo efficiente una serie di funzioni rispetto a una grande quantità di dati in modalità batch. Il componente "map" distribuisce il problema o le attività di programmazione su un numero elevato di sistemi e gestisce la posizione delle attività. Bilancia anche il carico e gestisce il recupero degli errori. Un'altra funzione chiamata "reduce" aggrega tutti gli elementi di nuovo insieme per fornire un risultato.
Big Table
Big Table è stato sviluppato da Google per essere un sistema di storage distribuito destinato a gestire dati strutturati altamente scalabili. I dati sono organizzati in tabelle con righe e colonne. A differenza di un modello di database relazionale tradizionale, Big Table è una mappa ordinata multidimensionale sparsa, distribuita e persistente. È destinato a memorizzare enormi volumi di dati tra i server di merci.
Hadoop
Hadoop è un framework software gestito da Apache derivato da MapReduce e Big Table. Hadoop consente alle applicazioni basate su MapReduce di funzionare su grandi cluster di hardware di base. Il progetto è la base dell'architettura informatica che supporta Yahoo! affari. Hadoop è progettato per parallelizzare l'elaborazione dei dati tra i nodi di elaborazione per velocizzare i calcoli e nascondere la latenza.
Esistono due componenti principali di Hadoop: un file system distribuito massicciamente scalabile in grado di supportare petabyte di dati e un motore MapReduce massicciamente scalabile che calcola i risultati in batch.