Video: Algoritmi e struttura dati 2024
Gli elementi fondamentali della piattaforma di big data gestiscono i dati in modi nuovi rispetto al tradizionale database relazionale. Ciò è dovuto alla necessità di avere la scalabilità e le alte prestazioni richieste per gestire sia i dati strutturati che non strutturati.
I componenti del grande ecosistema di dati che vanno da Hadoop a NoSQL DB, MongoDB, Cassandra e HBase hanno tutti un proprio approccio per l'estrazione e il caricamento dei dati. Di conseguenza, i team potrebbero aver bisogno di sviluppare nuove competenze per gestire il processo di integrazione tra queste piattaforme. Tuttavia, molte delle best practice della gestione dei dati della tua azienda diventeranno ancora più importanti quando entrerai nel mondo dei big data.
Mentre i big data introducono un nuovo livello di complessità di integrazione, i principi fondamentali di base si applicano ancora. Il tuo obiettivo aziendale deve essere focalizzato sulla fornitura di dati affidabili e di qualità all'organizzazione nel momento giusto e nel contesto giusto.
Per garantire questa fiducia, è necessario stabilire regole comuni per la qualità dei dati con particolare attenzione all'accuratezza e alla completezza dei dati. Inoltre, è necessario un approccio completo allo sviluppo di metadati aziendali, tenendo traccia della discendenza e della governance dei dati per supportare l'integrazione dei dati.
Allo stesso tempo, gli strumenti tradizionali per l'integrazione dei dati si stanno evolvendo per gestire la crescente varietà di dati non strutturati e il crescente volume e velocità dei big data. Mentre le forme tradizionali di integrazione assumono nuovi significati in un mondo di big data, le vostre tecnologie di integrazione necessitano di una piattaforma comune che supporti la qualità e la profilazione dei dati.
Per prendere decisioni aziendali corrette basate sull'analisi dei big data, queste informazioni devono essere considerate attendibili e comprese a tutti i livelli dell'organizzazione. Anche se probabilmente non sarà il costo o il tempo effettivo per essere eccessivamente preoccupati per la qualità dei dati nella fase esplorativa di un'analisi di big data, alla fine la qualità e la fiducia devono giocare un ruolo se i risultati devono essere incorporati nel processo aziendale.
Le informazioni devono essere fornite all'azienda in un modo affidabile, controllato, coerente e flessibile all'interno dell'azienda, indipendentemente dai requisiti specifici dei singoli sistemi o applicazioni. Per raggiungere questo obiettivo, si applicano tre principi di base:
-
È necessario creare una comprensione comune delle definizioni dei dati. Nelle fasi iniziali dell'analisi dei Big Data, non è probabile che tu abbia lo stesso livello di controllo sulle definizioni dei dati come con i tuoi dati operativi.Tuttavia, una volta identificati i modelli che sono più rilevanti per la tua azienda, hai bisogno della capacità di mappare gli elementi dei dati a una definizione comune.
-
È necessario sviluppare un set di servizi dati per qualificare i dati e renderli coerenti e in definitiva affidabili. Quando le origini non strutturate e di grandi dimensioni sono integrate con dati operativi strutturati, è necessario essere certi che i risultati saranno significativi.
-
È necessario un modo semplificato per integrare le fonti di dati di grandi dimensioni e i sistemi di registrazione. Per prendere buone decisioni in base ai risultati dell'analisi dei Big Data, è necessario fornire le informazioni al momento giusto e con il contesto giusto. Il tuo processo di integrazione dei big data dovrebbe garantire coerenza e affidabilità.
Per integrare i dati in ambienti applicativi misti, ottenere dati da un ambiente dati (origine) a un altro ambiente dati (obiettivo). Le tecnologie di estrazione, trasformazione e caricamento (ETL) sono state utilizzate per realizzare questo negli ambienti di data warehouse tradizionali. Il ruolo di ETL si sta evolvendo per gestire nuovi ambienti di gestione dei dati come Hadoop.
In un ambiente big data, potrebbe essere necessario combinare strumenti che supportano i processi di integrazione batch (utilizzando ETL) con l'integrazione e la federazione in tempo reale su più origini. Ad esempio, un'azienda farmaceutica potrebbe aver bisogno di miscelare i dati memorizzati nel suo sistema Master Data Management (MDM) con grandi fonti di dati sui risultati medici dell'uso di droghe dei clienti.
Le aziende utilizzano MDM per facilitare la raccolta, l'aggregazione, il consolidamento e la distribuzione di dati coerenti e affidabili in modo controllato all'interno dell'azienda. Inoltre, nuovi strumenti come Sqoop e Scribe sono utilizzati per supportare l'integrazione di ambienti Big Data. Trovi inoltre un'enfasi crescente sull'uso delle tecnologie di estrazione, carico e trasformazione (ELT). Queste tecnologie sono descritte di seguito.