La zona di atterraggio basata su Hadoop - manichini

Video: Introduction to Amazon Web Services by Leo Zhadanovsky 2025

Quando si tenta di scoprire quale ambiente di analisi potrebbe assomigliare in futuro, incappate di nuovo nel modello della zona di atterraggio Hadoop più e più volte. In realtà, non è più nemmeno una discussione orientata al futuro perché la zona di atterraggio è diventata il modo che le aziende lungimiranti ora cercano di risparmiare sui costi IT e forniscono una piattaforma per l'analisi dei dati innovativa.

Quindi cos'è esattamente la zona di atterraggio? Al livello più elementare, la zona di atterraggio è semplicemente il punto centrale in cui i dati arriveranno nell'azienda: estrazioni settimanali di dati da database operativi, ad esempio, o da sistemi che generano file di registro. Hadoop è un utile repository nel quale inserire dati, per questi motivi:

Può gestire tutti i tipi di dati.
È facilmente scalabile.
È economico.
Una volta che i dati vengono inseriti in Hadoop, hai la flessibilità di interrogare, analizzare o elaborare i dati in vari modi.

Questo diagramma mostra solo parte della storia e non è affatto completo. Dopotutto, è necessario sapere come si spostano i dati dalla zona di atterraggio al data warehouse e così via.

Il punto di partenza per la discussione sulla modernizzazione di un data warehouse deve essere il modo in cui le organizzazioni utilizzano i data warehouse e le sfide che i reparti IT devono affrontare.

Negli anni '80, una volta che le organizzazioni riuscirono a immagazzinare le loro informazioni operative in database relazionali (ad es. Transazioni di vendita o stati della supply chain), i leader aziendali iniziarono a volere rapporti generati da questi dati relazionali. I primi archivi relazionali erano database operativi e sono stati progettati per l'elaborazione delle transazioni online (OLTP), in modo che i record possano essere inseriti, aggiornati o eliminati il più rapidamente possibile.

Si tratta di un'architettura poco pratica per la creazione di report e analisi su larga scala, pertanto i database ROLAP (Relational Online Analytical Processing) sono stati sviluppati per soddisfare questa esigenza. Ciò ha portato all'evoluzione di un nuovo tipo di RDBMS: un magazzino di dati , che è un'entità separata e vive accanto agli archivi di dati operativi di un'organizzazione.

Si tratta di utilizzare strumenti specifici per una maggiore efficienza: si dispone di archivi di dati operativi, progettati per elaborare in modo efficiente transazioni e data warehouse, progettati per supportare analisi e report ripetuti.

I data warehouse sono sotto stress crescente, per i seguenti motivi:

Aumento della domanda per mantenere più lunghi i periodi di dati online.
Aumento della domanda di elaborazione delle risorse per trasformare i dati per l'utilizzo in altri magazzini e data mart.
Aumento della domanda di analitica innovativa, che richiede agli analisti di porre domande sui dati del magazzino, oltre al normale report che è già stato fatto. Ciò può comportare un'elaborazione aggiuntiva significativa.

Nella figura, è possibile visualizzare il data warehouse presentato come risorsa principale per i vari tipi di analisi elencati nell'estrema destra della figura. Qui si vede anche il concetto di una zona di atterraggio rappresentata, dove Hadoop immagazzinerà i dati da una varietà di fonti di dati in entrata.

Per abilitare una zona di atterraggio Hadoop, è necessario assicurarsi di poter scrivere dati da varie fonti di dati su HDFS. Per i database relazionali, una buona soluzione sarebbe usare Sqoop.

Ma l'atterraggio dei dati è solo l'inizio.

Quando si spostano dati da molte fonti nella zona di atterraggio, un problema che inevitabilmente si incontra è la qualità dei dati. È comune per le aziende disporre di molti database operativi in cui i dettagli chiave sono diversi, ad esempio, che un cliente potrebbe essere noto come "D. deRoos "in un database e" Dirk deRoos "in un altro.

Un altro problema di qualità si trova nei sistemi in cui si fa molto affidamento sull'inserimento manuale dei dati, da parte dei clienti o dello staff: qui non è raro trovare nomi e cognomi sparsi o altre informazioni errate nei campi dati.

I problemi relativi alla qualità dei dati sono un grosso problema per gli ambienti di data warehouse, e questo è il motivo per cui un grande sforzo è dedicato alle fasi di pulizia e convalida quando i dati di altri sistemi vengono elaborati mentre vengono caricati nel magazzino. Tutto si riduce a fiducia : se i dati a cui stai facendo domande sono sporchi, non puoi fidarti delle risposte nei tuoi rapporti.

Così mentre c'è un enorme potenziale nell'accesso a molti set di dati diversi da diverse fonti nella tua zona di atterraggio Hadoop, devi considerare la qualità dei dati e quanto puoi fidarti dei dati.