Casa Finanza personale La zona di atterraggio basata su Hadoop - manichini

La zona di atterraggio basata su Hadoop - manichini

Video: Introduction to Amazon Web Services by Leo Zhadanovsky 2025

Video: Introduction to Amazon Web Services by Leo Zhadanovsky 2025
Anonim

Quando si tenta di scoprire quale ambiente di analisi potrebbe assomigliare in futuro, incappate di nuovo nel modello della zona di atterraggio Hadoop più e più volte. In realtà, non è più nemmeno una discussione orientata al futuro perché la zona di atterraggio è diventata il modo che le aziende lungimiranti ora cercano di risparmiare sui costi IT e forniscono una piattaforma per l'analisi dei dati innovativa.

Quindi cos'è esattamente la zona di atterraggio? Al livello più elementare, la zona di atterraggio è semplicemente il punto centrale in cui i dati arriveranno nell'azienda: estrazioni settimanali di dati da database operativi, ad esempio, o da sistemi che generano file di registro. Hadoop è un utile repository nel quale inserire dati, per questi motivi:

  • Può gestire tutti i tipi di dati.

  • È facilmente scalabile.

  • È economico.

  • Una volta che i dati vengono inseriti in Hadoop, hai la flessibilità di interrogare, analizzare o elaborare i dati in vari modi.

Questo diagramma mostra solo parte della storia e non è affatto completo. Dopotutto, è necessario sapere come si spostano i dati dalla zona di atterraggio al data warehouse e così via.

Il punto di partenza per la discussione sulla modernizzazione di un data warehouse deve essere il modo in cui le organizzazioni utilizzano i data warehouse e le sfide che i reparti IT devono affrontare.

Negli anni '80, una volta che le organizzazioni riuscirono a immagazzinare le loro informazioni operative in database relazionali (ad es. Transazioni di vendita o stati della supply chain), i leader aziendali iniziarono a volere rapporti generati da questi dati relazionali. I primi archivi relazionali erano database operativi e sono stati progettati per l'elaborazione delle transazioni online (OLTP), in modo che i record possano essere inseriti, aggiornati o eliminati il ​​più rapidamente possibile.

Si tratta di un'architettura poco pratica per la creazione di report e analisi su larga scala, pertanto i database ROLAP (Relational Online Analytical Processing) sono stati sviluppati per soddisfare questa esigenza. Ciò ha portato all'evoluzione di un nuovo tipo di RDBMS: un magazzino di dati , che è un'entità separata e vive accanto agli archivi di dati operativi di un'organizzazione.

Si tratta di utilizzare strumenti specifici per una maggiore efficienza: si dispone di archivi di dati operativi, progettati per elaborare in modo efficiente transazioni e data warehouse, progettati per supportare analisi e report ripetuti.

I data warehouse sono sotto stress crescente, per i seguenti motivi:

  • Aumento della domanda per mantenere più lunghi i periodi di dati online.

  • Aumento della domanda di elaborazione delle risorse per trasformare i dati per l'utilizzo in altri magazzini e data mart.

  • Aumento della domanda di analitica innovativa, che richiede agli analisti di porre domande sui dati del magazzino, oltre al normale report che è già stato fatto. Ciò può comportare un'elaborazione aggiuntiva significativa.

Nella figura, è possibile visualizzare il data warehouse presentato come risorsa principale per i vari tipi di analisi elencati nell'estrema destra della figura. Qui si vede anche il concetto di una zona di atterraggio rappresentata, dove Hadoop immagazzinerà i dati da una varietà di fonti di dati in entrata.

Per abilitare una zona di atterraggio Hadoop, è necessario assicurarsi di poter scrivere dati da varie fonti di dati su HDFS. Per i database relazionali, una buona soluzione sarebbe usare Sqoop.

Ma l'atterraggio dei dati è solo l'inizio.

Quando si spostano dati da molte fonti nella zona di atterraggio, un problema che inevitabilmente si incontra è la qualità dei dati. È comune per le aziende disporre di molti database operativi in ​​cui i dettagli chiave sono diversi, ad esempio, che un cliente potrebbe essere noto come "D. deRoos "in un database e" Dirk deRoos "in un altro.

Un altro problema di qualità si trova nei sistemi in cui si fa molto affidamento sull'inserimento manuale dei dati, da parte dei clienti o dello staff: qui non è raro trovare nomi e cognomi sparsi o altre informazioni errate nei campi dati.

I problemi relativi alla qualità dei dati sono un grosso problema per gli ambienti di data warehouse, e questo è il motivo per cui un grande sforzo è dedicato alle fasi di pulizia e convalida quando i dati di altri sistemi vengono elaborati mentre vengono caricati nel magazzino. Tutto si riduce a fiducia : se i dati a cui stai facendo domande sono sporchi, non puoi fidarti delle risposte nei tuoi rapporti.

Così mentre c'è un enorme potenziale nell'accesso a molti set di dati diversi da diverse fonti nella tua zona di atterraggio Hadoop, devi considerare la qualità dei dati e quanto puoi fidarti dei dati.

La zona di atterraggio basata su Hadoop - manichini

Scelta dell'editore

Il programma in cinque passaggi per superare la menopausa - dummy

Il programma in cinque passaggi per superare la menopausa - dummy

Alcune donne capiscono a malapena che la menopausa è loro. Altre donne, tuttavia, sono meno fortunate. Se sei uno di questi, prendi in mano questi pochi modi per rendere la tua esperienza più facile per te stesso: capisci e accetta che stai attraversando una transizione naturale, proprio come la pubertà. Fortunatamente, sei più vecchio e più saggio di te ...

Menopausa For Dummies Cheat Sheet (edizione UK) - dummies

Menopausa For Dummies Cheat Sheet (edizione UK) - dummies

Menopausa segna la fine della fase riproduttiva della tua vita e così è un momento significativo di cambiamento fisico, emotivo e mentale per molte donne ma, per generazioni, donne di tutte le età hanno vagato alla cieca in menopausa senza sapere cosa aspettarsi. Qui puoi scoprire alcune delle nozioni di base.

Perimenopausa: facilitare la transizione dalle mestruazioni alla menopausa - manichini

Perimenopausa: facilitare la transizione dalle mestruazioni alla menopausa - manichini

Mestruazioni e menopausa sono ben noti biologici pietre miliari nella vita di una femmina. Contrariamente al pensiero popolare, la menopausa non è il periodo di mesi o anni in cui una donna sta "attraversando il cambiamento". "Questo lasso di tempo è chiamato perimenopausa. La menopausa è una data effettiva nel tempo. In particolare, è il 12 ° anniversario dell'ultimo ciclo mestruale di una donna. ...

Scelta dell'editore

Come utilizzare il filtro automatico personalizzato su una tabella di Excel - dummies

Come utilizzare il filtro automatico personalizzato su una tabella di Excel - dummies

È Possibile creare un filtro automatico personalizzato . Per fare ciò, seleziona il comando Filtro testo dal menu della tabella e scegli una delle opzioni di filtro del testo. Indipendentemente dall'opzione di filtro del testo selezionata, Excel visualizza la finestra di dialogo Filtro automatico personalizzato. Questa finestra di dialogo consente di specificare con estrema precisione quali record si desidera ...

Come utilizzare la funzione DPRODUCT in un database Excel - dummies

Come utilizzare la funzione DPRODUCT in un database Excel - dummies

DPRODUCT moltiplica i valori che corrispondono al criterio in un database Excel. Questo è potente ma anche in grado di produrre risultati che non sono l'intenzione. In altre parole, è una cosa da aggiungere e ricavare una somma. Questa è un'operazione comune su un set di dati. Osservando la seguente figura, è possibile ...

Come utilizzare la funzione DPRODUCT in Excel - dummy

Come utilizzare la funzione DPRODUCT in Excel - dummy

La funzione DPRODUCT in Excel è strana. La funzione DPRODUCT moltiplica i valori nei campi da un elenco di database in base ai criteri di selezione. Perché vorresti farlo? Chissà. La funzione utilizza la sintassi = DPRODUCT (database, campo, criteri) in cui il database è un riferimento all'intervallo alla tabella di Excel che contiene il valore desiderato ...

Scelta dell'editore

Programmazione con Java: riutilizzo dei nomi nella tua app per Android - dummies

Programmazione con Java: riutilizzo dei nomi nella tua app per Android - dummies

Ci sono un paio di cose a cui vuoi pensare quando riutilizzi i nomi nella tua app per Android. È possibile dichiarare due variabili Java - bag1 e bag2 - per fare riferimento a due diversi oggetti BagOfCheese. Va bene. Ma a volte, avere solo una variabile e riutilizzarla per il secondo oggetto funziona altrettanto bene, ...

Java: Mettere a frutto l'uso della classe - dummies

Java: Mettere a frutto l'uso della classe - dummies

La classe Employee nell'elenco non ha alcun metodo principale , quindi non c'è un punto di partenza per l'esecuzione del codice. Per risolvere questo problema, il programmatore scrive un programma separato con un metodo principale e utilizza tale programma per creare istanze Employee. Questo elenco di codici mostra una classe con un metodo principale - uno che inserisce il ...

Classi wrapper java - dummies

Classi wrapper java - dummies

La differenza tra tipi primitivi e tipi di riferimento è una delle funzionalità più controverse di Java e gli sviluppatori si lamentano spesso sulle differenze tra valori primitivi e valori di riferimento. Ogni tipo primitivo viene cotto nella lingua. Java ha otto tipi primitivi. Ogni tipo di riferimento è una classe o un'interfaccia. È possibile definire il proprio ...