Video: What is ETL | Extract, Transform and Load | Big Data on Hadoop [Part 2] | Tutorial | Great Learning 2024
L'idea dei motori ETL ispirati a Hadoop ha guadagnato molta trazione negli ultimi anni. Dopotutto, Hadoop è una piattaforma flessibile per l'archiviazione e l'elaborazione dei dati in grado di supportare enormi quantità di dati e operazioni su tali dati. Allo stesso tempo, è tollerante ai guasti e offre l'opportunità di ridurre i costi di capitale e software.
Nonostante la popolarità di Hadoop come motore ETL, tuttavia, molte persone (inclusa una famosa società di analisti) non raccomandano Hadoop come l'unico pezzo di tecnologia per la tua strategia ETL. Ciò è dovuto in gran parte al fatto che lo sviluppo di flussi ETL richiede una notevole esperienza in merito ai sistemi di database esistenti della propria organizzazione, alla natura dei dati stessi e ai report e alle applicazioni che dipendono da esso.
In altre parole, i DBA, gli sviluppatori e gli architetti del reparto IT dovrebbero acquisire familiarità con Hadoop per implementare i flussi ETL necessari. Ad esempio, un sacco di codice a mano intensivo con Pig, Hive o anche MapReduce può essere necessario per creare anche il più semplice flusso di dati, il che mette la società in difficoltà per quelle abilità se segue questo percorso.
È necessario codificare elementi come il debug parallelo, i servizi di gestione delle applicazioni (come il controllo del puntamento e degli errori e la gestione degli eventi). Inoltre, considera i requisiti aziendali come la glossarizzazione e la possibilità di mostrare la discendenza dei tuoi dati.
Esistono requisiti normativi per molti report standard del settore, in cui è necessario il lignaggio dei dati; l'organizzazione di reporting deve essere in grado di mostrare da dove provengono i punti dati nel report, come i dati sono arrivati a voi e cosa è stato fatto ai dati.
Anche per i sistemi di database relazionali, ETL è abbastanza complesso da offrire prodotti specializzati che forniscono interfacce per la gestione e lo sviluppo di flussi ETL. Alcuni di questi prodotti ora supportano l'ETL basato su Hadoop e altri sviluppi basati su Hadoop. Tuttavia, a seconda delle tue esigenze, potresti aver bisogno di scrivere un po 'del tuo codice per supportare la tua logica di trasformazione.