L'opzione di pre-elaborazione dei dati ibridi in Hadoop - dummies

Video: Google Keynote (Google I/O'19) 2025

Oltre a dover archiviare grandi volumi di dati a freddo, una pressione che si vede in i data warehouse tradizionali indicano che quantità crescenti di risorse di elaborazione vengono utilizzate per i carichi di lavoro di trasformazione (ELT).

L'idea alla base dell'utilizzo di Hadoop come motore di preelaborazione per gestire la trasformazione dei dati significa liberare preziosi cicli di elaborazione, consentendo al data warehouse di rispettare lo scopo originale: rispondere a domande aziendali ripetute per supportare le applicazioni analitiche. Di nuovo, stai vedendo come Hadoop possa integrare le tradizionali implementazioni del data warehouse e migliorare la loro produttività.

Forse una minuscola lampadina immaginaria si è illuminata sopra la tua testa e stai pensando, "Ehi, forse ci sono sono alcuni compiti di trasformazione perfettamente adatti alla capacità di elaborazione dei dati di Hadoop, ma so che c'è anche un sacco di lavoro di trasformazione ricco di attività algebriche, passo dopo passo, in cui l'esecuzione di SQL su un motore di database relazionale sarebbe la scelta migliore. Non sarebbe bello se potessi eseguire SQL su Hadoop? “

SQL su Hadoop è già qui. Con la possibilità di inviare query SQL sui dati in Hadoop, non sei bloccato solo con un approccio ETL ai tuoi flussi di dati: puoi anche distribuire applicazioni simili a ELT.

Un altro approccio ibrido da considerare è dove eseguire la logica di trasformazione: in Hadoop o nel data warehouse? Sebbene alcune organizzazioni siano preoccupate di eseguire qualsiasi cosa che non sia l'analisi nei loro magazzini, resta il fatto che i database relazionali sono eccellenti per l'esecuzione di SQL e potrebbero essere un luogo più pratico per eseguire una trasformazione rispetto a Hadoop.