Analisi dei dati di grandi dimensioni e Data Warehouse - dummies

Video: Gruppo Remida - Tableau Business Intelligence 2025

Troverai valore nel mettere insieme le capacità del data warehouse e dell'ambiente dei big data. È necessario creare un ambiente ibrido in cui i big data possano funzionare a mano con il data warehouse.

Innanzitutto è importante riconoscere che il data warehouse così come è stato progettato oggi non cambierà nel breve periodo.

Pertanto, è più pragmatico utilizzare il data warehouse per ciò che è stato progettato per fare: fornire una versione ben vagliata della verità su un argomento che l'azienda vuole analizzare. Il magazzino potrebbe includere informazioni su una particolare linea di prodotti di un'azienda, i suoi clienti, i suoi fornitori e i dettagli delle transazioni di un anno.

Le informazioni gestite nel data warehouse o nel data mart dipartimentale sono state accuratamente costruite in modo che i metadati siano accurati. Con la crescita di nuove informazioni basate sul web, è pratico e spesso necessario analizzare questa enorme quantità di dati nel contesto con i dati storici. È qui che entra in gioco il modello ibrido.

Alcuni aspetti di sposare il data warehouse con i big data possono essere relativamente facili. Ad esempio, molte delle grandi fonti di dati provengono da fonti che includono i propri metadati ben progettati. I siti di e-commerce complessi includono elementi di dati ben definiti. Pertanto, quando si effettua un'analisi tra il magazzino e la grande fonte di dati, l'organizzazione di gestione delle informazioni sta lavorando con due serie di dati con modelli di metadati attentamente progettati che devono essere razionalizzati.

Naturalmente, in alcune situazioni, le fonti di informazione mancano di metadati espliciti. Prima che un analista possa combinare i dati transazionali storici con i big data meno strutturati, il lavoro deve essere fatto. In genere, l'analisi iniziale di petabyte di dati rivelerà modelli interessanti che possono aiutare a prevedere sottili cambiamenti nel business o potenziali soluzioni per la diagnosi di un paziente.

L'analisi iniziale può essere completata utilizzando strumenti come MapReduce con il framework del file system distribuito Hadoop. A questo punto, puoi iniziare a capire se è in grado di aiutare a valutare il problema da affrontare.

Nel processo di analisi, è altrettanto importante eliminare i dati non necessari quanto identificare i dati rilevanti per il contesto aziendale. Quando questa fase è completa, i dati rimanenti devono essere trasformati in modo che le definizioni dei metadati siano precise. In questo modo, quando i big data vengono combinati con i dati storici tradizionali del magazzino, i risultati saranno accurati e significativi.

Il lynchpin di integrazione dei big data

Questo processo richiede una strategia di integrazione dei dati ben definita. Mentre l'integrazione dei dati è un elemento critico della gestione dei big data, è altrettanto importante quando si crea un'analisi ibrida con il data warehouse. In effetti, il processo di estrazione dei dati e di trasformazione in un ambiente ibrido è molto simile a come questo processo viene eseguito all'interno di un data warehouse tradizionale.

Nel data warehouse, i dati vengono estratti dai sistemi di origine tradizionali come i sistemi CRM o ERP. È fondamentale che gli elementi di questi vari sistemi siano abbinati correttamente.

Ripensare l'estrazione, la trasformazione e i carichi per i data warehouse

Nel data warehouse, si trova spesso una combinazione di tabelle di database relazionali, file flat e origini non correlate. Un data warehouse ben costruito verrà architettato in modo che i dati vengano convertiti in un formato comune, consentendo alle query di essere elaborate in modo accurato e coerente. I file estratti devono essere trasformati per corrispondere alle regole e ai processi aziendali dell'area tematica che il data warehouse è progettato per analizzare.

In altre parole, i dati devono essere estratti dalle grandi fonti di dati in modo che queste fonti possano lavorare in sicurezza insieme e produrre risultati significativi. Inoltre, le fonti devono essere trasformate in modo che siano utili per analizzare la relazione tra i dati storici e i dati più dinamici e in tempo reale provenienti da fonti di dati di grandi dimensioni.

Il caricamento delle informazioni nel modello Big Data sarà diverso da quello che ci si aspetterebbe da un data warehouse tradizionale. Con i data warehouse, dopo che i dati sono stati codificati, non cambia mai. Un tipico data warehouse fornirà all'azienda un'istantanea dei dati basata sulla necessità di analizzare un particolare problema aziendale che richiede il monitoraggio, come l'inventario o le vendite.

La struttura distribuita dei big data spesso porta le organizzazioni a caricare prima i dati in una serie di nodi e quindi a eseguire l'estrazione e la trasformazione. Quando si crea un ibrido tra il data warehouse tradizionale e l'ambiente big data, la natura distribuita dell'ambiente dei big data può cambiare drasticamente la capacità delle organizzazioni di analizzare enormi volumi di dati nel contesto aziendale.