Video: Epidemiology With An Open Source WebGIS Platform 2024
Questa figura mostra un ambiente in cui i dati vengono estratti da tre diverse origini dati per l'inclusione in un data warehouse e ognuna delle tre origini si trova su una piattaforma diversa. Ad un certo punto del processo di middleware, questi estratti di QA devono essere riuniti per un processo combinato di mappatura e trasformazione.
Il servizio di mappatura e trasformazione gestisce i classici problemi di data warehousing. Supponiamo che un'origine dati memorizzi i clienti utilizzando un ID cliente di cinque caratteri e un'altra fonte utilizzi un identificativo numerico cliente di sei cifre.
Per consentire confronti e altre elaborazioni di data warehouse, è necessario un metodo comune di identificazione del cliente: uno degli schemi di identificazione deve essere convertito nell'altro o forse in un terzo sistema di identificazione neutrale, a seconda delle caratteristiche dell'ambiente.
Oltre a gestire le incompatibilità tra sistemi diversi, le trasformazioni aggiuntive potrebbero includere
-
Riepilogo dati: Un riepilogo può essere eseguito in precedenza nel processo, prima del movimento tra i sistemi, a seconda della peculiarità del tuo specifico ambiente di data warehousing.
-
Inserimento selettivo dei dati: È possibile includere record da una sola fonte di dati, ad esempio, se si ottiene un record comparabile da un altro estratto. Non sai, fino a quando non converti tutti i contributi della fonte dati, come vengono applicate le regole di inclusione selettive.
-
Convergenza dati: Alcuni elementi di un'origine dati sono combinati con elementi di un'altra fonte per creare un record unificato per ogni cliente, prodotto, contratto o qualsiasi tipo di dati che stai trattando con.
Il punto principale da ricordare sul servizio di mappatura e trasformazione è che si dovrebbe avere, alla sua conclusione, un insieme unificato di dati che è pronto per essere caricato nel data warehouse, non appena si completano alcuni passaggi.
In ambienti di data warehousing complessi, è possibile prendere in considerazione più processi di trasformazione. Come mostrato in questa figura, ad esempio, gli estratti di dati convergono a diversi livelli di trasformazione prima di spostarsi più in basso nella pipeline del middleware, consentendo di applicare più potenza al processo di trasformazione utilizzando più server all'inizio del flusso.