Video: Le mie 5 (+1) distribuzioni Linux alternative ad Ubuntu (per ambito d'uso) 2024
Lo scopo principale del servizio di selezione e estrazione dati è selezionare da (trova in) un'origine dati i dati che vuoi spostarti nel data warehouse e poi estrai (estrai) quei dati in un modulo che può essere preparato per i servizi di garanzia della qualità.
È possibile utilizzare uno dei due diversi tipi di servizi di selezione ed estrazione per l'ambiente di data warehousing:
-
Scarica tutti i file e ordinali in un secondo momento: Trova ed estrai tutti gli elementi di dati in un'origine che vuoi caricare nel tuo data warehouse, indipendentemente dal fatto che un elemento specifico abbia stato precedentemente estratto.
-
Orientato al cambiamento: Trova ed estrai solo gli elementi di dati che sono stati aggiunti di recente all'origine dati o aggiornati dall'ultima estrazione.
Il primo tipo di servizio richiede una logica meno complessa per eseguire l'estrazione. Ma devi gestire volumi più grandi (a volte, volumi molto più grandi) di dati rispetto al secondo tipo, il servizio orientato al cambiamento.
Il metodo orientato al cambiamento di selezione ed estrazione è abbastanza semplice quando la fonte è un database relazionale con timestamp che è possibile utilizzare per rilevare quando una riga di dati è stata aggiunta o aggiornata per l'ultima volta.
È possibile confrontare una riga di dati con la data e l'ora dell'ultimo processo di estrazione per determinare se i dati devono essere selezionati ed estratti. Ma quando i dati sono memorizzati in un file che non ha un timestamp (un file VSAM, ad esempio), questo processo può essere molto più difficile.
Potresti anche affrontare una sfida quando i dati sorgente sono stati cancellati da un file o da un database. Se le regole aziendali per l'ambiente di data warehousing richiedono la cancellazione dei dati corrispondenti dal magazzino, è necessario disporre di un modo per rilevare le eliminazioni effettuate dall'ultimo processo di estrazione per garantire che vengano effettuate le eliminazioni appropriate nel proprio magazzino.
Il risultato della selezione e dell'estrazione è, beh, un estratto di dati che è pronto a subire un'ulteriore elaborazione: verificare la qualità dei dati.