Video: Come aggiornare le mappe del tuo navigatore Garmin [TUTORIAL] 2024
Le implementazioni deluxe del data warehouse sono grandi e crescono sempre di più. Le implementazioni che utilizzano centinaia di gigabyte (un gigabyte equivale a 1 miliardo di byte) e persino i terabyte (1 trilione di byte) sono sempre più comuni. Per gestire questo volume di dati e l'accesso degli utenti, è necessario un server e un database molto robusti.
Preparati per la sfida! Con un data warehouse di tipo lite, puoi gestire in genere i movimenti di dati da sorgente a magazzino in modo semplice e low-tech - ma con il data warehouse deluxe, stai entrando nella zona di difficoltà, dove molti progetti di data warehouse soddisfano i loro Waterloo.
È probabile che tu abbia difficoltà in questo dominio per diversi motivi:
-
Hai a che fare con molte diverse origini dati, alcune delle quali potrebbero contenere dati sovrapposti. Ad esempio, le informazioni dei fornitori potrebbero provenire da due diversi sistemi di acquisto e alcuni dei vostri fornitori hanno voci in entrambi i sistemi.
Probabilmente incontrerai diversi insiemi di identificatori da convergere (per esempio, sei caratteri alfanumerici identificati come SUPPLIER_ID in uno dei sistemi e un intero unico conosciuto come SUP_NUM nell'altro).
-
Se il tuo data warehouse è di grandi dimensioni (misura oltre 250 gigabyte), è probabile che tu abbia difficoltà nell'estrarre, spostare e caricare le finestre batch. Batch windows , i tempi in cui gli aggiornamenti vengono apportati al magazzino, sono complicati dal numero di origini dati che devono essere gestite.
-
Le probabilità di avere un processo di estrazione, movimento, trasformazione e caricamento incasinato sono esponenzialmente legate al numero di elementi di dati da caricare nel data warehouse.
Se potessi assegnare qualche fattore di difficoltà (un intero, ad esempio) al processo di acquisizione dei dati nel magazzino, le seguenti misure sarebbero vere: hai n dati elementi che si desidera includere nel data warehouse con un fattore di difficoltà di x. Se ora hai 2 n elementi di dati, il tuo fattore di difficoltà non è 2 x; al contrario, è x al quadrato.
Per semplificare la comprensione di questo fattore di difficoltà, assegnare alcuni numeri a n e x. Supponi che il tuo data warehouse abbia 100 elementi (n) e che il fattore di difficoltà (x) sia 5. Se raddoppi il numero di elementi ( n > = 200), il tuo fattore di difficoltà è 25 (5 al quadrato), non 10 (5 x 2). Il processo di gestione di così tante fonti di dati, tutte dirette verso un unico luogo (il tuo data warehouse deluxe), ha tutti gli elementi di troppi cuochi in cucina, o qualsiasi cosa lo dica.
-
Per rendere fluidi i processi di estrazione, movimento, trasformazione e caricamento, probabilmente dovrai gestire molti proprietari di applicazioni diversi, i custodi ufficiali del database e altre persone appartenenti a una varietà di organizzazioni diverse, che devono tutti collaborare come se facessero parte di un'orchestra sinfonica professionale.
La realtà, tuttavia, è che si comportano più come un gruppo di studenti della scuola materna che scelgono ciascuno uno strumento musicale dal cestino del giocattolo e gli viene detto, "Ora gioca qualcosa! "Sebbene il processo non sia necessariamente destinato a fallire, ci si aspetta un numero di iterazioni finché non si riesce a caricare correttamente il data warehouse deluxe.
Un data warehouse deluxe può avere tre livelli (come un data warehouse lite), tranne che con più fonti di dati e forse più di un tipo di strumento utente che accede al magazzino. Ma l'architettura di un data warehouse deluxe probabilmente assomiglia più a ciò che viene mostrato in questa figura, con molti punti di raccolta diversi per i dati.
Oltre alle altre "stazioni di passaggio" necessarie per il tuo particolare ambiente, il tuo ambiente potrebbe avere questi elementi:
Data mart:
-
Riceve sottoinsiemi di informazioni dal data warehouse deluxe e funge da punto di accesso principale per utenti. Stazione di trasformazione temporanea:
-
Area in cui i set di dati estratti da alcune fonti vengono sottoposti a un tipo di processo di trasformazione prima di spostarsi lungo la pipeline verso il database del magazzino. Stazione di garanzia della qualità:
-
Un'area in cui i gruppi di dati vengono sottoposti a controlli intensivi di controllo qualità prima di consentire loro di spostarsi nel data warehouse.