Sommario:
- Informazioni di base sui Big Data: RDBMS e dati persistenti
- Big data basic: RDBMS e tabelle
- PostgreSQL, un database relazionale open source
Video: Sqoop Import and Export data from RDMBS and HDFS 2024
I big data stanno diventando un elemento importante nel modo in cui le organizzazioni sfruttano i dati ad alto volume alla giusta velocità per risolvere dati specifici i problemi. I sistemi di gestione dei database relazionali sono importanti per questo volume elevato. I big data non vivono isolati. Per essere efficaci, le aziende devono spesso essere in grado di combinare i risultati dell'analisi dei big data con i dati esistenti all'interno dell'azienda.
Informazioni di base sui Big Data: RDBMS e dati persistenti
Uno dei servizi più importanti forniti dai database operativi (chiamato anche archivi di dati ) è la persistenza. La persistenza garantisce che i dati memorizzati in un database non verranno modificati senza autorizzazioni e che saranno disponibili finché è importante per l'azienda. A che serve un database se non può essere considerato affidabile per proteggere i dati inseriti?
Dato questo requisito più importante, è necessario pensare a quale tipo di dati si desidera mantenere, come è possibile accedervi e aggiornarlo e come utilizzarlo per prendere decisioni di business. A questo livello fondamentale, la scelta dei motori di database è fondamentale per il successo generale con l'implementazione dei Big Data.
Anche se la tecnologia di base esiste da un po 'di tempo, molti di questi sistemi sono in funzione oggi perché le attività che supportano dipendono fortemente dai dati. Sostituirli sarebbe come cambiare i motori di un aereo su un volo transoceanico.
Big data basic: RDBMS e tabelle
I database relazionali sono costruiti su una o più relazioni e sono rappresentati da tabelle. Queste tabelle sono definite dalle loro colonne e i dati sono memorizzati nelle righe. La chiave primaria è spesso la prima colonna della tabella. La consistenza del database e gran parte del suo valore sono raggiunti "normalizzando" i dati. I dati normalizzati sono stati convertiti dal formato nativo in un formato condiviso e concordato.
Ad esempio in un database potresti avere "telefono" come XXX-XXX-XXXX mentre in un altro potrebbe essere XXXXXXXXX. Per ottenere una visione coerente delle informazioni, il campo dovrà essere normalizzato in un'altra forma. Esistono cinque livelli di standard per la normalizzazione. La scelta della forma normale viene spesso relegata al progettista del database. La raccolta di tabelle, chiavi, elementi e così via è nota come lo schema del database.
Nel corso degli anni, il linguaggio di query strutturato (SQL) si è evoluto in una fase di blocco con la tecnologia RDBMS ed è il meccanismo più utilizzato per creare, interrogare, gestire e gestire i database relazionali.
Nelle aziende sia piccole che grandi, la maggior parte delle loro importanti informazioni operative è probabilmente memorizzata in RDBMS. Molte aziende hanno RDBMS diversi per diverse aree della propria attività. I dati transazionali potrebbero essere archiviati nel database di un fornitore, mentre le informazioni sui clienti potrebbero essere archiviate in un altro.
Non è probabile che userete RDBMS per il nucleo dell'implementazione, ma sarà necessario fare affidamento sui dati archiviati in RDBMS per creare il massimo livello di valore per l'azienda con i big data.
PostgreSQL, un database relazionale open source
Durante l'implementazione dei Big Data, probabilmente incontrerai PostgreSQL, un database relazionale open source ampiamente utilizzato. Diversi fattori contribuiscono alla popolarità di PostgreSQL. Come RDBMS con supporto per lo standard SQL, fa tutto ciò che ci si aspetta da un prodotto di database, oltre alla sua longevità e all'ampio utilizzo lo ha reso "testato in battaglia. "È disponibile anche su quasi tutti i tipi di sistemi operativi, dai PC ai mainframe.
Fornire le basi e farlo in modo affidabile sono solo una parte della storia. PostgreSQL supporta anche molte funzionalità che si trovano solo in costosi RDBMS proprietari, tra cui:
-
Capacità di gestire direttamente "oggetti" all'interno dello schema relazionale
-
Tasti esterni (facendo riferimento a chiavi da una tabella in un'altra)
-
Trigger (eventi utilizzato per avviare automaticamente una procedura memorizzata)
-
Query complesse (sottoquery e join su tabelle discrete)
-
Integrità transazionale
-
Controllo di concorrenza multiversione
Il potere reale di PostgreSQL è la sua estensibilità. Gli utenti e i programmatori di database possono aggiungere nuove funzionalità senza influire sulle operazioni fondamentali o sull'affidabilità del database. Le possibili estensioni includono
-
Tipi di dati
-
Operatori
-
Funzioni
-
Metodi di indicizzazione
-
Linguaggi procedurali
Questo elevato livello di personalizzazione rende PostgreSQL auspicabile quando prodotti rigidi e proprietari non riescono a svolgere il lavoro. È infinitamente estensibile.
Infine, la licenza PostgreSQL consente la modifica e la distribuzione in qualsiasi forma, aperta o chiusa. Qualsiasi modifica può essere mantenuta privata o condivisa con la comunità come desideri.