Importanza di sQL per Hadoop - dummies

Video: Comunicare la scienza oggi. Open Access, Open Science... (E.Giglia - UniGenova, 04/12/17) 2025

Ci sono motivi convincenti per cui SQL ha dimostrato di essere resiliente. Il settore IT ha avuto 40 anni di esperienza con SQL, poiché è stato sviluppato per la prima volta da IBM all'inizio degli anni '70. Con l'aumento dell'adozione di basi di dati relazionali negli anni '80, SQL è diventato ormai una competenza standard per la maggior parte dei professionisti IT.

Si può facilmente capire perché SQL abbia avuto tanto successo: è relativamente facile da apprendere e le query SQL sono abbastanza leggibili. Questa facilità può essere ricondotta a un punto di progettazione principale in SQL - il fatto che sia una lingua dichiarativa , al contrario di una lingua imperativa .

Perché una lingua sia dichiarativa significa che le tue query riguardano solo la natura dei dati richiesti - idealmente, non ci dovrebbe essere nulla nella tua query che determina come l'elaborazione dovrebbe essere eseguito In altre parole, tutto ciò che si indica in SQL è quali informazioni si desidera tornare dal sistema - non come ottenerlo.

Al contrario, con un linguaggio imperativo (C, ad esempio, o Java o Python) il codice è composto da istruzioni in cui si definiscono le azioni necessarie per l'esecuzione del sistema.

Oltre alle competenze (facilmente sfruttate) dei professionisti IT di SQL, sono state create anche applicazioni di database decennali con interfacce SQL. Quando si parla di come Hadoop può integrare il data warehouse, è chiaro che le organizzazioni archivieranno i dati strutturati in Hadoop. Di conseguenza, eseguiranno alcune delle loro logiche applicative esistenti contro Hadoop.

Nessuno vuole pagare per la riscrittura delle applicazioni, quindi un'interfaccia SQL è altamente auspicabile.

Con lo sviluppo di interfacce SQL per i dati Hadoop, una tendenza interessante è che gli strumenti di analisi commerciale e di gestione dei dati commerciali stanno quasi per saltare sul carro di Hadoop, compresa la reportistica di business intelligence; pacchetti statistici; Estrai, Trasforma e Carica framework (ETL); e una varietà di altri strumenti. Nella maggior parte dei casi, l'interfaccia con i dati Hadoop è Hive.