Video: Hive Tutorial | Hive Architecture | Hive Tutorial For Beginners | Hive In Hadoop | Simplilearn 2024
Per farla breve, Hive fornisce a Hadoop un ponte per il mondo RDBMS e fornisce un dialetto SQL noto come Hive Query Language (HiveQL), che può essere utilizzato per eseguire attività simili a SQL. Questa è la grande novità, ma c'è dell'altro in Hive che soddisfa l'occhio, come si dice, o più applicazioni di questa nuova tecnologia di quanto tu possa presentare in un elevator pitch standard.
Ad esempio, Hive rende possibile anche il concetto noto come ampliamento del data warehouse aziendale (EDW), uno dei principali casi di utilizzo di Apache Hadoop, in cui i data warehouse sono configurati come RDBMS creati appositamente per l'analisi e la reportistica dei dati.
Ora, alcuni esperti sostengono che Hadoop (con Hive, HBase, Sqoop e i suoi amici assortiti) può sostituire l'EDW. Tuttavia, Apache Hadoop è una grande aggiunta all'impresa e può aumentare e integrare gli EDW esistenti. Hive, HBase e Sqoop abilitano l'aumento di EDW.
Strettamente associato alla tecnologia RDBMS / EDW è la tecnologia di estrazione, trasformazione e caricamento (ETL). Per capire cosa fa ETL, è utile sapere che, in molti casi d'uso, i dati non possono essere caricati immediatamente nel database relazionale - deve prima essere estratto dalla sua sorgente nativa, trasformato in un formato appropriato, e quindi caricato nel RDBMS o EDW.
Ad esempio, un'azienda o un'organizzazione potrebbero estrarre dati di testo non strutturati da un forum Internet, trasformare i dati in un formato strutturato che è sia utile che prezioso e quindi caricare i dati strutturati nel suo EDW.
Puoi vedere che Hive è un potente strumento ETL a sé stante, insieme al principale attore in questo ambito: Apache Pig. Ancora una volta, gli utenti possono provare a configurare Hive e Pig come i nuovi strumenti ETL per il data center. (Lasciali provare).
Come nel dibattito su EDW contro Apache Hadoop, queste tecnologie Apache Hadoop non sono dirette sostituzione s per strumenti ETL esistenti, ma invece sono potenti nuovi strumenti ETL da usato quando appropriato.
Ultimo ma non meno importante, Apache Hive ti offre potenti strumenti analitici, tutti nel framework di HiveQL. Questi strumenti dovrebbero sembrare abbastanza familiari ai professionisti IT che comprendono come utilizzare SQL.