Casa Finanza personale L'architettura di Apache Hive - dummies

L'architettura di Apache Hive - dummies

Video: HDInsight: Fast Interactive Queries with Hive on LLAP | Azure Friday 2025

Video: HDInsight: Fast Interactive Queries with Hive on LLAP | Azure Friday 2025
Anonim

Mentre si esaminano gli elementi di Apache Hive mostrato, è possibile vedere in fondo che Hive si trova in cima al file system distribuito Hadoop (HDFS) e sistemi MapReduce.

Nel caso di MapReduce, i mostri sono entrambi i componenti Hadoop 1 e Hadoop 2. Con Hadoop 1, le query Hive vengono convertite in codice MapReduce ed eseguite utilizzando l'infrastruttura MapReduce v1 (MRv1), come JobTracker e TaskTracker.

Con Hadoop 2, YARN ha disgiunto la gestione delle risorse e la pianificazione dal framework MapReduce. Le query hive possono ancora essere convertite in codice MapReduce ed eseguite, ora con MapReduce v2 (MRv2) e l'infrastruttura YARN.

Esiste un nuovo framework in fase di sviluppo chiamato Apache Tez, progettato per migliorare le prestazioni Hive per query batch-style e supportare query interattive più piccole (note anche come in tempo reale ). Al momento della stesura, il progetto Apache Tez è ancora in fase di incubazione e non ha ancora una versione pronta per la produzione.

Se ti aiuta a visualizzare come tutti i pezzi combaciano, pensa ai sistemi HDFS e MapReduce come parti del sistema operativo Apache Hadoop, con Hive - così come ad altri componenti, come HBase - come funzioni o applicazioni di livello superiore. (È possibile vedere un tema comune emergere: HDFS fornisce l'archiviazione e MapReduce fornisce la capacità di elaborazione parallela per funzioni di livello superiore all'interno dell'ecosistema Hadoop.)

Spostando il diagramma, si trova Hive Driver, che compila, ottimizza ed esegue HiveQL. Hive Driver può scegliere di eseguire istruzioni e comandi HiveQL localmente o generare un lavoro MapReduce, in base all'attività in corso. Hive Driver memorizza i metadati della tabella nel metastore e nel suo database.

Probabilmente hai una certa familiarità con SQL e il modello di database relazionale del mondo di RDBMS. Una tabella o relazione è composta da colonne verticali e righe orizzontali. Le celle vengono memorizzate dove si incrociano le righe e le colonne. Se non hai familiarità con SQL e il modello di database relazionale, puoi trovare utili fonti di apprendimento usando il tuo motore di ricerca preferito.

Per impostazione predefinita, Hive include Apache Derby RDBMS configurato con metastore in quella che viene chiamata modalità incorporata. La modalità incorporata indica che Hive Driver, il metastore e Apache Derby sono tutti in esecuzione in una Java Virtual Machine (JVM).

Questa configurazione va bene per scopi di apprendimento, ma la modalità incorporata può supportare solo una singola sessione Hive, quindi normalmente non viene utilizzata negli ambienti di produzione multiutente.Esistono altre due modalità: locale e remoto - che possono supportare meglio più sessioni di hive negli ambienti di produzione. Inoltre, è possibile configurare qualsiasi RDBMS compatibile con la suite API (Application Programming Interface) JDBC (Java Database Connectivity). (Esempi qui includono MySQL e DB2.)

La chiave per il supporto delle applicazioni è Hive Thrift Server, che consente a un ricco insieme di client di accedere al sottosistema Hive. Il client SQL SQuirreL open source è incluso come esempio. Il punto principale è che qualsiasi applicazione compatibile con JDBC può accedere a Hive tramite il driver JDBC in dotazione.

La stessa affermazione vale per i client compatibili con Open Database Connectivity (ODBC) - ad esempio, unixODBC e l'utility isql, che in genere sono in bundle con Linux, consentono l'accesso a Hive da client Linux remoti.

Inoltre, se utilizzi Microsoft Excel, sarai felice di sapere che puoi accedere a Hive dopo aver installato il driver Microsoft ODBC sul tuo sistema client. Infine, se è necessario accedere a Hive da linguaggi di programmazione diversi da Java (PHP o Python, ad esempio), Apache Thrift è la risposta. I client Apache Thrift si connettono a Hive tramite Hive Thrift Server, proprio come fanno i client JDBC e ODBC.

Per continuare con il disegno dell'architettura Hive, si noti che Hive include un'interfaccia CLI (Command Line Interface), in cui è possibile utilizzare una finestra di terminale Linux per inviare query e comandi amministrativi direttamente al driver Hive. Se un approccio grafico è più veloce, c'è anche una comoda interfaccia web in modo da poter accedere alle tabelle e ai dati gestiti da Hive tramite il browser preferito.

Esiste un'altra tecnologia del browser Web nota come Hue che fornisce un'interfaccia utente grafica (GUI) ad Apache Hive. Ad alcuni utenti di Hadoop piace avere una GUI a loro disposizione invece di una semplice interfaccia a riga di comando (CLI). Insieme a Hive, Hue supporta anche altre tecnologie Hadoop come HDFS, MapReduce / YARN, HBase, Zookeeper, Oozie, Pig e Sqoop. Ti piacerà il nome di Hue Apache Hive GUI - si chiama Beeswax.

L'architettura di Apache Hive - dummies

Scelta dell'editore

Il programma in cinque passaggi per superare la menopausa - dummy

Il programma in cinque passaggi per superare la menopausa - dummy

Alcune donne capiscono a malapena che la menopausa è loro. Altre donne, tuttavia, sono meno fortunate. Se sei uno di questi, prendi in mano questi pochi modi per rendere la tua esperienza più facile per te stesso: capisci e accetta che stai attraversando una transizione naturale, proprio come la pubertà. Fortunatamente, sei più vecchio e più saggio di te ...

Menopausa For Dummies Cheat Sheet (edizione UK) - dummies

Menopausa For Dummies Cheat Sheet (edizione UK) - dummies

Menopausa segna la fine della fase riproduttiva della tua vita e così è un momento significativo di cambiamento fisico, emotivo e mentale per molte donne ma, per generazioni, donne di tutte le età hanno vagato alla cieca in menopausa senza sapere cosa aspettarsi. Qui puoi scoprire alcune delle nozioni di base.

Perimenopausa: facilitare la transizione dalle mestruazioni alla menopausa - manichini

Perimenopausa: facilitare la transizione dalle mestruazioni alla menopausa - manichini

Mestruazioni e menopausa sono ben noti biologici pietre miliari nella vita di una femmina. Contrariamente al pensiero popolare, la menopausa non è il periodo di mesi o anni in cui una donna sta "attraversando il cambiamento". "Questo lasso di tempo è chiamato perimenopausa. La menopausa è una data effettiva nel tempo. In particolare, è il 12 ° anniversario dell'ultimo ciclo mestruale di una donna. ...

Scelta dell'editore

Come utilizzare il filtro automatico personalizzato su una tabella di Excel - dummies

Come utilizzare il filtro automatico personalizzato su una tabella di Excel - dummies

È Possibile creare un filtro automatico personalizzato . Per fare ciò, seleziona il comando Filtro testo dal menu della tabella e scegli una delle opzioni di filtro del testo. Indipendentemente dall'opzione di filtro del testo selezionata, Excel visualizza la finestra di dialogo Filtro automatico personalizzato. Questa finestra di dialogo consente di specificare con estrema precisione quali record si desidera ...

Come utilizzare la funzione DPRODUCT in un database Excel - dummies

Come utilizzare la funzione DPRODUCT in un database Excel - dummies

DPRODUCT moltiplica i valori che corrispondono al criterio in un database Excel. Questo è potente ma anche in grado di produrre risultati che non sono l'intenzione. In altre parole, è una cosa da aggiungere e ricavare una somma. Questa è un'operazione comune su un set di dati. Osservando la seguente figura, è possibile ...

Come utilizzare la funzione DPRODUCT in Excel - dummy

Come utilizzare la funzione DPRODUCT in Excel - dummy

La funzione DPRODUCT in Excel è strana. La funzione DPRODUCT moltiplica i valori nei campi da un elenco di database in base ai criteri di selezione. Perché vorresti farlo? Chissà. La funzione utilizza la sintassi = DPRODUCT (database, campo, criteri) in cui il database è un riferimento all'intervallo alla tabella di Excel che contiene il valore desiderato ...

Scelta dell'editore

Programmazione con Java: riutilizzo dei nomi nella tua app per Android - dummies

Programmazione con Java: riutilizzo dei nomi nella tua app per Android - dummies

Ci sono un paio di cose a cui vuoi pensare quando riutilizzi i nomi nella tua app per Android. È possibile dichiarare due variabili Java - bag1 e bag2 - per fare riferimento a due diversi oggetti BagOfCheese. Va bene. Ma a volte, avere solo una variabile e riutilizzarla per il secondo oggetto funziona altrettanto bene, ...

Java: Mettere a frutto l'uso della classe - dummies

Java: Mettere a frutto l'uso della classe - dummies

La classe Employee nell'elenco non ha alcun metodo principale , quindi non c'è un punto di partenza per l'esecuzione del codice. Per risolvere questo problema, il programmatore scrive un programma separato con un metodo principale e utilizza tale programma per creare istanze Employee. Questo elenco di codici mostra una classe con un metodo principale - uno che inserisce il ...

Classi wrapper java - dummies

Classi wrapper java - dummies

La differenza tra tipi primitivi e tipi di riferimento è una delle funzionalità più controverse di Java e gli sviluppatori si lamentano spesso sulle differenze tra valori primitivi e valori di riferimento. Ogni tipo primitivo viene cotto nella lingua. Java ha otto tipi primitivi. Ogni tipo di riferimento è una classe o un'interfaccia. È possibile definire il proprio ...