Video: Introduction to Impala | Impala Hadoop Tutorial | Cloudera Impala | Hive vs Impala | Intellipaat 2024
Cloudera è un fornitore di software e servizi di Apache Hadoop leader nel mercato dei big data. Come Apache Drill, la tecnologia Impala di Cloudera cerca di migliorare i tempi di risposta alle query interattive per gli utenti di Hadoop. Apache Hive ha fornito un meccanismo di query familiare e potente per gli utenti di Hadoop, ma i tempi di risposta alle query sono spesso inaccettabili a causa del fatto che Hive fa affidamento su MapReduce. La risposta di Cloudera a questo problema è Impala.
Cloudera ha sviluppato un motore di query MPP, scritto in C ++, per sostituire il layer MapReduce sfruttato da Apache Hive. A differenza di Dremel e Drill, Cloudera ha deciso che un motore MPP C ++ nativo, anziché un motore Java, era la risposta alle query Hadoop veloci e interattive.
Si noti che Impala utilizza HiveQL come interfaccia di programmazione e Impala Query Exec Engines è co-locato con i nodi dati HDFS, in linea con l'approccio Hadoop di co-locazione dei dati con le attività di elaborazione. Impala può anche utilizzare HBase come archivio dati. In questo senso, Impala è un'estensione di Apache Hadoop, fornendo un'alternativa ad alte prestazioni al modello Hive-on-top-of-Map-Reduce.
Cloudera e Twitter hanno guidato lo sviluppo del nuovo formato di file Hadoop, che può essere utilizzato con Impala ed è disponibile come open source su GitHub. Il formato di file Parquet fornisce un robusto supporto colonnare per l'archiviazione dei dati in Hadoop. Supporta compressione e codifica estremamente efficienti ed è efficace per la memorizzazione di strutture di dati nidificate.
Puoi trovare la tecnologia Impala di Cloudera, anch'essa ispirata all'invenzione di Google Dremel.