Video: Building A Petabyte Scale Warehouse in BigQuery (Cloud Next '18) 2024
Per la maggior parte delle persone, il termine Dremel riporta alla mente un pratico strumento ad alta velocità e bassa coppia che funziona bene per una varietà di lavori in casa. Ma lo sapevi che Google ha creato un Dremel? Invece di produrre un altro strumento meccanico palmare , Google ha scelto uno strumento software veloce per l'analisi interattiva dei big data.
Come con altre tecnologie Google che hanno ispirato parti dell'ecosistema Hadoop, come MapReduce, Google File System (HDFS) e BigTable (vedi HBase), Google ha sviluppato Dremel per l'uso interno e poi ha pubblicato un articolo che descrive lo scopo e il design della tecnologia. (In altre parole, Dremel non è qualcosa che puoi scaricare e utilizzare sul tuo cluster Hadoop.)
Google utilizza Dremel per una varietà di lavori, tra cui l'analisi di documenti sottoposti a scomposizioni Web, il rilevamento di spam e-mail, il lavoro attraverso i rapporti sugli arresti anomali delle applicazioni e altro ancora. Il servizio BigQuery di Google utilizza effettivamente Dremel.
Google ha progettato la tecnologia MapReduce per l'elaborazione in batch su enormi set di dati. Con l'evolversi delle loro esigenze, anche la loro tecnologia si è evoluta e Google ha deciso di creare Dremel per migliorare le prestazioni per le query interattive contro i big data set.
L'approccio MapReduce fornisce scalabilità e tolleranza agli errori di query, ma fondamentalmente è un sistema basato su batch, quindi i tempi di risposta per le query più piccole (query che coinvolgono solo una piccola parte di un intero set di dati, ad esempio) spesso non sono ciò che gli utenti si aspettano.
Così Google ha sviluppato una tecnologia di esecuzione delle query progettata per le query interattive, che viene eseguita su server intermedi sulla parte superiore di Google File System (GFS). (Ricordate, GFS è stato l'ispirazione per Apache HDFS, che è il file system di Hadoop.)
Simile a Hive, Dremel utilizza un linguaggio simile a SQL (familiare alla maggior parte dei programmatori) e utilizza un layout di dati colonnare. Dremel fornisce una risposta rapida e interattiva alle interrogazioni preservando la scalabilità e la tolleranza agli errori riscontrate in Apache Hive. Nel white paper di Dremel, Google spiega come è possibile eseguire query di aggregazione in pochi secondi su tabelle con un trilione di righe, non male affatto.
Quindi Google ha la sua tecnologia Dremel, che usa internamente, ma poi ci sono tutte le tecnologie "ispirate da" Dremel (un po 'come tutti quei profumi "ispirate a" Drakkar Noir).