Casa Finanza personale Hadoop come archivio interrogabile di dati di magazzino freddi - manichini

Hadoop come archivio interrogabile di dati di magazzino freddi - manichini

Video: HDInsight: Fast Interactive Queries with Hive on LLAP | Azure Friday 2025

Video: HDInsight: Fast Interactive Queries with Hive on LLAP | Azure Friday 2025
Anonim

Numerosi studi mostrano che la maggior parte dei dati in un data warehouse aziendale viene interrogata raramente. I fornitori di database hanno risposto a tali osservazioni implementando i propri metodi per l'individuazione dei dati da inserire.

Un metodo ordina l'universo dati in design di caldo, caldo o freddo, dove caldo dati (a volte chiamato attivo dati) è usato spesso, caldo i dati sono usati di volta in volta, e i dati a freddo sono usati raramente.La soluzione proposta per molti fornitori è per archiviare i dati a freddo su dischi più lenti all'interno dei contenitori del data warehouse o per creare intelligenti strategie di memorizzazione nella cache per mantenere in memoria i dati più caldi, tra gli altri.

Il problema con questo approccio è che anche se viene utilizzata una memoria più lenta, è ancora costoso archiviare i dati freddi e raramente usati in un magazzino. licenze hardware e software. Allo stesso tempo, i dati a freddo e in sospeso vengono spesso archiviati su nastro.

Questo modello tradizionale di archiviazione dei dati si interrompe quando si desidera interrogare tutti i dati a freddo in modo economico e relativamente efficiente, in altre parole, senza richiedere vecchi nastri.

Se si considerano i costi e le caratteristiche operative di Hadoop, sembra che sia destinato a diventare il nuovo nastro di backup. Hadoop è economico in gran parte perché i sistemi Hadoop sono progettati per utilizzare un hardware di livello inferiore rispetto a quello normalmente utilizzato nei sistemi di data warehouse. Un altro significativo risparmio sui costi è la concessione di licenze software.

Le licenze di distribuzione commerciali Hadoop richiedono una frazione del costo delle licenze di software di data warehouse relazionale, notoriamente costose. Dal punto di vista operativo, Hadoop è progettato per scalare facilmente semplicemente aggiungendo ulteriori nodi slave a un cluster esistente. E man mano che i nodi slave vengono aggiunti e gli insiemi di dati crescono di volume, i framework di elaborazione dei dati di Hadoop consentono alle applicazioni di gestire senza problemi l'aumento del carico di lavoro.

Hadoop rappresenta un modo semplice, flessibile ed economico per spingere l'elaborazione su letteralmente migliaia di server.

Con la sua architettura scalabile ed economica, Hadoop sembra essere una scelta perfetta per l'archiviazione dei dati di magazzino … tranne che per una piccola questione: la maggior parte del mondo IT funziona su SQL e SQL da solo non funziona bene con Hadoop.

Certo, il movimento NoSQL più Hadoop-friendly è vivo e vegeto, ma la maggior parte degli utenti esperti ora usa SQL tramite set di strumenti comuni e pronti all'uso che generano query SQL sotto il cofano - prodotti come Tableau, Microsoft Excel e IBM Cognos BI.

È vero che l'ecosistema Hadoop include Hive, ma Hive supporta solo un sottoinsieme di SQL e, sebbene le prestazioni stiano migliorando (insieme al supporto SQL), non è altrettanto veloce nel rispondere alle query più piccole come lo sono i sistemi relazionali. Recentemente, ci sono stati importanti progressi nell'accesso SQL a Hadoop, che ha spianato la strada a Hadoop per diventare la nuova destinazione per gli archivi di data warehouse online.

A seconda del fornitore Hadoop, le API SQL (o simili a SQL) stanno diventando disponibili in modo che i più comuni strumenti di reporting e analisi off-the-shelf possano emettere senza problemi l'SQL che viene eseguito sui dati archiviati in Hadoop. Ad esempio, IBM ha la sua API Big SQL, Cloudera ha Impala e Hive stesso, tramite l'iniziativa Hortonworks Stinger, sta diventando sempre più conforme a SQL.

Esistono diversi punti di vista (alcuni mirano a migliorare Hive, altri a estendere Hive e altri a fornire un'alternativa), tutte queste soluzioni tentano di affrontare due problemi: MapReduce è una soluzione scadente per l'esecuzione di query più piccole, e l'accesso SQL è - per ora - la chiave per consentire agli operatori IT di utilizzare le loro competenze SQL esistenti per ottenere valore dai dati archiviati in Hadoop.

Hadoop come archivio interrogabile di dati di magazzino freddi - manichini

Scelta dell'editore

Office 2011 per Mac: riorganizzare testo, oggetti su una diapositiva di PowerPoint - dummies

Office 2011 per Mac: riorganizzare testo, oggetti su una diapositiva di PowerPoint - dummies

Man mano che si organizza (o si ordina) testo e oggetti su una diapositiva in PowerPoint 2011, si diventa consapevoli che ogni oggetto si trova sul proprio livello, come se fosse su un foglio trasparente. Riordina questi "fogli" per ottenere l'aspetto che desideri. I fogli sono impilati uno sopra l'altro, ma se visualizzati frontalmente, che ...

Office 2011 per Mac: spostamento di oggetti lungo percorsi in PowerPoint - dummies

Office 2011 per Mac: spostamento di oggetti lungo percorsi in PowerPoint - dummies

Se eseguiti in modo artigianale, l'effetto di spostare un oggetto lungo un percorso in PowerPoint 2011 per Mac può aggiungere drammaticità, modificare l'umore e attirare l'attenzione sugli oggetti selezionati sulla diapositiva. È possibile selezionare un oggetto e farlo seguire da un percorso rappresentato da una linea in visualizzazione Normale, ma ...

Office 2011 per Mac: imposta presentazioni PowerPoint con la barra multifunzione - dummies

Office 2011 per Mac: imposta presentazioni PowerPoint con la barra multifunzione - dummies

Per impostare la presentazione PowerPoint 2011 per Mac con la barra multifunzione, si utilizza il gruppo Impostazione. Fare clic sulla presentazione della barra multifunzione per accedere al gruppo di impostazioni. Scegli tra queste opzioni: Impostazioni azione: seleziona un oggetto e poi fai clic su questo pulsante per visualizzare la finestra di dialogo Impostazioni azione. Nascondi diapositiva: seleziona uno o ...

Scelta dell'editore

Come configurare la barra di stato di Photoshop CS6 - dummies

Come configurare la barra di stato di Photoshop CS6 - dummies

Ogni finestra di Photoshop CS6 è dotata di una barra di stato. All'estrema sinistra della barra c'è una casella che visualizza il livello di zoom corrente di un'immagine attiva (come 33. 33%). Per inciso, la barra del titolo del documento mostra anche il livello di zoom. Per visualizzare altri tipi di informazioni, fare clic sulla freccia destra ...

Come levigare con lo strumento sfumino in Photoshop CS6 - dummies

Come levigare con lo strumento sfumino in Photoshop CS6 - dummies

Sebbene raggruppato tra gli strumenti di messa a fuoco in Photoshop CS6, lo strumento sfumino può essere utilizzato per la levigatura. Questo strumento esegue un effetto di deformazione maggiore, ad esempio lo strumento Warp nella finestra di dialogo Fluidifica. Sfuma spinge i pixel sullo schermo come se fossero costituiti da vernice bagnata, utilizzando il colore inferiore a ...

Come ammorbidire con lo strumento sfocatura in Photoshop CS6 - manichini

Come ammorbidire con lo strumento sfocatura in Photoshop CS6 - manichini

Usando lo strumento sfocatura qui e lì per ammorbidire un'immagine, con Photoshop CS6, puoi salvare un'immagine con pochi difetti. La sfocatura può anche essere utilizzata per effetti artistici, ad esempio per aggiungere un movimento a un pallone da calcio congelato nel tempo da una velocità dell'otturatore troppo veloce. Puoi anche sfocare porzioni di ...

Scelta dell'editore

Amministrazione di rete: Linux Samba Installazione - manichini

Amministrazione di rete: Linux Samba Installazione - manichini

Come amministratore di rete, se non hai installato Samba quando installato Linux, è possibile installarlo sulla rete dopo il fatto. Ecco i passaggi: fare clic su Attività, Applicazioni, quindi su Aggiungi / Rimuovi software. Questo richiama il programma Aggiungi / Rimuovi Software. Digita Samba nella casella di testo di ricerca e fai clic su Trova. Un elenco di pacchetti Samba ...

Amministrazione di rete: installazione del server Linux Requisiti di sistema - dummies

Amministrazione di rete: installazione del server Linux Requisiti di sistema - dummies

Prima di installare Linux, è necessario assicurarsi che il computer soddisfa i requisiti minimi. Sebbene i requisiti minimi per Linux siano notevolmente inferiori rispetto a quelli per l'ultima versione di Windows Server, non è possibile eseguire Linux su un abaco. I seguenti paragrafi riepilogano le funzionalità minime necessarie: un computer basato su Pentium. Anche un lento ...

Amministrazione di rete: Linux Samba Basics - dummies

Amministrazione di rete: Linux Samba Basics - dummies

Samba si riferisce a un programma di condivisione di file e stampanti che consente Linux per simulare un file Windows e un server di stampa in modo che i computer Windows possano utilizzare le directory e le stampanti Linux condivise. Se si desidera utilizzare Linux come file o server di stampa in una rete Windows, è necessario sapere come ballare Samba. ...