Casa Finanza personale Unendo tabelle con Hive - dummies

Unendo tabelle con Hive - dummies

Video: Alteryx - Scaricare file Json 2024

Video: Alteryx - Scaricare file Json 2024
Anonim

Probabilmente già sai che gli esperti di modellazione e progettazione di database relazionali di solito passano molto tempo a progettare database normalizzati, o schemi <. Il database normalizzazione è una tecnica che protegge da perdita di dati, ridondanza e altre anomalie man mano che i dati vengono aggiornati e recuperati. Gli esperti seguono un certo numero di regole per arrivare a un database normalizzato, ma la Regola 1 è che devi finire con un

gruppo di tabelle. (Una grande tabella che memorizza tutti i tuoi dati non è normale - giochi di parole.) Ci sono eccezioni, a seconda del caso d'uso, ma la legge di molte tabelle è generalmente seguita da vicino, specialmente per i database che supportano le transazioni o l'elaborazione analitica (business intelligence, per esempio).

Quando inizi a interrogare e analizzare i tuoi dati, le tabelle vengono unite in base alle relazioni definite tra loro usando SQL - il che significa che i dischi sono occupati sul tuo server quando inizi a unirti alle tabelle, e i dischi occupati di solito comportano tempi di risposta utente più lenti. Tuttavia, la buona notizia è che gli RDBMS e gli EDW sono sintonizzati per rendere i join il più rapidi possibile.

Cosa c'entra tutto questo con i join in Hive? Bene, ricorda che il sistema operativo sottostante per Hive è (sorpresa!) Apache Hadoop: MapReduce è il motore per l'unione delle tabelle e Hadoop File System (HDFS) è lo storage sottostante. Sono tutte buone notizie per l'utente che desidera creare, gestire e analizzare tabelle di grandi dimensioni con Hive.

Il potenziale per sbloccare informazioni nascoste in enormi strutture di dati è eccitante. Tuttavia, i join con Hive di solito non si comportano bene come nel mondo RDBMS / EDW, quindi gli utenti principianti sono spesso sorpresi dalla "sfiziosità" della risposta del sistema.

Ricorda che MapReduce e HDFS sono ottimizzati per il throughput con analisi dei big data e che, in questo mondo, latenze - i tempi di risposta degli utenti, in altre parole, sono in genere elevati. Hive è progettato per l'elaborazione analitica in batch, non per l'elaborazione rapida delle transazioni online. Gli utenti che desiderano ottenere le migliori prestazioni possibili con SQL su Apache Hadoop hanno a disposizione soluzioni.

Tieni presente questa dinamica quando inizi a unirti alle tabelle con Hive. Si noti inoltre che gli architetti di Hive di solito denormalizzano i loro database in una certa misura, quindi avere un numero minore di tabelle più grandi è normale. Ecco perché vengono forniti tipi di dati complessi come STRUCT e ARRAY. È possibile utilizzare questi tipi di dati complessi per comprimere molti più dati in un'unica tabella.

Poiché la tabella Hive legge e scrive tramite HDFS di solito coinvolgono blocchi di dati molto grandi, maggiore è il numero di dati che è possibile gestire complessivamente in una tabella, migliori sono le prestazioni generali.

L'accesso al disco e alla rete è molto più lento dell'accesso alla memoria, in modo da ridurre al minimo l'HDFS in lettura e scrittura il più possibile.

Tenendo presenti queste informazioni di base, puoi affrontare la creazione di join con Hive. Fortunatamente, la comunità di sviluppo di Hive era realistica e capiva che gli utenti avrebbero voluto e avrebbero dovuto unirsi alle tabelle con HiveQL. Questa conoscenza diventa particolarmente importante con l'aumento di EDW. Casi d'uso come gli archivi "interrogabili" richiedono spesso join per l'analisi dei dati.

Ecco un esempio di join Hive che utilizza le tabelle di dati di volo. L'elenco mostra come creare e visualizzare una tabella myflightinfo2007 e una tabella myflightinfo2008 dalle tabelle FlightInfo2007 e FlightInfo2008 più grandi. Il piano da sempre era quello di utilizzare il CTAS creato myflightinfo2007 e myflightinfo2008 tabelle per illustrare come è possibile eseguire join in Hive.

La figura mostra il risultato di un join interno con le tabelle myflightinfo2007 e myflightinfo2008 che utilizzano il client SQL di SQuirreL.

Hive supporta

equi-joins, un tipo specifico di join che utilizza solo confronti di uguaglianza nel predicato di join. (Su m8 FlightNum = m7 FlightNum è un esempio di equi-join.) Altri comparatori come Less Than (<) non sono supportati. Questa restrizione è solo a causa di limitazioni sul motore MapReduce sottostante. Inoltre, non è possibile utilizzare OR nella clausola ON. La figura illustra l'esempio precedente del join interno e altri due tipi di join Hive. Si noti che è possibile confermare i risultati di un join interno riesaminando i contenuti delle tabelle myflight2007 e myflight2008.

La seguente figura illustra come funziona un raccordo interno utilizzando un diagramma di Venn, nel caso in cui non si abbia familiarità con la tecnica. L'idea di base è che un'unione interna restituisce i record che corrispondono tra due tabelle. Quindi un inner join è uno strumento di analisi perfetto per determinare quali voli sono gli stessi da JFK (New York) a ORD (Chicago) nel luglio del 2007 e luglio del 2008.

Ottimizzare i join Hive è un argomento caldo nella comunità Hive. Per ulteriori informazioni sulle attuali tecniche di ottimizzazione, vedere la pagina Join Optimization sul wiki Hive.

Unendo tabelle con Hive - dummies

Scelta dell'editore

Scattare foto digitali con uno zoom ottico - dummy

Scattare foto digitali con uno zoom ottico - dummy

La fotocamera digitale potrebbe avere uno zoom ottico, che è un Obiettivo zoom attuale vecchio stile (al contrario di uno zoom digitale). Per utilizzare lo zoom ottico della fotocamera digitale per scatti ravvicinati, segui questi passaggi di preparazione delle immagini prima di attivare il pulsante o lo switch di zoom:

La reflex digitale e la sensibilità alla luce - dummy

La reflex digitale e la sensibilità alla luce - dummy

La tua reflex digitale ha un'opzione per determinare la sensibilità del sensore della fotocamera è alla luce. Le fotocamere digitali sono le stesse delle fotocamere a pellicola in quanto la sensibilità alla luce è determinata dalla valutazione ISO. Il vantaggio di una fotocamera digitale è che non è necessario cambiare pellicola per modificare le valutazioni ISO. Quando aumenti ...

Scatti grandangolari con obiettivi standard - manichini

Scatti grandangolari con obiettivi standard - manichini

Fotografia grandangolare con un angolo di campo maggiore rispetto alla lunghezza focale normale o teleobiettivo. A volte si percepiscono le foto come molto espansive. Altre volte, a malapena lo si nota. Dipende tutto dal soggetto e da come si inquadra la scena. Questa figura mostra una scena di terreni agricoli che è stata scattata utilizzando un Sony APS-C ...

Scelta dell'editore

Come usare il meta tag DESCRIPTION - dummies

Come usare il meta tag DESCRIPTION - dummies

I meta tag sono tag HTML speciali che puoi utilizzare per trasportare informazioni, che i browser o altri programmi possono quindi leggere. Quando i motori di ricerca di Internet furono creati per la prima volta, i webmaster includevano i meta tag nelle loro pagine per rendere più facile per i motori di ricerca determinare le pagine. I motori di ricerca hanno utilizzato anche questi meta ...

Come scrivere un grande tag Title Web Marketing - dummies

Come scrivere un grande tag Title Web Marketing - dummies

Scrivere un tag title è fondamentale per il successo del web marketing e coinvolge più che mettere le parole chiave prima. I motori di ricerca mostrano il tag parola chiave nella parte superiore di ciascun elemento nelle pagine dei risultati dei motori di ricerca (SERP). Un tag del titolo ben scritto potrebbe aumentare le probabilità che un cliente in ricerca faccia clic sul tuo annuncio. Se ...

In che modo Yahoo! Cerca negli elenchi di Internet e dei ranghi - dummies

In che modo Yahoo! Cerca negli elenchi di Internet e dei ranghi - dummies

Quando le persone effettuano ricerche sul Web utilizzando Yahoo! , ottengono una combinazione di risultati organici e pagati. Se lavori per una società più grande, potresti provare Yahoo! La ricerca inoltra Pro per ottenere un vantaggio rispetto alla concorrenza e puoi persino registrare il tuo sito con Yahoo! Directory. Yahoo! I risultati di ricerca organica ...

Scelta dell'editore

Di Spotify su ShareMyPlaylists. it Funzionalità del sito - dummies

Di Spotify su ShareMyPlaylists. it Funzionalità del sito - dummies

ShareMyPlaylists (o SMP, in breve) è stato uno dei primi siti di condivisione di playlist Spotify e continua a innovare e offrire nuove funzionalità ai visitatori. Il mantra del sito è "Long Live the Mixtape", e qui troverai tantissime creazioni accuratamente compilate da migliaia di utenti. Dopo aver creato una playlist Spotify piena di ...

Spotify Unlimited - dummies

Spotify Unlimited - dummies

Spotify Unlimited è un modo brillante per ascoltare tutta la musica che vuoi senza limiti. È come una persona speciale che ti compra da mangiare e da bere tutta la sera per non doverti preoccupare del conto. È come essere in grado di dormire nel weekend senza preoccuparsi del lavoro o se ...

I generi di Spotify - dummies

I generi di Spotify - dummies

Che si tratti di hard rock, techno, pop, jazz, industrial, indie pop, folk , classico, heavy metal, valzer o qualsiasi altra cosa ti piaccia, Spotify ha il genere o il tipo di musica coperto. Puoi cercare i generi comuni da Spotify. Sebbene Spotify abbia pubblicato un elenco di quasi 1, 000 generi noti, non tutti saranno in grado di offrire ...