Maiale latino nei programmi Pig Hadoop - manichini

Video: 02 - Apache Pig Tutorial For Beginners With Examples - Pig Latin Commands 2025

Pig Latin è la lingua per i programmi Pig. Pig traduce lo script Pig Latin in lavori MapReduce che può essere eseguito all'interno del cluster Hadoop. Quando è arrivato con Pig Latin, il team di sviluppo ha seguito tre principi chiave di progettazione:

Mantieni la semplicità . Pig Latin fornisce un metodo semplificato per interagire con Java MapReduce. In altre parole, è un'astrazione che semplifica la creazione di programmi paralleli sul cluster Hadoop per flussi di dati e analisi. Compiti complessi possono richiedere una serie di trasformazioni di dati intercorrelate - tali serie sono codificate come sequenze di flusso di dati.

Scrittura di trasformazione e flussi di dati come script Pig Latin invece di programmi Java MapReduce rende questi programmi più facili da scrivere, capire e gestire perché a) non è necessario scrivere il lavoro in Java, b) non è necessario pensare in termini di MapReduce e c) non è necessario creare un codice personalizzato per supportare tipi di dati ricchi.

Pig Latin fornisce un linguaggio più semplice per sfruttare il cluster Hadoop, rendendo così più facile per un maggior numero di persone sfruttare il potere di Hadoop e diventare presto produttivo.
Rendilo intelligente. Si può ricordare che il Pig Latin Compiler fa il lavoro di trasformare un programma Pig Latin in una serie di lavori Java MapReduce. Il trucco consiste nell'assicurarsi che il compilatore possa ottimizzare automaticamente l'esecuzione di questi lavori Java MapReduce, consentendo all'utente di concentrarsi sulla semantica piuttosto che su come ottimizzare e accedere ai dati.

Per voi tipi SQL là fuori, questa discussione sembrerà familiare. SQL è impostato come query dichiarativa che si utilizza per accedere ai dati strutturati memorizzati in un RDBMS. Il motore RDBMS converte innanzitutto la query in un metodo di accesso ai dati, quindi esamina le statistiche e genera una serie di approcci di accesso ai dati. L'ottimizzatore basato sui costi sceglie l'approccio più efficiente per l'esecuzione.
Non limitare lo sviluppo. Make Pig estensibile in modo che gli sviluppatori possano aggiungere funzioni per affrontare i loro particolari problemi di business.

I data warehouse RDBMS tradizionali utilizzano il pattern di elaborazione dei dati ETL, dove e xtract dati da fonti esterne, t si adattano per soddisfare le esigenze operative e quindi > l portarlo nella destinazione finale, che si tratti di un archivio dati operativo, un data warehouse o un'altra variante del database. Tuttavia, con i big data, in genere si desidera ridurre la quantità di dati che si stanno spostando, quindi si finisce per portare l'elaborazione ai dati stessi.

La lingua per i flussi di dati Pig, quindi, accetta il vecchio approccio ETL e utilizza invece ELT:

E xtratta i dati dalle varie fonti, l oad in HDFS, quindi t ransformarlo se necessario per preparare i dati per ulteriori analisi.