Scripting con Pig Latin in Hadoop - dummies

Video: Pig Tutorial | Apache Pig Script | Hadoop Pig Tutorial | Edureka 2025

Hadoop è un ecosistema ricco e in rapida evoluzione con un crescente numero di nuove applicazioni. Anziché cercare di tenere il passo con tutti i requisiti per le nuove funzionalità, Pig è progettato per essere estendibile tramite funzioni definite dall'utente , note anche come UDF.

Le UDF possono essere scritte in un certo numero di linguaggi di programmazione, inclusi Java, Python e JavaScript. Gli sviluppatori pubblicano e condividono online una raccolta crescente di UDF. (Cerca Piggy Bank e DataFu, per citare solo due esempi di tali raccolte online.) Alcune delle UDF Pig che fanno parte di questi repository sono funzioni LOAD / STORE (XML, ad esempio), funzioni di data e ora, testo, matematica, e funzioni di statistiche.

Pig può anche essere incorporato in linguaggi host come Java, Python e JavaScript, che consente di integrare Pig con le applicazioni esistenti. Aiuta anche a superare i limiti nel linguaggio Pig. Una delle limitazioni più comunemente citate è che Pig non supporta le istruzioni del flusso di controllo: se / else, while loop, for loop e condition statements.

Pig supporta nativamente il flusso di dati, ma deve essere incorporato in un'altra lingua per fornire il flusso di controllo. Ci sono dei compromessi, tuttavia di incorporare il maiale in un linguaggio a flusso di controllo. Ad esempio, se un'istruzione Pig è incorporata in un ciclo, ogni volta che il ciclo esegue iterazioni e esegue l'istruzione Pig, ciò determina l'esecuzione di un lavoro MapReduce separato.