Modalità locali e distribuite di script in esecuzione su Hadoop - dummies

Video: Create and Execute MapReduce in Eclipse 2025

Prima di poter eseguire il tuo primo script Pig in Hadoop, devi sapere come i programmi Pig possono essere impacchettati con il server Pig.

Pig ha due modalità per eseguire gli script:

Modalità locale: Tutti gli script vengono eseguiti su una singola macchina senza richiedere Hadoop MapReduce e HDFS. Questo può essere utile per lo sviluppo e il test della logica Pig. Se si sta utilizzando un piccolo insieme di dati per lo sviluppatore o per testare il proprio codice, la modalità locale potrebbe essere più veloce rispetto all'infrastruttura MapReduce.

La modalità locale non richiede Hadoop. Quando si esegue in modalità Locale, il programma Pig viene eseguito nel contesto di una Java Virtual Machine locale e l'accesso ai dati avviene tramite il file system locale di una singola macchina. La modalità locale è in realtà una simulazione locale di MapReduce nella classe LocalJobRunner di Hadoop.
Modalità MapReduce (nota anche come modalità Hadoop): Pig viene eseguito sul cluster Hadoop. In questo caso, Pig Script viene convertito in una serie di lavori MapReduce che vengono quindi eseguiti sul cluster Hadoop.

Se si dispone di un terabyte di dati su cui si desidera eseguire operazioni e si desidera sviluppare in modo interattivo un programma, è possibile che le cose rallentino notevolmente e si possa iniziare a espandere lo spazio di archiviazione. La modalità locale ti consente di lavorare con un sottoinsieme dei tuoi dati in modo più interattivo in modo da poter capire la logica (e risolvere i bug) del tuo programma Pig.

Dopo aver impostato le impostazioni come desiderato e le operazioni sono senza intoppi, è possibile eseguire lo script sul set di dati completo utilizzando la modalità MapReduce.