Video: The Story of Stuff 2025
I flussi di lavoro di Oozie sono, al loro centro, grafici diretti, in cui è possibile definire azioni (applicazioni Hadoop) e flusso di dati, ma senza looping, il che significa che si può t definire una struttura in cui eseguire ripetutamente un'operazione specifica fino a quando non viene soddisfatta una condizione (un ciclo for, ad esempio).
I flussi di lavoro di Oozie sono abbastanza flessibili in quanto è possibile definire decisioni basate sulla condizione e percorsi biforcati per l'esecuzione parallela. Puoi anche eseguire una vasta gamma di azioni.
In questa figura, viene visualizzato un flusso di lavoro che mostra le funzionalità di base dei flussi di lavoro di Oozie. Innanzitutto, viene eseguito uno script Pig e immediatamente seguito da un albero decisionale. A seconda dello stato dell'output, il flusso di controllo può passare direttamente a un'operazione di file HDFS (Hadoop Distributed File System) (ad esempio, un'operazione copyToLocal) oa un'azione fork.
Se il flusso di controllo passa all'azione fork, vengono eseguiti contemporaneamente due lavori: un lavoro MapReduce e una query Hive. Il flusso di controllo passa quindi all'operazione HDFS una volta che il lavoro MapReduce e la query Hive sono terminati. Dopo l'operazione HDFS, il flusso di lavoro è completo.
Le definizioni del flusso di lavoro Oozie sono scritte in XML, in base allo schema Hadoop Process Definition Language (hPDL). Questo particolare schema è, a sua volta, basato sullo schema XML Process Definition Language (XPDL), che è uno standard indipendente dal prodotto per la modellazione delle definizioni dei processi di business.
Un flusso di lavoro Oozie è composto da una serie di azioni, che sono codificate da nodi XML. Esistono diversi tipi di nodi, che rappresentano diversi tipi di azioni o direttive di controllo del flusso. Ogni flusso di lavoro Oozie ha il proprio file XML, in cui sono definiti ogni nodo e le sue interconnessioni.
Tutti i nodi del flusso di lavoro richiedono identificatori univoci perché vengono utilizzati per identificare il nodo successivo da elaborare nel flusso di lavoro. Ciò significa che l'ordine in cui vengono eseguite le azioni dipende da dove viene visualizzato il nodo di un'azione nel flusso di lavoro XML. Per vedere come apparirà questo concetto, controlla il seguente elenco, che mostra un esempio della struttura di base del file XML di un flusso di lavoro di Oozie.
… … "Lavoro eliminato".
In questo esempio, a parte i nodi di inizio, fine e uccisione, si hanno due nodi azione. Ogni nodo azione rappresenta un'applicazione o un comando in esecuzione.
