Video: How to install Cloudera QuickStart VM on VMware 2024
Apache Oozie è incluso in tutte le principali distribuzioni Hadoop, incluso Apache Bigtop. Nel tuo cluster Hadoop, installa il server Oozie su un nodo edge, dove eseguirai anche altre applicazioni client rispetto ai dati del cluster, come mostrato.
I nodi Edge sono progettati per essere un gateway per la rete esterna al cluster Hadoop. Ciò li rende ideali per le tecnologie di trasferimento dei dati (Flume, ad esempio), ma anche per le applicazioni client e altre infrastrutture applicative come Oozie. Oozie non ha bisogno di un server dedicato e può facilmente coesistere con altri servizi che sono ideali per i nodi periferici, come Pig e Hive.
Dopo che Oozie è stato distribuito, sei pronto per avviare il server Oozie. L'infrastruttura di Oozie è installata nella directory $ OOZIE_HOME. Da lì, avvia oozie-start. comando sh per avviare il server. (Come ci si potrebbe aspettare, l'arresto del server implica la digitazione di oozie-stop. Sh.) È possibile verificare lo stato della propria istanza Oozie eseguendo il comando
oozie admin -status
Dopo aver distribuito e avviato il server Oozie, è possibile catalogare ed eseguire i vari processi di workflow, coordinatore o raggruppamento. Quando si lavora con i tuoi lavori, Oozie memorizza le definizioni del catalogo, ovvero i dati che descrivono tutti gli oggetti Oozie (flusso di lavoro, coordinatore e processi di raggruppamento), nonché i relativi stati in un database dedicato.
Per impostazione predefinita, Oozie è configurato per utilizzare il database Derby incorporato, ma è possibile utilizzare MySQL, Oracle o PostgreSQL, se necessario.
Hai quattro opzioni per interagire con il server Oozie:
-
Java API: Questa opzione è utile in situazioni in cui hai il tuo codice di pianificazione in applicazioni Java e devi controllare l'esecuzione del tuo Flussi di lavoro, coordinatori o pacchetti Oozie dall'interno dell'applicazione.
-
L'API REST: Anche in questo caso, questa opzione funziona bene in quei casi in cui si desidera utilizzare il proprio codice di pianificazione come base dei flussi di lavoro, coordinatori o bundle Oozie o se si vuoi costruire la tua interfaccia o estenderne una esistente per amministrare il server Oozie.
-
Command Line Interface (CLI): È la tradizionale interfaccia a riga di comando di Linux per Oozie.
-
The Oozie Console Web: Ok, forse non puoi fare molto interagire qui, ma la Oozie Web Console ti offre una vista (di sola lettura) dello stato del server Oozie, che è utile per monitorare i tuoi lavori Oozie.
Hue, un'interfaccia di amministrazione Hadoop, fornisce un altro strumento per lavorare con Oozie.Flussi di lavoro, coordinatori e bundle di Oozie sono tutti definiti utilizzando XML, che può essere noioso da modificare, soprattutto per le situazioni complesse. Hue fornisce uno strumento di progettazione GUI per creare graficamente flussi di lavoro e altri oggetti Oozie.
Sotto le copertine, Oozie include un server Web Tomcat incorporato, che ne gestisce l'input e l'output.