Video: Ecosistema Hadoop 2025
Hadoop è più di MapReduce e HDFS (Hadoop Distributed File System): è anche una famiglia di progetti correlati (un ecosistema, davvero) per l'informatica distribuita e su larga scala elaborazione dati. La maggior parte (ma non tutti) di questi progetti sono ospitati da Apache Software Foundation. La tabella elenca alcuni di questi progetti.
Nome progetto | Descrizione |
---|---|
Ambari | Un set integrato di strumenti di amministrazione Hadoop per
installazione, monitoraggio e mantenimento di un cluster Hadoop. Inoltre inclusi sono strumenti per aggiungere o rimuovere i nodi slave. |
Avro | Un framework per la serializzazione efficiente (una sorta di trasformazione) di dati in un formato binario compatto |
Flume | Un servizio di flusso di dati per lo spostamento di grandi volumi di log > dati in Hadoop
HBase |
Un database colonnare distribuito che utilizza HDFS per la sua memoria sottostante | . Con HBase, è possibile memorizzare i dati in estremamente
tabelle di grandi dimensioni con strutture a colonne variabili. HCatalog |
Un servizio per fornire una visualizzazione relazionale dei dati memorizzati in | Hadoop, incluso un approccio standard per i dati tabulari
Hive |
Un data warehouse distribuito per i dati memorizzati in HDFS; | fornisce anche un linguaggio di query basato su SQL
(HiveQL) Hue |
Un'interfaccia di amministrazione Hadoop con strumenti GUI utili per | sfogliare i file, emettere query Hive e Pig e sviluppare Oozie < workflow
Mahout Una libreria di algoritmi statistici di machine learning che erano |
implementati in MapReduce e possono essere eseguiti in modo nativo su Hadoop | Oozie
Uno strumento di gestione del flusso di lavoro in grado di gestire la pianificazione e > concatenamento di applicazioni Hadoop |
Pig | Una piattaforma per l'analisi di set di dati molto grandi che esegue
su HDFS e con un livello infrastruttura costituito da un compilatore |
che produce sequenze di programmi MapReduce e un livello linguistico | composto dal linguaggio di query Pig Latin
Sqoop Uno strumento per lo spostamento efficiente di grandi quantità di dati tra database relazionali e HDFS |
ZooKeeper | Una semplice interfaccia per il centralizzato coordinamento dei servizi
(come denominazione, configurazione e sincronizzazione) noi edito da |
applicazioni distribuite |
L'ecosistema Hadoop e le sue distribuzioni commerciali continuano ad evolversi, con tecnologie o strumenti nuovi o migliorati che emergono continuamente. La figura mostra i vari progetti dell'ecosistema Hadoop e il loro rapporto reciproco: |
