Video: Kenneth Cukier: Big data is better data 2024
Innovatori di motori di ricerca come Yahoo! e Google si sono trovati ad affrontare un problema con i dati della palude. Avevano bisogno di trovare un modo per dare un senso alle enormi quantità di dati che i loro motori stavano raccogliendo. Queste società dovevano capire sia le informazioni che stavano raccogliendo, sia il modo in cui potevano monetizzare quei dati per supportare il loro modello di business.
Hadoop è stato sviluppato perché rappresentava il modo più pragmatico per consentire alle aziende di gestire facilmente enormi volumi di dati. Hadoop ha consentito di suddividere i grandi problemi in elementi più piccoli, in modo che l'analisi potesse essere eseguita rapidamente ed economicamente.
Rompendo il problema dei big data in piccoli pezzi che potrebbero essere elaborati in parallelo, è possibile elaborare le informazioni e raggruppare i pezzi piccoli per presentare i risultati.
Hadoop è stato originariamente creato da Yahoo! ingegnere di nome Doug Cutting ed è ora un progetto open source gestito da Apache Software Foundation. È reso disponibile con la licenza Apache v2. 0.
Hadoop è un elemento fondamentale nel nostro desiderio di acquisire ed elaborare i big data. Hadoop è progettato per parallelizzare l'elaborazione dei dati tra i nodi di elaborazione per velocizzare i calcoli e nascondere la latenza. Al suo interno, Hadoop ha due componenti principali:
-
Hadoop Distributed File System: Un cluster di archiviazione dati affidabile, ad ampia larghezza di banda ea basso costo che facilita la gestione dei file correlati tra le macchine.
-
Motore MapReduce: Implementazione di elaborazione dati parallela / distribuita ad alte prestazioni dell'algoritmo MapReduce.
Hadoop è progettato per elaborare enormi quantità di dati strutturati e non strutturati (da terabyte a petabyte) e viene implementato su rack di server commodity come cluster Hadoop. I server possono essere aggiunti o rimossi dal cluster in modo dinamico perché Hadoop è progettato per essere "autoriparante". "In altre parole, Hadoop è in grado di rilevare le modifiche, inclusi i guasti, e di adeguarsi a tali cambiamenti e continuare a funzionare senza interruzioni.