Video: Susan Etlinger: What do we do with all this big data? 2024
La disciplina di apprendimento automatico ha un ricco ed esteso catalogo di tecniche. Mahout offre una gamma di strumenti statistici e algoritmi alla tabella, ma cattura solo una frazione di quelle tecniche e algoritmi, poiché il compito di convertire questi modelli in un framework MapReduce è impegnativo.
Nel corso del tempo, Mahout continuerà a espandere i propri strumenti statistici, ma fino ad allora tutti gli scienziati di dati e gli statistici devono essere a conoscenza del software di modellazione statistica alternativa - che è dove R entra.
Il linguaggio R è un linguaggio statistico e di sviluppo open source potente e popolare. Offre un ricco ecosistema di analisi che può assistere gli scienziati di dati nell'esplorazione dei dati, nella visualizzazione, nell'analisi statistica e nell'elaborazione, nella modellazione, nell'apprendimento automatico e nella simulazione. Il linguaggio R è comunemente usato da statistici, minatori di dati, analisti di dati e (al giorno d'oggi) scienziati di dati.
I programmatori di linguaggio R hanno accesso alle librerie Comprehensive R Archive Network (CRAN) che, al momento della stesura di questo documento, contengono oltre 3000 pacchetti di analisi statistica. Questi componenti aggiuntivi possono essere inseriti in qualsiasi progetto R, fornendo ricchi strumenti analitici per l'esecuzione di classificazione, regressione, clustering, modellazione lineare e algoritmi di apprendimento macchina più specializzati.
Il linguaggio è accessibile a coloro che hanno familiarità con i tipi di strutture dati semplici: vettori, scalari, frame di dati (matrici) e simili, comunemente usati dagli statistici e dai programmatori.
Fuori dagli schemi, una delle maggiori insidie nell'usare il linguaggio R è la mancanza di supporto che offre per eseguire attività concorrenti. Gli strumenti di linguaggio statistico come R eccellono nell'analisi rigorosa, ma mancano di scalabilità e supporto nativo per calcoli paralleli.
Questi sistemi non sono distribuibili e non sono stati sviluppati per essere scalabili per il moderno mondo dei petabyte dei big data. Le proposte per superare queste limitazioni devono estendere l'ambito di R oltre il caricamento in-memory e gli ambienti di esecuzione di un singolo computer, mantenendo allo stesso tempo il talento di R per algoritmi statistici facilmente dispiegabili.