Casa Finanza personale Come utilizzare Apache Hadoop per Predictive Analytics - dummies

Come utilizzare Apache Hadoop per Predictive Analytics - dummies

Video: BDT 2015 - Alberto Paro - Cos'è il Big Data? Nozioni e tecnologie 2025

Video: BDT 2015 - Alberto Paro - Cos'è il Big Data? Nozioni e tecnologie 2025
Anonim

Apache Hadoop è una piattaforma software gratuita e open source per scrivere ed eseguire applicazioni che elaborano una grande quantità di dati per l'analisi predittiva. Abilita un'elaborazione parallela distribuita di grandi set di dati generati da fonti diverse. Essenzialmente, è un potente strumento per la memorizzazione e l'elaborazione di big data.

Hadoop memorizza qualsiasi tipo di dati, strutturati o non strutturati, da fonti diverse - e quindi li aggrega in qualsiasi modo tu voglia. Hadoop gestisce dati eterogenei utilizzando l'elaborazione parallela distribuita, il che lo rende un framework molto efficiente da utilizzare nel software di analisi che si occupa di big data. Nessuna meraviglia che alcune grandi aziende adottino Hadoop, tra cui Facebook, Yahoo!, Google, IBM, Twitter e LinkedIn.

Prima di Hadoop, le aziende non erano in grado di sfruttare i big data, che non erano analizzati e quasi inutilizzabili. Il costo per archiviare tali dati in un database relazionale proprietario e creare un formato strutturato attorno ad esso non giustificava i benefici dell'analisi di tali dati e del loro utilizzo.

Hadoop, d'altra parte, sta rendendo questa attività senza problemi - ad una frazione del costo - consentendo alle aziende di trovare preziose informazioni sugli abbondanti dati che hanno acquisito e stanno accumulando.

Il potere di Hadoop sta nella gestione di diversi tipi - di fatto, di qualsiasi tipo - di dati: testo, parlato, e-mail, foto, post, tweet, il nome. Hadoop si occupa di aggregare questi dati, in tutta la sua varietà, e ti offre la possibilità di interrogare tutti i dati a tuo piacimento.

Non è necessario creare uno schema prima di poter dare un senso ai propri dati; Hadoop ti permette di interrogare quei dati nel loro formato originale.

Oltre a gestire grandi quantità di dati vari, Hadoop è tollerante ai guasti, utilizzando semplici programmi che gestiscono la pianificazione dell'elaborazione distribuita su più macchine. Questi programmi sono in grado di rilevare errori hardware e deviare un'attività su un'altra macchina in esecuzione. Questa soluzione consente a Hadoop di garantire un'elevata disponibilità, indipendentemente dall'errore hardware.

Hadoop utilizza due componenti principali (sottoprogetti) per eseguire il proprio lavoro: MapReduce e Hadoop Distributed File System. I due componenti funzionano in cooperazione:

  • MapReduce : L'implementazione di Hadoop di MapReduce si basa sulla ricerca di Google sui modelli di programmazione per elaborare grandi set di dati dividendoli in piccoli blocchi di attività. MapReduce utilizza algoritmi distribuiti, su un gruppo di computer in un cluster, per elaborare set di dati di grandi dimensioni.Comprende due funzioni:

    • La Mappa () funzione che risiede sul nodo master (computer in rete). Divide la query o l'attività di input in attività secondarie più piccole, che distribuisce quindi a nodi di lavoro che elaborano le attività più piccole e passano le risposte al nodo master. Le attività secondarie vengono eseguite in parallelo su più computer.

    • La funzione Riduci () raccoglie i risultati di tutte le attività secondarie e le combina per produrre un risultato finale aggregato, che restituisce come risposta alla query principale originale.

  • Hadoop Distributed File System (HDFS) : HDFS replica i blocchi di dati che risiedono su altri computer nel data center (per garantire l'affidabilità) e gestisce il trasferimento dei dati alle varie parti del sistema distribuito.

Prendi in considerazione un database di due miliardi di persone e supponi di voler calcolare il numero di amici sociali del signor X e organizzarli in base alle loro posizioni geografiche. È un compito arduo.

I dati per due miliardi di persone potrebbero provenire da fonti molto diverse come social network, elenchi di indirizzi di posta elettronica, post, tweet, cronologie di navigazione - e questo è solo per gli opener. Hadoop è in grado di aggregare questa massa enorme e diversificata di dati in modo che tu possa indagare con una semplice query.

Utilizzerai le funzionalità di programmazione MapReduce per risolvere questa query. La definizione delle procedure Mappa e Riduci rende gestibile anche questo grande set di dati. Utilizzando gli strumenti offerti dal framework Hadoop, crei un'implementazione MapReduce che eseguirà il calcolo come due sub-attività:

  • Calcola il numero medio di amici social di Mr. X.

  • Disegna gli amici di Mr. X in base alla posizione geografica.

Il tuo programma di implementazione MapReduce eseguirà queste sottoattività in parallelo, gestirà la comunicazione tra le sottoattività e assemblerà i risultati. Su due miliardi di persone, sapresti chi sono gli amici online del signor X.

Hadoop fornisce una gamma di processori di mappe; quale / i seleziona / i dipenderà dalla tua infrastruttura.

Ciascuno dei processori gestirà un certo numero di record. Supponiamo che ogni processore gestisca un milione di record di dati. Ogni processore esegue una procedura Mappa che produce più record di coppie chiave-valore dove G (chiave) è la posizione geografica una persona (paese) e N (valore) è il numero di contatti che la persona ha

Supponiamo che ogni processore della mappa produca molte coppie di moduli, come ad esempio:

Mappa processore # 1:

Mappa processore # 2:

Mappa processore # 3:

Mappa processore # 4:

Mappa processore # 5:

Mappa processore # 6:

Nella fase Riduci, Hadoop assegna un'attività a un certo numero di processori: Esegui la procedura Riduci che aggrega i valori delle stesse chiavi per produrre un risultato finale. Per questo esempio, l'implementazione Riduci riassume il conteggio dei valori per ciascuna chiave: posizione geografica. Quindi, dopo la fase Map, la fase Reduce produce quanto segue:

------ ----

Chiaramente, Mr.X è un ragazzo popolare - ma questo era un esempio molto semplice di come MapReduce può essere usato. Immagina di avere a che fare con un set di dati di grandi dimensioni in cui desideri eseguire operazioni complesse come il raggruppamento di miliardi di documenti in cui l'operazione ei dati sono troppo grandi per essere gestiti da una singola macchina. Hadoop è lo strumento da considerare.

Come utilizzare Apache Hadoop per Predictive Analytics - dummies

Scelta dell'editore

Il programma in cinque passaggi per superare la menopausa - dummy

Il programma in cinque passaggi per superare la menopausa - dummy

Alcune donne capiscono a malapena che la menopausa è loro. Altre donne, tuttavia, sono meno fortunate. Se sei uno di questi, prendi in mano questi pochi modi per rendere la tua esperienza più facile per te stesso: capisci e accetta che stai attraversando una transizione naturale, proprio come la pubertà. Fortunatamente, sei più vecchio e più saggio di te ...

Menopausa For Dummies Cheat Sheet (edizione UK) - dummies

Menopausa For Dummies Cheat Sheet (edizione UK) - dummies

Menopausa segna la fine della fase riproduttiva della tua vita e così è un momento significativo di cambiamento fisico, emotivo e mentale per molte donne ma, per generazioni, donne di tutte le età hanno vagato alla cieca in menopausa senza sapere cosa aspettarsi. Qui puoi scoprire alcune delle nozioni di base.

Perimenopausa: facilitare la transizione dalle mestruazioni alla menopausa - manichini

Perimenopausa: facilitare la transizione dalle mestruazioni alla menopausa - manichini

Mestruazioni e menopausa sono ben noti biologici pietre miliari nella vita di una femmina. Contrariamente al pensiero popolare, la menopausa non è il periodo di mesi o anni in cui una donna sta "attraversando il cambiamento". "Questo lasso di tempo è chiamato perimenopausa. La menopausa è una data effettiva nel tempo. In particolare, è il 12 ° anniversario dell'ultimo ciclo mestruale di una donna. ...

Scelta dell'editore

Come utilizzare il filtro automatico personalizzato su una tabella di Excel - dummies

Come utilizzare il filtro automatico personalizzato su una tabella di Excel - dummies

È Possibile creare un filtro automatico personalizzato . Per fare ciò, seleziona il comando Filtro testo dal menu della tabella e scegli una delle opzioni di filtro del testo. Indipendentemente dall'opzione di filtro del testo selezionata, Excel visualizza la finestra di dialogo Filtro automatico personalizzato. Questa finestra di dialogo consente di specificare con estrema precisione quali record si desidera ...

Come utilizzare la funzione DPRODUCT in un database Excel - dummies

Come utilizzare la funzione DPRODUCT in un database Excel - dummies

DPRODUCT moltiplica i valori che corrispondono al criterio in un database Excel. Questo è potente ma anche in grado di produrre risultati che non sono l'intenzione. In altre parole, è una cosa da aggiungere e ricavare una somma. Questa è un'operazione comune su un set di dati. Osservando la seguente figura, è possibile ...

Come utilizzare la funzione DPRODUCT in Excel - dummy

Come utilizzare la funzione DPRODUCT in Excel - dummy

La funzione DPRODUCT in Excel è strana. La funzione DPRODUCT moltiplica i valori nei campi da un elenco di database in base ai criteri di selezione. Perché vorresti farlo? Chissà. La funzione utilizza la sintassi = DPRODUCT (database, campo, criteri) in cui il database è un riferimento all'intervallo alla tabella di Excel che contiene il valore desiderato ...

Scelta dell'editore

Programmazione con Java: riutilizzo dei nomi nella tua app per Android - dummies

Programmazione con Java: riutilizzo dei nomi nella tua app per Android - dummies

Ci sono un paio di cose a cui vuoi pensare quando riutilizzi i nomi nella tua app per Android. È possibile dichiarare due variabili Java - bag1 e bag2 - per fare riferimento a due diversi oggetti BagOfCheese. Va bene. Ma a volte, avere solo una variabile e riutilizzarla per il secondo oggetto funziona altrettanto bene, ...

Java: Mettere a frutto l'uso della classe - dummies

Java: Mettere a frutto l'uso della classe - dummies

La classe Employee nell'elenco non ha alcun metodo principale , quindi non c'è un punto di partenza per l'esecuzione del codice. Per risolvere questo problema, il programmatore scrive un programma separato con un metodo principale e utilizza tale programma per creare istanze Employee. Questo elenco di codici mostra una classe con un metodo principale - uno che inserisce il ...

Classi wrapper java - dummies

Classi wrapper java - dummies

La differenza tra tipi primitivi e tipi di riferimento è una delle funzionalità più controverse di Java e gli sviluppatori si lamentano spesso sulle differenze tra valori primitivi e valori di riferimento. Ogni tipo primitivo viene cotto nella lingua. Java ha otto tipi primitivi. Ogni tipo di riferimento è una classe o un'interfaccia. È possibile definire il proprio ...