Casa Finanza personale Come utilizzare Apache Hadoop per Predictive Analytics - dummies

Come utilizzare Apache Hadoop per Predictive Analytics - dummies

Video: BDT 2015 - Alberto Paro - Cos'è il Big Data? Nozioni e tecnologie 2025

Video: BDT 2015 - Alberto Paro - Cos'è il Big Data? Nozioni e tecnologie 2025
Anonim

Apache Hadoop è una piattaforma software gratuita e open source per scrivere ed eseguire applicazioni che elaborano una grande quantità di dati per l'analisi predittiva. Abilita un'elaborazione parallela distribuita di grandi set di dati generati da fonti diverse. Essenzialmente, è un potente strumento per la memorizzazione e l'elaborazione di big data.

Hadoop memorizza qualsiasi tipo di dati, strutturati o non strutturati, da fonti diverse - e quindi li aggrega in qualsiasi modo tu voglia. Hadoop gestisce dati eterogenei utilizzando l'elaborazione parallela distribuita, il che lo rende un framework molto efficiente da utilizzare nel software di analisi che si occupa di big data. Nessuna meraviglia che alcune grandi aziende adottino Hadoop, tra cui Facebook, Yahoo!, Google, IBM, Twitter e LinkedIn.

Prima di Hadoop, le aziende non erano in grado di sfruttare i big data, che non erano analizzati e quasi inutilizzabili. Il costo per archiviare tali dati in un database relazionale proprietario e creare un formato strutturato attorno ad esso non giustificava i benefici dell'analisi di tali dati e del loro utilizzo.

Hadoop, d'altra parte, sta rendendo questa attività senza problemi - ad una frazione del costo - consentendo alle aziende di trovare preziose informazioni sugli abbondanti dati che hanno acquisito e stanno accumulando.

Il potere di Hadoop sta nella gestione di diversi tipi - di fatto, di qualsiasi tipo - di dati: testo, parlato, e-mail, foto, post, tweet, il nome. Hadoop si occupa di aggregare questi dati, in tutta la sua varietà, e ti offre la possibilità di interrogare tutti i dati a tuo piacimento.

Non è necessario creare uno schema prima di poter dare un senso ai propri dati; Hadoop ti permette di interrogare quei dati nel loro formato originale.

Oltre a gestire grandi quantità di dati vari, Hadoop è tollerante ai guasti, utilizzando semplici programmi che gestiscono la pianificazione dell'elaborazione distribuita su più macchine. Questi programmi sono in grado di rilevare errori hardware e deviare un'attività su un'altra macchina in esecuzione. Questa soluzione consente a Hadoop di garantire un'elevata disponibilità, indipendentemente dall'errore hardware.

Hadoop utilizza due componenti principali (sottoprogetti) per eseguire il proprio lavoro: MapReduce e Hadoop Distributed File System. I due componenti funzionano in cooperazione:

  • MapReduce : L'implementazione di Hadoop di MapReduce si basa sulla ricerca di Google sui modelli di programmazione per elaborare grandi set di dati dividendoli in piccoli blocchi di attività. MapReduce utilizza algoritmi distribuiti, su un gruppo di computer in un cluster, per elaborare set di dati di grandi dimensioni.Comprende due funzioni:

    • La Mappa () funzione che risiede sul nodo master (computer in rete). Divide la query o l'attività di input in attività secondarie più piccole, che distribuisce quindi a nodi di lavoro che elaborano le attività più piccole e passano le risposte al nodo master. Le attività secondarie vengono eseguite in parallelo su più computer.

    • La funzione Riduci () raccoglie i risultati di tutte le attività secondarie e le combina per produrre un risultato finale aggregato, che restituisce come risposta alla query principale originale.

  • Hadoop Distributed File System (HDFS) : HDFS replica i blocchi di dati che risiedono su altri computer nel data center (per garantire l'affidabilità) e gestisce il trasferimento dei dati alle varie parti del sistema distribuito.

Prendi in considerazione un database di due miliardi di persone e supponi di voler calcolare il numero di amici sociali del signor X e organizzarli in base alle loro posizioni geografiche. È un compito arduo.

I dati per due miliardi di persone potrebbero provenire da fonti molto diverse come social network, elenchi di indirizzi di posta elettronica, post, tweet, cronologie di navigazione - e questo è solo per gli opener. Hadoop è in grado di aggregare questa massa enorme e diversificata di dati in modo che tu possa indagare con una semplice query.

Utilizzerai le funzionalità di programmazione MapReduce per risolvere questa query. La definizione delle procedure Mappa e Riduci rende gestibile anche questo grande set di dati. Utilizzando gli strumenti offerti dal framework Hadoop, crei un'implementazione MapReduce che eseguirà il calcolo come due sub-attività:

  • Calcola il numero medio di amici social di Mr. X.

  • Disegna gli amici di Mr. X in base alla posizione geografica.

Il tuo programma di implementazione MapReduce eseguirà queste sottoattività in parallelo, gestirà la comunicazione tra le sottoattività e assemblerà i risultati. Su due miliardi di persone, sapresti chi sono gli amici online del signor X.

Hadoop fornisce una gamma di processori di mappe; quale / i seleziona / i dipenderà dalla tua infrastruttura.

Ciascuno dei processori gestirà un certo numero di record. Supponiamo che ogni processore gestisca un milione di record di dati. Ogni processore esegue una procedura Mappa che produce più record di coppie chiave-valore dove G (chiave) è la posizione geografica una persona (paese) e N (valore) è il numero di contatti che la persona ha

Supponiamo che ogni processore della mappa produca molte coppie di moduli, come ad esempio:

Mappa processore # 1:

Mappa processore # 2:

Mappa processore # 3:

Mappa processore # 4:

Mappa processore # 5:

Mappa processore # 6:

Nella fase Riduci, Hadoop assegna un'attività a un certo numero di processori: Esegui la procedura Riduci che aggrega i valori delle stesse chiavi per produrre un risultato finale. Per questo esempio, l'implementazione Riduci riassume il conteggio dei valori per ciascuna chiave: posizione geografica. Quindi, dopo la fase Map, la fase Reduce produce quanto segue:

------ ----

Chiaramente, Mr.X è un ragazzo popolare - ma questo era un esempio molto semplice di come MapReduce può essere usato. Immagina di avere a che fare con un set di dati di grandi dimensioni in cui desideri eseguire operazioni complesse come il raggruppamento di miliardi di documenti in cui l'operazione ei dati sono troppo grandi per essere gestiti da una singola macchina. Hadoop è lo strumento da considerare.

Come utilizzare Apache Hadoop per Predictive Analytics - dummies

Scelta dell'editore

Soluzioni software per i tuoi bisogni fotografici digitali - manichini

Soluzioni software per i tuoi bisogni fotografici digitali - manichini

Il software fotografico che usi è fondamentale per il tuo successo la camera oscura digitale come l'hardware. La buona notizia è che se le tue esigenze sono basilari - vuoi solo visualizzare e organizzare le tue foto e magari ritagliare un'immagine o due - potresti non dover pagare una monetina per ...

Prendi Great Nature Photographs - dummies

Prendi Great Nature Photographs - dummies

Quando fotografi un posto bellissimo, il tuo obiettivo dovrebbe essere per qualcuno di dire "I vorrei essere lì. "In una fotografia di grande natura, il tuo obiettivo non è quello di inviare l'immagine a qualcuno e dire:" Ero qui. "Quando visiti un bellissimo paesaggio o vedi un fiore colorato o un animale che vuoi ...

Scattare una foto di un soggetto in movimento con la tua fotocamera digitale - dummies

Scattare una foto di un soggetto in movimento con la tua fotocamera digitale - dummies

Probabilmente vorresti scatta foto sulla tua fotocamera digitale di persone o cose che si muovono. Quando scatti foto di soggetti in movimento, utilizza questi trucchi per fermare un oggetto in movimento nelle sue tracce:

Scelta dell'editore

Personalizza le fatture di QuickBooks 2014 con lo Strumento di progettazione layout - dummy

Personalizza le fatture di QuickBooks 2014 con lo Strumento di progettazione layout - dummy

Forse hai utilizzato QuickBooks 2014 di base Finestra di dialogo Personalizzazione per apportare alcune modifiche all'aspetto della fattura e non sono stati soddisfatti. Forse hai fatto il miglio in più e ti sei gingillato con la finestra di dialogo Personalizzazione aggiuntiva per apportare ulteriori modifiche, e forse anche questo non ti ha lasciato felice con l'aspetto della tua fattura. ...

Debito Rapporto di equità in QuickBooks 2012 - dummies

Debito Rapporto di equità in QuickBooks 2012 - dummies

Il rapporto di indebitamento è uno dei rapporti di leva che è possibile utilizzare in QuickBooks 2012. Un indice di equity debt confronta il debito a lungo termine di un'impresa con il patrimonio netto di un azionista o il patrimonio netto del proprietario. In sostanza, il rapporto tra indebitamento e debito esprime il debito a lungo termine dell'impresa come percentuale del capitale proprio del proprietario. L'equity azionario è sinonimo di proprietario ...

Debito Rapporto di equità in QuickBooks 2014 - manichini

Debito Rapporto di equità in QuickBooks 2014 - manichini

Puoi tenere traccia del tuo rapporto di indebitamento in QuickBooks. Un rapporto di indebitamento di debito confronta il debito a lungo termine di un'impresa con il patrimonio netto di un azionista o il patrimonio netto del proprietario. In sostanza, il rapporto tra indebitamento e debito esprime il debito a lungo termine dell'impresa come percentuale del capitale proprio del proprietario. L'equity azionario è sinonimo di equità del proprietario e, nel caso di ...

Scelta dell'editore

Come gestire i consigli di LinkedIn che hai ricevuto - dummies

Come gestire i consigli di LinkedIn che hai ricevuto - dummies

Ogni volta che ricevi una raccomandazione da qualcun altro, vedi un messaggio nella tua casella di posta in arrivo su LinkedIn. Dovrai gestirli per tenere d'occhio ciò che appare sul tuo profilo in un dato momento. Quando ricevi una raccomandazione, hai queste opzioni: Accetta e mostralo sul tuo profilo. Fai clic su ...

Come unire un gruppo LinkedIn - dummies

Come unire un gruppo LinkedIn - dummies

Quando guardi i gruppi di LinkedIn là fuori, uno dei le cose più importanti da tenere a mente è che dovresti unirti solo a quei gruppi che sono rilevanti per te. Anche se potresti pensare che sia divertente entrare in un altro gruppo di associazioni di alunni oltre alla tua alma mater, non ti sarà di grande aiuto nel ...

Come commercializzare il tuo business tramite LinkedIn - dummies

Come commercializzare il tuo business tramite LinkedIn - dummies

LinkedIn può giocare un ruolo significativo nell'efficace marketing di i tuoi affari. Il valore di LinkedIn come strumento di marketing ottiene un sacco di interesse dai dipartimenti finanziari della maggior parte delle aziende, soprattutto perché vedono LinkedIn come un modo libero di commercializzare il business. Anche se non devi pagare nulla in termini di denaro per prendere ...