Log Analisi dei dati con Hadoop - dummies

L'analisi dei registri è un caso comune per un progetto inaugurale di Hadoop. Infatti, i primi usi di Hadoop erano per l'analisi su larga scala dei log clickstream - registri che registrano dati sulle pagine Web visitate dalle persone e in quale ordine vengono visitati.

Tutti i registri di dati generati dalla propria infrastruttura IT vengono spesso indicati come scarico dati. Un log è un sottoprodotto di un server funzionante, proprio come il fumo proveniente da un tubo di scarico del motore funzionante. Lo scarico dei dati ha la connotazione di inquinamento o spreco e molte aziende si avvicinano senza dubbio a questo tipo di dati con questo pensiero in mente.

I dati di registro spesso crescono rapidamente e, a causa degli alti volumi prodotti, può essere noioso da analizzare. E il valore potenziale di questi dati è spesso poco chiaro. Quindi la tentazione nei reparti IT è quella di archiviare questi dati di registro per il minor tempo ragionevolmente possibile. (Dopotutto, costa denaro conservare i dati, e se non c'è alcun valore aziendale percepito, perché memorizzarlo?)

Ma Hadoop cambia la matematica: il costo di memorizzazione dei dati è relativamente poco costoso, e Hadoop è stato originariamente sviluppato appositamente per elaborazione in batch su larga scala di dati di registro.

Il caso d'uso dell'analisi dei dati del registro è un punto utile per iniziare il tuo viaggio Hadoop perché è probabile che i dati con cui lavori vengano eliminati o "cadano sul pavimento". "Alcune aziende che registrano costantemente un terabyte (TB) o più di attività web del cliente a settimana scartano i dati senza analisi (il che ti fa chiedere perché si sono presi la briga di raccoglierli).

Per iniziare rapidamente, i dati in questo caso d'uso sono facili da ottenere e generalmente non comprendono gli stessi problemi che si incontrano se si avvia il viaggio Hadoop con altri dati (governati).

Quando gli analisti del settore discutono dei volumi in rapida crescita di dati esistenti (4. 1 exabyte dal 2014 - oltre 4 milioni di dischi rigidi da 1TB), i dati di registro rappresentano gran parte di questa crescita. E non c'è da stupirsi: quasi tutti gli aspetti della vita si traducono ora nella generazione di dati. Uno smartphone può generare centinaia di voci di registro al giorno per un utente attivo, monitorando non solo la voce, il testo e il trasferimento dei dati, ma anche i dati di geolocalizzazione.

La maggior parte delle famiglie dispone ora di contatori intelligenti che registrano il loro consumo di elettricità. Le auto più recenti hanno migliaia di sensori che registrano aspetti delle loro condizioni e utilizzo. Ogni movimento del mouse e del mouse che fai mentre navighi su Internet genera una cascata di voci di log.

Ogni volta che acquisti qualcosa, anche senza utilizzare una carta di credito o una carta di debito, i sistemi registrano l'attività nei database e nei registri.È possibile visualizzare alcune delle fonti più comuni di dati di registro: server IT, flussi di clic Web, sensori e sistemi di transazione.

Ogni settore (così come tutti i tipi di log appena descritti) ha l'enorme potenziale di analisi preziose, specialmente quando è possibile concentrarsi su un tipo specifico di attività e quindi correlare i risultati con un altro set di dati per fornire un contesto.

Ad esempio, considera questa tipica esperienza di navigazione e acquisto basata sul Web:

Naviga nel sito cercando gli oggetti da acquistare.
Fai clic per leggere le descrizioni di un prodotto che attira l'attenzione.
Alla fine, aggiungi un articolo al tuo carrello e vai alla cassa (l'azione di acquisto).

Dopo aver visto il costo della spedizione, tuttavia, si decide che l'articolo non vale il prezzo e si chiude la finestra del browser. Ogni clic che hai fatto - e poi smesso di fare - ha il potenziale di offrire informazioni preziose alla società dietro questo sito di e-commerce.

In questo esempio, supponiamo che questa azienda raccolga i dati clickstream (dati su ogni clic del mouse e visualizzazione della pagina che un visitatore "tocca") con l'obiettivo di capire come servire meglio i propri clienti. Una sfida comune tra le aziende di e-commerce è riconoscere i fattori chiave dietro i carrelli degli acquisti abbandonati. Quando si eseguono analisi più approfondite sui dati del flusso di clic e si esamina il comportamento degli utenti sul sito, i modelli sono destinati ad emergere.

La tua azienda conosce la risposta alla domanda apparentemente semplice, "Alcuni prodotti vengono abbandonati più di altri? "O la risposta alla domanda:" Quante entrate possono essere recuperate se si riduce l'abbandono del carrello del 10 percento? "Di seguito è riportato un esempio del tipo di rapporti che puoi mostrare ai tuoi dirigenti aziendali per cercare il loro investimento nella causa Hadoop.

Per arrivare al punto in cui è possibile generare i dati per creare i grafici visualizzati, si isolano le sessioni di navigazione Web dei singoli utenti (un processo noto come sessione) , identificare il contenuto dei propri carrelli acquisti e quindi stabilire lo stato della transazione alla fine della sessione, il tutto esaminando i dati clickstream.

Di seguito è riportato un esempio di come assemblare le sessioni di navigazione Web degli utenti raggruppando tutti i clic e gli indirizzi URL per indirizzo IP.

In un contesto Hadoop, si lavora sempre con chiavi e valori: ogni fase di MapReduce immette e restituisce i dati in insiemi di chiavi e valori. La chiave è l'indirizzo IP e il valore è costituito dal timestamp e dall'URL. Durante la fase della mappa, le sessioni utente vengono assemblate in parallelo per tutti i blocchi di file del set di dati clickstream che è archiviato nel cluster Hadoop.

La fase mappa restituisce questi elementi:

La pagina finale visitata
Un elenco di elementi nel carrello
Lo stato della transazione per ogni sessione utente (indicizzata dalla chiave dell'indirizzo IP) < Il riduttore raccoglie questi record ed esegue aggregazioni per sommare il numero e il valore dei carrelli abbandonati al mese e per fornire i totali delle pagine finali più comuni che qualcuno ha visualizzato prima di terminare la sessione utente.