Casa Finanza personale Log Analisi dei dati con Hadoop - dummies

Log Analisi dei dati con Hadoop - dummies

Video: How to Analyse YouTube Data Using MapReduce | MapReduce Use Case | Hadoop Tutorials 2025

Video: How to Analyse YouTube Data Using MapReduce | MapReduce Use Case | Hadoop Tutorials 2025
Anonim

L'analisi dei registri è un caso comune per un progetto inaugurale di Hadoop. Infatti, i primi usi di Hadoop erano per l'analisi su larga scala dei log clickstream - registri che registrano dati sulle pagine Web visitate dalle persone e in quale ordine vengono visitati.

Tutti i registri di dati generati dalla propria infrastruttura IT vengono spesso indicati come scarico dati. Un log è un sottoprodotto di un server funzionante, proprio come il fumo proveniente da un tubo di scarico del motore funzionante. Lo scarico dei dati ha la connotazione di inquinamento o spreco e molte aziende si avvicinano senza dubbio a questo tipo di dati con questo pensiero in mente.

I dati di registro spesso crescono rapidamente e, a causa degli alti volumi prodotti, può essere noioso da analizzare. E il valore potenziale di questi dati è spesso poco chiaro. Quindi la tentazione nei reparti IT è quella di archiviare questi dati di registro per il minor tempo ragionevolmente possibile. (Dopotutto, costa denaro conservare i dati, e se non c'è alcun valore aziendale percepito, perché memorizzarlo?)

Ma Hadoop cambia la matematica: il costo di memorizzazione dei dati è relativamente poco costoso, e Hadoop è stato originariamente sviluppato appositamente per elaborazione in batch su larga scala di dati di registro.

Il caso d'uso dell'analisi dei dati del registro è un punto utile per iniziare il tuo viaggio Hadoop perché è probabile che i dati con cui lavori vengano eliminati o "cadano sul pavimento". "Alcune aziende che registrano costantemente un terabyte (TB) o più di attività web del cliente a settimana scartano i dati senza analisi (il che ti fa chiedere perché si sono presi la briga di raccoglierli).

Per iniziare rapidamente, i dati in questo caso d'uso sono facili da ottenere e generalmente non comprendono gli stessi problemi che si incontrano se si avvia il viaggio Hadoop con altri dati (governati).

Quando gli analisti del settore discutono dei volumi in rapida crescita di dati esistenti (4. 1 exabyte dal 2014 - oltre 4 milioni di dischi rigidi da 1TB), i dati di registro rappresentano gran parte di questa crescita. E non c'è da stupirsi: quasi tutti gli aspetti della vita si traducono ora nella generazione di dati. Uno smartphone può generare centinaia di voci di registro al giorno per un utente attivo, monitorando non solo la voce, il testo e il trasferimento dei dati, ma anche i dati di geolocalizzazione.

La maggior parte delle famiglie dispone ora di contatori intelligenti che registrano il loro consumo di elettricità. Le auto più recenti hanno migliaia di sensori che registrano aspetti delle loro condizioni e utilizzo. Ogni movimento del mouse e del mouse che fai mentre navighi su Internet genera una cascata di voci di log.

Ogni volta che acquisti qualcosa, anche senza utilizzare una carta di credito o una carta di debito, i sistemi registrano l'attività nei database e nei registri.È possibile visualizzare alcune delle fonti più comuni di dati di registro: server IT, flussi di clic Web, sensori e sistemi di transazione.

Ogni settore (così come tutti i tipi di log appena descritti) ha l'enorme potenziale di analisi preziose, specialmente quando è possibile concentrarsi su un tipo specifico di attività e quindi correlare i risultati con un altro set di dati per fornire un contesto.

Ad esempio, considera questa tipica esperienza di navigazione e acquisto basata sul Web:

  1. Naviga nel sito cercando gli oggetti da acquistare.

  2. Fai clic per leggere le descrizioni di un prodotto che attira l'attenzione.

  3. Alla fine, aggiungi un articolo al tuo carrello e vai alla cassa (l'azione di acquisto).

Dopo aver visto il costo della spedizione, tuttavia, si decide che l'articolo non vale il prezzo e si chiude la finestra del browser. Ogni clic che hai fatto - e poi smesso di fare - ha il potenziale di offrire informazioni preziose alla società dietro questo sito di e-commerce.

In questo esempio, supponiamo che questa azienda raccolga i dati clickstream (dati su ogni clic del mouse e visualizzazione della pagina che un visitatore "tocca") con l'obiettivo di capire come servire meglio i propri clienti. Una sfida comune tra le aziende di e-commerce è riconoscere i fattori chiave dietro i carrelli degli acquisti abbandonati. Quando si eseguono analisi più approfondite sui dati del flusso di clic e si esamina il comportamento degli utenti sul sito, i modelli sono destinati ad emergere.

La tua azienda conosce la risposta alla domanda apparentemente semplice, "Alcuni prodotti vengono abbandonati più di altri? "O la risposta alla domanda:" Quante entrate possono essere recuperate se si riduce l'abbandono del carrello del 10 percento? "Di seguito è riportato un esempio del tipo di rapporti che puoi mostrare ai tuoi dirigenti aziendali per cercare il loro investimento nella causa Hadoop.

Per arrivare al punto in cui è possibile generare i dati per creare i grafici visualizzati, si isolano le sessioni di navigazione Web dei singoli utenti (un processo noto come sessione) , identificare il contenuto dei propri carrelli acquisti e quindi stabilire lo stato della transazione alla fine della sessione, il tutto esaminando i dati clickstream.

Di seguito è riportato un esempio di come assemblare le sessioni di navigazione Web degli utenti raggruppando tutti i clic e gli indirizzi URL per indirizzo IP.

In un contesto Hadoop, si lavora sempre con chiavi e valori: ogni fase di MapReduce immette e restituisce i dati in insiemi di chiavi e valori. La chiave è l'indirizzo IP e il valore è costituito dal timestamp e dall'URL. Durante la fase della mappa, le sessioni utente vengono assemblate in parallelo per tutti i blocchi di file del set di dati clickstream che è archiviato nel cluster Hadoop.

La fase mappa restituisce questi elementi:

  • La pagina finale visitata

  • Un elenco di elementi nel carrello

  • Lo stato della transazione per ogni sessione utente (indicizzata dalla chiave dell'indirizzo IP) < Il riduttore raccoglie questi record ed esegue aggregazioni per sommare il numero e il valore dei carrelli abbandonati al mese e per fornire i totali delle pagine finali più comuni che qualcuno ha visualizzato prima di terminare la sessione utente.

Log Analisi dei dati con Hadoop - dummies

Scelta dell'editore

Il programma in cinque passaggi per superare la menopausa - dummy

Il programma in cinque passaggi per superare la menopausa - dummy

Alcune donne capiscono a malapena che la menopausa è loro. Altre donne, tuttavia, sono meno fortunate. Se sei uno di questi, prendi in mano questi pochi modi per rendere la tua esperienza più facile per te stesso: capisci e accetta che stai attraversando una transizione naturale, proprio come la pubertà. Fortunatamente, sei più vecchio e più saggio di te ...

Menopausa For Dummies Cheat Sheet (edizione UK) - dummies

Menopausa For Dummies Cheat Sheet (edizione UK) - dummies

Menopausa segna la fine della fase riproduttiva della tua vita e così è un momento significativo di cambiamento fisico, emotivo e mentale per molte donne ma, per generazioni, donne di tutte le età hanno vagato alla cieca in menopausa senza sapere cosa aspettarsi. Qui puoi scoprire alcune delle nozioni di base.

Perimenopausa: facilitare la transizione dalle mestruazioni alla menopausa - manichini

Perimenopausa: facilitare la transizione dalle mestruazioni alla menopausa - manichini

Mestruazioni e menopausa sono ben noti biologici pietre miliari nella vita di una femmina. Contrariamente al pensiero popolare, la menopausa non è il periodo di mesi o anni in cui una donna sta "attraversando il cambiamento". "Questo lasso di tempo è chiamato perimenopausa. La menopausa è una data effettiva nel tempo. In particolare, è il 12 ° anniversario dell'ultimo ciclo mestruale di una donna. ...

Scelta dell'editore

Come utilizzare il filtro automatico personalizzato su una tabella di Excel - dummies

Come utilizzare il filtro automatico personalizzato su una tabella di Excel - dummies

È Possibile creare un filtro automatico personalizzato . Per fare ciò, seleziona il comando Filtro testo dal menu della tabella e scegli una delle opzioni di filtro del testo. Indipendentemente dall'opzione di filtro del testo selezionata, Excel visualizza la finestra di dialogo Filtro automatico personalizzato. Questa finestra di dialogo consente di specificare con estrema precisione quali record si desidera ...

Come utilizzare la funzione DPRODUCT in un database Excel - dummies

Come utilizzare la funzione DPRODUCT in un database Excel - dummies

DPRODUCT moltiplica i valori che corrispondono al criterio in un database Excel. Questo è potente ma anche in grado di produrre risultati che non sono l'intenzione. In altre parole, è una cosa da aggiungere e ricavare una somma. Questa è un'operazione comune su un set di dati. Osservando la seguente figura, è possibile ...

Come utilizzare la funzione DPRODUCT in Excel - dummy

Come utilizzare la funzione DPRODUCT in Excel - dummy

La funzione DPRODUCT in Excel è strana. La funzione DPRODUCT moltiplica i valori nei campi da un elenco di database in base ai criteri di selezione. Perché vorresti farlo? Chissà. La funzione utilizza la sintassi = DPRODUCT (database, campo, criteri) in cui il database è un riferimento all'intervallo alla tabella di Excel che contiene il valore desiderato ...

Scelta dell'editore

Programmazione con Java: riutilizzo dei nomi nella tua app per Android - dummies

Programmazione con Java: riutilizzo dei nomi nella tua app per Android - dummies

Ci sono un paio di cose a cui vuoi pensare quando riutilizzi i nomi nella tua app per Android. È possibile dichiarare due variabili Java - bag1 e bag2 - per fare riferimento a due diversi oggetti BagOfCheese. Va bene. Ma a volte, avere solo una variabile e riutilizzarla per il secondo oggetto funziona altrettanto bene, ...

Java: Mettere a frutto l'uso della classe - dummies

Java: Mettere a frutto l'uso della classe - dummies

La classe Employee nell'elenco non ha alcun metodo principale , quindi non c'è un punto di partenza per l'esecuzione del codice. Per risolvere questo problema, il programmatore scrive un programma separato con un metodo principale e utilizza tale programma per creare istanze Employee. Questo elenco di codici mostra una classe con un metodo principale - uno che inserisce il ...

Classi wrapper java - dummies

Classi wrapper java - dummies

La differenza tra tipi primitivi e tipi di riferimento è una delle funzionalità più controverse di Java e gli sviluppatori si lamentano spesso sulle differenze tra valori primitivi e valori di riferimento. Ogni tipo primitivo viene cotto nella lingua. Java ha otto tipi primitivi. Ogni tipo di riferimento è una classe o un'interfaccia. È possibile definire il proprio ...