Casa Finanza personale Log Analisi dei dati con Hadoop - dummies

Log Analisi dei dati con Hadoop - dummies

Video: How to Analyse YouTube Data Using MapReduce | MapReduce Use Case | Hadoop Tutorials 2024

Video: How to Analyse YouTube Data Using MapReduce | MapReduce Use Case | Hadoop Tutorials 2024
Anonim

L'analisi dei registri è un caso comune per un progetto inaugurale di Hadoop. Infatti, i primi usi di Hadoop erano per l'analisi su larga scala dei log clickstream - registri che registrano dati sulle pagine Web visitate dalle persone e in quale ordine vengono visitati.

Tutti i registri di dati generati dalla propria infrastruttura IT vengono spesso indicati come scarico dati. Un log è un sottoprodotto di un server funzionante, proprio come il fumo proveniente da un tubo di scarico del motore funzionante. Lo scarico dei dati ha la connotazione di inquinamento o spreco e molte aziende si avvicinano senza dubbio a questo tipo di dati con questo pensiero in mente.

I dati di registro spesso crescono rapidamente e, a causa degli alti volumi prodotti, può essere noioso da analizzare. E il valore potenziale di questi dati è spesso poco chiaro. Quindi la tentazione nei reparti IT è quella di archiviare questi dati di registro per il minor tempo ragionevolmente possibile. (Dopotutto, costa denaro conservare i dati, e se non c'è alcun valore aziendale percepito, perché memorizzarlo?)

Ma Hadoop cambia la matematica: il costo di memorizzazione dei dati è relativamente poco costoso, e Hadoop è stato originariamente sviluppato appositamente per elaborazione in batch su larga scala di dati di registro.

Il caso d'uso dell'analisi dei dati del registro è un punto utile per iniziare il tuo viaggio Hadoop perché è probabile che i dati con cui lavori vengano eliminati o "cadano sul pavimento". "Alcune aziende che registrano costantemente un terabyte (TB) o più di attività web del cliente a settimana scartano i dati senza analisi (il che ti fa chiedere perché si sono presi la briga di raccoglierli).

Per iniziare rapidamente, i dati in questo caso d'uso sono facili da ottenere e generalmente non comprendono gli stessi problemi che si incontrano se si avvia il viaggio Hadoop con altri dati (governati).

Quando gli analisti del settore discutono dei volumi in rapida crescita di dati esistenti (4. 1 exabyte dal 2014 - oltre 4 milioni di dischi rigidi da 1TB), i dati di registro rappresentano gran parte di questa crescita. E non c'è da stupirsi: quasi tutti gli aspetti della vita si traducono ora nella generazione di dati. Uno smartphone può generare centinaia di voci di registro al giorno per un utente attivo, monitorando non solo la voce, il testo e il trasferimento dei dati, ma anche i dati di geolocalizzazione.

La maggior parte delle famiglie dispone ora di contatori intelligenti che registrano il loro consumo di elettricità. Le auto più recenti hanno migliaia di sensori che registrano aspetti delle loro condizioni e utilizzo. Ogni movimento del mouse e del mouse che fai mentre navighi su Internet genera una cascata di voci di log.

Ogni volta che acquisti qualcosa, anche senza utilizzare una carta di credito o una carta di debito, i sistemi registrano l'attività nei database e nei registri.È possibile visualizzare alcune delle fonti più comuni di dati di registro: server IT, flussi di clic Web, sensori e sistemi di transazione.

Ogni settore (così come tutti i tipi di log appena descritti) ha l'enorme potenziale di analisi preziose, specialmente quando è possibile concentrarsi su un tipo specifico di attività e quindi correlare i risultati con un altro set di dati per fornire un contesto.

Ad esempio, considera questa tipica esperienza di navigazione e acquisto basata sul Web:

  1. Naviga nel sito cercando gli oggetti da acquistare.

  2. Fai clic per leggere le descrizioni di un prodotto che attira l'attenzione.

  3. Alla fine, aggiungi un articolo al tuo carrello e vai alla cassa (l'azione di acquisto).

Dopo aver visto il costo della spedizione, tuttavia, si decide che l'articolo non vale il prezzo e si chiude la finestra del browser. Ogni clic che hai fatto - e poi smesso di fare - ha il potenziale di offrire informazioni preziose alla società dietro questo sito di e-commerce.

In questo esempio, supponiamo che questa azienda raccolga i dati clickstream (dati su ogni clic del mouse e visualizzazione della pagina che un visitatore "tocca") con l'obiettivo di capire come servire meglio i propri clienti. Una sfida comune tra le aziende di e-commerce è riconoscere i fattori chiave dietro i carrelli degli acquisti abbandonati. Quando si eseguono analisi più approfondite sui dati del flusso di clic e si esamina il comportamento degli utenti sul sito, i modelli sono destinati ad emergere.

La tua azienda conosce la risposta alla domanda apparentemente semplice, "Alcuni prodotti vengono abbandonati più di altri? "O la risposta alla domanda:" Quante entrate possono essere recuperate se si riduce l'abbandono del carrello del 10 percento? "Di seguito è riportato un esempio del tipo di rapporti che puoi mostrare ai tuoi dirigenti aziendali per cercare il loro investimento nella causa Hadoop.

Per arrivare al punto in cui è possibile generare i dati per creare i grafici visualizzati, si isolano le sessioni di navigazione Web dei singoli utenti (un processo noto come sessione) , identificare il contenuto dei propri carrelli acquisti e quindi stabilire lo stato della transazione alla fine della sessione, il tutto esaminando i dati clickstream.

Di seguito è riportato un esempio di come assemblare le sessioni di navigazione Web degli utenti raggruppando tutti i clic e gli indirizzi URL per indirizzo IP.

In un contesto Hadoop, si lavora sempre con chiavi e valori: ogni fase di MapReduce immette e restituisce i dati in insiemi di chiavi e valori. La chiave è l'indirizzo IP e il valore è costituito dal timestamp e dall'URL. Durante la fase della mappa, le sessioni utente vengono assemblate in parallelo per tutti i blocchi di file del set di dati clickstream che è archiviato nel cluster Hadoop.

La fase mappa restituisce questi elementi:

  • La pagina finale visitata

  • Un elenco di elementi nel carrello

  • Lo stato della transazione per ogni sessione utente (indicizzata dalla chiave dell'indirizzo IP) < Il riduttore raccoglie questi record ed esegue aggregazioni per sommare il numero e il valore dei carrelli abbandonati al mese e per fornire i totali delle pagine finali più comuni che qualcuno ha visualizzato prima di terminare la sessione utente.

Log Analisi dei dati con Hadoop - dummies

Scelta dell'editore

Scattare foto digitali con uno zoom ottico - dummy

Scattare foto digitali con uno zoom ottico - dummy

La fotocamera digitale potrebbe avere uno zoom ottico, che è un Obiettivo zoom attuale vecchio stile (al contrario di uno zoom digitale). Per utilizzare lo zoom ottico della fotocamera digitale per scatti ravvicinati, segui questi passaggi di preparazione delle immagini prima di attivare il pulsante o lo switch di zoom:

La reflex digitale e la sensibilità alla luce - dummy

La reflex digitale e la sensibilità alla luce - dummy

La tua reflex digitale ha un'opzione per determinare la sensibilità del sensore della fotocamera è alla luce. Le fotocamere digitali sono le stesse delle fotocamere a pellicola in quanto la sensibilità alla luce è determinata dalla valutazione ISO. Il vantaggio di una fotocamera digitale è che non è necessario cambiare pellicola per modificare le valutazioni ISO. Quando aumenti ...

Scatti grandangolari con obiettivi standard - manichini

Scatti grandangolari con obiettivi standard - manichini

Fotografia grandangolare con un angolo di campo maggiore rispetto alla lunghezza focale normale o teleobiettivo. A volte si percepiscono le foto come molto espansive. Altre volte, a malapena lo si nota. Dipende tutto dal soggetto e da come si inquadra la scena. Questa figura mostra una scena di terreni agricoli che è stata scattata utilizzando un Sony APS-C ...

Scelta dell'editore

Come usare il meta tag DESCRIPTION - dummies

Come usare il meta tag DESCRIPTION - dummies

I meta tag sono tag HTML speciali che puoi utilizzare per trasportare informazioni, che i browser o altri programmi possono quindi leggere. Quando i motori di ricerca di Internet furono creati per la prima volta, i webmaster includevano i meta tag nelle loro pagine per rendere più facile per i motori di ricerca determinare le pagine. I motori di ricerca hanno utilizzato anche questi meta ...

Come scrivere un grande tag Title Web Marketing - dummies

Come scrivere un grande tag Title Web Marketing - dummies

Scrivere un tag title è fondamentale per il successo del web marketing e coinvolge più che mettere le parole chiave prima. I motori di ricerca mostrano il tag parola chiave nella parte superiore di ciascun elemento nelle pagine dei risultati dei motori di ricerca (SERP). Un tag del titolo ben scritto potrebbe aumentare le probabilità che un cliente in ricerca faccia clic sul tuo annuncio. Se ...

In che modo Yahoo! Cerca negli elenchi di Internet e dei ranghi - dummies

In che modo Yahoo! Cerca negli elenchi di Internet e dei ranghi - dummies

Quando le persone effettuano ricerche sul Web utilizzando Yahoo! , ottengono una combinazione di risultati organici e pagati. Se lavori per una società più grande, potresti provare Yahoo! La ricerca inoltra Pro per ottenere un vantaggio rispetto alla concorrenza e puoi persino registrare il tuo sito con Yahoo! Directory. Yahoo! I risultati di ricerca organica ...

Scelta dell'editore

Di Spotify su ShareMyPlaylists. it Funzionalità del sito - dummies

Di Spotify su ShareMyPlaylists. it Funzionalità del sito - dummies

ShareMyPlaylists (o SMP, in breve) è stato uno dei primi siti di condivisione di playlist Spotify e continua a innovare e offrire nuove funzionalità ai visitatori. Il mantra del sito è "Long Live the Mixtape", e qui troverai tantissime creazioni accuratamente compilate da migliaia di utenti. Dopo aver creato una playlist Spotify piena di ...

Spotify Unlimited - dummies

Spotify Unlimited - dummies

Spotify Unlimited è un modo brillante per ascoltare tutta la musica che vuoi senza limiti. È come una persona speciale che ti compra da mangiare e da bere tutta la sera per non doverti preoccupare del conto. È come essere in grado di dormire nel weekend senza preoccuparsi del lavoro o se ...

I generi di Spotify - dummies

I generi di Spotify - dummies

Che si tratti di hard rock, techno, pop, jazz, industrial, indie pop, folk , classico, heavy metal, valzer o qualsiasi altra cosa ti piaccia, Spotify ha il genere o il tipo di musica coperto. Puoi cercare i generi comuni da Spotify. Sebbene Spotify abbia pubblicato un elenco di quasi 1, 000 generi noti, non tutti saranno in grado di offrire ...