Analisi del sentimento sociale con Hadoop - dummies

L'analisi del sentimento sociale è facilmente la più sopraffatta di usa Hadoop, che non dovrebbe sorprendere visto che il mondo è costantemente connesso e l'attuale popolazione espressiva. Questo caso d'uso sfrutta il contenuto di forum, blog e altre risorse di social media per sviluppare un senso di ciò che le persone stanno facendo (ad esempio, eventi della vita) e di come stanno reagendo al mondo che li circonda (sentimento).

Poiché i dati basati su testo non si inseriscono naturalmente in un database relazionale, Hadoop è un luogo pratico per esplorare ed eseguire analisi su questi dati.

La lingua è difficile da interpretare, a volte anche per gli esseri umani - specialmente se stai leggendo il testo scritto da persone in un gruppo sociale diverso dal tuo. Questo gruppo di persone potrebbe parlare la tua lingua, ma le loro espressioni e il loro stile sono completamente estranei, quindi non hai idea se stiano parlando di un'esperienza positiva o negativa.

Ad esempio, se senti la parola bomba in riferimento a un film, potrebbe significare che il film era cattivo (o buono, se fai parte della gioventù movimento che interpreta "È da bomba" come un complimento); naturalmente, se sei nel settore della sicurezza aerea, la parola bomba ha un significato completamente diverso. Il punto è che il linguaggio è usato in molti modi variabili ed è in continua evoluzione.

Quando analizzi il sentimento sui social media, puoi scegliere tra più approcci. Il metodo di base analizza il testo in modo programmatico, estrae le stringhe e applica le regole. In situazioni semplici, questo approccio è ragionevole. Tuttavia, man mano che i requisiti evolvono e le regole diventano più complesse, la codifica manuale delle estrazioni di testo diventa rapidamente non più attuabile dal punto di vista della manutenzione del codice, in particolare per l'ottimizzazione delle prestazioni.

Gli approcci grammaticali e basati su regole per l'elaborazione del testo sono computazionalmente costosi, il che è una considerazione importante nell'estrazione su larga scala di Hadoop. Maggiore è il coinvolgimento delle regole (che è inevitabile per scopi complessi come l'estrazione dei sentimenti), maggiore è l'elaborazione necessaria.

In alternativa, un approccio basato sulle statistiche sta diventando sempre più comune per l'analisi dei sentimenti. Invece di scrivere manualmente regole complesse, è possibile utilizzare i modelli di apprendimento automatico orientati alla classificazione in Apache Mahout. Il problema è che dovrai allenare i tuoi modelli con esempi di sentimenti positivi e negativi. Più dati di allenamento fornisci (ad esempio, il testo dei tweet e la tua classificazione), più accurati sono i tuoi risultati.

Il caso d'uso per l'analisi del sentimento sociale può essere applicato in una vasta gamma di settori. Ad esempio, prendere in considerazione la sicurezza alimentare: cercare di prevedere o identificare l'epidemia di malattie di origine alimentare il più rapidamente possibile è estremamente importante per i funzionari sanitari.

La seguente figura mostra un'applicazione ancorata a Hadoop che ingerisce i tweet usando degli estrattori basati sulla potenziale malattia: FLU o ALIMENTAZIONE DEL CIBO.

Vedi la mappa termica generata che mostra la posizione geografica dei tweet? Una caratteristica dei dati in un mondo di big data è che la maggior parte di essa è arricchita spazialmente: Ha informazioni sulla località (e anche attributi temporali). In questo caso, il profilo Twitter è stato decodificato guardando la posizione pubblicata.

A quanto pare, molti account Twitter hanno posizioni geografiche come parte dei loro profili pubblici (così come dichiarazioni di non responsabilità che affermano chiaramente che i loro pensieri sono i propri rispetto al parlare per i loro datori di lavoro).

Quanto può essere valido un motore di previsione sui social media per l'epidemia di influenza o per un episodio di avvelenamento da cibo? Considerare i dati di esempio resi anonimi. Si può vedere che i segnali dei social media hanno prevalso su tutti gli altri indicatori per la previsione di un'epidemia di influenza in una specifica contea U. S. durante la tarda estate e all'inizio dell'autunno.

Questo esempio mostra un altro vantaggio derivante dall'analisi dei social media: offre un'opportunità senza precedenti di esaminare le informazioni sugli attributi nei profili dei poster. Certo, ciò che la gente dice di se stesso nei propri profili Twitter è spesso incompleto (ad esempio, il codice di localizzazione non è compilato) o non significativo (il codice di localizzazione potrebbe dire cloud nine ).

Ma puoi imparare molto sulle persone nel tempo, sulla base di ciò che dicono. Ad esempio, un cliente può avere twittato (pubblicato su Twitter) l'annuncio della nascita del suo bambino, un'immagine di Instagram del suo ultimo dipinto o un post di Facebook che affermi che non può credere al comportamento di Walter White nel finale Breaking Bad della scorsa notte.

In questo esempio onnipresente, la tua azienda può estrarre un evento di vita che popola un grafico familiare (un nuovo bambino è un valido aggiornamento per un profilo di Master Data Management basato su persona), un hobby (pittura) e un attributo di interesse (adori lo spettacolo Breaking Bad ).

Analizzando i dati sociali in questo modo, hai l'opportunità di arricchire attributi personali con informazioni come hobby, compleanni, eventi della vita, località geografiche (paese, stato e città, per esempio), datore di lavoro, genere, coniugale stato e altro.

Supponiamo per un minuto di essere il CIO di una compagnia aerea. È possibile utilizzare i messaggi di viaggiatori frequenti felici o arrabbiati per non solo accertare il sentimento, ma anche arrotondare i profili dei clienti per il proprio programma di fidelizzazione utilizzando le informazioni sui social media.

Immagina quanto potresti meglio indirizzare i potenziali clienti con le informazioni che erano appena condivise - ad esempio, una e-mail che diceva al cliente che la Stagione 5 di Breaking Bad è ora disponibile sul sistema multimediale dell'aereo o annunciando che i bambini di età inferiore ai due volano gratis.

È anche un buon esempio di come i sistemi di registrazione (ad esempio, database di vendita o di abbonamento) possono soddisfare sistemi di coinvolgimento (ad esempio, canali di supporto). Sebbene la redenzione e la cronologia dei viaggi dei membri del loyalty sia in un database relazionale, il sistema di engagement può aggiornare i record (ad esempio, una colonna).