Sommario:
Video: Un tipo di analisi dati su Google Analytics (base, ma efficace) - Tutorial GA e GTM 7 2024
In generale, le soluzioni di analisi del testo per i big data utilizzano una combinazione di tecniche di elaborazione del linguaggio naturale e di statistica (NLP) per estrarre informazioni da dati non strutturati. La PNL è un campo ampio e complesso che si è sviluppato negli ultimi 20 anni.
Un obiettivo principale della PNL è derivare il significato dal testo. L'elaborazione del linguaggio naturale generalmente fa uso di concetti linguistici come strutture grammaticali e parti del discorso. Spesso, l'idea alla base di questo tipo di analisi è determinare chi ha fatto cosa a chi, quando, dove, come e perché.
NLP esegue analisi sul testo a diversi livelli:
-
Analisi lessicale / morfologica esamina le caratteristiche di una singola parola - inclusi prefissi, suffissi, radici e parti del discorso (sostantivo, verbo, aggettivo e così via) - informazioni che contribuiranno a capire cosa significa la parola nel contesto del testo fornito. L'analisi lessicale dipende da un dizionario, un dizionario dei sinonimi o qualsiasi elenco di parole che fornisce informazioni su tali parole.
-
L'analisi sintattica usa la struttura grammaticale per sezionare il testo e mettere le singole parole nel contesto. Qui stai allargando lo sguardo da una singola parola alla frase o alla frase completa. Questo passaggio potrebbe schematizzare la relazione tra le parole (la grammatica) o cercare sequenze di parole che formano frasi corrette o per sequenze di numeri che rappresentano date o valori monetari.
-
Analisi semantica determina i possibili significati di una frase. Questo può includere l'esame dell'ordinamento delle parole e della struttura delle frasi e delle parole disambiguanti mettendo in relazione la sintassi trovata nelle frasi, nelle frasi e nei paragrafi.
-
Analisi a livello di discorso tenta di determinare il significato del testo oltre il livello della frase.
Comprendere le informazioni estratte dai big data
Alcune tecniche, combinate con altre tecniche statistiche o linguistiche per automatizzare il tagging e il markup dei documenti di testo, possono estrarre i seguenti tipi di informazioni:
-
Termini: Altro nome per parole chiave.
-
Entità: Spesso chiamate denominate entità , sono esempi specifici di astrazioni. Esempi sono nomi di persone, nomi di aziende, posizioni geografiche, informazioni di contatto, date, orari, valute, titoli e posizioni, e così via. Ad esempio, il software di analisi del testo può estrarre l'entità Jane Doe come una persona a cui si fa riferimento nel testo analizzato. L'entità 3 marzo 2007 può essere estratta come data e così via.
-
Fatti: Anche detti relazioni , indicano le relazioni who / what / where tra due entità. John Smith è il CEO della società Y e Aspirina riduce la febbre sono esempi di fatti.
-
Eventi: Mentre alcuni esperti usano i termini fatto , relazione , e evento in modo intercambiabile, altri distinguono tra eventi e fatti, affermando che gli eventi di solito contengono una dimensione temporale e spesso causano cambiamenti di fatti. Gli esempi includono un cambiamento nella gestione all'interno di un'azienda o lo stato di un processo di vendita.
-
Concetti: Si tratta di insiemi di parole e frasi che indicano una particolare idea o argomento con cui l'utente è interessato. Ad esempio, il concetto cliente infelice potrebbe includere le parole arrabbiato, deluso, e confuso e le frasi disconnettere il servizio, non richiamare, e spreco di denaro - tra molti altri. Così il concetto cliente infelice può essere estratto senza che le parole infelice o cliente appaiano nel testo.
-
Sentimenti: L'analisi del sentimento viene utilizzata per identificare punti di vista o emozioni nel testo sottostante. Alcune tecniche lo fanno classificando il testo come, per esempio, soggettivo (opinione) o oggettivo (fatto), usando tecniche di apprendimento automatico o PNL. L'analisi del sentiment è diventata molto popolare nel tipo di applicazioni "voce del cliente".
Tassonomie dei Big Data
Le tassonomie sono spesso fondamentali per l'analisi del testo. Una tassonomia è un metodo per organizzare le informazioni in relazioni gerarchiche. A volte viene indicato come un modo di organizzare le categorie. Perché una tassonomia definisce le relazioni tra i termini utilizzati da un'azienda, rende più facile trovare e quindi analizzare il testo.
Ad esempio, un fornitore di servizi di telecomunicazione offre sia un servizio cablato che un servizio wireless. All'interno del servizio wireless, l'azienda può supportare telefoni cellulari e accesso a Internet. La società può quindi avere due o più modi di categorizzare il servizio di telefonia cellulare, come piani e tipi di telefono. La tassonomia potrebbe arrivare fino alle parti di un telefono stesso.
Le tassonomie possono anche utilizzare sinonimi ed espressioni alternative, riconoscendo che cellulare, telefono cellulare e telefono cellulare sono tutti uguali. Queste tassonomie possono essere piuttosto complesse e può richiedere molto tempo per svilupparsi.