Casa Finanza personale Analisi e tecniche di estrazione per i Big Data - manichini

Analisi e tecniche di estrazione per i Big Data - manichini

Sommario:

Video: Un tipo di analisi dati su Google Analytics (base, ma efficace) - Tutorial GA e GTM 7 2025

Video: Un tipo di analisi dati su Google Analytics (base, ma efficace) - Tutorial GA e GTM 7 2025
Anonim

In generale, le soluzioni di analisi del testo per i big data utilizzano una combinazione di tecniche di elaborazione del linguaggio naturale e di statistica (NLP) per estrarre informazioni da dati non strutturati. La PNL è un campo ampio e complesso che si è sviluppato negli ultimi 20 anni.

Un obiettivo principale della PNL è derivare il significato dal testo. L'elaborazione del linguaggio naturale generalmente fa uso di concetti linguistici come strutture grammaticali e parti del discorso. Spesso, l'idea alla base di questo tipo di analisi è determinare chi ha fatto cosa a chi, quando, dove, come e perché.

NLP esegue analisi sul testo a diversi livelli:

  • Analisi lessicale / morfologica esamina le caratteristiche di una singola parola - inclusi prefissi, suffissi, radici e parti del discorso (sostantivo, verbo, aggettivo e così via) - informazioni che contribuiranno a capire cosa significa la parola nel contesto del testo fornito. L'analisi lessicale dipende da un dizionario, un dizionario dei sinonimi o qualsiasi elenco di parole che fornisce informazioni su tali parole.

  • L'analisi sintattica usa la struttura grammaticale per sezionare il testo e mettere le singole parole nel contesto. Qui stai allargando lo sguardo da una singola parola alla frase o alla frase completa. Questo passaggio potrebbe schematizzare la relazione tra le parole (la grammatica) o cercare sequenze di parole che formano frasi corrette o per sequenze di numeri che rappresentano date o valori monetari.

  • Analisi semantica determina i possibili significati di una frase. Questo può includere l'esame dell'ordinamento delle parole e della struttura delle frasi e delle parole disambiguanti mettendo in relazione la sintassi trovata nelle frasi, nelle frasi e nei paragrafi.

  • Analisi a livello di discorso tenta di determinare il significato del testo oltre il livello della frase.

Comprendere le informazioni estratte dai big data

Alcune tecniche, combinate con altre tecniche statistiche o linguistiche per automatizzare il tagging e il markup dei documenti di testo, possono estrarre i seguenti tipi di informazioni:

  • Termini: Altro nome per parole chiave.

  • Entità: Spesso chiamate denominate entità , sono esempi specifici di astrazioni. Esempi sono nomi di persone, nomi di aziende, posizioni geografiche, informazioni di contatto, date, orari, valute, titoli e posizioni, e così via. Ad esempio, il software di analisi del testo può estrarre l'entità Jane Doe come una persona a cui si fa riferimento nel testo analizzato. L'entità 3 marzo 2007 può essere estratta come data e così via.

  • Fatti: Anche detti relazioni , indicano le relazioni who / what / where tra due entità. John Smith è il CEO della società Y e Aspirina riduce la febbre sono esempi di fatti.

  • Eventi: Mentre alcuni esperti usano i termini fatto , relazione , e evento in modo intercambiabile, altri distinguono tra eventi e fatti, affermando che gli eventi di solito contengono una dimensione temporale e spesso causano cambiamenti di fatti. Gli esempi includono un cambiamento nella gestione all'interno di un'azienda o lo stato di un processo di vendita.

  • Concetti: Si tratta di insiemi di parole e frasi che indicano una particolare idea o argomento con cui l'utente è interessato. Ad esempio, il concetto cliente infelice potrebbe includere le parole arrabbiato, deluso, e confuso e le frasi disconnettere il servizio, non richiamare, e spreco di denaro - tra molti altri. Così il concetto cliente infelice può essere estratto senza che le parole infelice o cliente appaiano nel testo.

  • Sentimenti: L'analisi del sentimento viene utilizzata per identificare punti di vista o emozioni nel testo sottostante. Alcune tecniche lo fanno classificando il testo come, per esempio, soggettivo (opinione) o oggettivo (fatto), usando tecniche di apprendimento automatico o PNL. L'analisi del sentiment è diventata molto popolare nel tipo di applicazioni "voce del cliente".

Tassonomie dei Big Data

Le tassonomie sono spesso fondamentali per l'analisi del testo. Una tassonomia è un metodo per organizzare le informazioni in relazioni gerarchiche. A volte viene indicato come un modo di organizzare le categorie. Perché una tassonomia definisce le relazioni tra i termini utilizzati da un'azienda, rende più facile trovare e quindi analizzare il testo.

Ad esempio, un fornitore di servizi di telecomunicazione offre sia un servizio cablato che un servizio wireless. All'interno del servizio wireless, l'azienda può supportare telefoni cellulari e accesso a Internet. La società può quindi avere due o più modi di categorizzare il servizio di telefonia cellulare, come piani e tipi di telefono. La tassonomia potrebbe arrivare fino alle parti di un telefono stesso.

Le tassonomie possono anche utilizzare sinonimi ed espressioni alternative, riconoscendo che cellulare, telefono cellulare e telefono cellulare sono tutti uguali. Queste tassonomie possono essere piuttosto complesse e può richiedere molto tempo per svilupparsi.

Analisi e tecniche di estrazione per i Big Data - manichini

Scelta dell'editore

Il programma in cinque passaggi per superare la menopausa - dummy

Il programma in cinque passaggi per superare la menopausa - dummy

Alcune donne capiscono a malapena che la menopausa è loro. Altre donne, tuttavia, sono meno fortunate. Se sei uno di questi, prendi in mano questi pochi modi per rendere la tua esperienza più facile per te stesso: capisci e accetta che stai attraversando una transizione naturale, proprio come la pubertà. Fortunatamente, sei più vecchio e più saggio di te ...

Menopausa For Dummies Cheat Sheet (edizione UK) - dummies

Menopausa For Dummies Cheat Sheet (edizione UK) - dummies

Menopausa segna la fine della fase riproduttiva della tua vita e così è un momento significativo di cambiamento fisico, emotivo e mentale per molte donne ma, per generazioni, donne di tutte le età hanno vagato alla cieca in menopausa senza sapere cosa aspettarsi. Qui puoi scoprire alcune delle nozioni di base.

Perimenopausa: facilitare la transizione dalle mestruazioni alla menopausa - manichini

Perimenopausa: facilitare la transizione dalle mestruazioni alla menopausa - manichini

Mestruazioni e menopausa sono ben noti biologici pietre miliari nella vita di una femmina. Contrariamente al pensiero popolare, la menopausa non è il periodo di mesi o anni in cui una donna sta "attraversando il cambiamento". "Questo lasso di tempo è chiamato perimenopausa. La menopausa è una data effettiva nel tempo. In particolare, è il 12 ° anniversario dell'ultimo ciclo mestruale di una donna. ...

Scelta dell'editore

Come utilizzare il filtro automatico personalizzato su una tabella di Excel - dummies

Come utilizzare il filtro automatico personalizzato su una tabella di Excel - dummies

È Possibile creare un filtro automatico personalizzato . Per fare ciò, seleziona il comando Filtro testo dal menu della tabella e scegli una delle opzioni di filtro del testo. Indipendentemente dall'opzione di filtro del testo selezionata, Excel visualizza la finestra di dialogo Filtro automatico personalizzato. Questa finestra di dialogo consente di specificare con estrema precisione quali record si desidera ...

Come utilizzare la funzione DPRODUCT in un database Excel - dummies

Come utilizzare la funzione DPRODUCT in un database Excel - dummies

DPRODUCT moltiplica i valori che corrispondono al criterio in un database Excel. Questo è potente ma anche in grado di produrre risultati che non sono l'intenzione. In altre parole, è una cosa da aggiungere e ricavare una somma. Questa è un'operazione comune su un set di dati. Osservando la seguente figura, è possibile ...

Come utilizzare la funzione DPRODUCT in Excel - dummy

Come utilizzare la funzione DPRODUCT in Excel - dummy

La funzione DPRODUCT in Excel è strana. La funzione DPRODUCT moltiplica i valori nei campi da un elenco di database in base ai criteri di selezione. Perché vorresti farlo? Chissà. La funzione utilizza la sintassi = DPRODUCT (database, campo, criteri) in cui il database è un riferimento all'intervallo alla tabella di Excel che contiene il valore desiderato ...

Scelta dell'editore

Programmazione con Java: riutilizzo dei nomi nella tua app per Android - dummies

Programmazione con Java: riutilizzo dei nomi nella tua app per Android - dummies

Ci sono un paio di cose a cui vuoi pensare quando riutilizzi i nomi nella tua app per Android. È possibile dichiarare due variabili Java - bag1 e bag2 - per fare riferimento a due diversi oggetti BagOfCheese. Va bene. Ma a volte, avere solo una variabile e riutilizzarla per il secondo oggetto funziona altrettanto bene, ...

Java: Mettere a frutto l'uso della classe - dummies

Java: Mettere a frutto l'uso della classe - dummies

La classe Employee nell'elenco non ha alcun metodo principale , quindi non c'è un punto di partenza per l'esecuzione del codice. Per risolvere questo problema, il programmatore scrive un programma separato con un metodo principale e utilizza tale programma per creare istanze Employee. Questo elenco di codici mostra una classe con un metodo principale - uno che inserisce il ...

Classi wrapper java - dummies

Classi wrapper java - dummies

La differenza tra tipi primitivi e tipi di riferimento è una delle funzionalità più controverse di Java e gli sviluppatori si lamentano spesso sulle differenze tra valori primitivi e valori di riferimento. Ogni tipo primitivo viene cotto nella lingua. Java ha otto tipi primitivi. Ogni tipo di riferimento è una classe o un'interfaccia. È possibile definire il proprio ...