Come convertire i dati grezzi in una matrice di analisi predittiva - dummies

Video: Funzione Frequenza Excel 2025

Prima di poter estrarre gruppi di dati simili dal set di dati per il progetto di analisi predittiva, potrebbe essere necessario rappresentare i dati in un tabulare formato noto come matrice di dati . Questo è un passo di pre-elaborazione che precede il clustering dei dati.

Come creare una matrice di analisi predittiva dei termini nei documenti

Supponiamo che il set di dati che stai per analizzare sia contenuto in una serie di documenti di Microsoft Word. La prima cosa che devi fare è convertire il set di documenti in una matrice di dati. Diversi strumenti commerciali e open source possono gestire tale compito, producendo una matrice, in cui ogni riga corrisponde a un documento nel set di dati. Esempi di questi strumenti includono RapidMiner e pacchetti di text-mining R.

Un documento è, in sostanza, un insieme di parole. Un termine è un insieme di una o più parole.

Ogni termine che un documento contiene è menzionato una o più volte nello stesso documento. Il numero di volte in cui un termine è menzionato in un documento può essere rappresentato da frequenza di termine (TF), un valore numerico.

Costruiamo la matrice di termini nel documento come segue:

I termini che appaiono in tutti i documenti sono elencati nella riga superiore.
I titoli dei documenti sono elencati nella colonna più a sinistra
I numeri visualizzati all'interno delle celle della matrice corrispondono alla frequenza di ciascun termine.

Ad esempio, il Documento A è rappresentato come un insieme di numeri (5, 16, 0, 19, 0, 0) dove 5 corrisponde al numero di volte in cui il termine analisi predittiva è ripetuto, 16 corrisponde al numero di volte in cui l'informatica viene ripetuta e così via. Questo è il modo più semplice per convertire un set di documenti in una matrice.

Analitica predittiva	Informatica	Apprendimento	Clustering	2013	Antropologia
Documento A	5	16	0 < 19	0	0	Documento B
8	6	2	3	0	0	Documento C
0 < 5	2	3	3	9	Documento D	1
9	13	4	6	7 > Documento E	2	16
16	0	2	13	Documento F	13	0
19	16 > 4	2	Nozioni di base sulla selezione del termine dell'analisi predittiva	Una sfida nel clustering dei documenti di testo è determinare come selezionare i termini migliori per rappresentare tutti i documenti nella raccolta. Quanto è importante un termine in una raccolta di documenti può essere calcolato in diversi modi.	Se, ad esempio, si calcola il numero di volte in cui un termine viene ripetuto in un documento e si confronta tale totale con la frequenza con cui ricorre nell'intera raccolta, si ha un'idea dell'importanza del termine rispetto ad altri termini.	Basare l'importanza relativa di un termine sulla sua frequenza in una raccolta è spesso noto come

ponderazione

. Il peso assegnato può essere basato su due principi:

I termini che appaiono più volte in un documento sono preferiti rispetto ai termini visualizzati una sola volta.

I termini utilizzati in relativamente pochi documenti sono favoriti rispetto ai termini menzionati in tutti i documenti. Se (ad esempio) il termine secolo

è menzionato in tutti i documenti del set di dati, non si può pensare di assegnargli abbastanza peso per avere una colonna propria nella matrice.
Allo stesso modo, se si ha a che fare con un set di dati di utenti di un social network online, è possibile convertire facilmente il set di dati in una matrice. ID utente o nomi occuperanno le righe; le colonne elencheranno le caratteristiche che meglio descrivono tali utenti.