Video: P. Lanzi (La "scienza" dei videogiochi) 2024
Sia il clustering che la classificazione si basano sul calcolo della somiglianza o della differenza tra due punti dati. Se il set di dati è numerico - comprendente solo numeri e valori numerici - e può essere rappresentato su un grafico n -dimensionale, allora ci sono varie metriche geometriche che puoi usare per ridimensionare il tuo multidimensionale dati.
Un grafico n-dimensionale è un diagramma di dispersione multidimensionale che è possibile utilizzare per tracciare n numero di dimensioni dei dati.
Alcune metriche geometriche popolari utilizzate per calcolare le distanze tra i punti di dati includono le metriche di distanza di Euclide, Manhattan o Minkowski. Queste metriche sono solo funzioni geometriche diverse che sono utili per modellare le distanze tra i punti. La metrica euclidea è una misura della distanza tra i punti tracciati su un piano euclideo.
La metrica di Manhattan è una misura della distanza tra i punti in cui la distanza viene calcolata come la somma del valore assoluto delle differenze tra le coordinate cartesiane di due punti. La metrica di distanza di Minkowski è una generalizzazione delle metriche di distanza di Euclide e Manhattan. Molto spesso, queste metriche possono essere utilizzate in modointercambiabile.
Se i tuoi dati sono numerici ma non placcabili (come curve invece di punti), puoi generare punteggi di somiglianza basati su differenze tra i dati, invece dei valori effettivi di i dati stessi.
Infine, per i dati non numerici, è possibile utilizzare metriche come la metrica di distanza di Jaccard, che è un indice che confronta il numero di funzionalità che due punti di dati hanno in comune. Ad esempio, per illustrare una distanza di Jaccard, pensa alle due stringhe di testo seguenti: Saint Louis de Ha-ha, Quebec e St-Louis de Ha! Ha!, QC.
Quali caratteristiche hanno queste stringhe di testo in comune? E quali caratteristiche sono diverse tra loro? La metrica Jaccard genera un valore dell'indice numerico che quantifica la somiglianza tra stringhe di testo.