Algoritmi di cluster utilizzati in Data Science - dummies

Video: Data Science Careers, or, how to land a 6-figure Wall Street job 2025

Gli algoritmi di clustering vengono utilizzati per suddividere i set di dati in cluster di punti dati più simili per un attributo predefinito. Se si dispone di un set di dati che descrive più attributi relativi a una determinata funzione e si desidera raggruppare i punti dati in base alle somiglianze degli attributi, utilizzare gli algoritmi di clustering.

Un semplice diagramma a dispersione di set di dati Paese reddito e istruzione produce il grafico che vedi qui.

Nel clustering senza supervisione, si inizia con questi dati e quindi si procede a dividerli in sottoinsiemi. Questi sottoinsiemi sono chiamati cluster e sono formati da punti dati più simili tra loro. Sembra che ci siano almeno due cluster, probabilmente tre - uno in basso con basso reddito e istruzione, e quindi i paesi di alta istruzione sembrano essere divisi tra reddito basso e alto.

La seguente figura mostra il risultato di bulbo oculare - facendo una stima visiva di - cluster in questo set di dati.

Sebbene sia possibile generare stime visive del clustering, è possibile ottenere risultati molto più accurati quando si gestiscono dataset molto più grandi utilizzando algoritmi per generare cluster per voi. La stima visiva è un metodo approssimativo che è utile solo su dataset più piccoli di minima complessità. Algoritmi: consente di produrre risultati esatti e ripetibili e di utilizzare algoritmi per generare clustering per più dimensioni di dati all'interno del set di dati.

Gli algoritmi di clustering sono un tipo di approccio nell'apprendimento automatico non supervisionato - altri approcci includono metodi e metodi Markov per la riduzione delle dimensioni. Gli algoritmi di clustering sono appropriati in situazioni in cui sono vere le seguenti caratteristiche:

Conosci e comprendi il set di dati che stai analizzando.
Prima di eseguire l'algoritmo di clustering, non si ha un'idea esatta della natura dei sottoinsiemi (cluster). Spesso non si sa nemmeno quanti sottoinsi ci sono nel set di dati prima di eseguire l'algoritmo.
I sottoinsiemi (cluster) sono determinati dal solo set di dati che si sta analizzando.
L'obiettivo è determinare un modello che descriva i sottoinsiemi in un singolo set di dati e solo questo set di dati.

Se si aggiungono più dati, è necessario rieseguire l'analisi da zero per ottenere risultati del modello completi e accurati.