Nozioni di base su K-Means e DBSCAN Modelli di clustering per predittività Analytics - dummies

Video: Integrali : Introduzione e Primi Esempi 2025

L'apprendimento senza supervisione ha molte sfide per l'analisi predittiva, incluso non sapere cosa aspettarsi quando si esegue un algoritmo. Ogni algoritmo produrrà risultati diversi; non sarai mai sicuro se un risultato è migliore dell'altro o se il risultato è di qualsiasi valore.

Quando sai quali dovrebbero essere i risultati, puoi modificare gli algoritmi per produrre i risultati desiderati. Nei set di dati del mondo reale, non avrai questo lusso. Dovrai dipendere da una conoscenza preliminare dei dati - o intuizione - per decidere quali parametri di inizializzazione e algoritmi utilizzare mentre crei il tuo modello.

Nelle attività di apprendimento reali non supervisionate, tuttavia, questa conoscenza precedente non è disponibile e il risultato desiderato è difficile da trovare. La scelta del numero giusto di cluster è il problema chiave. Se ti capita di imbatterti nel giusto numero di cluster, i tuoi dati produrranno intuizioni che ti permetteranno di fare previsioni molto accurate. Il rovescio della medaglia, indovinare il numero sbagliato di cluster può dare risultati subpar.

K-significa che l'algoritmo è una buona scelta per i dataset che hanno un piccolo numero di cluster con dimensioni proporzionali e dati separabili linearmente - e puoi ridimensionarlo per usare l'algoritmo su dataset molto grandi.

Pensa a linearmente separabili dati come una serie di punti in un grafico che può essere separato usando una linea retta. Se i dati non sono separabili linearmente, dovranno essere impiegate versioni più avanzate di K - che diventeranno più dispendiose dal punto di vista computazionale e potrebbero non essere adatte a dataset di grandi dimensioni. Nella sua implementazione standard, la complessità per calcolare i centri di cluster e le distanze è bassa.

K-means è ampiamente utilizzato per risolvere problemi di big data perché è semplice da utilizzare, efficace e altamente scalabile. Non c'è da stupirsi che la maggior parte dei venditori commerciali utilizzi l'algoritmo K-means come componente chiave dei propri pacchetti di analisi predittiva.

L'implementazione di DBSCAN (Density-Based Spatial Clustering of Applications with Noise) in scikit-learn non richiede alcun parametro di inizializzazione definito dall'utente per creare un'istanza. È possibile sovrascrivere i parametri predefiniti durante l'inizializzazione, se lo si desidera. Sfortunatamente, se si utilizzano i parametri predefiniti, l'algoritmo non può fornire una corrispondenza esatta con il risultato desiderato.

DBSCAN è più adatto per i set di dati che hanno dimensioni di cluster sproporzionate e i cui dati possono essere separati in modo non lineare.Come K-means, DBSCAN è scalabile, ma usarlo su dataset di grandi dimensioni richiede più memoria e potenza di calcolo.