Video: Analisi dei requisiti di un sistema informativo - Videocorso di Basi di Dati - 29elode 2024
Una volta che hai tutti gli strumenti e i dati necessari per iniziare a creare un modello predittivo, inizia il divertimento. In generale, la creazione di un modello di apprendimento per le attività di classificazione comporterà i seguenti passaggi:
-
Carica i dati.
-
Scegli un classificatore.
-
Allena il modello.
-
Visualizza il modello.
-
Prova il modello.
-
Valuta il modello.
Sia la regressione logistica che i modelli di classificazione SVM (Support Vector Machine) funzionano piuttosto bene utilizzando il set di dati Iris.
Lunghezza sepali | Larghezza segale | Lunghezza del petalo | Larghezza del petalo | Classe / etichetta target |
---|---|---|---|---|
5. 1 | 3. 5 | 1. 4 | 0. 2 | Setosa (0) |
7. 0 | 3. 2 | 4. 7 | 1. 4 | Versicolor (1) |
6. 3 | 3. 3 | 6. 0 | 2. 5 | Virginica (2) |
Il modello di regressione logistica con parametro C = 1 era perfetto nelle sue previsioni, mentre il modello SVM e il modello di regressione logistica con C = 150 non avevano rispettato una sola previsione. In effetti, l'elevata precisione di entrambi i modelli è il risultato di un set di dati di piccole dimensioni con punti dati molto vicini alla separazione lineare.
È interessante notare che il modello di regressione logistica con C = 150 aveva un diagramma di superficie decisionale di aspetto migliore rispetto a quello con C = 1, ma non aveva prestazioni migliori. Non è un grosso problema, considerando che il set di test è così piccolo. Se fosse stata selezionata un'altra divisione casuale tra set di allenamento e set di test, i risultati avrebbero potuto facilmente essere diversi.
Questo rivela un'altra fonte di complessità che emerge nella valutazione del modello: l'effetto del campionamento e come la scelta dei set di allenamento e di test può influire sull'output del modello. Le tecniche di convalida incrociata possono aiutare a minimizzare l'impatto del campionamento casuale sulle prestazioni del modello.
Per un set di dati più grande con dati non linearmente separabili, ci si aspetterebbe che i risultati si discostino ancora di più. Inoltre, la scelta del modello appropriato diventa sempre più difficile a causa della complessità e della dimensione dei dati. Preparati a dedicare molto tempo all'ottimizzazione dei parametri per ottenere una soluzione ideale.
Quando si creano modelli predittivi, provare alcuni algoritmi e ottimizzare i parametri fino a quando non si trova ciò che funziona meglio per i propri dati. Quindi confronta i loro risultati l'uno contro l'altro.