Video: S2 - L2: Dati [Corso pratico di Machine Learning con R] 2024
Per l'analisi predittiva, è necessario caricare i dati per i propri algoritmi da utilizzare. Il caricamento dell'insieme di dati Iris in scikit è semplice come l'emissione di un paio di righe di codice perché scikit ha già creato una funzione per caricare il set di dati.
Lunghezza sepali | Larghezza segale | Lunghezza del petalo | Larghezza del petalo | Classe / etichetta target |
---|---|---|---|---|
5. 1 | 3. 5 | 1. 4 | 0. 2 | Setosa (0) |
7. 0 | 3. 2 | 4. 7 | 1. 4 | Versicolor (1) |
6. 3 | 3. 3 | 6. 0 | 2. 5 | Virginica (2) |
-
Apre una nuova sessione di shell interattiva Python.
Usa una nuova sessione Python per non lasciare nulla in memoria e hai una lavagna pulita con cui lavorare.
-
Immettere il codice seguente nel prompt e osservare l'output: >>>> da sklearn. set di dati import load_iris >>> iris = load_iris ()
Dopo aver eseguito queste due istruzioni, non dovresti vedere alcun messaggio dall'interprete. L'iride variabile dovrebbe contenere tutti i dati dall'iride. file CSV.
L'output sarà tutto il contenuto dell'iride. file csv, insieme ad altre informazioni sul set di dati che la funzione load_iris ha caricato nella variabile. La variabile è una struttura di dati del dizionario con quattro proprietà principali. Le importanti proprietà dell'iride sono elencate di seguito.
Nome proprietà
Descrizionedati | Contiene tutte le misure delle osservazioni. |
---|---|
nome_produzione | Contiene il nome della funzione (nome attributo). |
target | Contiene tutti i target (etichette) delle osservazioni. |
target_names | Contiene i nomi delle classi. |
È possibile stampare i valori nell'interprete digitando il nome della variabile seguito da un punto seguito dal nome della proprietà. Un esempio sta usando l'iris. dati per accedere alla proprietà di iris, come questo: >>>> iris. data | Questo è un modo standard per accedere alle proprietà di un oggetto in molti linguaggi di programmazione. |
Per creare un'istanza del classificatore SVM, digitare il seguente codice nell'interprete: >>>> da sklearn. svm import LinearSVC >>> svmClassifier = LinearSVC (random_state = 111)
La prima riga di codice importa la libreria SVC lineare nella sessione. Il supporto lineare Vector Classifier (SVC) è un'implementazione di SVM per la classificazione lineare e ha un supporto multi-classe.Il set di dati è in qualche modo separabile linearmente e ha tre classi, quindi sarebbe una buona idea sperimentare con SVC lineare per vedere come si comporta.
La seconda riga crea l'istanza usando la variabile svmClassifier. Questa è una variabile importante da ricordare. Il parametro random_state consente di riprodurre questi esempi e ottenere gli stessi risultati. Se non hai inserito il parametro random_state, i risultati potrebbero differire da quelli mostrati qui.