Come caricare i dati in un modello di previsione predittiva di classificazione R - dummies

Video: Decision Tree Learning - Python Machine Learning [ITALIANO] (Intelligenza Artificiale) 2025

Il set di dati che analizziamo per fare una previsione è il set di dati Seeds, che può essere trovato nel repository di apprendimento automatico UCI. Questo set di dati ha 210 osservazioni e 7 attributi più l'etichetta. L'etichetta è il risultato atteso e viene utilizzata per addestrare e valutare l'accuratezza del modello predittivo.

Il risultato che stai cercando di prevedere è il tipo di seme che è (attributo 8), dati i valori dei sette attributi. I tre valori possibili per il tipo di seme sono etichettati 1, 2 e 3 e rappresentano le varietà di grano Kama, Rosa e Canadese.

Gli attributi nell'ordine delle colonne sono forniti:

area
perimetro
compattezza
lunghezza del kernel
larghezza del kernel
coefficiente di asimmetria > lunghezza del kernel groove
classe di grano
Per ottenere il set di dati dal repository UCI e caricarlo in memoria, digitare il seguente comando nella console:

>> semi <-

letti. csv (" // archive. ics. uci. edu / ml / machine -learning-databases / 00236 / seeds_dataset. txt", header = FALSE, sep = ", as. is = TRUE)

Si vede che il set di dati è stato caricato in memoria come variabile del frame dati

seed,

esaminando il riquadro dell'area di lavoro (in alto a destra). Fare clic sulla variabile seeds per visualizzare i valori dei dati nell'origine riquadro (in alto a sinistra). Ecco come appaiono i dati nel riquadro di origine.

È possibile trovare ulteriori informazioni sui dati appena caricati utilizzando il riepilogo () funzione. >> sommario (semi) V1 V2 V3 Min.: 10. 59 Min.: 12. 41 Min.: 0. 8081 1 ° Qu.: 12. 27 1 ° Qu.: 13. 45 1 ° Qu.: 0 8569 Mediana: 14. 36 Mediana: 14. 32 Mediana: 0. 8734 Media: 14. 85 Media: 14. 56 Media: 0. 8710 3 ° Qu.: 17. 30 3 ° Qu.: 15. 71 3 ° Qu.: 0. 8878 Max.: 21. 18 Max.: 17. 25 Max.: 0. 9183 …