Video: K-Fold Cross Validation - Intro to Machine Learning 2025
In un mondo perfetto, puoi eseguire un test sui dati che il tuo algoritmo di apprendimento automatico non ha mai imparato prima. Tuttavia, l'attesa di nuovi dati non è sempre fattibile in termini di tempi e costi.
Come primo rimedio semplice, puoi dividere casualmente i tuoi dati in training e set di test. La suddivisione comune va dal 25 al 30 percento per i test e dal 75 al 70 percento per l'allenamento. Hai diviso i tuoi dati consistenti nella tua risposta e funzionalità allo stesso tempo, mantenendo la corrispondenza tra ogni risposta e le sue caratteristiche.
Il secondo rimedio si verifica quando è necessario regolare l'algoritmo di apprendimento. In questo caso, i dati di split test non sono una buona pratica perché causano un altro tipo di overfitting chiamato snooping. Per superare lo snooping, hai bisogno di un terzo split, chiamato un set di validazione. Una divisione suggerita è quella di avere gli esempi suddivisi in terze parti: 70% per la formazione, 20% per la convalida e il 10% per i test.
È necessario eseguire la suddivisione in modo casuale, ovvero indipendentemente dall'ordinamento iniziale dei dati. In caso contrario, il test non sarà affidabile, perché l'ordinamento potrebbe causare sovrastima (quando c'è qualche ordinamento significativo) o sottostima (quando la distribuzione differisce di troppo). Come soluzione, è necessario assicurarsi che la distribuzione del set di test non sia molto diversa dalla distribuzione dell'allenamento e che l'ordinamento sequenziale si verifichi nei dati suddivisi.
Ad esempio, controlla se i numeri di identificazione, quando disponibili, sono continui nei tuoi set. A volte, anche se si rispettano rigorosamente il campionamento casuale, non è sempre possibile ottenere distribuzioni simili tra le serie, specialmente quando il numero di esempi è piccolo.
Quando il numero di esempi n è alto, come n> 10.000, è possibile creare con sicurezza un set di dati suddivisi casualmente. Quando il set di dati è più piccolo, il confronto tra statistiche di base quali media, modalità, mediana e varianza tra la risposta e le caratteristiche nei set di training e test ti aiuterà a capire se il set di test non è adatto. Quando non sei sicuro che la divisione sia giusta, ricalcola una nuova.