Casa Finanza personale Ottimizzazione delle scelte di convalida incrociata in Machine Learning - dummies

Ottimizzazione delle scelte di convalida incrociata in Machine Learning - dummies

Video: Data Analysis in R by Dustin Tran 2025

Video: Data Analysis in R by Dustin Tran 2025
Anonim

Essere in grado di convalidare un'ipotesi di apprendimento automatico consente un'ulteriore ottimizzazione dell'algoritmo scelto. L'algoritmo fornisce la maggior parte delle prestazioni predittive sui dati, data la sua capacità di rilevare i segnali dai dati e adattare la vera forma funzionale della funzione predittiva senza sovralimentazione e generando molta varianza delle stime. Non tutti gli algoritmi di apprendimento automatico sono adatti ai tuoi dati e nessun singolo algoritmo può soddisfare ogni problema. Sta a te trovare quello giusto per un problema specifico.

Una seconda fonte di prestazioni predittive è il dato stesso quando opportunamente trasformato e selezionato per migliorare le capacità di apprendimento dell'algoritmo scelto.

La fonte finale della performance deriva dalla regolazione fine degli hyper-parameters dell'algoritmo, che sono i parametri che decidi prima che l'apprendimento avvenga e che non siano appresi dai dati. Il loro ruolo è nel definire a priori un'ipotesi, mentre altri parametri lo specificano a posteriori, dopo che l'algoritmo interagisce con i dati e, utilizzando un processo di ottimizzazione, trova che alcuni valori di parametro lavorare meglio per ottenere buone previsioni.

Non tutti gli algoritmi di machine learning richiedono molta sintonizzazione iperparametrica, ma alcuni di quelli più complessi lo fanno, e sebbene tali algoritmi funzionino ancora fuori dalla scatola, tirare le leve giuste potrebbe fare una grande differenza nella correttezza delle previsioni. Anche quando gli iperparametri non vengono appresi dai dati, dovresti prendere in considerazione i dati su cui stai lavorando al momento di decidere gli iper-parametri, e dovresti fare la scelta in base alla convalida incrociata e un'attenta valutazione delle possibilità.

Algoritmi complessi di apprendimento automatico, quelli più esposti alla varianza delle stime, presentano molte scelte espresse in un gran numero di parametri. Girare con loro li rende più o meno adatti ai dati da cui stanno imparando. A volte troppa manipolazione iperparametrica può persino far sì che l'algoritmo rilevi segnali falsi dai dati. Ciò rende gli stessi parametri stessi una fonte di varianza non rilevata se si inizia a manipolarli troppo basandosi su qualche riferimento fisso come un set di test o uno schema di convalida incrociata ripetuto.

Sia R che Python offrono funzionalità di slicing che suddividono la matrice di input in parti di treno, test e validazione. In particolare, per procedure di test più complesse, come la convalida incrociata o il bootstrap, il pacchetto Scikit-learn offre un intero modulo e R ha un pacchetto specializzato che offre funzioni per la suddivisione, la pre-elaborazione e il test dei dati.Questo pacchetto si chiama caret.

Le possibili combinazioni di valori che possono formarsi gli iper-parametri rendono difficile decidere dove cercare le ottimizzazioni. Come descritto quando si discute della discesa del gradiente, uno spazio di ottimizzazione può contenere combinazioni di valori che presentano prestazioni migliori o peggiori. Anche dopo aver trovato una buona combinazione, non sei certo che sia l'opzione migliore. (Questo è il problema di rimanere bloccati nei minimi locali quando si riduce al minimo l'errore.)

Come modo pratico per risolvere questo problema, il modo migliore per verificare i parametri iper di un algoritmo applicato a dati specifici è testarli tutti convalida incrociata e scegliere la migliore combinazione. Questo semplice approccio, chiamato grid-search, offre indiscutibili vantaggi, consentendo di campionare la gamma di valori possibili da inserire nell'algoritmo in modo sistematico e individuare quando si verifica il minimo generale.

D'altra parte, la ricerca in rete ha anche gravi inconvenienti perché è intensiva dal punto di vista computazionale (è possibile eseguire facilmente questa attività in parallelo sui moderni computer multicore) e richiede parecchio tempo. Inoltre, i test sistematici e intensivi aumentano la possibilità di incorrere in errori perché alcuni buoni risultati di convalida falsi possono essere causati dal rumore presente nel set di dati.

Sono disponibili alcune alternative alla ricerca della griglia. Invece di testare tutto, puoi provare a esplorare lo spazio di possibili valori iperparametrici guidati da tecniche di ottimizzazione non lineare computazionalmente pesanti e matematicamente complesse (come il metodo Nelder-Mead), usando un approccio Bayesiano (dove il numero di test è ridotto al minimo prendendo vantaggio dei risultati precedenti) o utilizzando la ricerca casuale.

Sorprendentemente, la ricerca casuale funziona incredibilmente bene, è semplice da capire e non si basa solo sulla cieca fortuna, anche se inizialmente potrebbe sembrare. In effetti, il punto principale della tecnica è che se scegli abbastanza test casuali, hai effettivamente abbastanza possibilità di individuare i parametri giusti senza sprecare energia nel testare combinazioni leggermente diverse di combinazioni con prestazioni simili.

La seguente rappresentazione grafica spiega perché la ricerca casuale funziona correttamente. Un'esplorazione sistematica, sebbene utile, tende a testare ogni combinazione, che si trasforma in uno spreco di energia se alcuni parametri non influenzano il risultato. Una ricerca casuale verifica in realtà meno combinazioni ma più nel range di ciascun iper-parametro, una strategia che si dimostra vincente se, come spesso accade, alcuni parametri sono più importanti di altri.

Confronto tra la ricerca della griglia e la ricerca casuale.

Affinché la ricerca randomizzata funzioni bene, è necessario eseguire da 15 a un massimo di 60 test. Ha senso ricorrere alla ricerca casuale se una ricerca sulla griglia richiede un numero maggiore di esperimenti.
Ottimizzazione delle scelte di convalida incrociata in Machine Learning - dummies

Scelta dell'editore

Come salvare le immagini in un file immagine in R - dummies

Come salvare le immagini in un file immagine in R - dummies

Se vuoi pubblicare le tue risultati, è necessario salvare la trama in un file in R e quindi importare questo file grafico in un altro documento. Tuttavia, per la maggior parte del tempo, potresti semplicemente voler utilizzare la grafica R in modo interattivo per esplorare i tuoi dati. Per salvare un grafico su un'immagine ...

Come cercare più parole in R - dummies

Come cercare più parole in R - dummies

Quando si lavora con il testo in R, potrebbe essere necessario per trovare parole o motivi all'interno del testo. Immagina di avere una lista degli stati negli Stati Uniti e vuoi scoprire quali nomi di stato consistono in due parole. Per trovare sottostringhe, è possibile utilizzare la funzione grep (), che prende due argomenti essenziali: ...

Come cercare le singole parole in R - dummies

Come cercare le singole parole in R - dummies

Quando lavori con il testo, spesso tu può risolvere i problemi se riesci a trovare parole o motivi all'interno del testo. R rende questo facile da fare. Immagina di avere una lista degli stati negli Stati Uniti e vuoi scoprire quale di questi stati contiene la parola Nuovo. Per indagare su questo ...

Scelta dell'editore

Come calcolare le detrazioni e i crediti di imposta sugli investimenti immobiliari per l'esame di licenza immobiliare

Come calcolare le detrazioni e i crediti di imposta sugli investimenti immobiliari per l'esame di licenza immobiliare

Una detrazione fiscale è qualcosa che puoi vedere nell'esame di licenza immobiliare che puoi detrarre dal reddito di un investimento immobiliare per ridurre le tasse. Un credito d'imposta è qualcosa che puoi detrarre dalle tasse dovute. I governi federali e talvolta statali creano programmi che consentono crediti d'imposta o detrazioni per ...

Fattori economici che influenzano il valore per l'esame di licenza immobiliare - dummies

Fattori economici che influenzano il valore per l'esame di licenza immobiliare - dummies

Valore doesn ' semplicemente succede; le persone devono crearlo. La maggior parte di queste azioni personali che saranno trattate durante l'esame di licenza immobiliare, di solito chiamate influenze economiche, non sono altro che normali comportamenti umani. Il test pone due tipi di domande su questi principi o fattori economici. Vedrai domande sulle definizioni e ...

Come calcolare le aliquote fiscali per l'esame di licenza immobiliare - dummy

Come calcolare le aliquote fiscali per l'esame di licenza immobiliare - dummy

Pur calcolando la tassa le tariffe non sono qualcosa che devi sapere esattamente come fare per l'esame di licenza immobiliare, è qualcosa che devi capire in generale per rispondere a domande di non-matematica sul processo. Sapere come calcolare le tasse non è una cosa brutta da sapere, perché probabilmente si pagano le tasse di proprietà e ...

Scelta dell'editore

Suggerimenti per la registrazione Regole di gioco logiche sull'LSAT - manichini

Suggerimenti per la registrazione Regole di gioco logiche sull'LSAT - manichini

La maggior parte dei giochi di logica sull'LSAT hanno tre, quattro o cinque condizioni o regole che limitano il modo in cui giochi con i pezzi. Per ordinare i giochi, le restrizioni forniscono indizi su come i pezzi possono essere posizionati in relazione l'uno con l'altro. I tipi comuni di regole di ordinazione sono obiettivi, distanziatori e arrangiatori. Regole di destinazione I bersagli danno ...

Come gestire il tuo tempo con saggezza sul TASC - dummies

Come gestire il tuo tempo con saggezza sul TASC - dummies

Perché ogni sezione del TASC, oppure Prova l'esame di completamento secondario, ha un limite di tempo, vorrai essere consapevole di quanto tempo è passato mentre stai facendo il test. Un modo per gestire efficacemente il tuo tempo è semplicemente indossando un orologio. I centri di test potrebbero non avere sempre un orologio disponibile e ...

Rendendo più semplice il giorno di prova SSAT o ISEE - manichini

Rendendo più semplice il giorno di prova SSAT o ISEE - manichini

Non è possibile effettuare SSAT o ISEE più facile, ma puoi iniziare la giornata di test correttamente e renderlo più semplice e meno stressante, il che può portare a risultati migliori durante l'esame di ammissione. Ecco alcuni suggerimenti da tenere a mente al giorno del test SSAT o ISEE: riposati molto. La ...