Casa Finanza personale Ottimizzazione delle scelte di convalida incrociata in Machine Learning - dummies

Ottimizzazione delle scelte di convalida incrociata in Machine Learning - dummies

Video: Data Analysis in R by Dustin Tran 2024

Video: Data Analysis in R by Dustin Tran 2024
Anonim

Essere in grado di convalidare un'ipotesi di apprendimento automatico consente un'ulteriore ottimizzazione dell'algoritmo scelto. L'algoritmo fornisce la maggior parte delle prestazioni predittive sui dati, data la sua capacità di rilevare i segnali dai dati e adattare la vera forma funzionale della funzione predittiva senza sovralimentazione e generando molta varianza delle stime. Non tutti gli algoritmi di apprendimento automatico sono adatti ai tuoi dati e nessun singolo algoritmo può soddisfare ogni problema. Sta a te trovare quello giusto per un problema specifico.

Una seconda fonte di prestazioni predittive è il dato stesso quando opportunamente trasformato e selezionato per migliorare le capacità di apprendimento dell'algoritmo scelto.

La fonte finale della performance deriva dalla regolazione fine degli hyper-parameters dell'algoritmo, che sono i parametri che decidi prima che l'apprendimento avvenga e che non siano appresi dai dati. Il loro ruolo è nel definire a priori un'ipotesi, mentre altri parametri lo specificano a posteriori, dopo che l'algoritmo interagisce con i dati e, utilizzando un processo di ottimizzazione, trova che alcuni valori di parametro lavorare meglio per ottenere buone previsioni.

Non tutti gli algoritmi di machine learning richiedono molta sintonizzazione iperparametrica, ma alcuni di quelli più complessi lo fanno, e sebbene tali algoritmi funzionino ancora fuori dalla scatola, tirare le leve giuste potrebbe fare una grande differenza nella correttezza delle previsioni. Anche quando gli iperparametri non vengono appresi dai dati, dovresti prendere in considerazione i dati su cui stai lavorando al momento di decidere gli iper-parametri, e dovresti fare la scelta in base alla convalida incrociata e un'attenta valutazione delle possibilità.

Algoritmi complessi di apprendimento automatico, quelli più esposti alla varianza delle stime, presentano molte scelte espresse in un gran numero di parametri. Girare con loro li rende più o meno adatti ai dati da cui stanno imparando. A volte troppa manipolazione iperparametrica può persino far sì che l'algoritmo rilevi segnali falsi dai dati. Ciò rende gli stessi parametri stessi una fonte di varianza non rilevata se si inizia a manipolarli troppo basandosi su qualche riferimento fisso come un set di test o uno schema di convalida incrociata ripetuto.

Sia R che Python offrono funzionalità di slicing che suddividono la matrice di input in parti di treno, test e validazione. In particolare, per procedure di test più complesse, come la convalida incrociata o il bootstrap, il pacchetto Scikit-learn offre un intero modulo e R ha un pacchetto specializzato che offre funzioni per la suddivisione, la pre-elaborazione e il test dei dati.Questo pacchetto si chiama caret.

Le possibili combinazioni di valori che possono formarsi gli iper-parametri rendono difficile decidere dove cercare le ottimizzazioni. Come descritto quando si discute della discesa del gradiente, uno spazio di ottimizzazione può contenere combinazioni di valori che presentano prestazioni migliori o peggiori. Anche dopo aver trovato una buona combinazione, non sei certo che sia l'opzione migliore. (Questo è il problema di rimanere bloccati nei minimi locali quando si riduce al minimo l'errore.)

Come modo pratico per risolvere questo problema, il modo migliore per verificare i parametri iper di un algoritmo applicato a dati specifici è testarli tutti convalida incrociata e scegliere la migliore combinazione. Questo semplice approccio, chiamato grid-search, offre indiscutibili vantaggi, consentendo di campionare la gamma di valori possibili da inserire nell'algoritmo in modo sistematico e individuare quando si verifica il minimo generale.

D'altra parte, la ricerca in rete ha anche gravi inconvenienti perché è intensiva dal punto di vista computazionale (è possibile eseguire facilmente questa attività in parallelo sui moderni computer multicore) e richiede parecchio tempo. Inoltre, i test sistematici e intensivi aumentano la possibilità di incorrere in errori perché alcuni buoni risultati di convalida falsi possono essere causati dal rumore presente nel set di dati.

Sono disponibili alcune alternative alla ricerca della griglia. Invece di testare tutto, puoi provare a esplorare lo spazio di possibili valori iperparametrici guidati da tecniche di ottimizzazione non lineare computazionalmente pesanti e matematicamente complesse (come il metodo Nelder-Mead), usando un approccio Bayesiano (dove il numero di test è ridotto al minimo prendendo vantaggio dei risultati precedenti) o utilizzando la ricerca casuale.

Sorprendentemente, la ricerca casuale funziona incredibilmente bene, è semplice da capire e non si basa solo sulla cieca fortuna, anche se inizialmente potrebbe sembrare. In effetti, il punto principale della tecnica è che se scegli abbastanza test casuali, hai effettivamente abbastanza possibilità di individuare i parametri giusti senza sprecare energia nel testare combinazioni leggermente diverse di combinazioni con prestazioni simili.

La seguente rappresentazione grafica spiega perché la ricerca casuale funziona correttamente. Un'esplorazione sistematica, sebbene utile, tende a testare ogni combinazione, che si trasforma in uno spreco di energia se alcuni parametri non influenzano il risultato. Una ricerca casuale verifica in realtà meno combinazioni ma più nel range di ciascun iper-parametro, una strategia che si dimostra vincente se, come spesso accade, alcuni parametri sono più importanti di altri.

Confronto tra la ricerca della griglia e la ricerca casuale.

Affinché la ricerca randomizzata funzioni bene, è necessario eseguire da 15 a un massimo di 60 test. Ha senso ricorrere alla ricerca casuale se una ricerca sulla griglia richiede un numero maggiore di esperimenti.
Ottimizzazione delle scelte di convalida incrociata in Machine Learning - dummies

Scelta dell'editore

Scattare foto digitali con uno zoom ottico - dummy

Scattare foto digitali con uno zoom ottico - dummy

La fotocamera digitale potrebbe avere uno zoom ottico, che è un Obiettivo zoom attuale vecchio stile (al contrario di uno zoom digitale). Per utilizzare lo zoom ottico della fotocamera digitale per scatti ravvicinati, segui questi passaggi di preparazione delle immagini prima di attivare il pulsante o lo switch di zoom:

La reflex digitale e la sensibilità alla luce - dummy

La reflex digitale e la sensibilità alla luce - dummy

La tua reflex digitale ha un'opzione per determinare la sensibilità del sensore della fotocamera è alla luce. Le fotocamere digitali sono le stesse delle fotocamere a pellicola in quanto la sensibilità alla luce è determinata dalla valutazione ISO. Il vantaggio di una fotocamera digitale è che non è necessario cambiare pellicola per modificare le valutazioni ISO. Quando aumenti ...

Scatti grandangolari con obiettivi standard - manichini

Scatti grandangolari con obiettivi standard - manichini

Fotografia grandangolare con un angolo di campo maggiore rispetto alla lunghezza focale normale o teleobiettivo. A volte si percepiscono le foto come molto espansive. Altre volte, a malapena lo si nota. Dipende tutto dal soggetto e da come si inquadra la scena. Questa figura mostra una scena di terreni agricoli che è stata scattata utilizzando un Sony APS-C ...

Scelta dell'editore

Come usare il meta tag DESCRIPTION - dummies

Come usare il meta tag DESCRIPTION - dummies

I meta tag sono tag HTML speciali che puoi utilizzare per trasportare informazioni, che i browser o altri programmi possono quindi leggere. Quando i motori di ricerca di Internet furono creati per la prima volta, i webmaster includevano i meta tag nelle loro pagine per rendere più facile per i motori di ricerca determinare le pagine. I motori di ricerca hanno utilizzato anche questi meta ...

Come scrivere un grande tag Title Web Marketing - dummies

Come scrivere un grande tag Title Web Marketing - dummies

Scrivere un tag title è fondamentale per il successo del web marketing e coinvolge più che mettere le parole chiave prima. I motori di ricerca mostrano il tag parola chiave nella parte superiore di ciascun elemento nelle pagine dei risultati dei motori di ricerca (SERP). Un tag del titolo ben scritto potrebbe aumentare le probabilità che un cliente in ricerca faccia clic sul tuo annuncio. Se ...

In che modo Yahoo! Cerca negli elenchi di Internet e dei ranghi - dummies

In che modo Yahoo! Cerca negli elenchi di Internet e dei ranghi - dummies

Quando le persone effettuano ricerche sul Web utilizzando Yahoo! , ottengono una combinazione di risultati organici e pagati. Se lavori per una società più grande, potresti provare Yahoo! La ricerca inoltra Pro per ottenere un vantaggio rispetto alla concorrenza e puoi persino registrare il tuo sito con Yahoo! Directory. Yahoo! I risultati di ricerca organica ...

Scelta dell'editore

Di Spotify su ShareMyPlaylists. it Funzionalità del sito - dummies

Di Spotify su ShareMyPlaylists. it Funzionalità del sito - dummies

ShareMyPlaylists (o SMP, in breve) è stato uno dei primi siti di condivisione di playlist Spotify e continua a innovare e offrire nuove funzionalità ai visitatori. Il mantra del sito è "Long Live the Mixtape", e qui troverai tantissime creazioni accuratamente compilate da migliaia di utenti. Dopo aver creato una playlist Spotify piena di ...

Spotify Unlimited - dummies

Spotify Unlimited - dummies

Spotify Unlimited è un modo brillante per ascoltare tutta la musica che vuoi senza limiti. È come una persona speciale che ti compra da mangiare e da bere tutta la sera per non doverti preoccupare del conto. È come essere in grado di dormire nel weekend senza preoccuparsi del lavoro o se ...

I generi di Spotify - dummies

I generi di Spotify - dummies

Che si tratti di hard rock, techno, pop, jazz, industrial, indie pop, folk , classico, heavy metal, valzer o qualsiasi altra cosa ti piaccia, Spotify ha il genere o il tipo di musica coperto. Puoi cercare i generi comuni da Spotify. Sebbene Spotify abbia pubblicato un elenco di quasi 1, 000 generi noti, non tutti saranno in grado di offrire ...