Come utilizzare l'adattamento della curva in Predictive Analytics - dummies

Raccordo curva è un processo utilizzato nell'analisi predittiva in cui l'obiettivo è creare una curva che descrive la funzione matematica che si adatta meglio ai punti di dati effettivi (originali) in una serie di dati.

La curva può attraversare tutti i punti dati o rimanere all'interno della maggior parte dei dati, ignorando alcuni punti dati nella speranza di trarre le tendenze dai dati. In entrambi i casi, una singola funzione matematica viene assegnata all'intero corpo di dati, con l'obiettivo di adattare tutti i punti dati in una curva che delinea le tendenze e aiuta la previsione.

Il fitting della curva può essere ottenuto in tre modi:

Trovando una misura esatta per ogni punto di dati (un processo chiamato interpolazione )
Rimanendo all'interno la maggior parte dei dati mentre si ignorano alcuni dei punti dati nella speranza di trarre le tendenze dai dati
Utilizzando il livellamento dei dati per ottenere una funzione che rappresenta il grafico livellato

Il raccordo della curva può essere usato per riempire i possibili punti dati per sostituire i valori mancanti o consentire agli analisti di visualizzare i dati.

Quando lavori per generare un modello di analisi predittiva, evita di personalizzare il tuo modello per adattarlo perfettamente al tuo campione di dati. Un tale modello fallirà - miseramente - per predire dataset simili ma variabili al di fuori del campione di dati. Adattare un modello a un particolare campione di dati è un errore classico chiamato sovradattamento .

I problemi di overfitting

In sostanza, l'overfitting di un modello è ciò che accade quando si trascina il modello per rappresentare solo i dati campione - che non è una buona rappresentazione dei dati nel loro complesso. Senza un set di dati più realistico, il modello può essere afflitto da errori e rischi quando diventa operativo e le conseguenze per la tua azienda possono essere gravi.

Il sovradimensionamento di un modello è una trappola comune perché le persone vogliono creare modelli che funzionano - e quindi sono tentati di mantenere variabili e parametri di tweaking fino a quando il modello non esegue perfettamente - su dati troppo piccoli. Errare è umano. Fortunatamente, è anche umano creare soluzioni realistiche.

Per evitare il sovradattamento del modello al set di dati campione, assicurarsi di disporre di una serie di dati di test disponibili separati dai dati di esempio. Quindi è possibile misurare le prestazioni del modello in modo indipendente prima di rendere operativo il modello.

Pertanto, una protezione generale contro il sovradattamento consiste nel dividere i dati in due parti: dati di addestramento e dati di test. Le prestazioni del modello rispetto ai dati del test ti diranno molto sul fatto che il modello sia pronto per il mondo reale.

Un'altra best practice è fare in modo che i tuoi dati rappresentino la popolazione più ampia del dominio per cui stai modellando. Tutto ciò che un modello sovrallenato conosce sono le caratteristiche specifiche del set di dati campione per cui è stato addestrato. Se si allena il modello solo sulle vendite (per esempio) di ciaspole in inverno, non sorprenderti se fallisce miseramente quando viene eseguito di nuovo su dati di qualsiasi altra stagione.

Come evitare di sovralimentare

Vale la pena ripeterlo: troppi ritocchi del modello possono comportare un sovradattamento. Uno di questi tweak include troppe variabili nell'analisi. Mantieni quelle variabili al minimo. Includere solo le variabili che consideri assolutamente necessarie - quelle che ritieni possano fare una differenza significativa per il risultato.

Questa intuizione deriva solo dalla conoscenza approfondita del dominio aziendale in cui ti trovi. È qui che l'esperienza degli esperti di dominio può aiutarti a evitare di cadere nella trappola del sovradattamento.

Ecco un elenco di best practice per aiutarti a evitare il sovradattamento del tuo modello:

Scegli un set di dati con cui lavorare è rappresentativo della popolazione nel suo insieme.
Dividi il set di dati in due parti: dati di addestramento e dati di test.
Mantenere le variabili analizzate a un minimo salutare per l'attività in corso.
Supporta l'aiuto di esperti di conoscenza del dominio.

Nel mercato azionario, ad esempio, una tecnica analitica classica è back-testing - eseguendo un modello contro i dati storici per cercare la migliore strategia di trading.

Supponiamo che, dopo aver eseguito il suo nuovo modello contro i dati generati da un recente mercato rialzista, e modificando il numero di variabili utilizzate nella sua analisi, l'analista crei quella che sembra una strategia di trading ottimale - che produrrebbe i rendimenti più alti < se potrebbe tornare indietro e scambiare solo durante l'anno in cui sono stati prodotti i dati di test. Sfortunatamente, non può. Se cerca di applicare quel modello in un mercato orso attuale, guarda sotto: Incorrerà perdite applicando un modello troppo ottimizzato per un periodo di tempo ristretto e un insieme di condizioni che non si adattano alle realtà attuali. (Tanto per i profitti ipotetici.)

Il modello ha funzionato solo per quel mercato toro scomparso perché era sovrallenato, con gli indizi del contesto che ha prodotto i dati campione - completo di dettagli, valori anomali e carenze. Tutte le circostanze che circondano quel set di dati probabilmente non si ripeteranno in futuro, o in una vera rappresentazione dell'intera popolazione - ma sono tutte presenti nel modello sovralimentato.

Se l'output di un modello è troppo accurato, considera un suggerimento per dare un'occhiata più da vicino. Chiedete l'aiuto degli esperti di conoscenza del dominio per vedere se i vostri risultati sono davvero troppo belli per essere veri, ed eseguite quel modello su più dati di test per ulteriori confronti.