Casa Finanza personale Come utilizzare l'adattamento della curva in Predictive Analytics - dummies

Come utilizzare l'adattamento della curva in Predictive Analytics - dummies

Sommario:

Video: 2017 Personality 01: Introduction 2025

Video: 2017 Personality 01: Introduction 2025
Anonim

Raccordo curva è un processo utilizzato nell'analisi predittiva in cui l'obiettivo è creare una curva che descrive la funzione matematica che si adatta meglio ai punti di dati effettivi (originali) in una serie di dati.

La curva può attraversare tutti i punti dati o rimanere all'interno della maggior parte dei dati, ignorando alcuni punti dati nella speranza di trarre le tendenze dai dati. In entrambi i casi, una singola funzione matematica viene assegnata all'intero corpo di dati, con l'obiettivo di adattare tutti i punti dati in una curva che delinea le tendenze e aiuta la previsione.

Il fitting della curva può essere ottenuto in tre modi:

  • Trovando una misura esatta per ogni punto di dati (un processo chiamato interpolazione )

  • Rimanendo all'interno la maggior parte dei dati mentre si ignorano alcuni dei punti dati nella speranza di trarre le tendenze dai dati

  • Utilizzando il livellamento dei dati per ottenere una funzione che rappresenta il grafico livellato

Il raccordo della curva può essere usato per riempire i possibili punti dati per sostituire i valori mancanti o consentire agli analisti di visualizzare i dati.

Quando lavori per generare un modello di analisi predittiva, evita di personalizzare il tuo modello per adattarlo perfettamente al tuo campione di dati. Un tale modello fallirà - miseramente - per predire dataset simili ma variabili al di fuori del campione di dati. Adattare un modello a un particolare campione di dati è un errore classico chiamato sovradattamento .

I problemi di overfitting

In sostanza, l'overfitting di un modello è ciò che accade quando si trascina il modello per rappresentare solo i dati campione - che non è una buona rappresentazione dei dati nel loro complesso. Senza un set di dati più realistico, il modello può essere afflitto da errori e rischi quando diventa operativo e le conseguenze per la tua azienda possono essere gravi.

Il sovradimensionamento di un modello è una trappola comune perché le persone vogliono creare modelli che funzionano - e quindi sono tentati di mantenere variabili e parametri di tweaking fino a quando il modello non esegue perfettamente - su dati troppo piccoli. Errare è umano. Fortunatamente, è anche umano creare soluzioni realistiche.

Per evitare il sovradattamento del modello al set di dati campione, assicurarsi di disporre di una serie di dati di test disponibili separati dai dati di esempio. Quindi è possibile misurare le prestazioni del modello in modo indipendente prima di rendere operativo il modello.

Pertanto, una protezione generale contro il sovradattamento consiste nel dividere i dati in due parti: dati di addestramento e dati di test. Le prestazioni del modello rispetto ai dati del test ti diranno molto sul fatto che il modello sia pronto per il mondo reale.

Un'altra best practice è fare in modo che i tuoi dati rappresentino la popolazione più ampia del dominio per cui stai modellando. Tutto ciò che un modello sovrallenato conosce sono le caratteristiche specifiche del set di dati campione per cui è stato addestrato. Se si allena il modello solo sulle vendite (per esempio) di ciaspole in inverno, non sorprenderti se fallisce miseramente quando viene eseguito di nuovo su dati di qualsiasi altra stagione.

Come evitare di sovralimentare

Vale la pena ripeterlo: troppi ritocchi del modello possono comportare un sovradattamento. Uno di questi tweak include troppe variabili nell'analisi. Mantieni quelle variabili al minimo. Includere solo le variabili che consideri assolutamente necessarie - quelle che ritieni possano fare una differenza significativa per il risultato.

Questa intuizione deriva solo dalla conoscenza approfondita del dominio aziendale in cui ti trovi. È qui che l'esperienza degli esperti di dominio può aiutarti a evitare di cadere nella trappola del sovradattamento.

Ecco un elenco di best practice per aiutarti a evitare il sovradattamento del tuo modello:

  • Scegli un set di dati con cui lavorare è rappresentativo della popolazione nel suo insieme.

  • Dividi il set di dati in due parti: dati di addestramento e dati di test.

  • Mantenere le variabili analizzate a un minimo salutare per l'attività in corso.

  • Supporta l'aiuto di esperti di conoscenza del dominio.

Nel mercato azionario, ad esempio, una tecnica analitica classica è back-testing - eseguendo un modello contro i dati storici per cercare la migliore strategia di trading.

Supponiamo che, dopo aver eseguito il suo nuovo modello contro i dati generati da un recente mercato rialzista, e modificando il numero di variabili utilizzate nella sua analisi, l'analista crei quella che sembra una strategia di trading ottimale - che produrrebbe i rendimenti più alti < se potrebbe tornare indietro e scambiare solo durante l'anno in cui sono stati prodotti i dati di test. Sfortunatamente, non può. Se cerca di applicare quel modello in un mercato orso attuale, guarda sotto: Incorrerà perdite applicando un modello troppo ottimizzato per un periodo di tempo ristretto e un insieme di condizioni che non si adattano alle realtà attuali. (Tanto per i profitti ipotetici.)

Il modello ha funzionato solo per quel mercato toro scomparso perché era sovrallenato, con gli indizi del contesto che ha prodotto i dati campione - completo di dettagli, valori anomali e carenze. Tutte le circostanze che circondano quel set di dati probabilmente non si ripeteranno in futuro, o in una vera rappresentazione dell'intera popolazione - ma sono tutte presenti nel modello sovralimentato.

Se l'output di un modello è troppo accurato, considera un suggerimento per dare un'occhiata più da vicino. Chiedete l'aiuto degli esperti di conoscenza del dominio per vedere se i vostri risultati sono davvero troppo belli per essere veri, ed eseguite quel modello su più dati di test per ulteriori confronti.

Come utilizzare l'adattamento della curva in Predictive Analytics - dummies

Scelta dell'editore

Il programma in cinque passaggi per superare la menopausa - dummy

Il programma in cinque passaggi per superare la menopausa - dummy

Alcune donne capiscono a malapena che la menopausa è loro. Altre donne, tuttavia, sono meno fortunate. Se sei uno di questi, prendi in mano questi pochi modi per rendere la tua esperienza più facile per te stesso: capisci e accetta che stai attraversando una transizione naturale, proprio come la pubertà. Fortunatamente, sei più vecchio e più saggio di te ...

Menopausa For Dummies Cheat Sheet (edizione UK) - dummies

Menopausa For Dummies Cheat Sheet (edizione UK) - dummies

Menopausa segna la fine della fase riproduttiva della tua vita e così è un momento significativo di cambiamento fisico, emotivo e mentale per molte donne ma, per generazioni, donne di tutte le età hanno vagato alla cieca in menopausa senza sapere cosa aspettarsi. Qui puoi scoprire alcune delle nozioni di base.

Perimenopausa: facilitare la transizione dalle mestruazioni alla menopausa - manichini

Perimenopausa: facilitare la transizione dalle mestruazioni alla menopausa - manichini

Mestruazioni e menopausa sono ben noti biologici pietre miliari nella vita di una femmina. Contrariamente al pensiero popolare, la menopausa non è il periodo di mesi o anni in cui una donna sta "attraversando il cambiamento". "Questo lasso di tempo è chiamato perimenopausa. La menopausa è una data effettiva nel tempo. In particolare, è il 12 ° anniversario dell'ultimo ciclo mestruale di una donna. ...

Scelta dell'editore

Come utilizzare il filtro automatico personalizzato su una tabella di Excel - dummies

Come utilizzare il filtro automatico personalizzato su una tabella di Excel - dummies

È Possibile creare un filtro automatico personalizzato . Per fare ciò, seleziona il comando Filtro testo dal menu della tabella e scegli una delle opzioni di filtro del testo. Indipendentemente dall'opzione di filtro del testo selezionata, Excel visualizza la finestra di dialogo Filtro automatico personalizzato. Questa finestra di dialogo consente di specificare con estrema precisione quali record si desidera ...

Come utilizzare la funzione DPRODUCT in un database Excel - dummies

Come utilizzare la funzione DPRODUCT in un database Excel - dummies

DPRODUCT moltiplica i valori che corrispondono al criterio in un database Excel. Questo è potente ma anche in grado di produrre risultati che non sono l'intenzione. In altre parole, è una cosa da aggiungere e ricavare una somma. Questa è un'operazione comune su un set di dati. Osservando la seguente figura, è possibile ...

Come utilizzare la funzione DPRODUCT in Excel - dummy

Come utilizzare la funzione DPRODUCT in Excel - dummy

La funzione DPRODUCT in Excel è strana. La funzione DPRODUCT moltiplica i valori nei campi da un elenco di database in base ai criteri di selezione. Perché vorresti farlo? Chissà. La funzione utilizza la sintassi = DPRODUCT (database, campo, criteri) in cui il database è un riferimento all'intervallo alla tabella di Excel che contiene il valore desiderato ...

Scelta dell'editore

Programmazione con Java: riutilizzo dei nomi nella tua app per Android - dummies

Programmazione con Java: riutilizzo dei nomi nella tua app per Android - dummies

Ci sono un paio di cose a cui vuoi pensare quando riutilizzi i nomi nella tua app per Android. È possibile dichiarare due variabili Java - bag1 e bag2 - per fare riferimento a due diversi oggetti BagOfCheese. Va bene. Ma a volte, avere solo una variabile e riutilizzarla per il secondo oggetto funziona altrettanto bene, ...

Java: Mettere a frutto l'uso della classe - dummies

Java: Mettere a frutto l'uso della classe - dummies

La classe Employee nell'elenco non ha alcun metodo principale , quindi non c'è un punto di partenza per l'esecuzione del codice. Per risolvere questo problema, il programmatore scrive un programma separato con un metodo principale e utilizza tale programma per creare istanze Employee. Questo elenco di codici mostra una classe con un metodo principale - uno che inserisce il ...

Classi wrapper java - dummies

Classi wrapper java - dummies

La differenza tra tipi primitivi e tipi di riferimento è una delle funzionalità più controverse di Java e gli sviluppatori si lamentano spesso sulle differenze tra valori primitivi e valori di riferimento. Ogni tipo primitivo viene cotto nella lingua. Java ha otto tipi primitivi. Ogni tipo di riferimento è una classe o un'interfaccia. È possibile definire il proprio ...