Video: IL FURTO DEL DEBITO PUBBLICO, SPIEGATO BENE - Guido Grossi 2025
Quando ci si affida alla tecnologia o alla strumentazione per svolgere un'attività di analisi predittiva, un glitch qui o là può far sì che questi strumenti registrino valori estremi o insoliti. Se i sensori registrano valori osservativi che non soddisfano gli standard di controllo di qualità di base, possono produrre interruzioni reali che si riflettono nei dati.
Qualcuno che esegue l'immissione di dati, ad esempio, può facilmente aggiungere uno 0 in eccesso alla fine di un valore per errore, prendendo la voce fuori dal range e producendo un valore anomalo.
Se stai osservando i dati osservazionali raccolti da un sensore d'acqua installato nel porto di Baltimora - e riporta una profondità dell'acqua di 20 piedi sopra il livello medio del mare - hai un outlier. Il sensore è ovviamente sbagliato a meno che Baltimora non sia completamente coperta dall'acqua.
I dati possono finire per avere valori anomali a causa di eventi esterni o di un errore da parte di una persona o di uno strumento.
Se un evento reale come un arresto anomalo del flash viene fatto risalire a un errore nel sistema, le sue conseguenze sono ancora reali, ma se si conosce la fonte del problema, si può concludere che un difetto nei dati, non nel modello, era la colpa se il tuo modello non prevedeva l'evento.
Conoscere la fonte dell'outlier guiderà la tua decisione su come affrontarla. I valori anomali che sono il risultato di errori di immissione dei dati possono essere facilmente corretti dopo aver consultato l'origine dei dati. I valori anomali che riflettono una realtà del cambiamento potrebbero suggerirti di cambiare modello.
Non esiste una risposta valida per tutti quando stai decidendo se includere o ignorare i dati estremi che non è un errore o un problema tecnico. La tua risposta dipende dalla natura dell'analisi che stai facendo e dal tipo di modello che stai creando. In alcuni casi, il modo per gestire tali valori anomali è semplice:
-
Se si traccia il valore anomalo a un errore di immissione dati quando si consulta l'origine dati, è possibile correggere facilmente i dati e (probabilmente) mantenere il modello intatto.
-
Se il sensore dell'acqua nel porto di Baltimora riporta acqua ad una profondità di 20 piedi sopra il livello medio del mare, e sei a Baltimora, guarda fuori dalla finestra:
-
Se Baltimora non è completamente coperta dall'acqua, il sensore è ovviamente sbagliato.
-
Se vedi un pesce guardarti dentro, la realtà è cambiata; potresti dover rivedere il tuo modello.
-
-
Il flash crash potrebbe essere stato un evento di una volta (a breve termine, comunque), ma i suoi effetti erano reali - e se hai studiato il mercato a lungo termine, sai che qualcosa di simile potrebbe accadere di nuovo.Se la tua attività è in finanza e ti occupi sempre del mercato azionario, vuoi che il tuo modello tenga conto di tali aberrazioni.
In generale, se l'esito di un evento normalmente considerato anomalo può avere un impatto significativo sulla tua attività, considera come gestire tali eventi nella tua analisi. Tenete presenti questi punti generali riguardo ai valori anomali:
-
Il set di dati più piccolo è, più significativo è l'impatto che gli outlier possono avere sull'analisi.
-
Man mano che sviluppi il tuo modello, assicurati di sviluppare anche tecniche per trovare valori anomali e capire sistematicamente il loro impatto sulla tua attività.
-
Rilevare valori anomali può essere un processo complesso; non esiste un modo semplice per identificarli.
-
Un esperto di dominio (qualcuno che conosce il campo che stai modellando) è la persona migliore per verificare se un punto dati è valido, un valore anomalo che puoi ignorare o un valore anomalo che hai tener conto. L'esperto di dominio dovrebbe essere in grado di spiegare quali fattori hanno creato il valore anomalo, quale sia il suo intervallo di variabilità e il suo impatto sul business.
-
Gli strumenti di visualizzazione possono aiutarti a individuare valori anomali nei dati. Inoltre, se si conosce l'intervallo di valori atteso, è possibile interrogare facilmente i dati che non rientrano in tale intervallo.
