Video: The wonderful and terrifying implications of computers that can learn | Jeremy Howard | TEDxBrussels 2024
A livello di chiodi di bronzo, la classificazione dei dati analitici predittivi si compone di due fasi: la fase di apprendimento e la fase di predizione. La fase di apprendimento comporta la formazione del modello di classificazione eseguendo un set designato di dati passati attraverso il classificatore. L'obiettivo è insegnare al modello a estrarre e scoprire relazioni e regole nascoste - le regole di classificazione dai dati storici (di allenamento). Il modello lo fa utilizzando un algoritmo di classificazione.
Lo stadio di predizione che segue lo stadio di apprendimento consiste nel fare in modo che il modello pronostichi nuove etichette di classe o valori numerici che classificano i dati che non ha mai visto prima (cioè dati di test).
Per illustrare queste fasi, supponiamo che tu sia il proprietario di un negozio online che vende orologi. Hai posseduto il negozio online per un po 'di tempo e hai raccolto molti dati transazionali e dati personali sui clienti che acquistavano gli orologi dal tuo negozio. Supponiamo che tu abbia acquisito tali dati attraverso il tuo sito fornendo moduli web, oltre ai dati transazionali raccolti attraverso le operazioni.
Potresti anche acquistare dati da una terza parte che ti fornisce informazioni sui tuoi clienti al di fuori del loro interesse per gli orologi. Non è così difficile come sembra; ci sono aziende il cui modello di business è quello di tenere traccia dei clienti online e raccogliere e vendere informazioni preziose su di loro.
La maggior parte di queste società di terze parti raccoglie dati dai siti di social media e applica metodi di data mining per scoprire la relazione dei singoli utenti con i prodotti. In questo caso, come proprietario di un negozio di orologi, ti interesserebbe il rapporto tra i clienti e il loro interesse all'acquisto di orologi.
È possibile dedurre questo tipo di informazioni dall'analisi, ad esempio, del profilo di un social network di un cliente o di un commento di microblog del tipo che si trova su Twitter.
Per misurare il livello di interesse di un individuo negli orologi, è possibile applicare uno qualsiasi dei diversi strumenti di analisi del testo in grado di scoprire tali correlazioni nel testo di un individuo (stati di social network, tweet, post di blog e così via) o attività online (come interazioni sociali online, caricamenti di foto e ricerche).
Dopo aver raccolto tutti i dati sulle transazioni passate e gli interessi correnti dei tuoi clienti - i dati di allenamento che mostrano il tuo modello cosa cercare - dovrai organizzarlo in una struttura che lo renda facile accesso e utilizzo (come un database).
A questo punto, hai raggiunto la seconda fase della classificazione dei dati: la fase di predizione, che riguarda esclusivamente la verifica del modello e l'accuratezza delle regole di classificazione che ha generato. A tal fine, avrai bisogno di ulteriori dati storici sui clienti, indicati come dati di test (che è diverso dai dati di addestramento).
Si alimentano questi dati di test nel modello e si misura l'accuratezza delle previsioni risultanti. Conti le volte in cui il modello ha previsto correttamente il comportamento futuro dei clienti rappresentati nei dati di test. Conti anche le volte in cui il modello ha fatto previsioni sbagliate.
A questo punto, hai solo due possibili risultati: o sei soddisfatto dell'accuratezza del modello o non lo sei:
-
Se sei soddisfatto, allora puoi iniziare a preparare il tuo modello a fare previsioni come parte di un sistema di produzione.
-
Se non sei soddisfatto del pronostico, dovrai riqualificare il tuo modello con un nuovo set di dati di addestramento.
Se i tuoi dati di allenamento originali non erano abbastanza rappresentativi del gruppo dei tuoi clienti o contenevano dati rumorosi che hanno allontanato i risultati del modello introducendo segnali falsi, allora c'è ancora molto lavoro da fare per far funzionare il tuo modello. O l'esito è utile a suo modo.