Video: The era of blind faith in big data must end | Cathy O'Neil 2024
Diversi algoritmi statistici, di data mining e di apprendimento automatico sono disponibili per l'uso nel modello di analisi predittiva. Sei in una posizione migliore per selezionare un algoritmo dopo aver definito gli obiettivi del modello e selezionato i dati su cui lavorerai. Alcuni di questi algoritmi sono stati sviluppati per risolvere problemi aziendali specifici, migliorare gli algoritmi esistenti o fornire nuove funzionalità, che potrebbero renderli più appropriati per gli scopi di altri. È possibile scegliere tra una gamma di algoritmi per affrontare problemi di business come i seguenti:
- Per la segmentazione della clientela e / o il rilevamento della comunità nella sfera sociale, ad esempio, sono necessari algoritmi di clustering.
- Per la fidelizzazione dei clienti o per sviluppare un sistema di raccomandazione, dovresti utilizzare gli algoritmi di classificazione.
- Per ottenere un punteggio di credito o prevedere il prossimo risultato di eventi basati sul tempo, si utilizzerà un algoritmo di regressione.
Poiché il tempo e le risorse lo consentono, è necessario eseguire quanti più algoritmi del tipo appropriato possibile. Il confronto tra diverse esecuzioni di algoritmi diversi può portare a scoperte sorprendenti sui dati o sulla business intelligence incorporati nei dati. In questo modo puoi ottenere informazioni più dettagliate sul problema aziendale e aiutarti a identificare quali variabili all'interno dei tuoi dati hanno un potere predittivo.
Alcuni progetti di analisi predittiva riescono meglio creando un modello di ensemble, un gruppo di modelli che operano sugli stessi dati. Un modello ensemble utilizza un meccanismo predefinito per raccogliere risultati da tutti i suoi modelli componenti e fornire un risultato finale per l'utente.
I modelli possono assumere varie forme: una query, una raccolta di scenari, un albero decisionale o un'analisi matematica avanzata. Inoltre, alcuni modelli funzionano meglio per determinati dati e analisi. È possibile (ad esempio) utilizzare algoritmi di classificazione che impiegano regole decisionali per decidere l'esito di un determinato scenario o transazione, affrontando domande come queste:
- È probabile che questo cliente risponda alla nostra campagna di marketing?
- È probabile che questo trasferimento di denaro faccia parte di un programma di riciclaggio di denaro?
- È probabile che questo mutuatario si disattivi sul prestito?
È possibile utilizzare algoritmi di clustering non supervisionati per individuare le relazioni esistenti all'interno del set di dati. È possibile utilizzare questi algoritmi per trovare diversi raggruppamenti tra i clienti, determinare quali servizi possono essere raggruppati o decidere ad esempio quali prodotti possono essere venduti.
Gli algoritmi di regressione possono essere utilizzati per prevedere dati continui, come ad esempio la previsione dell'andamento di un movimento azionario dati i prezzi passati.
Alberi decisionali, macchine vettoriali di supporto, reti neurali, logistiche e regressioni lineari sono alcuni degli algoritmi più comuni. Sebbene le loro implementazioni matematiche differiscano, questi modelli predittivi generano risultati comparabili. Gli alberi decisionali sono più popolari, perché sono facili da capire; puoi seguire il percorso verso una determinata decisione.
Gli algoritmi di classificazione sono ottimi per il tipo di analisi quando l'obiettivo è noto (come l'identificazione delle e-mail di spam). D'altra parte, quando la variabile di destinazione è sconosciuta, gli algoritmi di clustering sono la soluzione migliore. Consentono di raggruppare o raggruppare i dati in gruppi significativi in base alle somiglianze tra i membri del gruppo.
Questi algoritmi sono molto popolari. Ci sono molti strumenti, sia commerciali che open-source, che li implementano. Con l'accumulo di dati crescente e accelerato (ovvero i big data) e l'hardware e le piattaforme a basso costo (come il cloud computing e Hadoop), gli strumenti di analisi predittiva stanno vivendo un boom.
I dati e gli obiettivi di business non sono gli unici fattori da considerare quando si seleziona un algoritmo. L'esperienza dei vostri scienziati di dati è di enorme valore a questo punto; scegliere un algoritmo che porti a termine il lavoro è spesso una combinazione complicata di scienza e arte. La parte artistica deriva dall'esperienza e competenza nel settore aziendale, che svolge anche un ruolo fondamentale nell'identificazione di un modello che può servire in modo preciso gli obiettivi di business.