Sommario:
- Concentrarsi sul business del data mining
- Capire come trascorrono il loro tempo i minatori di dati
- Conoscere il processo di data mining
- Creazione di modelli
- Comprensione dei modelli matematici
- Mettere le informazioni in azione
Video: Cosa Fa un Data Scientist 2024
Se si pensa ai dati come materia prima e le informazioni che si ottengono dai dati come qualcosa di prezioso e relativamente raffinato, il processo di estrazione delle informazioni può essere rispetto all'estrazione di metalli da minerali o gemme dallo sporco. È così che è nato il termine data mining .
Concentrarsi sul business del data mining
I minatori di dati non si limitano a meditare i dati senza scopo, sperando di trovare qualcosa di interessante. Ogni progetto di data mining inizia con uno specifico problema aziendale e un obiettivo da abbinare.
Come minatore di dati, probabilmente non avrai l'autorità per prendere decisioni aziendali definitive, quindi è importante allineare il tuo lavoro con le esigenze dei decisori. È necessario comprendere i loro problemi, esigenze e preferenze e concentrare i propri sforzi sulla fornitura di informazioni che supportino le buone decisioni aziendali.
La tua conoscenza del business è molto importante. I dirigenti non siederanno accanto a te mentre lavori, fornendo un feedback sulla rilevanza delle tue scoperte alle loro preoccupazioni. Devi usare la tua esperienza e il tuo acume per giudicare ciò per te mentre lavori.
Capire come trascorrono il loro tempo i minatori di dati
Sarebbe bello se i minatori di dati trascorressero tutto il giorno a fare scoperte che cambiano la vita, costruendo modelli di valore e integrandoli nel business quotidiano. Ma è come dire che sarebbe bello se gli atleti potessero passare tutti i giorni a vincere tornei. Ci vuole un sacco di preparazione per costruire fino a quei momenti di trionfo. Quindi, come gli atleti, i minatori di dati dedicano molto tempo alla preparazione.
Conoscere il processo di data mining
Un buon processo di lavoro ti aiuta a sfruttare al meglio il tuo tempo, i tuoi dati e tutte le altre risorse. In questo libro, scoprirai il processo di data mining più popolare, CRISP-DM. È un ciclo in sei fasi di scoperta e azione creato da un consorzio di minatori di dati di molti settori e uno standard aperto che chiunque può utilizzare.
Le fasi del processo CRISP-DM sono
-
Business Understanding
-
Dati Comprensione
-
Preparazione dati
-
Modellazione
-
Valutazione
-
Distribuzione (utilizzando modelli nel business quotidiano)
Ciascuna fase assume uguale peso per la qualità dei risultati e valore per il business. Ma in termini di tempo richiesto, la preparazione dei dati domina. La preparazione dei dati richiede più tempo di tutte le altre fasi del processo di data mining combinato.
Creazione di modelli
Quando gli obiettivi vengono compresi e i dati vengono puliti e pronti per l'uso, è possibile attirare l'attenzione sulla creazione di modelli predittivi.I modelli fanno ciò che i report non possono; ti danno informazioni che supportano l'azione.
Un rapporto può dirti che le vendite sono in calo. Può ridurre le vendite per regione, prodotto e canale in modo da sapere dove sono diminuite le vendite e se questi declini sono stati diffusi o hanno interessato solo determinate aree. Ma non ti danno alcun indizio su perché le vendite sono diminuite o quali azioni potrebbero aiutare a far rivivere il business.
I modelli ti aiutano a comprendere i fattori che influiscono sulle vendite, le azioni che tendono ad aumentare o diminuire le vendite e le strategie e le tattiche che mantengono la tua azienda senza intoppi. È eccitante, no? Forse è per questo che la maggior parte dei minatori di dati considera la modellazione come la parte divertente del lavoro.
Comprensione dei modelli matematici
I modelli matematici sono fondamentali per il data mining, ma quali sono? Cosa fanno, come funzionano e come vengono creati?
Un modello matematico è, semplice e semplice, un'equazione o un insieme di equazioni che descrivono una relazione tra due o più cose. Tali equazioni sono stenografie per teorie sul funzionamento della natura e della società. La teoria può essere supportata da un corpus sostanziale di prove o può essere solo una supposizione selvaggia. Il linguaggio della matematica è lo stesso in entrambi i casi.
Termini come modello predittivo, modello statistico, o modello lineare si riferiscono a tipi specifici di modelli matematici, i nomi che riflettono l'uso previsto, la forma o il metodo di derivazione un modello particolare. Questi tre esempi sono solo alcuni di questi termini.
Quando un modello viene menzionato in un contesto aziendale, è molto probabilmente un modello usato per fare previsioni. I modelli sono usati per prevedere i prezzi delle azioni, le vendite di prodotti e i tassi di disoccupazione, tra molte altre cose.
Queste previsioni possono essere o non essere accurate, ma per ogni dato insieme di valori (fattori noti come questi sono chiamati variabili indipendenti o ingressi ) inclusi nel modello, si trova una previsione ben definita (detta anche variabile dipendente, uscita, o risultato ). I modelli matematici sono usati anche per altri scopi nel business, come per descrivere i meccanismi di lavoro che guidano un particolare processo.
Nel data mining, è possibile creare modelli individuando modelli nei dati utilizzando metodi di apprendimento automatico o statistici. I minatori di dati non seguono lo stesso approccio rigoroso che fanno gli statistici classici, ma tutti i modelli derivano da dati reali e tecniche di modellazione matematica coerenti. Tutti i modelli di data mining sono supportati da un insieme di prove.
Perché usare modelli matematici? Non è possibile descrivere le stesse relazioni usando le parole? Questo è possibile, eppure trovi alcuni vantaggi nell'uso delle equazioni. Questi includono
-
Convenienza: Rispetto alle descrizioni equivalenti scritte nelle frasi, le equazioni sono brevi. Il simbolismo matematico si è evoluto specificamente allo scopo di rappresentare relazioni matematiche; lingue come l'inglese no.
-
Chiarezza: Le equazioni trasmettono le idee in modo sintetico e non ambiguo.Non sono soggetti a interpretazioni divergenti basate sulla cultura e il simbolismo della matematica è una sorta di linguaggio comune ampiamente utilizzato in tutto il mondo.
-
Consistenza: Poiché le rappresentazioni matematiche sono inequivocabili, le implicazioni di ogni particolare situazione sono chiaramente definite da un modello matematico.
Mettere le informazioni in azione
Un modello fornisce valore solo quando lo si utilizza nel business. Le previsioni di un modello potrebbero supportare il processo decisionale in vari modi. È possibile
-
incorporare le previsioni in un report o una presentazione da utilizzare per prendere una decisione specifica.
-
Integrare il modello in un sistema operativo (come un sistema di assistenza clienti) per fornire previsioni in tempo reale per l'uso quotidiano. (Ad esempio, è possibile segnalare reclami di assicurazione per pagamento immediato, rifiuto immediato o ulteriori indagini.)
-
Utilizzare il modello per le previsioni di lotti. (Ad esempio, puoi assegnare un punteggio alla lista clienti interna per decidere quali clienti dovrebbero ricevere una particolare offerta.)