Sommario:
- Attività: raccolta dei dati
- Attività: descrizione dei dati
- Attività: Esplorazione dei dati
- Attività: verifica della qualità dei dati
Video: Progetto di Ricerca - Home S2 - Fase II 2024
Nella seconda fase del modello di processo Cross-Industry Standard per il data mining (CRISP-DM), ottieni dati e verifica che è appropriato per le tue esigenze. Potresti identificare problemi che ti inducono a tornare alla comprensione del business e a rivedere il tuo piano. Potresti persino scoprire difetti nella comprensione della tua azienda, un'altra ragione per ripensare agli obiettivi e ai piani.
La fase di comprensione dei dati comprende quattro attività . Questi sono
-
Raccolta dei dati
-
Descrizione dei dati
-
Esplorazione dei dati
-
Verifica della qualità dei dati
Attività: raccolta dei dati
Hai appena definito degli obiettivi e definito un piano di data mining. Ogni fase del piano dipende dall'avere i dati giusti. Meglio assicurarti di avere davvero quei dati!
Esiste un solo risultato per questo compito: il rapporto iniziale di raccolta dei dati. Nel report, è necessario verificare di aver acquisito i dati o almeno di ottenere l'accesso ai dati, testato il processo di accesso ai dati e verificato che i dati esistano. Dovrai inoltre caricare i dati in tutti gli strumenti che utilizzerai per il data mining per verificare che gli strumenti siano compatibili con i dati.
Potresti fare un sacco di lavoro per assemblare i dati di cui hai bisogno prima di poter scrivere questo rapporto. Innanzitutto, il piano verrà elaborato come segue:
-
Requisiti dei dati di struttura: Creare un elenco dei tipi di dati necessari per indirizzare gli obiettivi di data mining. Espandi l'elenco con dettagli come l'intervallo di tempo e i formati di dati richiesti.
-
Verificare la disponibilità dei dati: Verificare che i dati richiesti esistano e che sia possibile utilizzarli. Se alcuni dei dati che desideri non sono disponibili, decidi come risolvere il problema. Prendi in considerazione alternative come
-
Sostituzione con una fonte di dati alternativa
-
Limitazione della portata del progetto
-
Raccolta di nuovi dati
-
-
Definire i criteri di selezione: Identificare le origini dati specifiche (database, file, documenti, e così via.) che userete. All'interno di tali fonti, specificare le tabelle, i campi e gli intervalli di casi pertinenti per questo progetto.
Una volta che hai seguito questi passaggi, devi effettivamente ottenere i dati. A questo punto, importa i dati nella piattaforma di data mining che utilizzerai per il progetto per confermare che è possibile farlo e che capisci il processo. Nel corso di questa prova potresti scoprire limitazioni del software (o hardware) che non avevi previsto, come
-
Limiti sul numero di casi o campi, o sulla quantità di memoria che puoi usare
-
Impossibilità di leggere il formati di dati delle sorgenti
-
Difficoltà nel gestire le imperfezioni nei dati (ad esempio, potresti incontrare prodotti che non importeranno o analizzeranno insiemi di dati incompleti)
Infine, riassumi il processo di raccolta in un rapporto.Il rapporto dovrebbe descrivere i tuoi requisiti e spiegare in dettaglio con precisione quali dati hai raccolto e da quali fonti. Qui confermi di aver effettivamente ottenuto i dati e che è compatibile con la tua piattaforma di data mining. Se hai incontrato difficoltà, spiegherai cosa sono stati e come li hai affrontati (utilizzando fonti alternative, rivedendo i piani, modificando i formati).
Il deliverable per questa attività è solo un semplice report, ma il lavoro che devi fare prima di poter scrivere quel report non sarà semplice! L'accesso ai dati può essere una delle parti più impegnative e frustranti del processo di data mining, pieno di sfide sia tecniche che di business.
Attività: descrizione dei dati
Ora che disponi di dati, prepara una descrizione generale di ciò che hai.
Il deliverable per questa attività è il report di descrizione dei dati. In essa descrivi la fonte e i formati dei dati, il numero di casi, il numero e la descrizione dei campi e qualsiasi altra informazione generale che possa essere importante. Esegui anche una breve valutazione dell'idoneità dei dati per i tuoi obiettivi di data mining. Ad esempio, verificare che i dati includano i campi previsti e che devono essere presenti e casi sufficienti per l'analisi.
Attività: Esplorazione dei dati
In questa attività, si esaminano i dati più da vicino. Per ogni variabile, si guarda l'intervallo di valori e le loro distribuzioni. Utilizzerai la semplice manipolazione dei dati e le tecniche statistiche di base per ulteriori verifiche nei dati. L'esplorazione dei dati supporta diversi scopi:
-
Acquisire familiarità con i dati.
-
Segni puntuali di problemi di qualità dei dati.
-
Imposta la fase per i passaggi di preparazione dei dati.
Il deliverable per questa attività è il rapporto di esplorazione dei dati. È il posto dove documentare qualsiasi ipotesi o risultato iniziale che hai sviluppato durante l'esplorazione dei dati. Questo rapporto dovrebbe includere una descrizione più dettagliata dei dati rispetto al rapporto sulla descrizione dei dati, comprese le distribuzioni, i riepiloghi e qualsiasi segno di problemi relativi alla qualità dei dati.
Attività: verifica della qualità dei dati
Hai i dati e l'hai esaminato, e ora devi determinare se è abbastanza buono per supportare i tuoi obiettivi. Avrai spesso qualche problema di qualità da affrontare, ma sarai comunque in grado di andare avanti, ma a volte la qualità dei dati è così scarsa da non poter supportare il tuo piano e dovrai cercare alternative. Alcuni dei peggiori problemi di dati includono
-
I dati necessari non esistono. (Non è mai esistito, o è stato scartato? Questi dati possono essere raccolti e salvati per un uso futuro?)
-
Esiste, ma non puoi averlo. (È possibile superare questa restrizione?)
-
Si riscontrano gravi problemi di qualità dei dati (molti valori mancanti o errati che non possono essere corretti).
Il deliverable per questa attività è il report sulla qualità dei dati. Questo riepiloga i dati che hai, problemi di qualità minori e importanti che hai trovato e possibili rimedi per problemi di qualità o alternative (come l'utilizzo di una risorsa dati alternativa).Se si riscontrano problemi di qualità dei dati veramente gravi e non è possibile identificare una soluzione adeguata, potrebbe essere necessario raccomandare di riconsiderare obiettivi o piani.