Casa Finanza personale Fase 2 del modello di processo CRISP-DM: comprensione dei dati - dummies

Fase 2 del modello di processo CRISP-DM: comprensione dei dati - dummies

Sommario:

Video: Progetto di Ricerca - Home S2 - Fase II 2025

Video: Progetto di Ricerca - Home S2 - Fase II 2025
Anonim

Nella seconda fase del modello di processo Cross-Industry Standard per il data mining (CRISP-DM), ottieni dati e verifica che è appropriato per le tue esigenze. Potresti identificare problemi che ti inducono a tornare alla comprensione del business e a rivedere il tuo piano. Potresti persino scoprire difetti nella comprensione della tua azienda, un'altra ragione per ripensare agli obiettivi e ai piani.

La fase di comprensione dei dati comprende quattro attività . Questi sono

  • Raccolta dei dati

  • Descrizione dei dati

  • Esplorazione dei dati

  • Verifica della qualità dei dati

Attività: raccolta dei dati

Hai appena definito degli obiettivi e definito un piano di data mining. Ogni fase del piano dipende dall'avere i dati giusti. Meglio assicurarti di avere davvero quei dati!

Esiste un solo risultato per questo compito: il rapporto iniziale di raccolta dei dati. Nel report, è necessario verificare di aver acquisito i dati o almeno di ottenere l'accesso ai dati, testato il processo di accesso ai dati e verificato che i dati esistano. Dovrai inoltre caricare i dati in tutti gli strumenti che utilizzerai per il data mining per verificare che gli strumenti siano compatibili con i dati.

Potresti fare un sacco di lavoro per assemblare i dati di cui hai bisogno prima di poter scrivere questo rapporto. Innanzitutto, il piano verrà elaborato come segue:

  • Requisiti dei dati di struttura: Creare un elenco dei tipi di dati necessari per indirizzare gli obiettivi di data mining. Espandi l'elenco con dettagli come l'intervallo di tempo e i formati di dati richiesti.

  • Verificare la disponibilità dei dati: Verificare che i dati richiesti esistano e che sia possibile utilizzarli. Se alcuni dei dati che desideri non sono disponibili, decidi come risolvere il problema. Prendi in considerazione alternative come

    • Sostituzione con una fonte di dati alternativa

    • Limitazione della portata del progetto

    • Raccolta di nuovi dati

  • Definire i criteri di selezione: Identificare le origini dati specifiche (database, file, documenti, e così via.) che userete. All'interno di tali fonti, specificare le tabelle, i campi e gli intervalli di casi pertinenti per questo progetto.

Una volta che hai seguito questi passaggi, devi effettivamente ottenere i dati. A questo punto, importa i dati nella piattaforma di data mining che utilizzerai per il progetto per confermare che è possibile farlo e che capisci il processo. Nel corso di questa prova potresti scoprire limitazioni del software (o hardware) che non avevi previsto, come

  • Limiti sul numero di casi o campi, o sulla quantità di memoria che puoi usare

  • Impossibilità di leggere il formati di dati delle sorgenti

  • Difficoltà nel gestire le imperfezioni nei dati (ad esempio, potresti incontrare prodotti che non importeranno o analizzeranno insiemi di dati incompleti)

Infine, riassumi il processo di raccolta in un rapporto.Il rapporto dovrebbe descrivere i tuoi requisiti e spiegare in dettaglio con precisione quali dati hai raccolto e da quali fonti. Qui confermi di aver effettivamente ottenuto i dati e che è compatibile con la tua piattaforma di data mining. Se hai incontrato difficoltà, spiegherai cosa sono stati e come li hai affrontati (utilizzando fonti alternative, rivedendo i piani, modificando i formati).

Il deliverable per questa attività è solo un semplice report, ma il lavoro che devi fare prima di poter scrivere quel report non sarà semplice! L'accesso ai dati può essere una delle parti più impegnative e frustranti del processo di data mining, pieno di sfide sia tecniche che di business.

Attività: descrizione dei dati

Ora che disponi di dati, prepara una descrizione generale di ciò che hai.

Il deliverable per questa attività è il report di descrizione dei dati. In essa descrivi la fonte e i formati dei dati, il numero di casi, il numero e la descrizione dei campi e qualsiasi altra informazione generale che possa essere importante. Esegui anche una breve valutazione dell'idoneità dei dati per i tuoi obiettivi di data mining. Ad esempio, verificare che i dati includano i campi previsti e che devono essere presenti e casi sufficienti per l'analisi.

Attività: Esplorazione dei dati

In questa attività, si esaminano i dati più da vicino. Per ogni variabile, si guarda l'intervallo di valori e le loro distribuzioni. Utilizzerai la semplice manipolazione dei dati e le tecniche statistiche di base per ulteriori verifiche nei dati. L'esplorazione dei dati supporta diversi scopi:

  • Acquisire familiarità con i dati.

  • Segni puntuali di problemi di qualità dei dati.

  • Imposta la fase per i passaggi di preparazione dei dati.

Il deliverable per questa attività è il rapporto di esplorazione dei dati. È il posto dove documentare qualsiasi ipotesi o risultato iniziale che hai sviluppato durante l'esplorazione dei dati. Questo rapporto dovrebbe includere una descrizione più dettagliata dei dati rispetto al rapporto sulla descrizione dei dati, comprese le distribuzioni, i riepiloghi e qualsiasi segno di problemi relativi alla qualità dei dati.

Attività: verifica della qualità dei dati

Hai i dati e l'hai esaminato, e ora devi determinare se è abbastanza buono per supportare i tuoi obiettivi. Avrai spesso qualche problema di qualità da affrontare, ma sarai comunque in grado di andare avanti, ma a volte la qualità dei dati è così scarsa da non poter supportare il tuo piano e dovrai cercare alternative. Alcuni dei peggiori problemi di dati includono

  • I dati necessari non esistono. (Non è mai esistito, o è stato scartato? Questi dati possono essere raccolti e salvati per un uso futuro?)

  • Esiste, ma non puoi averlo. (È possibile superare questa restrizione?)

  • Si riscontrano gravi problemi di qualità dei dati (molti valori mancanti o errati che non possono essere corretti).

Il deliverable per questa attività è il report sulla qualità dei dati. Questo riepiloga i dati che hai, problemi di qualità minori e importanti che hai trovato e possibili rimedi per problemi di qualità o alternative (come l'utilizzo di una risorsa dati alternativa).Se si riscontrano problemi di qualità dei dati veramente gravi e non è possibile identificare una soluzione adeguata, potrebbe essere necessario raccomandare di riconsiderare obiettivi o piani.

Fase 2 del modello di processo CRISP-DM: comprensione dei dati - dummies

Scelta dell'editore

Come salvare le immagini in un file immagine in R - dummies

Come salvare le immagini in un file immagine in R - dummies

Se vuoi pubblicare le tue risultati, è necessario salvare la trama in un file in R e quindi importare questo file grafico in un altro documento. Tuttavia, per la maggior parte del tempo, potresti semplicemente voler utilizzare la grafica R in modo interattivo per esplorare i tuoi dati. Per salvare un grafico su un'immagine ...

Come cercare più parole in R - dummies

Come cercare più parole in R - dummies

Quando si lavora con il testo in R, potrebbe essere necessario per trovare parole o motivi all'interno del testo. Immagina di avere una lista degli stati negli Stati Uniti e vuoi scoprire quali nomi di stato consistono in due parole. Per trovare sottostringhe, è possibile utilizzare la funzione grep (), che prende due argomenti essenziali: ...

Come cercare le singole parole in R - dummies

Come cercare le singole parole in R - dummies

Quando lavori con il testo, spesso tu può risolvere i problemi se riesci a trovare parole o motivi all'interno del testo. R rende questo facile da fare. Immagina di avere una lista degli stati negli Stati Uniti e vuoi scoprire quale di questi stati contiene la parola Nuovo. Per indagare su questo ...

Scelta dell'editore

Come calcolare le detrazioni e i crediti di imposta sugli investimenti immobiliari per l'esame di licenza immobiliare

Come calcolare le detrazioni e i crediti di imposta sugli investimenti immobiliari per l'esame di licenza immobiliare

Una detrazione fiscale è qualcosa che puoi vedere nell'esame di licenza immobiliare che puoi detrarre dal reddito di un investimento immobiliare per ridurre le tasse. Un credito d'imposta è qualcosa che puoi detrarre dalle tasse dovute. I governi federali e talvolta statali creano programmi che consentono crediti d'imposta o detrazioni per ...

Fattori economici che influenzano il valore per l'esame di licenza immobiliare - dummies

Fattori economici che influenzano il valore per l'esame di licenza immobiliare - dummies

Valore doesn ' semplicemente succede; le persone devono crearlo. La maggior parte di queste azioni personali che saranno trattate durante l'esame di licenza immobiliare, di solito chiamate influenze economiche, non sono altro che normali comportamenti umani. Il test pone due tipi di domande su questi principi o fattori economici. Vedrai domande sulle definizioni e ...

Come calcolare le aliquote fiscali per l'esame di licenza immobiliare - dummy

Come calcolare le aliquote fiscali per l'esame di licenza immobiliare - dummy

Pur calcolando la tassa le tariffe non sono qualcosa che devi sapere esattamente come fare per l'esame di licenza immobiliare, è qualcosa che devi capire in generale per rispondere a domande di non-matematica sul processo. Sapere come calcolare le tasse non è una cosa brutta da sapere, perché probabilmente si pagano le tasse di proprietà e ...

Scelta dell'editore

Suggerimenti per la registrazione Regole di gioco logiche sull'LSAT - manichini

Suggerimenti per la registrazione Regole di gioco logiche sull'LSAT - manichini

La maggior parte dei giochi di logica sull'LSAT hanno tre, quattro o cinque condizioni o regole che limitano il modo in cui giochi con i pezzi. Per ordinare i giochi, le restrizioni forniscono indizi su come i pezzi possono essere posizionati in relazione l'uno con l'altro. I tipi comuni di regole di ordinazione sono obiettivi, distanziatori e arrangiatori. Regole di destinazione I bersagli danno ...

Come gestire il tuo tempo con saggezza sul TASC - dummies

Come gestire il tuo tempo con saggezza sul TASC - dummies

Perché ogni sezione del TASC, oppure Prova l'esame di completamento secondario, ha un limite di tempo, vorrai essere consapevole di quanto tempo è passato mentre stai facendo il test. Un modo per gestire efficacemente il tuo tempo è semplicemente indossando un orologio. I centri di test potrebbero non avere sempre un orologio disponibile e ...

Rendendo più semplice il giorno di prova SSAT o ISEE - manichini

Rendendo più semplice il giorno di prova SSAT o ISEE - manichini

Non è possibile effettuare SSAT o ISEE più facile, ma puoi iniziare la giornata di test correttamente e renderlo più semplice e meno stressante, il che può portare a risultati migliori durante l'esame di ammissione. Ecco alcuni suggerimenti da tenere a mente al giorno del test SSAT o ISEE: riposati molto. La ...