L'organizzazione di dati per Mining - manichini

Video: Basi di Dati - Prof.ssa Catarci - Lezione 2 p.1 (25 sett. 2018) 2025

Il data mining ha requisiti molto rigidi per l'organizzazione dei dati. Non sono requisiti esotici, complessi o difficili da soddisfare, ma sono rigorosi. La figura mostra un campione di dati visualizzati come una tabella nel software di data mining.

Ogni riga rappresenta un pacco di beni immobili. Le informazioni sui pacchi immobiliari sono organizzate in colonne. La prima colonna contiene il codice fiscale (TAXKEY), la seconda colonna contiene il valore stimato della terra da una valutazione preventiva (P_A_LAND), e così via.

Ogni voce in una riga corrisponde a una particella di terra specifica. Ogni voce in una colonna è lo stesso tipo di informazione. Nessuna riga o colonna viene lasciata vuota per motivi relativi allo stile e alla leggibilità. Questi dati sono organizzati correttamente per indagare le differenze tra i lotti di beni immobili.

Se invece di beni immobili, di indagare le persone, ogni persona sarebbe rappresentato da una riga nei dati, e tutti i dettagli circa la gente sarebbe organizzato in colonne. Se si esamina la radiografia del torace, ogni radiografia del torace sarebbe rappresentato da una riga nei dati, e tutti i dettagli circa le radiografie del torace sarebbe organizzato in colonne.

In analisi dei dati terminologica, le cose che stai studiando - le cose nei file - sono chiamati casi> o record. I dettagli su di essi, che si trovano nelle colonne, sono chiamati variabili . Sentirai anche le colonne chiamate campi, soprattutto nel contesto dei database. Quindi, il data mining richiede dati organizzati con una singola riga per ogni caso e una singola colonna per ogni variabile. Molte fonti di dati sono già organizzate in questo modo. Gli statistici distribuiscono i dati in questo modo per abitudine. I professionisti del database non possono utilizzare questo approccio per gran parte del loro lavoro, ma di solito capiscono cosa si vuole se lo si chiama una tabella piatta

Troverai sottili variazioni nella struttura dei dati. Alcuni tipi di software utilizzano informazioni descrittive in un'intestazione prima dei dati, ad esempio alcuni formati speciali associati alle applicazioni di data mining di Orange e Weka. Alcune complesse procedure analitiche hanno requisiti aggiuntivi o leggermente diversi (sono piuttosto inusuali). Ma il nucleo dei dati ha ancora i casi in righe e variabili in colonne.