Casa Finanza personale Valori mancanti nei dati dell'utente - manichini

Valori mancanti nei dati dell'utente - manichini

Sommario:

Video: EM 64 Cerca il valore mancante con Excel Formula matrice e AGGREGA 2025

Video: EM 64 Cerca il valore mancante con Excel Formula matrice e AGGREGA 2025
Anonim

Uno dei problemi di dati più frequenti e laboriosi da affrontare è la mancanza di dati. I file possono essere incompleti perché i record sono stati eliminati o è stato riempito un dispositivo di archiviazione. O alcuni campi di dati potrebbero non contenere dati per alcuni record. Il primo di questi problemi può essere diagnosticato semplicemente verificando il conteggio dei record per i file. Il secondo problema è più difficile da affrontare.

Per dirla in termini semplici, quando trovi un campo contenente valori mancanti, hai due scelte:

  • Ignora.

  • Metti qualcosa nel campo.

Ignorare il problema

In alcuni casi, si può semplicemente trovare un singolo campo con un gran numero di valori mancanti. Se è così, la cosa più semplice da fare è ignorare il campo. Non includerlo nella tua analisi.

Un altro modo per ignorare il problema è ignorare il record. Basta cancellare il record contenente i dati mancanti. Questo può avere senso se ci sono solo pochi record canaglia. Ma se ci sono più campi di dati contenenti un numero significativo di valori mancanti, questo approccio può ridurre il numero di record a un livello inaccettabile.

Un'altra cosa a cui prestare attenzione prima di cancellare semplicemente i record è un segno qualsiasi di un pattern. Ad esempio, si supponga di analizzare un set di dati relativo ai saldi di carte di credito a livello nazionale. Potresti trovare un sacco di dischi che mostrano $ 0. 00 saldi (forse circa la metà dei record). Questo non è di per sé un'indicazione di dati mancanti. Tuttavia, se tutti i record, ad esempio, della California mostrano $ 0. 00 saldi, che indica un potenziale problema di valori mancanti. E non è uno che sarebbe risolto utilmente cancellando tutti i record dal più grande stato del paese. In questo caso, è probabilmente un problema di sistema e indica che dovrebbe essere creato un nuovo file.

In generale, l'eliminazione dei record è una soluzione facile, ma non ideale, ai problemi con valori mancanti. Se il problema è relativamente piccolo e non vi è alcun modello riconoscibile per le omissioni, allora può essere ok per gettare le registrazioni offensive e andare avanti. Ma spesso è giustificato un approccio più intellettuale.

Compilare i dati mancanti

Compilare i dati mancanti equivale a fare un'ipotesi plausibile su cosa sarebbe stato in quel campo. Ci sono buoni e cattivi modi per farlo. Un approccio semplice (ma negativo) è quello di sostituire i valori mancanti con la media di quelli non mancanti. Nei campi non numerici, potresti essere tentato di popolare i record mancanti con il valore più comune negli altri record (la modalità).

Questi approcci sono, purtroppo, ancora frequentemente utilizzati in alcune applicazioni aziendali.Ma sono considerati dagli statistici come idee sbagliate. Per prima cosa, l'intero punto di fare analisi statistiche è quello di trovare dati che differenziano un risultato da un altro. Sostituendo tutti i record mancanti con lo stesso valore, non hai differenziato nulla.

L'approccio più intellettuale è cercare di trovare un modo per prevedere in modo significativo quale valore deve essere inserito in ogni record che manca un valore. Ciò comporta la visualizzazione dei record completi e il tentativo di trovare indizi su quale potrebbe essere il valore mancante.

Supponiamo che stiate analizzando un file demografico per prevedere i probabili acquirenti di uno dei vostri prodotti. In questo file hai, tra gli altri campi, informazioni sullo stato civile, il numero di bambini e il numero di automobili. Per qualche motivo, il numero di campi di automazione non è presente in un terzo dei record.

Analizzando gli altri due campi - stato civile e numero di bambini - potresti scoprire alcuni modelli. Le persone singole tendono ad avere una macchina. Le persone sposate senza figli tendono ad avere due macchine. Le persone sposate con più di un figlio potrebbero avere più probabilità di avere tre auto. In questo modo, puoi indovinare i valori mancanti in un modo che differenzi effettivamente i record. Altro su questo approccio a venire.

Esiste un termine generale nelle statistiche e nell'elaborazione dei dati che fa riferimento a dati discutibili. Il termine rumoroso è usato per descrivere dati che sono inaffidabili, corrotti, o comunque meno pristine. I dati mancanti sono solo un esempio di ciò. Una descrizione dettagliata delle tecniche per la pulizia dei dati rumorosi in generale va oltre lo scopo di questo libro. In effetti, questa è un'area di ricerca attiva nella teoria statistica. Il fatto che tutto il rumore non sia facile da individuare come valori mancanti rende problematico affrontare.

Valori mancanti nei dati dell'utente - manichini

Scelta dell'editore

Tasti di scelta rapida per Microsoft Office 2007 - dummies

Tasti di scelta rapida per Microsoft Office 2007 - dummies

Microsoft Office 2007 è pieno di scorciatoie da tastiera per risparmiare tempo. Comprimi i componenti di Office 2007 - Word, Excel, Outlook, PowerPoint e Access - utilizzando i tasti di scelta rapida utili della seguente tabella. Con poco sforzo, puoi aprire file, trovare contenuti, modificare quel contenuto e altro! Funzione Ctrl Copia Ctrl + C Taglia Ctrl + X Trova Ctrl + F Vai ...

Vantaggi di Lync Online - dummies

Vantaggi di Lync Online - dummies

Lync Online è disponibile sia in ambito professionale sia in piccole imprese (P) e aziendali (E ) piani in Office 365. Le funzionalità includono messaggistica istantanea (IM), chiamate audio e video, presenza, riunioni online, presentazioni online e la possibilità di connettersi con i contatti di Windows Live Messenger e altri utenti esterni che eseguono Lync. La tecnologia è integrata in tutto ...

Come avviare una conversazione con Lync Online - dummies

Come avviare una conversazione con Lync Online - dummies

La scheda di contatto di Lync Online è un ottimo modo per avviare una conversazione con un collega o i membri del tuo team. Oltre alle note personali, alla presenza e alla posizione, vengono visualizzate anche le informazioni sulla tua organizzazione come il titolo e i numeri di telefono. Per visualizzare la scheda di contatto, passa con il mouse sopra l'immagine di una persona e fai clic sul gallone ...

Scelta dell'editore

Come scegliere un'immagine di sfondo Twitter per Visual Social Marketing - dummies

Come scegliere un'immagine di sfondo Twitter per Visual Social Marketing - dummies

Quando si imposta su un account Twitter per il social marketing visivo, un tipo di immagine che è richiesto per il tuo profilo è l'immagine di sfondo - viene visualizzata dietro il profilo Twitter. Nella parte superiore della schermata Impostazioni disegno, Twitter ti consente di scegliere tra una serie di temi premade. Un tema premade applica un ...

Come scegliere un buon nome utente Twitter - dummy

Come scegliere un buon nome utente Twitter - dummy

Su Twitter, il tuo nome utente, o handle, è il tuo identità. Se puoi, iscriviti a Twitter usando il tuo nome o una variante di esso come nome utente (supponendo che qualcun altro non lo stia già utilizzando). Ad esempio, se il tuo nome è John Ira, potresti scegliere un nome utente Twitter come @johnira o ...

Come personalizzare il tuo profilo Twitter - dummies

Come personalizzare il tuo profilo Twitter - dummies

La tua pagina pubblica su Twitter, noto anche come profilo, è la prima impressione che gli altri utenti di Twitter hanno di te, e può fare una grande differenza nel decidere se seguirti. Personalizzare la tua pagina del profilo Twitter in modo che rifletta te o la tua azienda fa la differenza quando si tratta di persone ...

Scelta dell'editore

Perché avresti bisogno di più profili utente per Dragon Professional Individuale - manichini

Perché avresti bisogno di più profili utente per Dragon Professional Individuale - manichini

Drago Individuo professionale capisce solo quelli che si sono presentati ufficialmente come utenti e hanno creato un profilo utente. Ecco quattro motivi per cui potresti voler creare più di un profilo utente: usi diversi vocabolari o stili di scrittura per compiti diversi. Si utilizzano diversi microfoni per compiti diversi. Volete ...

Lavorare con fogli di calcolo Usare NaturallySpeaking - dummies

Lavorare con fogli di calcolo Usare NaturallySpeaking - dummies

Utilizzando fogli di calcolo con versioni precedenti di NaturallySpeaking era difficile perché non si poteva indirizzare direttamente i nomi delle celle. Volevi dire qualcosa come "Cella A5" o "Seleziona Colonna C." Ma (sospiro), niente dado. Il tuo assistente non aveva idea di cosa stavi parlando. Bene, il tuo assistente ha "up-leveled" le sue abilità! Ora è possibile ...

Su Evernote's Passcode Lock - dummies

Su Evernote's Passcode Lock - dummies

Abbonati premium e business che utilizzano determinati dispositivi ora possono bloccare l'app Evernote con un blocco Passcode . Ogni volta che torni all'app, ti viene chiesto di inserire il tuo codice. Un blocco passcode è un'ottima opzione se condividi il tuo telefono o tablet con altre persone e vuoi impedire loro di accedere a ...