Casa Finanza personale Come usare Python per selezionare le variabili corrette per Data Science - dummies

Come usare Python per selezionare le variabili corrette per Data Science - dummies

Sommario:

Video: How to Build and Install Hadoop on Windows 2025

Video: How to Build and Install Hadoop on Windows 2025
Anonim

La selezione delle variabili corrette in Python può migliorare il processo di apprendimento nella scienza dei dati riducendo la quantità di rumore (inutile informazioni) che possono influenzare le stime dello studente. La selezione variabile, quindi, può ridurre efficacemente la varianza delle previsioni. Per coinvolgere solo le variabili utili nell'allenamento e tralasciare quelle ridondanti, puoi utilizzare queste tecniche:

  • Approccio univariato: Seleziona le variabili più correlate al risultato obiettivo.

  • Approccio avido o arretrato: Conserva solo le variabili che puoi rimuovere dal processo di apprendimento senza danneggiare le sue prestazioni.

Selezione per misure univariate

Se si decide di selezionare una variabile in base al suo livello di associazione con la sua destinazione, la classe SelectPercentile fornisce una procedura automatica per mantenere solo una determinata percentuale delle migliori caratteristiche associate. Le metriche disponibili per l'associazione sono

  • f_regression: usato solo per obiettivi numerici e basato su prestazioni di regressione lineare.

  • f_classif: usato solo per obiettivi categoriali e basato sul test statistico Analisi della varianza (ANOVA).

  • chi2: esegue la statistica chi-quadrato per obiettivi categoriali, che è meno sensibile alla relazione non lineare tra la variabile predittiva e il suo bersaglio.

Quando si valutano i candidati per un problema di classificazione, f_classif e chi2 tendono a fornire lo stesso insieme di variabili principali. È comunque una buona pratica testare le selezioni da entrambe le metriche dell'associazione.

Oltre all'applicazione di una selezione diretta delle associazioni percentili più elevate, SelectPercentile può anche classificare le variabili migliori per rendere più facile decidere a quale percentile escludere una funzione dalla partecipazione al processo di apprendimento. La classe SelectKBest è analoga nella sua funzionalità, ma seleziona le prime k variabili, dove k è un numero, non un percentile.

da sklearn. feature_selection importa SelectPercentile da sklearn. feature_selection import f_regression Selector_f = SelectPercentile (f_regression, percentile = 25) Selector_f. fit (X, y) per n, s in zip (boston. feature_names, Selector_f. scores_): print 'F-score:% 3. 2ft per feature% s '% (s, n) Punteggio F: 88. 15 per feature CRIM F-score: 75. 26 per feature ZN F-score: 153. 95 per feature INDUS F-score: 15. 97 per funzione CHAS F-score: 112. 59 per feature NOX F-score: 471. 85 per feature RM F-score: 83.F-score: 33. 58 per feature DIS F-score: 85. 91 per feature FF F-score: 141. 76 per feature F-score TAX: 175. 11 per feature PTRATIO F-score: 63. 05 per feature F F-score: 601. 62 per feature LSTAT

L'utilizzo del livello di output di associazione consente di scegliere le variabili più importanti per il proprio modello di apprendimento automatico, ma è necessario prestare attenzione a questi possibili problemi: > Alcune variabili con alta associazione potrebbero anche essere altamente correlate, introducendo informazioni duplicate, che agiscono come rumore nel processo di apprendimento.

  • Alcune variabili possono essere penalizzate, specialmente quelle binarie (variabili che indicano uno stato o una caratteristica usando il valore 1 quando è presente, 0 quando non lo è). Ad esempio, si noti che l'output mostra la variabile binaria CHAS come la meno associata alla variabile target (ma si sa dagli esempi precedenti che è influente dalla fase di convalida incrociata).

  • Il processo di selezione univariata può darti un vantaggio reale quando hai un numero enorme di variabili tra cui scegliere e tutti gli altri metodi diventano irrealizzabili dal punto di vista computazionale. La procedura migliore consiste nel ridurre il valore di SelectPercentile della metà o più delle variabili disponibili, ridurre il numero di variabili in un numero gestibile e conseguentemente consentire l'uso di un metodo più sofisticato e più preciso come una ricerca avida.

Utilizzo di una ricerca golosa

Quando si utilizza una selezione univariata, è necessario decidere autonomamente quante variabili tenere: la selezione di avidità riduce automaticamente il numero di funzioni coinvolte in un modello di apprendimento sulla base del loro effettivo contributo al prestazione misurata dalla misura di errore.

La classe RFECV, adattando i dati, può fornire informazioni sul numero di funzioni utili, segnalarle all'utente e trasformare automaticamente i dati X, mediante la trasformazione del metodo, in un set di variabili ridotto, come mostrato in il seguente esempio:

da sklearn. select_selection import RFECV selector = RFECV (stimatore = regressione, cv = 10, scoring = "mean_squared_error") selettore. fit (X, y) print ("Numero ottimale di funzioni:% d"% selettore. n_features_) Numero ottimale di funzioni: 6

È possibile ottenere un indice per l'insieme di variabili ottimali chiamando l'attributo support_ dal RFECV classe dopo averlo adattato.

stampa boston. feature_names [selettore. support_] ['CHAS "NOX" RM "DIS" PTRATIO "LSTAT']

Si noti che CHAS è ora incluso tra le funzionalità più predittive, che contrasta con il risultato della ricerca univariata.Il metodo RFECV può rilevare se una variabile è importante, indipendentemente dal fatto che sia binario, categoriale o numerico, perché valuta direttamente il ruolo svolto dalla caratteristica nella previsione.

Il metodo RFECV è sicuramente più efficiente rispetto all'approccio -univariato, perché considera le caratteristiche altamente correlate ed è ottimizzato per ottimizzare la misura di valutazione (che di solito non è Chi-quadrato o F-score). Essendo un processo avido, è computazionalmente impegnativo e può solo approssimare il miglior set di predittori.

Poiché RFECV impara il miglior insieme di variabili dai dati, la selezione può essere più adatta, che è ciò che accade con tutti gli altri algoritmi di apprendimento automatico. Provare RFECV su diversi campioni dei dati di allenamento può confermare le migliori variabili da utilizzare.

Come usare Python per selezionare le variabili corrette per Data Science - dummies

Scelta dell'editore

Come salvare le immagini in un file immagine in R - dummies

Come salvare le immagini in un file immagine in R - dummies

Se vuoi pubblicare le tue risultati, è necessario salvare la trama in un file in R e quindi importare questo file grafico in un altro documento. Tuttavia, per la maggior parte del tempo, potresti semplicemente voler utilizzare la grafica R in modo interattivo per esplorare i tuoi dati. Per salvare un grafico su un'immagine ...

Come cercare più parole in R - dummies

Come cercare più parole in R - dummies

Quando si lavora con il testo in R, potrebbe essere necessario per trovare parole o motivi all'interno del testo. Immagina di avere una lista degli stati negli Stati Uniti e vuoi scoprire quali nomi di stato consistono in due parole. Per trovare sottostringhe, è possibile utilizzare la funzione grep (), che prende due argomenti essenziali: ...

Come cercare le singole parole in R - dummies

Come cercare le singole parole in R - dummies

Quando lavori con il testo, spesso tu può risolvere i problemi se riesci a trovare parole o motivi all'interno del testo. R rende questo facile da fare. Immagina di avere una lista degli stati negli Stati Uniti e vuoi scoprire quale di questi stati contiene la parola Nuovo. Per indagare su questo ...

Scelta dell'editore

Come calcolare le detrazioni e i crediti di imposta sugli investimenti immobiliari per l'esame di licenza immobiliare

Come calcolare le detrazioni e i crediti di imposta sugli investimenti immobiliari per l'esame di licenza immobiliare

Una detrazione fiscale è qualcosa che puoi vedere nell'esame di licenza immobiliare che puoi detrarre dal reddito di un investimento immobiliare per ridurre le tasse. Un credito d'imposta è qualcosa che puoi detrarre dalle tasse dovute. I governi federali e talvolta statali creano programmi che consentono crediti d'imposta o detrazioni per ...

Fattori economici che influenzano il valore per l'esame di licenza immobiliare - dummies

Fattori economici che influenzano il valore per l'esame di licenza immobiliare - dummies

Valore doesn ' semplicemente succede; le persone devono crearlo. La maggior parte di queste azioni personali che saranno trattate durante l'esame di licenza immobiliare, di solito chiamate influenze economiche, non sono altro che normali comportamenti umani. Il test pone due tipi di domande su questi principi o fattori economici. Vedrai domande sulle definizioni e ...

Come calcolare le aliquote fiscali per l'esame di licenza immobiliare - dummy

Come calcolare le aliquote fiscali per l'esame di licenza immobiliare - dummy

Pur calcolando la tassa le tariffe non sono qualcosa che devi sapere esattamente come fare per l'esame di licenza immobiliare, è qualcosa che devi capire in generale per rispondere a domande di non-matematica sul processo. Sapere come calcolare le tasse non è una cosa brutta da sapere, perché probabilmente si pagano le tasse di proprietà e ...

Scelta dell'editore

Suggerimenti per la registrazione Regole di gioco logiche sull'LSAT - manichini

Suggerimenti per la registrazione Regole di gioco logiche sull'LSAT - manichini

La maggior parte dei giochi di logica sull'LSAT hanno tre, quattro o cinque condizioni o regole che limitano il modo in cui giochi con i pezzi. Per ordinare i giochi, le restrizioni forniscono indizi su come i pezzi possono essere posizionati in relazione l'uno con l'altro. I tipi comuni di regole di ordinazione sono obiettivi, distanziatori e arrangiatori. Regole di destinazione I bersagli danno ...

Come gestire il tuo tempo con saggezza sul TASC - dummies

Come gestire il tuo tempo con saggezza sul TASC - dummies

Perché ogni sezione del TASC, oppure Prova l'esame di completamento secondario, ha un limite di tempo, vorrai essere consapevole di quanto tempo è passato mentre stai facendo il test. Un modo per gestire efficacemente il tuo tempo è semplicemente indossando un orologio. I centri di test potrebbero non avere sempre un orologio disponibile e ...

Rendendo più semplice il giorno di prova SSAT o ISEE - manichini

Rendendo più semplice il giorno di prova SSAT o ISEE - manichini

Non è possibile effettuare SSAT o ISEE più facile, ma puoi iniziare la giornata di test correttamente e renderlo più semplice e meno stressante, il che può portare a risultati migliori durante l'esame di ammissione. Ecco alcuni suggerimenti da tenere a mente al giorno del test SSAT o ISEE: riposati molto. La ...