Casa Finanza personale Dati Scienza: utilizzo di Python per eseguire analisi dei fattori fattoriale e principale - manichini

Dati Scienza: utilizzo di Python per eseguire analisi dei fattori fattoriale e principale - manichini

Sommario:

Video: Regressione lineare semplice spiegata semplicemente 2025

Video: Regressione lineare semplice spiegata semplicemente 2025
Anonim

Gli scienziati dei dati possono utilizzare Python per eseguire analisi di fattori e componenti principali. SVD opera direttamente sui valori numerici nei dati, ma puoi anche esprimere i dati come una relazione tra le variabili. Ogni caratteristica ha una certa variazione. È possibile calcolare la variabilità come misura della varianza attorno alla media. Maggiore è la varianza, maggiore è l'informazione contenuta all'interno della variabile.

Inoltre, se si posiziona la variabile in un set, è possibile confrontare la varianza di due variabili per determinare se sono correlate, il che è una misura della forza con cui hanno valori simili.

Controllando tutte le possibili correlazioni di una variabile con le altre nel set, puoi scoprire che potresti avere due tipi di varianza:

  • Variante unica: Alcune varianze sono uniche per la variabile in esame. Non può essere associato a ciò che accade a qualsiasi altra variabile.

  • Variazione condivisa: Alcune variazioni sono condivise con una o più variabili, creando ridondanza nei dati. La ridondanza implica che è possibile trovare le stesse informazioni, con valori leggermente diversi, in varie caratteristiche e attraverso molte osservazioni.

Naturalmente, il passo successivo è determinare il motivo della varianza condivisa. Cercare di rispondere a una domanda del genere, oltre a determinare come gestire le varianze uniche e condivise, ha portato alla creazione dell'analisi fattoriale e dei componenti principali.

Considerando il modello psicometrico

Molto prima che fossero concepiti molti algoritmi di apprendimento automatico, psicometria , la disciplina in psicologia che si occupa di misurazione psicologica, ha cercato di trovare una soluzione statistica per misurare efficacemente le dimensioni nella personalità La personalità umana, come con altri aspetti degli esseri umani, non è direttamente misurabile. Ad esempio, non è possibile misurare con precisione quanto una persona sia introversa o intelligente. Questionari e test psicologici suggeriscono solo questi valori.

Gli psicologi conoscevano SVD e hanno cercato di applicarlo al problema. La varianza condivisa ha attirato la loro attenzione: se alcune variabili sono quasi la stessa, dovrebbero avere la stessa causa principale, pensavano. Gli psicologi hanno creato analisi fattoriale per svolgere questo compito! Invece di applicare direttamente SVD ai dati, l'hanno applicato a una matrice appena creata che tracciava la varianza comune, nella speranza di condensare tutte le informazioni e di recuperare nuove utili funzioni chiamate fa c tori .

Ricerca di fattori nascosti

Un buon modo per mostrare come utilizzare l'analisi fattoriale è iniziare con il set di dati Iris.

da sklearn. i set di dati importano load_iris da sklearn. decomposizione import FactorAnalysis iris = load_iris () X, y = iris. dati, iris. fattore di destinazione = FactorAnalysis (n_components = 4, random_state = 101). fit (X)

Dopo aver caricato i dati e aver memorizzato tutte le funzionalità predittive, la classe FactorAnalysis viene inizializzata con una richiesta di ricerca di quattro fattori. I dati vengono quindi adattati. È possibile esplorare i risultati osservando l'attributo components_, che restituisce un array contenente misure della relazione tra i fattori appena creati, posizionati in righe e le feature originali, posizionate in colonne.

All'intersezione di ciascun fattore e caratteristica, un numero positivo indica che esiste una proporzione positiva tra i due; un numero negativo, invece, fa notare che essi divergono e uno è il contrario dell'altro.

Dovrai testare diversi valori di n_components perché non è possibile sapere quanti fattori esistono nei dati. Se l'algoritmo è richiesto per più fattori di quanti ne esistono, genererà fattori con valori bassi nell'array components_.

importare panda come pd print pd. DataFrame (factor. Components_, columns = iris. Feature_names) lunghezza sepale (cm) larghezza sepal (cm) lunghezza del petalo (cm) larghezza del petalo (cm) 0 0. 707227 -0. 153147 1. 653151 0. 701569 1 0. 114676 0. 159763 -0. 045604 -0. 014052 2 0 000000 -0. 000000 -0. 000000 -0. 000000 3 -0. 000000 0. 000000 0. 000000 -0. 000000

Nel test sul set di dati Iris, ad esempio, i fattori risultanti dovrebbero essere al massimo 2, non 4, perché solo due fattori hanno connessioni significative con le caratteristiche originali. Puoi utilizzare questi due fattori come nuove variabili nel tuo progetto perché riflettono una caratteristica invisibile ma importante a cui i dati precedentemente disponibili hanno solo accennato.

Uso dei componenti, non dei fattori

Se un SVD può essere applicato correttamente alla varianza comune, ci si potrebbe chiedere perché non è possibile applicarlo a tutte le varianti. Usando una matrice iniziale leggermente modificata, tutte le relazioni nei dati potrebbero essere ridotte e compresse in modo simile a come SVD lo fa.

I risultati di questo processo, che sono abbastanza simili a SVD, sono chiamati analisi delle componenti principali (PCA). Le funzioni appena create sono denominate componenti . A differenza dei fattori, i componenti non sono descritti come la causa principale della struttura dei dati, ma sono solo dati ristrutturati, quindi è possibile visualizzarli come una sommatoria grande e intelligente di variabili selezionate.

Per le applicazioni di data science, PCA e SVD sono abbastanza simili. Tuttavia, la PCA non è influenzata dalla scala delle caratteristiche originali (perché funziona su misure di correlazione che sono tutte vincolate tra valori -1 e +1) e PCA si concentra sulla ricostruzione della relazione tra le variabili, offrendo così risultati diversi da SVD.

Raggiungere la riduzione della dimensionalità

La procedura per ottenere un PCA è abbastanza simile all'analisi fattoriale.La differenza è che non si specifica il numero di componenti da estrarre. Decidi in seguito quanti componenti conservare dopo aver controllato l'attributo explain_variance_ratio_, che fornisce la quantificazione del valore informativo di ciascun componente estratto. L'esempio seguente mostra come eseguire questa attività:

da sklearn. decomposizione importazione PCA importazione panda come pd pca = PCA (). fit (X) print 'Spiegazione della varianza per componente:% s'% pca. illustrated_variance_ratio_ print pd. DataFrame (pca. Components_, columns = iris. Feature_names) Spiegazione della varianza per componente: [0. 92461621 0. 05301557 0. 01718514 0. 00518309] lunghezza sepali (cm) larghezza sepali (cm) lunghezza del petalo (cm) larghezza del petalo (cm) 0 0. 361590 -0. 082269 0. 856572 0. 358844 1 -0. 656540 -0. 729712 0. 175767 0. 074706 2 0. 580997 -0. 596418 -0. 072524 -0. 549061 3 0. 317255 -0. 324094 -0. 479719 0. 751121

In questa scomposizione dell'insieme di dati Iris, l'array vettore fornito da explain_variance_ratio_ indica che la maggior parte delle informazioni è concentrata nel primo componente (92. 5 percento). È quindi possibile ridurre l'intero set di dati a soli due componenti, fornendo una riduzione del rumore e delle informazioni ridondanti dal set di dati originale.

Dati Scienza: utilizzo di Python per eseguire analisi dei fattori fattoriale e principale - manichini

Scelta dell'editore

Come salvare le immagini in un file immagine in R - dummies

Come salvare le immagini in un file immagine in R - dummies

Se vuoi pubblicare le tue risultati, è necessario salvare la trama in un file in R e quindi importare questo file grafico in un altro documento. Tuttavia, per la maggior parte del tempo, potresti semplicemente voler utilizzare la grafica R in modo interattivo per esplorare i tuoi dati. Per salvare un grafico su un'immagine ...

Come cercare più parole in R - dummies

Come cercare più parole in R - dummies

Quando si lavora con il testo in R, potrebbe essere necessario per trovare parole o motivi all'interno del testo. Immagina di avere una lista degli stati negli Stati Uniti e vuoi scoprire quali nomi di stato consistono in due parole. Per trovare sottostringhe, è possibile utilizzare la funzione grep (), che prende due argomenti essenziali: ...

Come cercare le singole parole in R - dummies

Come cercare le singole parole in R - dummies

Quando lavori con il testo, spesso tu può risolvere i problemi se riesci a trovare parole o motivi all'interno del testo. R rende questo facile da fare. Immagina di avere una lista degli stati negli Stati Uniti e vuoi scoprire quale di questi stati contiene la parola Nuovo. Per indagare su questo ...

Scelta dell'editore

Come calcolare le detrazioni e i crediti di imposta sugli investimenti immobiliari per l'esame di licenza immobiliare

Come calcolare le detrazioni e i crediti di imposta sugli investimenti immobiliari per l'esame di licenza immobiliare

Una detrazione fiscale è qualcosa che puoi vedere nell'esame di licenza immobiliare che puoi detrarre dal reddito di un investimento immobiliare per ridurre le tasse. Un credito d'imposta è qualcosa che puoi detrarre dalle tasse dovute. I governi federali e talvolta statali creano programmi che consentono crediti d'imposta o detrazioni per ...

Fattori economici che influenzano il valore per l'esame di licenza immobiliare - dummies

Fattori economici che influenzano il valore per l'esame di licenza immobiliare - dummies

Valore doesn ' semplicemente succede; le persone devono crearlo. La maggior parte di queste azioni personali che saranno trattate durante l'esame di licenza immobiliare, di solito chiamate influenze economiche, non sono altro che normali comportamenti umani. Il test pone due tipi di domande su questi principi o fattori economici. Vedrai domande sulle definizioni e ...

Come calcolare le aliquote fiscali per l'esame di licenza immobiliare - dummy

Come calcolare le aliquote fiscali per l'esame di licenza immobiliare - dummy

Pur calcolando la tassa le tariffe non sono qualcosa che devi sapere esattamente come fare per l'esame di licenza immobiliare, è qualcosa che devi capire in generale per rispondere a domande di non-matematica sul processo. Sapere come calcolare le tasse non è una cosa brutta da sapere, perché probabilmente si pagano le tasse di proprietà e ...

Scelta dell'editore

Suggerimenti per la registrazione Regole di gioco logiche sull'LSAT - manichini

Suggerimenti per la registrazione Regole di gioco logiche sull'LSAT - manichini

La maggior parte dei giochi di logica sull'LSAT hanno tre, quattro o cinque condizioni o regole che limitano il modo in cui giochi con i pezzi. Per ordinare i giochi, le restrizioni forniscono indizi su come i pezzi possono essere posizionati in relazione l'uno con l'altro. I tipi comuni di regole di ordinazione sono obiettivi, distanziatori e arrangiatori. Regole di destinazione I bersagli danno ...

Come gestire il tuo tempo con saggezza sul TASC - dummies

Come gestire il tuo tempo con saggezza sul TASC - dummies

Perché ogni sezione del TASC, oppure Prova l'esame di completamento secondario, ha un limite di tempo, vorrai essere consapevole di quanto tempo è passato mentre stai facendo il test. Un modo per gestire efficacemente il tuo tempo è semplicemente indossando un orologio. I centri di test potrebbero non avere sempre un orologio disponibile e ...

Rendendo più semplice il giorno di prova SSAT o ISEE - manichini

Rendendo più semplice il giorno di prova SSAT o ISEE - manichini

Non è possibile effettuare SSAT o ISEE più facile, ma puoi iniziare la giornata di test correttamente e renderlo più semplice e meno stressante, il che può portare a risultati migliori durante l'esame di ammissione. Ecco alcuni suggerimenti da tenere a mente al giorno del test SSAT o ISEE: riposati molto. La ...