Casa Finanza personale Come generare dati derivati ​​e ridurne la dimensionalità per Predictive Analytics - dummies

Come generare dati derivati ​​e ridurne la dimensionalità per Predictive Analytics - dummies

Sommario:

Video: La sovranità appartiene al popolo o allo spread? Antonio Maria Rinaldi e Scenari Economici a Milano 2025

Video: La sovranità appartiene al popolo o allo spread? Antonio Maria Rinaldi e Scenari Economici a Milano 2025
Anonim

In questa fase di esplorazione dell'analisi predittiva, acquisirai una conoscenza approfondita dei tuoi dati, che a sua volta ti aiuteranno a scegliere le variabili rilevanti da analizzare. Questa comprensione ti aiuterà anche a valutare i risultati del tuo modello. Ma prima devi identificare e pulire i dati per l'analisi.

Come generare i dati derivati ​​

Gli attributi derivati ​​ sono record interamente nuovi costruiti da uno o più attributi esistenti. Un esempio potrebbe essere la creazione di documenti che identificano libri che sono bestseller nelle fiere del libro. I dati grezzi non possono acquisire tali record, ma a fini di modellazione, questi record derivati ​​possono essere importanti. Il rapporto prezzo / guadagno e la media mobile a 200 giorni sono due esempi di dati derivati ​​ampiamente utilizzati nelle applicazioni finanziarie.

Gli attributi derivati ​​possono essere ottenuti da semplici calcoli come dedurre l'età dalla data di nascita. Gli attributi derivati ​​possono anche essere calcolati riassumendo le informazioni da più record.

Ad esempio, la conversione di una tabella di clienti e dei libri acquistati in una tabella può consentire di tenere traccia del numero di libri venduti tramite un sistema di raccomandazione, attraverso il marketing mirato e una fiera del libro e identificare la fascia demografica dei clienti che comprato quei libri.

La generazione di tali attributi aggiuntivi porta ulteriore potenza predittiva all'analisi. In effetti, molti di questi attributi sono creati in modo da sondare il loro potenziale potere predittivo. Alcuni modelli predittivi possono utilizzare più attributi derivati ​​rispetto agli attributi nel loro stato grezzo. Se alcuni attributi derivati ​​si rivelano particolarmente predittivi e il loro potere è dimostrato pertinente, allora ha senso automatizzare il processo che li genera.

I record derivati ​​sono nuovi record che portano nuove informazioni e forniscono nuovi modi di presentare dati grezzi; possono essere di enorme valore per la modellazione predittiva.

Come ridurre la dimensionalità dei dati

I dati utilizzati nei modelli predittivi sono generalmente raggruppati da più fonti. L'analisi può trarre da dati sparsi su più formati di dati, file e database o più tabelle all'interno dello stesso database. Raggruppare i dati insieme e combinarli in un formato integrato per i modellatori di dati da utilizzare è essenziale.

Se i tuoi dati contengono contenuti gerarchici, potrebbe essere necessario appiattito . Alcuni dati hanno alcune caratteristiche gerarchiche come le relazioni genitore-figlio o un record composto da altri record.Ad esempio, un prodotto come un'auto può avere più produttori; appiattendo i dati, in questo caso, significa includere ciascun produttore come caratteristica aggiuntiva del record che stai analizzando.

L'appiattimento dei dati è essenziale quando viene unito da più record correlati per formare un'immagine migliore.

Ad esempio, l'analisi degli eventi avversi per diversi farmaci fatti da diverse aziende potrebbe richiedere che i dati vengano appiattiti a livello di sostanza. In questo modo, si finisce per rimuovere le relazioni uno-a-molti (in questo caso, molti produttori e molte sostanze per un prodotto) che possono causare troppe duplicazioni di dati ripetendo più voci di sostanze che si ripetono informazioni su prodotti e produttori ad ogni voce.

L'appiattimento riduce la dimensionalità dei dati, che è rappresentata dal numero di funzioni di un record o di un'osservazione.

Ad esempio, un cliente può avere le seguenti caratteristiche: nome, età, indirizzo, articoli acquistati. Quando inizi la tua analisi, potresti trovarti a valutare i record con molte funzionalità, solo alcune delle quali sono importanti per l'analisi. Quindi dovresti eliminare tutte le funzionalità tranne quelle che hanno il potere più predittivo per il tuo progetto specifico.

La riduzione della dimensionalità dei dati può essere ottenuta inserendo tutti i dati in un'unica tabella che utilizza più colonne per rappresentare gli attributi di interesse. All'inizio dell'analisi, ovviamente, l'analisi deve valutare un numero elevato di colonne, ma tale numero può essere ridotto man mano che l'analisi procede.

Questo processo può essere aiutato ricostituendo i campi, ad esempio raggruppando i dati in categorie con caratteristiche simili.

Il set di dati risultante - il set di dati pulito - viene solitamente inserito in un database separato per gli analisti da utilizzare. Durante il processo di modellazione, questi dati dovrebbero essere facilmente accessibili, gestiti e aggiornati.

Come generare dati derivati ​​e ridurne la dimensionalità per Predictive Analytics - dummies

Scelta dell'editore

Vantaggi di base della rete - manichini

Vantaggi di base della rete - manichini

Se la verità viene detta, le reti di computer sono un problema da impostare. Perché i vantaggi di avere una rete rendono la pena di crearne uno utile. Non è necessario essere un dottorato di ricerca per comprendere i vantaggi del networking. Le reti riguardano esclusivamente la condivisione. Nello specifico, le reti riguardano la condivisione di tre elementi: informazioni, risorse, ...

Biometria L'accettazione, la privacy e la legge - manichini

Biometria L'accettazione, la privacy e la legge - manichini

La tecnologia biometrica non è affatto universalmente accettata da tutti gli utenti. Ci sono una serie di considerazioni sociali e legali che danno ad ogni organizzazione una pausa prima di fare il salto a capofitto nell'implementazione di un sistema biometrico. Le persone sono più a loro agio con i sistemi di raccolta biometrici che sono i meno intrusivi. Scanner per retina e nasi elettronici sono ...

Biometria Nozioni di base - manichini

Biometria Nozioni di base - manichini

La biometria non è roba da fantascienza. Puoi trovare una dozzina di modi più o meno efficaci per utilizzare la biometria per identificare qualcuno, ognuno dei quali si divide in due classi: la biometria fisiologica misura una parte specifica della struttura o della forma di una porzione del corpo di un soggetto. La biometria comportamentale è più interessata a come ...

Scelta dell'editore

Come creare un nuovo dizionario personalizzato in Excel 2007 - dummies

Come creare un nuovo dizionario personalizzato in Excel 2007 - dummies

In Excel 2007, è possibile creare dizionari personalizzati da utilizzare quando si esegue il controllo ortografico dei fogli di lavoro. Utilizzare il pulsante Aggiungi al dizionario nella finestra di dialogo Controllo ortografico per aggiungere parole sconosciute a un dizionario personalizzato. Per impostazione predefinita, Excel aggiunge queste parole a un file dizionario personalizzato denominato CUSTOM. DIC, ma è possibile creare una nuova personalizzazione ...

Come creare un componente aggiuntivo da un file di cartella di lavoro Excel Excel normale in VBA - modi di dire

Come creare un componente aggiuntivo da un file di cartella di lavoro Excel Excel normale in VBA - modi di dire

Sebbene sia possibile convertire qualsiasi cartella di lavoro di Excel in un componente aggiuntivo, non tutte le cartelle di lavoro traggono vantaggio da questa conversione. Una cartella di lavoro senza macro rende un componente aggiuntivo inutile. In effetti, gli unici tipi di cartelle di lavoro che traggono vantaggio dall'essere convertiti in un componente aggiuntivo sono quelli con macro. Ad esempio, una cartella di lavoro costituita da macro generiche (Sub ...

Come creare una nuova cartella di lavoro in Excel 2010 - dummy

Come creare una nuova cartella di lavoro in Excel 2010 - dummy

Se si lavora in Microsoft Excel 2010 e vuoi iniziare a lavorare in un nuovo file di cartella di lavoro di Excel, puoi facilmente creare una nuova cartella di lavoro. Per fare ciò, puoi usare un comando nella scheda File o una scorciatoia da tastiera. Fare clic sulla scheda File. Excel visualizza la visualizzazione Backstage, in cui è possibile accedere ai comandi relativi ai file. ...

Scelta dell'editore

Usa lo strumento Gomma in Adobe Illustrator CS5 - manichini

Usa lo strumento Gomma in Adobe Illustrator CS5 - manichini

Adobe Illustrator Creative Suite 5 (Adobe CS5) Illustrator è utilizzato per rimuovere rapidamente aree di grafica con la stessa facilità con cui si cancellano i pixel in Photoshop, accarezzando con il mouse su qualsiasi forma o gruppo di forme. Facendo doppio clic sullo strumento Gomma, è possibile definire il diametro, l'angolo e la rotondità della gomma. Se stai usando un ...

Trasforma gli strumenti in Adobe Illustrator CS5 - dummies

Trasforma gli strumenti in Adobe Illustrator CS5 - dummies

I più popolari strumenti di trasformazione in Adobe Creative Suite 5 (Adobe CS5) Illustrator - Rifletti, scala, inclina, rimodella e Trasformazione libera: sono facili da usare e modificano rapidamente la tua illustrazione. Lo strumento Rifletti Niente è simmetrico, giusto? Forse no, ma gli oggetti non creati simmetricamente in Illustrator possono sembrare off-kilter. Utilizzando lo strumento Rifletti, si ...

Quando utilizzare Adobe CS5 Illustrator - dummies

Quando utilizzare Adobe CS5 Illustrator - dummies

Utilizzando Adobe Creative Suite 5 (Adobe CS5) Illustrator anziché Photoshop , ottieni diversi benefici. Potresti aver sentito che Illustrator è migliore per la grafica vettoriale, ma perché e che altro porta? Illustrator può salvare ed esportare immagini nella maggior parte dei formati di file. Scegliendo di salvare o esportare, è possibile creare un ...