Casa Finanza personale Algoritmi di classificazione utilizzati in Data Science - dummies

Algoritmi di classificazione utilizzati in Data Science - dummies

Video: MATEMATICA - La matematica nel mondo contemporaneo - Accademia dei Lincei e SNS - 28 febbraio 2019 2025

Video: MATEMATICA - La matematica nel mondo contemporaneo - Accademia dei Lincei e SNS - 28 febbraio 2019 2025
Anonim

Con gli algoritmi di classificazione, prendi un set di dati esistente e usa ciò che sai a riguardo per generare un modello predittivo da utilizzare nella classificazione dei futuri punti di dati. Se il tuo obiettivo è utilizzare il set di dati e i suoi sottoinsiemi noti per creare un modello per la previsione della categorizzazione dei futuri punti di dati, ti consigliamo di utilizzare gli algoritmi di classificazione.

Quando si implementa la classificazione supervisionata, è necessario conoscere i sottoinsiemi dei dati: questi sottoinsiemi sono chiamati categorie . La classificazione aiuta a vedere quanto bene i dati si inseriscono nelle categorie predefinite del set di dati in modo da poter creare un modello predittivo da utilizzare nella classificazione dei futuri punti di dati.

La figura illustra come appare la classificazione dei set di dati sulla rendita e sull'istruzione della Banca Mondiale in base alla categoria Continente.

Puoi vedere che, in alcuni casi, i sottoinsiemi che potresti identificare con una tecnica di clustering corrispondono alla categoria dei continenti, ma in altri casi no. Ad esempio, guarda l'unico paese asiatico nel mezzo dei punti dati africani. Quello è il Bhutan. È possibile utilizzare i dati in questo set di dati per creare un modello che preveda una categoria di continente per i punti di dati in entrata.

Ma se hai introdotto un punto dati per un nuovo paese che mostra statistiche simili a quelle del Bhutan, allora il nuovo paese potrebbe essere classificato come facente parte del continente asiatico o del continente africano, a seconda su come definisci il tuo modello.

Ora immagina una situazione in cui i tuoi dati originali non includono il Bhutan e utilizzi il modello per prevedere il continente del Bhutan come nuovo punto dati. In questo scenario, il modello avrebbe erroneamente predetto che il Bhutan è parte del continente africano.

Questo è un esempio di overfitting del modello - situazioni in cui un modello è così strettamente adattato al suo set di dati sottostante, così come il rumore o l'errore casuale insito in quel set di dati, che il modello si comporta male come predittore di nuovi punti dati.

Per evitare il sovradattamento dei modelli, dividere i dati in un set di allenamento e un set di test. Un rapporto tipico consiste nell'assegnare l'80 percento dei dati nel set di allenamento e il restante 20 percento nel set di test. Costruisci il tuo modello con il set di allenamento, quindi usa il set di test per valutare il modello fingendo che i punti di dati del set di test siano sconosciuti. È possibile valutare l'accuratezza del modello confrontando le categorie assegnate a questi punti di dati del set di test dal modello alle categorie vere.

Anche la sovratensazione del modello può essere un problema. Overgeneralization è l'opposto dell'overfitting: accade quando uno scienziato di dati cerca di evitare la classificazione dovuta al sovraffollamento rendendo estremamente generico un modello. I modelli troppo generici finiscono per assegnare a ogni categoria un basso livello di sicurezza.

Per illustrare la generalizzazione del modello, considerare nuovamente i set di dati relativi al reddito e all'istruzione della Banca mondiale. Se il modello utilizzava la presenza del Bhutan per gettare dubbi su ogni nuovo punto dati nelle sue vicinanze, allora si finisce con un modello inondante che considera tutti i punti vicini come africani ma con una bassa probabilità. Questo modello sarebbe un cattivo esecutore predittivo.

Una buona metafora per il sovraffondamento e l'overgeneralization può essere illustrata attraverso la ben nota frase: "Se cammina come un'anatra e parla come un'anatra, allora è un'anatra. "L'overfitting trasformerebbe questa frase in" è un'anatra se, e solo se, cammina e caga esattamente nel modo in cui personalmente ho osservato un'anatra camminare e ciarlare. Dal momento che non ho mai osservato il modo in cui un'anatra chiazzata australiana cammina e caga, un'anatra maculata australiana non deve essere affatto un'anatra. "

Al contrario, l'overgeneralization direbbe," Se si muove su due gambe ed emette un suono nasale acuto, è un'anatra. Pertanto, Fran Fine, il personaggio di Fran Drescher nella sitcom americana degli anni '90 The Nanny deve essere un'anatra. "

Apprendimento automatico supervisionato - il termine di fantasia per la classificazione - è appropriato in situazioni in cui sono vere le seguenti caratteristiche:

  • Conosci e comprendi il set di dati che stai analizzando.

  • I sottoinsiemi (categorie) del set di dati vengono definiti in anticipo e non sono determinati dai dati.

  • Si desidera creare un modello che mette in correlazione i dati all'interno delle sue categorie predefinite in modo che il modello possa aiutare a prevedere la categorizzazione dei futuri punti di dati.

Quando si esegue la classificazione, tenere presente i seguenti punti:

  • Le previsioni del modello sono valide solo come i dati sottostanti del modello. Nell'esempio dei dati della Banca Mondiale, potrebbe accadere che, se altri fattori come l'aspettativa di vita o il consumo di energia pro capite fossero aggiunti al modello, la sua forza predittiva potrebbe aumentare.

  • Le previsioni del modello sono valide solo come la classificazione del set di dati sottostante. Ad esempio, che cosa fai con paesi come la Russia che attraversano due continenti? Distingui il Nord Africa dall'Africa sub-sahariana? Metti in crisi il Nord America con l'Europa perché tendono a condividere attributi simili? Consideri l'America Centrale parte del Nord America o del Sud America?

C'è un costante pericolo di sovralimentazione e overgeneralization. Un mezzo felice deve essere trovato tra i due.

Algoritmi di classificazione utilizzati in Data Science - dummies

Scelta dell'editore

Come salvare le immagini in un file immagine in R - dummies

Come salvare le immagini in un file immagine in R - dummies

Se vuoi pubblicare le tue risultati, è necessario salvare la trama in un file in R e quindi importare questo file grafico in un altro documento. Tuttavia, per la maggior parte del tempo, potresti semplicemente voler utilizzare la grafica R in modo interattivo per esplorare i tuoi dati. Per salvare un grafico su un'immagine ...

Come cercare più parole in R - dummies

Come cercare più parole in R - dummies

Quando si lavora con il testo in R, potrebbe essere necessario per trovare parole o motivi all'interno del testo. Immagina di avere una lista degli stati negli Stati Uniti e vuoi scoprire quali nomi di stato consistono in due parole. Per trovare sottostringhe, è possibile utilizzare la funzione grep (), che prende due argomenti essenziali: ...

Come cercare le singole parole in R - dummies

Come cercare le singole parole in R - dummies

Quando lavori con il testo, spesso tu può risolvere i problemi se riesci a trovare parole o motivi all'interno del testo. R rende questo facile da fare. Immagina di avere una lista degli stati negli Stati Uniti e vuoi scoprire quale di questi stati contiene la parola Nuovo. Per indagare su questo ...

Scelta dell'editore

Come calcolare le detrazioni e i crediti di imposta sugli investimenti immobiliari per l'esame di licenza immobiliare

Come calcolare le detrazioni e i crediti di imposta sugli investimenti immobiliari per l'esame di licenza immobiliare

Una detrazione fiscale è qualcosa che puoi vedere nell'esame di licenza immobiliare che puoi detrarre dal reddito di un investimento immobiliare per ridurre le tasse. Un credito d'imposta è qualcosa che puoi detrarre dalle tasse dovute. I governi federali e talvolta statali creano programmi che consentono crediti d'imposta o detrazioni per ...

Fattori economici che influenzano il valore per l'esame di licenza immobiliare - dummies

Fattori economici che influenzano il valore per l'esame di licenza immobiliare - dummies

Valore doesn ' semplicemente succede; le persone devono crearlo. La maggior parte di queste azioni personali che saranno trattate durante l'esame di licenza immobiliare, di solito chiamate influenze economiche, non sono altro che normali comportamenti umani. Il test pone due tipi di domande su questi principi o fattori economici. Vedrai domande sulle definizioni e ...

Come calcolare le aliquote fiscali per l'esame di licenza immobiliare - dummy

Come calcolare le aliquote fiscali per l'esame di licenza immobiliare - dummy

Pur calcolando la tassa le tariffe non sono qualcosa che devi sapere esattamente come fare per l'esame di licenza immobiliare, è qualcosa che devi capire in generale per rispondere a domande di non-matematica sul processo. Sapere come calcolare le tasse non è una cosa brutta da sapere, perché probabilmente si pagano le tasse di proprietà e ...

Scelta dell'editore

Suggerimenti per la registrazione Regole di gioco logiche sull'LSAT - manichini

Suggerimenti per la registrazione Regole di gioco logiche sull'LSAT - manichini

La maggior parte dei giochi di logica sull'LSAT hanno tre, quattro o cinque condizioni o regole che limitano il modo in cui giochi con i pezzi. Per ordinare i giochi, le restrizioni forniscono indizi su come i pezzi possono essere posizionati in relazione l'uno con l'altro. I tipi comuni di regole di ordinazione sono obiettivi, distanziatori e arrangiatori. Regole di destinazione I bersagli danno ...

Come gestire il tuo tempo con saggezza sul TASC - dummies

Come gestire il tuo tempo con saggezza sul TASC - dummies

Perché ogni sezione del TASC, oppure Prova l'esame di completamento secondario, ha un limite di tempo, vorrai essere consapevole di quanto tempo è passato mentre stai facendo il test. Un modo per gestire efficacemente il tuo tempo è semplicemente indossando un orologio. I centri di test potrebbero non avere sempre un orologio disponibile e ...

Rendendo più semplice il giorno di prova SSAT o ISEE - manichini

Rendendo più semplice il giorno di prova SSAT o ISEE - manichini

Non è possibile effettuare SSAT o ISEE più facile, ma puoi iniziare la giornata di test correttamente e renderlo più semplice e meno stressante, il che può portare a risultati migliori durante l'esame di ammissione. Ecco alcuni suggerimenti da tenere a mente al giorno del test SSAT o ISEE: riposati molto. La ...