Casa Finanza personale Algoritmi di classificazione utilizzati in Data Science - dummies

Algoritmi di classificazione utilizzati in Data Science - dummies

Video: MATEMATICA - La matematica nel mondo contemporaneo - Accademia dei Lincei e SNS - 28 febbraio 2019 2024

Video: MATEMATICA - La matematica nel mondo contemporaneo - Accademia dei Lincei e SNS - 28 febbraio 2019 2024
Anonim

Con gli algoritmi di classificazione, prendi un set di dati esistente e usa ciò che sai a riguardo per generare un modello predittivo da utilizzare nella classificazione dei futuri punti di dati. Se il tuo obiettivo è utilizzare il set di dati e i suoi sottoinsiemi noti per creare un modello per la previsione della categorizzazione dei futuri punti di dati, ti consigliamo di utilizzare gli algoritmi di classificazione.

Quando si implementa la classificazione supervisionata, è necessario conoscere i sottoinsiemi dei dati: questi sottoinsiemi sono chiamati categorie . La classificazione aiuta a vedere quanto bene i dati si inseriscono nelle categorie predefinite del set di dati in modo da poter creare un modello predittivo da utilizzare nella classificazione dei futuri punti di dati.

La figura illustra come appare la classificazione dei set di dati sulla rendita e sull'istruzione della Banca Mondiale in base alla categoria Continente.

Puoi vedere che, in alcuni casi, i sottoinsiemi che potresti identificare con una tecnica di clustering corrispondono alla categoria dei continenti, ma in altri casi no. Ad esempio, guarda l'unico paese asiatico nel mezzo dei punti dati africani. Quello è il Bhutan. È possibile utilizzare i dati in questo set di dati per creare un modello che preveda una categoria di continente per i punti di dati in entrata.

Ma se hai introdotto un punto dati per un nuovo paese che mostra statistiche simili a quelle del Bhutan, allora il nuovo paese potrebbe essere classificato come facente parte del continente asiatico o del continente africano, a seconda su come definisci il tuo modello.

Ora immagina una situazione in cui i tuoi dati originali non includono il Bhutan e utilizzi il modello per prevedere il continente del Bhutan come nuovo punto dati. In questo scenario, il modello avrebbe erroneamente predetto che il Bhutan è parte del continente africano.

Questo è un esempio di overfitting del modello - situazioni in cui un modello è così strettamente adattato al suo set di dati sottostante, così come il rumore o l'errore casuale insito in quel set di dati, che il modello si comporta male come predittore di nuovi punti dati.

Per evitare il sovradattamento dei modelli, dividere i dati in un set di allenamento e un set di test. Un rapporto tipico consiste nell'assegnare l'80 percento dei dati nel set di allenamento e il restante 20 percento nel set di test. Costruisci il tuo modello con il set di allenamento, quindi usa il set di test per valutare il modello fingendo che i punti di dati del set di test siano sconosciuti. È possibile valutare l'accuratezza del modello confrontando le categorie assegnate a questi punti di dati del set di test dal modello alle categorie vere.

Anche la sovratensazione del modello può essere un problema. Overgeneralization è l'opposto dell'overfitting: accade quando uno scienziato di dati cerca di evitare la classificazione dovuta al sovraffollamento rendendo estremamente generico un modello. I modelli troppo generici finiscono per assegnare a ogni categoria un basso livello di sicurezza.

Per illustrare la generalizzazione del modello, considerare nuovamente i set di dati relativi al reddito e all'istruzione della Banca mondiale. Se il modello utilizzava la presenza del Bhutan per gettare dubbi su ogni nuovo punto dati nelle sue vicinanze, allora si finisce con un modello inondante che considera tutti i punti vicini come africani ma con una bassa probabilità. Questo modello sarebbe un cattivo esecutore predittivo.

Una buona metafora per il sovraffondamento e l'overgeneralization può essere illustrata attraverso la ben nota frase: "Se cammina come un'anatra e parla come un'anatra, allora è un'anatra. "L'overfitting trasformerebbe questa frase in" è un'anatra se, e solo se, cammina e caga esattamente nel modo in cui personalmente ho osservato un'anatra camminare e ciarlare. Dal momento che non ho mai osservato il modo in cui un'anatra chiazzata australiana cammina e caga, un'anatra maculata australiana non deve essere affatto un'anatra. "

Al contrario, l'overgeneralization direbbe," Se si muove su due gambe ed emette un suono nasale acuto, è un'anatra. Pertanto, Fran Fine, il personaggio di Fran Drescher nella sitcom americana degli anni '90 The Nanny deve essere un'anatra. "

Apprendimento automatico supervisionato - il termine di fantasia per la classificazione - è appropriato in situazioni in cui sono vere le seguenti caratteristiche:

  • Conosci e comprendi il set di dati che stai analizzando.

  • I sottoinsiemi (categorie) del set di dati vengono definiti in anticipo e non sono determinati dai dati.

  • Si desidera creare un modello che mette in correlazione i dati all'interno delle sue categorie predefinite in modo che il modello possa aiutare a prevedere la categorizzazione dei futuri punti di dati.

Quando si esegue la classificazione, tenere presente i seguenti punti:

  • Le previsioni del modello sono valide solo come i dati sottostanti del modello. Nell'esempio dei dati della Banca Mondiale, potrebbe accadere che, se altri fattori come l'aspettativa di vita o il consumo di energia pro capite fossero aggiunti al modello, la sua forza predittiva potrebbe aumentare.

  • Le previsioni del modello sono valide solo come la classificazione del set di dati sottostante. Ad esempio, che cosa fai con paesi come la Russia che attraversano due continenti? Distingui il Nord Africa dall'Africa sub-sahariana? Metti in crisi il Nord America con l'Europa perché tendono a condividere attributi simili? Consideri l'America Centrale parte del Nord America o del Sud America?

C'è un costante pericolo di sovralimentazione e overgeneralization. Un mezzo felice deve essere trovato tra i due.

Algoritmi di classificazione utilizzati in Data Science - dummies

Scelta dell'editore

Un trio di giochi di golf per esercitarsi Mettere - manichini

Un trio di giochi di golf per esercitarsi Mettere - manichini

Mettere pratica certamente affina le abilità di un giocatore di golf, ma tutto quella pratica può diventare noiosa. Incorporare giochi di abilità nel mettere pratica per tenerlo fresco. I golfisti possono mettere a punto le loro abilità da solo o con un altro giocatore durante questi esercizi di esercitazione, che vengono mascherati come giochi di sfida: cavalcare in giro a sella per una partita a cavallo seguendo ...

Una raccolta di immagini dal miglioramento dell'oscillazione del golf in un Day for Dummies - dummies

Una raccolta di immagini dal miglioramento dell'oscillazione del golf in un Day for Dummies - dummies

Le figure di questa galleria sono tratte da Improving Your Golf Swing in A Day for Dummies e illustrano diversi componenti dello swing del golf. Le immagini appaiono nell'ordine in cui appaiono nel libro.

Nozioni di base sull'etichetta del golf - manichini

Nozioni di base sull'etichetta del golf - manichini

Afferrare tutto il necessario e il non fare del golf richiede tempo. Quindi sei a tuo agio su qualsiasi campo da golf e con qualsiasi giocatore, usa questa lista come buon inizio per le regole del galateo del golf. Do: Gioca a un ritmo ragionevole. Ripara i segni di palla, sostituisci i divots e rake i bunker. Presta attenzione alle regole come ...

Scelta dell'editore

Gallerie di Designer Web in SharePoint 2013 - dummies

Gallerie di Designer Web in SharePoint 2013 - dummies

Un tema comune in tutto SharePoint è la riusabilità. Le Gallerie di Web Designer sono dove gestisci tutti questi componenti riutilizzabili. In SharePoint, la riusabilità assume la forma di oggetti come contenitori di dati, modelli, layout e soluzioni. I componenti sono archiviati in gallerie e sono progettati per contenere i pezzi che si utilizzano durante la progettazione dei siti Web. Con questo ...

Condivisione di dati all'interno di Office 2003 con smart tag - dummies

Condivisione di dati all'interno di Office 2003 con smart tag - dummies

Quando si digitano dati in Word, Excel o PowerPoint, Office 2003 può spesso riconoscere il tipo di dati che potrebbero essere, ad esempio una data, un numero di telefono o un nome. Quando Office 2003 riconosce tipi di dati specifici, può identificarlo all'interno del file con uno smart tag. Un tag intelligente ti offre un'opzione ...

Condivisione di file su Windows Live e siti Web di SharePoint - dummies

Condivisione di file su Windows Live e siti Web di SharePoint - dummies

Perché i file su cui si lavora Le Office Web Apps sono archiviate online, non sul tuo computer, molte persone possono accedervi e modificarle. Sebbene la condivisione di file Web App non sia completamente disponibile in tutto il mondo (ancora), molte persone possono aprire lo stesso file in una Office Web App e modificarlo, in alcuni casi al ...

Scelta dell'editore

Sperimentando con JShell - dummies

Sperimentando con JShell - dummies

JShell è uno strumento Java 9 che ti permette di esplorare in programmazione. JShell rende facile giocare senza la paura di conseguenze disastrose. I programmi Java usano spesso lo stesso vecchio, noioso ritornello: public class SomethingOrOther {public static void main (String args []) {Un programma Java richiede questa introduzione dettagliata perché in Java ...

Introduzione a JavaFX - dummies

Introduzione a JavaFX - dummies

Il metodo di avvio è il cuore di qualsiasi applicazione JavaFX. Questo metodo viene chiamato quando l'applicazione viene caricata e un riferimento allo stage primario dell'applicazione viene passato come parametro. Il metodo start crea l'oggetto Scene e lo visualizza nello stage. @Override public void start (Stage primaryStage) {Group root = new ...

Come ottenere input dall'utente nella tua app Android con Java - dummies

Come ottenere input dall'utente nella tua app Android con Java - dummies

Puoi fare un uso significativo degli operatori logici di Java nella tua app per Android. Nel codice qui sotto, l'app riceve due informazioni dall'utente. L'app ottiene l'età di una persona e ottiene un assegno o no-check, che indica lo stato di visualizzazione speciale di un film. pacchetto com. allmycode. a06_01; importa Android. supporto. V7. app. AppCompatActivity; importa Android. os. Bundle; importa Android. vista. Vista; importa Android. widget di. CheckBox; ...