Fasi del processo di data mining - dummies
Il processo standard cross-industry per il data mining (CRISP-DM) è la struttura del processo di data mining dominante. È uno standard aperto; chiunque può usarlo. Il seguente elenco descrive le varie fasi del processo. Comprensione aziendale: acquisire una chiara comprensione del problema che si sta per risolvere, dell'impatto sulla propria organizzazione e degli obiettivi per l'indirizzamento ...
Ottimizzazione delle scelte di convalida incrociata in Machine Learning - dummies
Essere in grado di convalidare efficacemente un'ipotesi di apprendimento automatico consente ulteriore ottimizzazione dell'algoritmo scelto. L'algoritmo fornisce la maggior parte delle prestazioni predittive sui dati, data la sua capacità di rilevare i segnali dai dati e adattare la vera forma funzionale della funzione predittiva senza sovralimentazione e generando molta varianza delle stime. Not ...
Romanzo Visualizzazione in Predictive Analytics - dummies
Una visualizzazione può rappresentare una simulazione (una rappresentazione pittorica di uno scenario ipotetico ) nell'analisi predittiva. Puoi seguire una visualizzazione di una previsione con una simulazione che si sovrappone e supporta la previsione. Ad esempio, cosa succede se l'azienda interrompe la produzione del prodotto D? Cosa succede se un disastro naturale colpisce l'ufficio di casa? ...
Analytics predittivo: sapere quando aggiornare il tuo modello - dummies
Per quanto possa non piacerti , il tuo lavoro di analisi predittiva non è finito quando il tuo modello va in diretta. Il successo nel dispiegamento del modello in produzione non è il momento di rilassarsi. Dovrai monitorare attentamente la precisione e le prestazioni nel tempo. Un modello tende a degradarsi nel tempo (alcuni più velocemente di altri); e ...
Modelli spaziali predittivi per analisi del crimine - dummies
È Possibile incorporare modelli statistici predittivi nei metodi di analisi del crimine per produrre analisi che descrivere e prevedere dove e quali tipi di attività criminale possono verificarsi. Modelli spaziali predittivi possono aiutarti a prevedere il comportamento, la posizione o le attività criminali dei recidivi. È inoltre possibile applicare metodi statistici a dati spazio-temporali per verificare ...
Predittiva Analytics For Dummies Cheat Sheet - dummies
Un progetto di analisi predittiva combina l'esecuzione dei dettagli con il pensiero generale. Questi utili suggerimenti e liste di controllo ti aiuteranno a mantenere il tuo progetto sui binari e fuori dai boschi.
Preparazione dei dati per Predictive Analytics - dummies
Dopo aver definito gli obiettivi del modello, il prossimo passo nell'analisi predittiva è identificare e preparare i dati che userete per costruire il vostro modello. Le seguenti informazioni riguardano le attività più importanti. La sequenza generale di passaggi è la seguente: Identifica le tue origini dati. I dati potrebbero essere in diversi formati o ...
Probabilità Distribuzioni nell'analisi statistica di Big Data - dummies
Distribuzioni di probabilità è una delle molte tecniche statistiche che possono essere utilizzato per analizzare i dati per trovare modelli utili. Si utilizza una distribuzione di probabilità per calcolare le probabilità associate agli elementi di un set di dati: Distribuzione binomiale: si utilizzerà la distribuzione binomiale per analizzare le variabili che possono assumere solo uno dei due valori. Per ...
Quandl Open Data - dummies
Quandl è un sito web di Toronto che mira a essere un motore di ricerca per i dati numerici. Diversamente dalla maggior parte dei motori di ricerca, tuttavia, il suo database non viene generato automaticamente dagli spider che eseguono la scansione del Web. Piuttosto, si concentra sui dati collegati che vengono aggiornati tramite crowdsourcing, ovvero aggiornati manualmente tramite human curator, in altre parole. Poiché la maggior parte dei dati finanziari è ...
Che impedisce la violazione della privacy dei dati - dummies
La riservatezza dei dati è un grosso problema per i data miner. Le notizie che illustrano il livello dei dati personali nelle mani dell'agenzia di sicurezza nazionale del governo degli Stati Uniti e le violazioni delle fonti di dati commerciali hanno sollevato la consapevolezza e la preoccupazione dell'opinione pubblica. Un concetto centrale nella riservatezza dei dati è l'identificazione personale (PII), o qualsiasi dato che può ...
Analisi di regressione in analisi statistica di Big Data - manichini
Analisi di regressione viene utilizzata per stimare la forza e la direzione della relazione tra variabili che sono linearmente correlate l'una all'altra. Si dice che due variabili X e Y sono linearmente correlate se la relazione tra di esse può essere scritta nella forma Y = mX + b dove m è la pendenza, o ...
L'aumento dei dati aperti e il suo ruolo in Predictive Analytics - dummies
Aperto I dati potrebbero diventare uno strumento molto utile per l'analisi predittiva. Bob Lytle, l'amministratore delegato di rel8ed. e, più recentemente conosciuto come l'ex CIO di TransUnion Canada, sta conducendo sforzi sull'uso delle informazioni pubbliche come fonte di dati alternativa e strategica per la modellazione predittiva nei settori dei servizi finanziari e assicurativi. Apri ...
Tecniche di analisi quantitativa esplorativa dei dati (EDA) - manichini
Sebbene l'EDA si basi principalmente su tecniche grafiche, comprende anche alcune tecniche quantitative. Questo articolo discute due di questi: stima di intervalli e test di ipotesi. Stima dell'intervallo La stima dell'intervallo è una tecnica utilizzata per costruire un intervallo di valori entro il quale è probabile che una variabile cada. Un importante esempio di questo ...
Il ruolo delle statistiche nell'apprendimento automatico - dummies
Alcuni siti online vorrebbero credere che le statistiche e l'apprendimento automatico sono due tecnologie completamente diverse. Ad esempio, quando leggi Statistics vs. Machine Learning, combatti! , hai l'idea che le due tecnologie non sono solo diverse, ma addirittura ostili l'una verso l'altra. Il fatto è che le statistiche e l'apprendimento automatico hanno un ...
Ricorrendo a Cross-Validation in Machine Learning - dummies
A volte, l'apprendimento automatico richiede che sia necessario ricorrere alla convalida incrociata. Un problema evidente con la suddivisione del treno / set di test è che in realtà stai introducendo pregiudizi nei tuoi test perché stai riducendo le dimensioni dei tuoi dati di addestramento all'interno del campione. Quando dividi i tuoi dati, potresti effettivamente tenere alcuni esempi utili fuori dall'allenamento. ...
Ricerca di dati con il portale dati federali - dummies
Prima di iniziare la ricerca di dati sui miei dati . gov, il portale dei dati federali, devi capire una cosa: non ci sono dati sul sito. Dati. gov è la sede di un catalogo dati, un elenco di nomi di set di dati con dettagli come descrizioni, formati e URL per ottenere dati e informazioni aggiuntive. I dati stessi ...
Metriche di similarità utilizzate in Data Science - dummies
Sia il clustering che la classificazione si basano sul calcolo della somiglianza o differenza tra due punti di dati. Se il set di dati è numerico, composto solo da numeri e valori numerici e può essere rappresentato su un grafico n-dimensionale, esistono varie metriche geometriche che è possibile utilizzare per ridimensionare i dati multidimensionali. Un grafico n-dimensionale ...
Vedere cosa è necessario sapere quando si inizia a usare Data Science - dummies
Tradizionalmente, big data è il termine per i dati che ha incredibile volume, velocità e varietà. Le tradizionali tecnologie di database non sono in grado di gestire i big data - sono necessarie più soluzioni innovative progettate per i dati. Per valutare il tuo progetto per se si qualifica come un progetto di big data, considera i seguenti criteri: Volume: tra 1 terabyte / anno e 10 petabytes / anno Velocity: ...
Analisi temporale per la prevenzione e il monitoraggio del crimine - dummies
L'analisi temporale dei dati del crimine produce analisi che descrivono i modelli in attività criminale basata sul tempo. È possibile analizzare i dati sul crimine temporale per sviluppare un'analisi prescrittiva, sia attraverso i tradizionali strumenti di analisi del crimine sia attraverso un approccio basato sulla scienza dei dati. Sapere come produrre analisi prescrittive dai dati sul crimine temporale consente di fornire supporto decisionale a ...
Le 9 leggi del data mining: una guida di riferimento - dummies
Il minatore dei dati pionieristici Thomas Khabaza ha sviluppato le sue "Nine Laws of Data Mining" per guidare i nuovi minatori di dati mentre si mettono al lavoro. Questa guida di riferimento mostra ciò che ciascuna di queste leggi significa per il tuo lavoro quotidiano. Prima legge del data mining o "legge sugli obiettivi aziendali": gli obiettivi aziendali sono l'origine di tutti i dati ...
Grafici a dispersione: tecnica grafica per dati statistici - manichini
A differenza di una trama gambo-foglia, a Il grafico a dispersione ha lo scopo di mostrare la relazione tra due variabili. Potrebbe essere difficile vedere se esiste una relazione tra due variabili semplicemente guardando i dati grezzi, ma con una trama a dispersione, qualsiasi modello esistente nei dati diventa molto più facile da vedere. A scatter ...
Il paradosso dei Big Data - manichini
Troverete una sfumatura sull'analisi dei big data. Si tratta davvero di piccoli dati. Mentre questo può sembrare confuso e contrario all'intera premessa, i piccoli dati sono il prodotto dell'analisi dei big data. Questo non è un nuovo concetto, né è sconosciuto alle persone che hanno fatto analisi dei dati per qualsiasi lunghezza di ...
In esecuzione in Parallel Python per Data Science - dummies
La maggior parte dei computer oggi è multicore (due o più processori in un pacchetto singolo), alcuni con più CPU fisiche. Uno dei limiti più importanti di Python è che utilizza un singolo core per impostazione predefinita. (È stato creato in un momento in cui i single core erano la norma). I progetti di data science richiedono un bel po 'di ...
La D3. js Library for Data Visualization - dummies
D3. js è una libreria JavaScript open source che ha preso d'assalto il mondo della visualizzazione dei dati sin dal suo primo rilascio nel 2011. È stato creato (ed è gestito) da Mike Bostock - famoso guru di visualizzazione dei dati e Graphics Editor per il New York Times. È possibile utilizzare questa libreria per creare documenti Data-Driven (D3) di alta qualità in ...
Scraping, raccolta e gestione di strumenti di data science - dummies
Se sono necessari dati per supportare un'azienda analisi o un pezzo di giornalismo imminente, il web-scraping può aiutarti a rintracciare fonti di dati interessanti e uniche. Nel web-scraping si impostano programmi automatici e poi si lasciano filtrare sul Web i dati necessari. Qui ci sono strumenti gratuiti szome che puoi usare per racimolare ...
Grafici stem-and-leaf: tecnica grafica per dati statistici - manichini
Una radice -e-leaf plot è un dispositivo grafico in cui la distribuzione di un set di dati è organizzata dal valore numerico delle osservazioni nel set di dati. Il diagramma è costituito da una "radice", che mostra le diverse categorie nei dati e una "foglia", che mostra i valori delle singole osservazioni nel set di dati. Ad esempio, ...
Previsione e monitoraggio della criminalità spaziale - dummies
È Possibile utilizzare le tecnologie GIS, la modellazione dei dati e le statistiche spaziali avanzate per creare informazioni prodotti per la previsione e il monitoraggio dell'attività criminale. I dati spaziali sono dati tabulari contrassegnati con informazioni di coordinate spaziali per ciascun record nel set di dati. Molte volte, i set di dati spaziali dispongono anche di un campo che indica un attributo data / ora per ogni ...
Risoluzione di problemi del mondo reale con algoritmi del vicinato più vicini - dummies
Algoritmi di cluster gerarchici e metodi vicini più vicini , in particolare, sono ampiamente utilizzati per comprendere e creare valore dai modelli dei dati commerciali al dettaglio. Nei paragrafi seguenti sono due casi potenti in cui questi semplici algoritmi vengono utilizzati per semplificare la gestione e la sicurezza nelle operazioni quotidiane di vendita al dettaglio. La visualizzazione degli algoritmi del vicino k più vicino in ...
L'impatto dei dati in streaming e CEP sui Big Data - dummy
Sia per i dati di streaming che per gli eventi complessi L'elaborazione ha un impatto enorme sul modo in cui le aziende possono fare un uso strategico dei Big Data. Con i dati di streaming, le aziende sono in grado di elaborare e analizzare questi dati in tempo reale per ottenere una visione immediata. Spesso richiede un processo in due fasi per continuare ad analizzare i risultati chiave che ...
Strumenti di analisi del testo per i Big Data - manichini
Ecco una panoramica di alcuni dei giocatori nell'analisi del testo mercato dei dati. Alcuni sono piccoli mentre altri sono nomi familiari. Alcuni chiamano ciò che fanno analytics di testo di big data, mentre altri si riferiscono ad esso come text analytics. Attensità per i big data L'attendibilità è una delle aziende di analisi del testo originali ...
Il problema di fare affidamento su una sola analisi predittiva - dummies
Come probabilmente si intuisce, l'analisi predittiva è non è un'attività valida per tutti, né i suoi risultati una volta per tutte. Affinché la tecnica funzioni correttamente, è necessario applicarla più e più volte nel tempo, quindi avrai bisogno di un approccio generale che si adatti alla tua attività. Il successo del tuo progetto di analisi predittiva dipende da più ...
The What in Data Journalism - dummies
Il che, nel data journalism, rimanda al senso della storia. In tutte le forme di giornalismo, un giornalista deve assolutamente essere in grado di arrivare dritto al punto. Mantieni chiaro, conciso e facile da capire. Quando realizzi visualizzazioni di dati per accompagnare il tuo pezzo di giornalismo di dati, assicurati che la storia visiva sia facile ...
Limitazioni dei dati in Predictive Analytics - dummies
Come con molti aspetti di qualsiasi sistema aziendale, dati è una creazione umana - quindi è adatto ad avere dei limiti alla sua usabilità quando lo si ottiene per la prima volta. Ecco una panoramica di alcune limitazioni che potresti incontrare: i dati potrebbero essere incompleti. Valori mancanti, anche la mancanza di una sezione o di un sostanziale ...
L'importanza del clustering e della classificazione in Data Science - dummies
Lo scopo degli algoritmi di clustering e classificazione è per dare un senso e ricavare valore da grandi serie di dati strutturati e non strutturati. Se stai lavorando con enormi volumi di dati non strutturati, ha senso cercare di suddividere i dati in una sorta di raggruppamenti logici prima di tentare di analizzarli. Clustering e ...
Analisi delle serie temporali in analisi statistica dei Big Data - manichini
Una serie storica è un insieme di osservazioni di una singola variabile raccolta nel tempo. Con l'analisi delle serie temporali, è possibile utilizzare le proprietà statistiche di una serie temporale per prevedere i valori futuri di una variabile. Esistono molti tipi di modelli che possono essere sviluppati per spiegare e prevedere il comportamento di un ...
Il paradigma di programmazione MapReduce - dummies
MapReduce è un paradigma di programmazione progettato per consentire l'elaborazione distribuita parallela di grandi serie di dati convertendoli in gruppi di tuple e combinando e riducendo quelle tuple in gruppi più piccoli di tuple. In parole povere, MapReduce è stato progettato per acquisire grandi quantità di dati e utilizzare il calcolo distribuito parallelo per trasformare i big data ...
I tipi di visualizzazioni dei dati - dummies
Una visualizzazione dei dati è una rappresentazione visiva progettata allo scopo di trasmettere il significato e significato di dati e dati approfonditi. Poiché le visualizzazioni dei dati sono progettate per un intero spettro di diversi segmenti di pubblico, scopi diversi e diversi livelli di abilità, il primo passo per progettare una visualizzazione di dati straordinaria è conoscere il tuo pubblico. ...
The Where in Data Journalism - dummies
I dati e le storie sono sempre più rilevanti per alcuni luoghi rispetto ad altri. Da dove deriva una storia e dove sta andando? Se tieni a mente questi fatti importanti, le pubblicazioni che sviluppi sono più pertinenti per il pubblico a cui sono destinate. L'aspetto in cui il data journalism è un po 'ambiguo perché può ...
Suggerimenti per la creazione di modelli implementabili per Predictive Analytics - dummies
Al fine di garantire una distribuzione efficace del predittivo modello che stai costruendo, dovrai pensare alla distribuzione molto presto. Gli stakeholder aziendali dovrebbero avere voce in capitolo su come sarà il modello finale. Pertanto, all'inizio del progetto, assicurati che il tuo team discuti la precisione richiesta del modello previsto ...
Il ruolo dell'ETL tradizionale nei Big Data - manichini
Gli strumenti eTL combinano tre funzioni importanti (estrarre, trasformare , carico) necessario per ottenere dati da un ambiente di big data e metterlo in un altro ambiente di dati. Tradizionalmente, ETL è stato utilizzato con l'elaborazione batch in ambienti di data warehouse. I data warehouse forniscono agli utenti aziendali un modo per consolidare le informazioni da analizzare e generare report sui dati rilevanti ...