The When in Data Journalism - dummies
Come dice il vecchio adagio, il tempismo è tutto. È un'abilità preziosa sapere come rinnovare i vecchi dati in modo che siano interessanti per un pubblico moderno. Allo stesso modo, nel data journalism, è fondamentale tenere d'occhio la rilevanza contestuale e sapere quando è il momento ottimale per creare e pubblicare una storia particolare. Quando ...
Analitica tradizionale e avanzata per i Big Data - manichini
Cosa fanno ora la tua azienda con tutti i dati di tutti le sue forme? I Big Data richiedono diversi approcci all'analisi, tradizionali o avanzati, a seconda del problema da risolvere. Alcune analisi utilizzeranno un data warehouse tradizionale, mentre altre analisi trarranno vantaggio dall'analisi predittiva avanzata. Gestire i big data in modo olistico richiede molti ...
Training, convalida e testing in Machine Learning - dummies
In un mondo perfetto, è possibile eseguire un test sui dati che il tuo algoritmo di apprendimento automatico non ha mai imparato prima. Tuttavia, l'attesa di nuovi dati non è sempre fattibile in termini di tempi e costi. Come primo rimedio semplice, puoi dividere casualmente i tuoi dati in training e set di test. La divisione comune è ...
La più importante abilità di data mining - dummies
Le scoperte di un minatore di dati hanno valore solo se un decisore è disposto a agire su di loro. Come minatore di dati, il tuo impatto sarà tanto grande quanto la tua capacità di persuadere qualcuno - un cliente, un dirigente, un burocrate governativo - della verità e della rilevanza delle informazioni che devi condividere. ...
Quali sono le proprietà chiave di un set di dati? - dummies
Prima di eseguire qualsiasi tipo di analisi statistica, è essenziale comprendere la natura dei dati analizzati. È possibile utilizzare EDA per identificare le proprietà di un set di dati per determinare i metodi statistici più appropriati da applicare ai dati. È possibile esaminare diversi tipi di proprietà con le tecniche EDA, tra cui:
Visualizzando con Knime e RapidMiner per Machine Learning - dummies
Gli utenti hanno un tempo terribile visualizzando dati astratti e a volte l'output di apprendimento automatico diventa estremamente astratto. È possibile utilizzare uno strumento di output grafico in modo da poter visualizzare l'effettiva visualizzazione dei dati. Knime e RapidMiner eccellono nel compito aiutandoti a produrre facilmente grafica di alta qualità. Il loro uso per vari tipi di dati ...
Utilizzando l'Ecosistema Python per Data Science - dummies
È Necessario caricare le librerie per eseguire attività di data science in Python. Ecco una panoramica delle librerie che puoi usare per la scienza dei dati. Queste librerie possono eseguire più funzioni per lo scienziato dei dati. Accesso agli strumenti scientifici con SciPy Lo stack SciPy contiene una serie di altre librerie che è possibile anche scaricare ...
Utilizzando Statistiche spaziali per prevedere variazioni ambientali attraverso lo spazio - manichini
Per loro stessa natura, ambientali le variabili dipendono dalla posizione: cambiano con le modifiche nella posizione geospaziale. Lo scopo di modellare le variabili ambientali con le statistiche spaziali è di consentire previsioni spaziali accurate in modo da poter utilizzare tali previsioni per risolvere problemi relativi all'ambiente. Le statistiche spaziali si distinguono dalla modellizzazione delle risorse naturali perché si concentra su ...
Utilizzando tecniche di visualizzazione per la comunicazione di dati scientifici Approfondimenti - dummies
Tutte le informazioni e le intuizioni del mondo sono inutile se non può essere comunicato. Se gli scienziati non sono in grado di comunicare chiaramente le loro scoperte ad altri, dati potenzialmente preziosi possono rimanere non sfruttati. Seguire best practice chiare e specifiche nella progettazione della visualizzazione dei dati può aiutarti a sviluppare visualizzazioni che comunicano in un modo che è altamente ...
Qual è il centro dei dati? - dummies
Identifica il centro di un set di dati con diverse misure di riepilogo. Questi includono i tre grandi: media, mediana e modalità. Calcola la media di un set di dati sommando i valori di tutti gli elementi e dividendo per il numero totale di elementi. Ad esempio, si supponga che un set di dati di piccole dimensioni sia costituito dal numero ...
Strumenti di visualizzazione basati sul web - dummies
Questi due strumenti di visualizzazione dei dati meritano il vostro tempo per verificarlo. Questi strumenti sono un po 'più sofisticati di molti altri disponibili, ma con quella sofisticazione derivano output più personalizzabili e adattabili. Diventare un po 'la manica La Web-Based Analysis and Visualization Environment, o Weave, nasce da un'idea del Dr. Georges ...
Cos'è Hadoop? - dummies
Hadoop è uno strumento di elaborazione dei dati open source sviluppato da Apache Software Foundation. Hadoop è attualmente il programma go-to per gestire enormi volumi e varietà di dati perché è stato progettato per rendere il computing su larga scala più accessibile e flessibile. Con l'arrivo di Hadoop, l'elaborazione dei dati di massa è stata introdotta a molto più ...
Che cos'è la scienza dei dati incentrati sul business? - dummies
All'interno dell'azienda, la scienza dei dati ha lo stesso scopo della business intelligence: convertire dati grezzi in informazioni di business che i dirigenti e i manager aziendali possono utilizzare per prendere decisioni informate sui dati. Se disponi di un ampio set di origini dati strutturate e non strutturate che possono o non possono essere complete e desideri ...
Dati Fonti dai governi di tutto il mondo - manichini
Gli Stati Uniti sono solo uno dei tanti governi che condividono dati con il pubblico. Mentre non troverai esattamente la stessa gamma o tipi di dati da ogni paese, scoprirai che molte nazioni hanno alcuni dati da condividere. Ci sono anche alcune organizzazioni intergovernative e senza scopo di lucro che offrono risorse di dati internazionali. OFFSTATS. ...
Perché la visualizzazione è importante per Predictive Analytics - dummies
Durante la lettura di righe di fogli di calcolo, scansione di pagine e pagine di report e attraverso pile di risultati analitici generati da modelli predittivi può essere faticoso, dispendioso in termini di tempo e, diciamocelo, noioso. Guardare alcuni grafici che rappresentano gli stessi dati è più veloce e più facile, mentre impartisce lo stesso significato. I grafici possono portare più ...
Visualizzazione dei risultati analitici del modello predittivo - dummies
Spesso, è necessario essere in grado di mostrare i risultati della propria previsione analisi per coloro che contano. Ecco alcuni modi per utilizzare le tecniche di visualizzazione per riportare i risultati dei tuoi modelli agli stakeholder. Visualizzazione dei raggruppamenti nascosti nei dati Il clustering dei dati è il processo di individuazione di gruppi nascosti di elementi correlati all'interno di ...
Definizione Big Data: Volume, Velocity e Variety - dummies
Big data consente alle organizzazioni di archiviare gestire e manipolare grandi quantità di dati disparati alla giusta velocità e al momento giusto. Per ottenere le informazioni giuste, i big data sono generalmente suddivisi in base a tre caratteristiche: Volume: Quanti dati Velocity: velocità di elaborazione dei dati Variety: I vari tipi di dati While it ...
Lavorare con Graph Data in Python per Data Science - dummies
Molti scienziati di dati devono lavorare con i dati del grafico ad un certo punto. Python ti dà quella funzionalità. Immaginate i punti dati che sono collegati ad altri punti dati, come il modo in cui una pagina web è collegata a un'altra pagina web tramite collegamenti ipertestuali. Ciascuno di questi punti dati è un nodo. I nodi si connettono tra loro usando ...
Differenziando algoritmi da altre strutture matematiche - manichini
Se sei come la maggior parte delle persone, spesso ti ritrovi a grattare il tuo capo quando si tratta di strutture matematiche perché nessuno sembra sapere come usare correttamente i termini. È come se le persone cercassero intenzionalmente di rendere le cose difficili! Dopo tutto, cos'è un'equazione e perché è diversa da un algoritmo? ...
I database di documenti e NoSQL - dummies
Sono talvolta chiamati database aggregati perché tendono a contenere documenti che combinano informazioni in un singola unità logica: un aggregato. Potresti avere un documento che include un episodio TV, una serie, un canale, una marca e informazioni sulla pianificazione e sulla disponibilità, che è l'insieme totale di dati sui risultati che ti aspetti di vedere quando ...
Che trattano la complessità degli algoritmi - manichini
Già si sa che gli algoritmi sono complessi. Tuttavia, è necessario sapere quanto è complesso un algoritmo perché più è complesso, più tempo è necessario per l'esecuzione. La seguente tabella ti aiuta a capire i vari livelli di complessità presentati in ordine di tempo di esecuzione (dal più veloce al più lento). Complessità Descrizione Complessità costante O (1) ...
Dati Fonti del governo federale degli Stati Uniti - manichini
Il governo degli Stati Uniti comprende oltre 100 agenzie statistiche, agenzie con lo scopo principale di raccogliere e analizzare i dati per un uso governativo. Il risultato è una vasta risorsa di dati raccolti, gestiti e analizzati professionalmente, molti dei quali sono a vostra disposizione. Bureau of Economic Analysis. Il Bureau of Economic Analysis (BEA) è una parte ...
Fonti dei governi degli Stati Uniti e degli Stati Uniti - manichini
Reperimento dei dati necessari dai governi statali e locali può essere molto impegnativo Alcuni stati sono più interessati alla condivisione dei dati rispetto ad altri. Non puoi contare su ogni stato o governo locale per avere un portale di dati aperto o per trovare qualcuno nel governo locale per aiutarti a trovare ciò che ti serve o ...
Elementi aggiunti a Bloom Filters - dummies
Generalmente, si creano filtri Bloom per algoritmi di dimensioni fisse (versioni sviluppate di recente ti permettono di ridimensionare il filtro). Li gestisci aggiungendo nuovi elementi al filtro e osservandoli quando sono già presenti. Non è possibile rimuovere un elemento dal filtro dopo averlo aggiunto (il filtro ha un indelebile ...
Diversi approcci all'analisi dei Big Data - manichini
In molti casi, l'analisi dei big data sarà rappresentata all'utente finale attraverso report e visualizzazioni. Poiché i dati grezzi possono essere variati in modo incomprensibile, dovrai fare affidamento su strumenti e tecniche di analisi per contribuire a presentare i dati in modo significativo. Nuove applicazioni sono disponibili e rientreranno in due categorie: ...
Documento NoSQL Database Features - dummies
Documento I database NoSQL sono flessibili e indipendenti dallo schema, il che significa che è possibile caricare qualsiasi tipo di documento senza il database che ha bisogno di conoscere la struttura del documento in anticipo. I database NoSQL del documento supportano queste importanti funzionalità. Area di funzionalità Couchbase Microsoft DocumentDB MarkLogic Server MongoDB ACID o BASE BASE BASE, selezione di coerenza del driver client ACID, completamente serializzabile ...
Una breve storia di data warehouse - manichini
Molte persone, quando ascoltano per la prima volta i principi di base del data warehousing - in particolare copiando i dati da un luogo a un altro - pensa (o anche dici), "Questo non ha alcun senso! Perché perdere tempo a copiare e spostare i dati e archiviarli in un altro database? Perché non prenderlo direttamente dalla sua posizione originale ...
Servizi EII aggiuntivi per Data Warehousing - dummies
L'ambiente di data warehousing virtuale include servizi che un singolo database gestirà in un ambiente centralizzato. Questi veri servizi middleware completano il tradizionale middleware di data warehousing, come l'estrazione e la trasformazione: un servizio di metadati unificato: gli utenti vedono una singola vista logica dei contenuti dell'ambiente senza dover conoscere la posizione e i dettagli di ...
Basi dei Big Data Infrastructure - dummies
I big data riguardano l'alta velocità, i grandi volumi e l'ampia varietà di dati, quindi l'infrastruttura fisica letteralmente "farà o spezzerà" l'implementazione. La maggior parte delle implementazioni di big data devono essere altamente disponibili, quindi le reti, i server e lo storage fisico devono essere resilienti e ridondanti. La resilienza e la ridondanza sono correlate. Un'infrastruttura, o un sistema, ...
Approccio Fornitori di prodotti di Data Warehousing - manichini
Le stesse linee guida di base degli smart-shoper utilizzate nelle fiere si applicano quando trattare con i fornitori di prodotti di data warehousing: fai i tuoi compiti. Fai un sacco di domande. Sii scettico. Prenditi il tuo tempo prima di impegnarti ad acquistare prodotti. La natura uno a uno della relazione fornitore-cliente è in qualche modo diversa dall'interazione dei contatti che avviene a ...
Sii scettico con gli acquisti di Data Warehousing - manichini
Devi avere discussioni concrete e aperte con i tuoi fornitori di prodotti di data warehousing (non chiacchierando in uno stand affollato in una fiera commerciale). Se hai sentito alcune cose su un prodotto che ti riguarda (la scalabilità del prodotto supera un certo numero di utenti, ad esempio), chiedi! Prova della domanda (siti di riferimento, discussioni con un responsabile dello sviluppo, ...
Big Data e le origini di MapReduce - dummies
MapReduce sta diventando sempre più utile per i big data. Nei primi anni 2000, alcuni ingegneri di Google hanno esaminato il futuro e determinato che mentre le loro attuali soluzioni per applicazioni quali la scansione del Web, la frequenza delle query e così via erano adeguate per la maggior parte dei requisiti esistenti, erano inadeguate per la complessità che prevedevano come web ...
Applicazioni di dati di grandi dimensioni - dummies
Applicazioni personalizzate e di terze parti offrono un metodo alternativo di condivisione ed esame di fonti di dati di grandi dimensioni. Sebbene tutti gli strati dell'architettura di riferimento siano importanti di per sé, questo strato è dove la maggior parte dell'innovazione e della creatività è evidente. Queste applicazioni sono orizzontali, in quanto risolvono problemi comuni tra ...
Principali nozioni di base sulla virtualizzazione dei dati - dummies
È Ideale per i big data perché separa risorse e servizi dall'ambiente di consegna fisico sottostante , consentendo di creare molti sistemi virtuali all'interno di un singolo sistema fisico. Uno dei motivi principali per cui le aziende hanno implementato la virtualizzazione è il miglioramento delle prestazioni e dell'efficienza dell'elaborazione di un mix diversificato di carichi di lavoro. ...
Analisi dei dati di grandi dimensioni e Data Warehouse - dummies
Troverete valore nel portare le funzionalità del data warehouse e il grande ambiente di dati insieme. È necessario creare un ambiente ibrido in cui i big data possano funzionare a mano con il data warehouse. Innanzitutto è importante riconoscere che il data warehouse così come è progettato oggi non cambierà ...
Big Data e persistenza Polyglot - dummy
Il termine poliglotta viene preso in prestito e ridefinito per i big data come un insieme di applicazioni che utilizzare diverse tecnologie di base del database e questo è il risultato più probabile della pianificazione dell'implementazione. La definizione ufficiale di poliglotta è & ldquo; qualcuno che parla o scrive diverse lingue. & Rdquo; Sarà difficile scegliere una persistenza ...
Modelli di distribuzione di Data Cloud grandi - dummies
Due importanti modelli di cloud sono importanti nella discussione dei big data: cloud pubblici e nuvole private. Il cloud computing è un metodo per fornire una serie di risorse di elaborazione condivise che includono applicazioni, calcolo, storage, networking, sviluppo e piattaforme di implementazione, nonché processi aziendali. Il cloud computing trasforma le tradizionali risorse di calcolo silenziate in condivise ...
Business Analysis (OLAP) - dummies
Analisi aziendale è il termine usato per descrivere la visualizzazione dei dati in modo multidimensionale. I dati delle query e dei report vengono in genere presentati riga per riga di dati bidimensionali. La prima dimensione è l'intestazione per le colonne di dati; la seconda dimensione è i dati effettivi elencati sotto le intestazioni di colonna. L'analisi aziendale consente all'utente ...
Verifica prodotti e aziende di data warehouse - dummy
Qualsiasi categoria di prodotto di data warehousing (come strumenti OLAP, strumenti di data mining, strumenti di base per la creazione di report e query, motori di database, prodotti di estrazione, strumenti di data quality e strumenti di amministrazione e gestione del data warehouse hanno molti prodotti diversi. Ogni fornitore che produce uno o più di questi prodotti di data warehousing desidera coinvolgerti in ...
I grandi fornitori di cloud di dati - dummies
Sono disponibili in tutte le forme e dimensioni e offrono molti prodotti diversi per i big data. Alcuni sono nomi familiari mentre altri stanno emergendo di recente. Alcuni dei fornitori di servizi cloud che offrono servizi IaaS che possono essere utilizzati per i big data includono Amazon. com, AT & T, GoGrid, Joyent, Rackspace, IBM e Verizon / Terremark. Amazon's Public Elastic Compute Cloud ...