Suggerimenti per Data Warehousing Consultants - dummies
La maggior parte delle informazioni su questo sito Web relative al data warehousing è orientata principalmente verso la comunità degli utenti e in che modo le persone in esso potrebbero trovare e trattenere consulenti per i loro progetti di data warehousing. Se sei un consulente di data warehousing, però, ecco alcuni suggerimenti: Rimani aggiornato su tutti i cambiamenti che si verificano nel ...
Metodi tradizionali di Data Warehousing Analizzando i tipi di dati tradizionali - dummies
Quando si pianifica il data warehousing, ricorda che i dati di oggi il paesaggio comprende ora una vertiginosa serie di nuovi canali di informazione, nuove fonti di dati e nuovi imperativi di analisi e segnalazione. Secondo i gruppi di analisti, quasi l'80-85% dei dati di oggi non è strutturato e nuovi canali di informazione come Web, e-mail, voice over IP, istantaneo ...
Avvisi per gli utenti di Big Data Cloud utenti - dummies
! I servizi basati su cloud possono fornire una soluzione economica alle esigenze dei Big Data, ma il cloud ha i suoi problemi. È importante fare i compiti prima di spostare lì i tuoi big data. Ecco alcuni aspetti da considerare: Integrità dei dati: devi assicurarti che il tuo provider abbia i controlli giusti per garantire ...
Visualizza Dati esterni da una prospettiva utente - dummies
Ecco una descrizione di come un utente del data warehouse vede esterno dati e la sua importanza. Considera questi due tavoli. Questa tabella mostra le prestazioni di vendita di Good Guys, Inc. e la seguente tabella mostra le prestazioni di vendita della concorrente Bad Guys, Inc. Good Guys, Inc. Area delle prestazioni di vendita 2007 Risultati Q1 2008 Q1 ...
Quale funzionalità fornisce uno strumento di query e segnalazione? - dummies
Per aiutarti a comprendere la funzionalità offerta da uno strumento di query e reporting, questo elenco descrive alcune delle attività che possono aiutarti a eseguire: Esegui rapporti regolari. La tua organizzazione potrebbe regolarmente produrre rapporti standard provenienti da un sistema operativo o da dati estratti da uno o più di tali sistemi. Crea elenchi organizzati. ...
Che cos'è il middleware? - dummies
Middleware definito in modo approssimativo, è un insieme di servizi che svolgono varie funzioni in un ambiente di elaborazione distribuito, attraverso un ampio set di sistemi server e client. In sostanza, il middleware è un software per computer che collega componenti software. Ecco alcuni tipi di servizi middleware: Sicurezza: autentica un particolare programma client su alcuni componenti del sistema per verificare, ...
L'idea dietro Database Multidimensionali - dummies
Database multidimensionali (MDDB) lanciano le convenzioni dei loro antenati relazionali e organizzano i dati in un modo che è altamente favorevole all'analisi multidimensionale. Per comprendere i database multidimensionali, quindi, è necessario innanzitutto comprendere le basi delle funzioni analitiche eseguite con i dati memorizzati in esse. L'analisi multidimensionale è costruita attorno a una semplice organizzazione di dati ...
Dati non strutturati in un ambiente Big Data - manichini
Dati non strutturati sono dati che non seguono un formato specificato per grandi dati Se il 20 percento dei dati disponibili per le imprese sono dati strutturati, l'altro 80 percento non è strutturato. I dati non strutturati sono in realtà la maggior parte dei dati che incontrerai. Fino a poco tempo fa, tuttavia, la tecnologia non supportava molto fare molto con ...
Perché i dati esterni sono importanti per il tuo data warehouse? - dummies
Dati esterni - dall'esterno della tua azienda - sono importanti per il tuo data warehouse per un semplice motivo: per assicurarti di prendere le giuste decisioni aziendali, devi vedere il quadro generale, che di solito significa che tu non riesce a trovare tutte le risposte archiviate nelle varie applicazioni e database del computer dell'azienda. Ecco ...
Perché dovresti usare Hadoop per i Big Data? - dummies
Innovatori di motori di ricerca come Yahoo! e Google si sono trovati ad affrontare un problema con i dati della palude. Avevano bisogno di trovare un modo per dare un senso alle enormi quantità di dati che i loro motori stavano raccogliendo. Queste società dovevano capire sia le informazioni che stavano raccogliendo, sia il modo in cui potevano monetizzare quei dati per supportare i loro ...
Enterprise Data Management e Big Data - dummies
Enterprise Data Management (EDM) è un processo importante nei big data per comprendere e controllare l'economia dei dati nella vostra azienda o organizzazione. Sebbene l'EDM non sia richiesto per i big data, la corretta applicazione dell'EDM contribuirà a garantire una migliore integrazione, controllo e usabilità dei big data. EDM è un approccio completo per ...
Che cos'è un sistema di gestione del database relazionale? - dummies
Dimentica tutte le basi matematiche del modello relazionale, i principi di normalizzazione e altri aspetti altamente tecnici degli RDBMS. Se sei interessato, consulta uno qualsiasi dei tanti libri di testo disponibili che discutono i principi e la tecnologia RDBMS in dettaglio. Un RDBMS è un sistema software che gestisce i database relazionali. Quindi, cos'è un database relazionale? ...
Cosa deve sapere la gestione del data warehousing? - dummies
Da qualche parte nella tua gerarchia organizzativa, qualcuno ha il controllo sui fondi preventivati che lui o lei può destinare al tuo progetto di data warehousing o ad un altro progetto altrove nell'organizzazione, per acquistare beni strumentali (più computer, per esempio ), o per pagare per qualche altro scopo. Chi deve essere venduto nel progetto di data warehouse ...
Esperimento in Direct Marketing - dummies
Forse l'applicazione più comune per esperimenti nel data mining, esperimenti controllati legittimamente simili a quelli che gli scienziati usano, è il marketing diretto. Il marketing diretto comporta il contatto con le singole persone. Quando ricevi un messaggio o un'email da un rivenditore, questo è il direct marketing. Cataloghi di vendita per corrispondenza tradizionali, chiamate telefoniche da associazioni di beneficenza e lettere di campagna da ...
Cosa mettere in un data mart - dummies
Se un data mart è una versione in scala ridotta di un data warehouse, questa domanda si presenta: cosa significa "scala minore" in riferimento al contenuto di un data mart? La risposta a questa domanda è in genere che i dati saranno un sottoinsieme dei dati complessivi dell'azienda. Dati con confini geografici Un data mart potrebbe ...
Perché il Cloud è imperativo per i Big Data - dummies
Esistono numerose combinazioni di modelli di implementazione e consegna per grandi dati nel cloud. Ad esempio, è possibile utilizzare un cloud pubblico IaaS o un cloud privato IaaS. Quindi, cosa significa questo per i big data e perché il cloud è adatto per questo? Bene, i big data richiedono cluster distribuiti di potenza di calcolo, ...
Estendere il tuo livello dati con NoSQL - dummies
Un database fa una cosa molto bene: memorizza i dati. Tuttavia, poiché tutte le applicazioni necessitano di software aggiuntivo per essere completato, vale la pena assicurarsi che il database NoSQL selezionato disponga degli strumenti e del software del partner che forniscono le funzionalità estese necessarie. Il fatto di non garantire che le funzionalità estese siano supportate significa che si finirà per installare ...
Come trovare il numero di elementi in un flusso di dati - dummy
Anche se un Bloom il filtro può tracciare oggetti provenienti da un flusso, non può sapere quanti oggetti ci sono. Un vettore di bit riempito da uno può (a seconda del numero di hash e della probabilità di collisione) nascondere il vero numero di oggetti sottoposti a hashing allo stesso indirizzo. Conoscere il numero distinto di ...
Formattazione dei dati - manichini
Gli utenti usano l'esperienza quando interpretano i dati che vedono, ma i computer non possono. Il tuo software di data mining farà del suo meglio per identificare il tipo di dati in ogni colonna, ma i tipi di dati sono spesso ambigui. Quando vedi un elenco di CAP, non provi ad aggiungerli e a sottrarli. Sai che loro ...
Cinque best practice per i Big Data - dummies
I big data sono solo nelle prime fasi, ma non è mai troppo presto per iniziare con le migliori pratiche. Come per ogni importante tecnologia imminente, è importante avere una strategia in atto e sapere dove stai andando. Stabilire una grande road map dei dati In questa fase, hai sperimentato grandi quantità di dati ...
Cinque piani per il successo dei Big Data - dummy
Mentre i big data sono solo nelle prime fasi, si desidera pianificare per il successo. Non è mai troppo presto per iniziare con la pianificazione e le buone pratiche in modo da poter sfruttare ciò che stai imparando e l'esperienza che stai acquisendo. Pianifica i tuoi obiettivi per i big data Molte organizzazioni iniziano il loro viaggio sui big data ...
Quattro fasi della pianificazione aziendale con i Big Data - manichini
Che cosa spera di ottenere il business plan facendo leva grandi dati? Questa non è una domanda facile a cui rispondere. Diverse aziende in diversi settori devono gestire i loro dati in modo diverso. Ma alcuni problemi di business comuni sono al centro del modo in cui i big data vengono considerati un modo per pianificare ...
Grafici Come strutture dati algoritmiche - manichini
I grafici sono una forma di struttura dati comune utilizzata negli algoritmi. Vedete grafici usati in luoghi come le mappe per il GPS e tutti i tipi di altri luoghi in cui l'approccio dall'alto in basso di una struttura ad albero non funzionerà. Un grafico è una sorta di estensione dell'albero. Come per gli alberi, hai nodi che collegano ...
3 Hadoop Cluster Configurations - dummies
Molte delle decisioni che devi prendere in termini di composizione di rack e networking sono dipende dalla scala del tuo cluster Hadoop. Ha tre permutazioni principali.
Acquisizione di Algoritmi in Business - dummies
La razza umana si trova ora in un'incredibile intersezione di volumi di dati senza precedenti, generati da hardware più piccolo e potente, e analizzato da algoritmi che questo stesso processo ha contribuito a sviluppare. Non è semplicemente una questione di volume, che di per sé è una sfida difficile. Come formalizzato dalla società di ricerca Gartner nel 2001 e ...
Gordon Moore trasforma la potenza in Big Data - manichini
Nel 1965, Gordon Moore, cofondatore di Intel e Fairchild Semiconductor (due società giganti che producono componenti elettronici per elettronica e computer), hanno dichiarato in una rivista della rivista elettronica "Cramming More Components Onto Circuits" che il numero di componenti presenti nei circuiti integrati raddoppierà ogni anno per il prossimo decennio. A quel tempo, transistor ...
Apache Drill - dummies
Apache Drill è un progetto candidato nell'incubatore Apache. Apache Drill non è particolarmente malaticcio, però. Le tecnologie candidate di Apache Software Foundation (ASF) iniziano tutte come progetti di incubazione prima di diventare tecnologie ASF ufficiali. Puoi leggere l'Incubatore Apache. Puoi leggere su Drill. Ispirato alla tecnologia Dremel di Google, l'obiettivo di prestazione dichiarato per ...
Apache Bigtop e Hadoop - dummies
Per aiutarti a iniziare con Hadoop, ecco le istruzioni su come scaricare e impostare rapidamente su Hadoop sul tuo computer portatile. Il tuo cluster verrà eseguito in modalità pseudo-distribuita su una macchina virtuale, quindi non avrai bisogno di hardware speciale. Una macchina virtuale (VM) è un computer simulato che puoi eseguire su ...
Cloudera Impala e Hadoop - dummies
Cloudera è uno dei principali fornitori di software e servizi Apache Hadoop nel mercato dei big data. Come Apache Drill, la tecnologia Impala di Cloudera cerca di migliorare i tempi di risposta alle query interattive per gli utenti di Hadoop. Apache Hive ha fornito un meccanismo di query familiare e potente per gli utenti di Hadoop, ma i tempi di risposta alle query sono spesso inaccettabili a causa della dipendenza di Hive ...
Fattori di forma di distribuzione alternativi per Hadoop - dummies
Sebbene Hadoop funzioni meglio quando è installato su un computer fisico, dove l'elaborazione ha accesso diretto allo storage dedicato e al networking, Hadoop ha implementazioni alternative. E sebbene siano meno efficienti dell'hardware dedicato, in certi casi le alternative sono opzioni valide. Server virtualizzati Una tendenza importante nei centri IT negli ultimi dieci anni ...
Colonna I qualificatori nel modello di dati HBase - dummies
Nei qualificatori di colonna del modello di dati HBase sono nomi specifici assegnati a i tuoi dati per accertarti di essere in grado di identificarli accuratamente. A differenza delle famiglie di colonne, i qualificatori di colonne possono essere virtualmente illimitati nel contenuto, nella lunghezza e nel numero. Se si omette il qualificatore di colonna, il sistema HBase ne assegnerà uno. Stampabile ...
ACID rispetto a BASE Data Stores - dummies
Un segno distintivo dei sistemi di database relazionali è noto come conformità ACID. Come avrete intuito, ACID è un acronimo: le singole lettere, pensate per descrivere una caratteristica delle singole transazioni di database, possono essere espanse come descritto in questo elenco: Atomicità: la transazione del database deve essere completamente riuscita o completamente fallita. Successo parziale è ...
Configurazione di Oozie Workflow - dummies
Come motore di flusso di lavoro, Oozie consente di eseguire un set di applicazioni Hadoop in una sequenza specificata nota come un flusso di lavoro. È possibile configurare i flussi di lavoro di Oozie in uno dei tre modi, a seconda delle circostanze particolari. Puoi usare The config-default. file xml: definisce i parametri che non cambiano per il flusso di lavoro. Il lavoro. file di proprietà: Definisce ...
10 Hadoop Risorse Degno di un segnalibro - manichini
Di seguito sono dieci risorse Hadoop formidabili che sono degne di creare un segnalibro nel browser. Queste risorse ti aiutano a creare un piano di apprendimento permanente per Hadoop. Sistema nervoso centrale: Apache. org L'Apache Software Foundation (ASF) è la comunità centrale per i progetti di software open source. Non tutti i progetti possono essere un progetto Apache - ...
Compattazioni in HBase - dummies
Compaction, il processo con cui HBase si ripulisce da solo, arriva in due versioni: maggiore e minore . Le principali compenetrazioni possono essere un grosso problema, ma prima devi capire compattazioni minori. Compazioni minori combinano un numero configurabile di HFiles più piccoli in un HFile più grande. È possibile sintonizzare il numero di HFiles per compattare e ...
Data Transformation in Hadoop - dummies
L'idea dei motori ETL ispirati a Hadoop ha guadagnato molta trazione negli ultimi anni. Dopotutto, Hadoop è una piattaforma flessibile per l'archiviazione e l'elaborazione dei dati in grado di supportare enormi quantità di dati e operazioni su tali dati. Allo stesso tempo, è fault tolerant e offre l'opportunità di capitale e costi software ...
Dati Blocchi nel file system distribuito Hadoop (HDFS) - dummies
Quando si memorizza un file in HDFS, il sistema lo suddivide in un insieme di singoli blocchi e memorizza questi blocchi in vari nodi slave nel cluster Hadoop. Questa è una cosa assolutamente normale da fare, poiché tutti i file system rompono i file in blocchi prima di memorizzarli sul disco. HDFS non ha ...
Data Modernizzazione magazzino con Hadoop - dummies
I data warehouse sono ora sotto stress, cercando di far fronte alle crescenti richieste sul loro finito risorse. Hadoop può fornire sollievo significativo in questa situazione di data warehouse. Il rapido aumento della quantità di dati generati nel mondo ha colpito anche i data warehouse perché i volumi di dati che gestiscono sono in aumento - in parte perché ...
Sviluppo di flussi di lavoro Oozie in Hadoop - dummies
I flussi di lavoro di oozie sono, al loro centro, grafici diretti, in cui è possibile definire azioni (Applicazioni Hadoop) e flusso di dati, ma senza loop: ciò significa che non è possibile definire una struttura in cui eseguire più volte un'operazione specifica finché non viene soddisfatta una condizione (ad esempio, per ciclo). I flussi di lavoro di Oozie sono abbastanza flessibili in quanto ...
Confronto Hadoop Distribuzioni - manichini
Scoprirai che l'ecosistema Hadoop ha molte parti componenti, ognuna delle quali esiste come propria Progetti Apache. Poiché Hadoop è cresciuto considerevolmente e deve affrontare alcune ulteriori importanti modifiche, versioni diverse di questi componenti della comunità open source potrebbero non essere completamente compatibili con altri componenti. Ciò pone notevoli difficoltà per le persone che cercano di ottenere ...