Fattori che aumentano la scala dell'analisi statistica in Hadoop - dummies
La ragione per cui le persone campionano i loro dati prima di eseguire analisi statistiche in Hadoop è che questo tipo di analisi richiede spesso notevoli risorse di calcolo. Non si tratta solo di volumi di dati: ci sono cinque fattori principali che influenzano la scala dell'analisi statistica: questo è facile, ma dobbiamo menzionarlo: il volume di dati su ...
Comprimere i dati in Hadoop - dummies
Gli enormi volumi di dati che sono realtà in una tipica implementazione Hadoop rendono la compressione una necessità. La compressione dei dati ti consente di risparmiare molto spazio di archiviazione ed è sicuro di accelerare il movimento di tali dati in tutto il cluster. Non sorprende che un certo numero di schemi di compressione disponibili, chiamati codec, siano disponibili per ...
Hadapt e Hadoop - dummies
Verso la fine del 2010, Hadapt è stato creato come start-up da due studenti della Yale University e un assistente professore di informatica. Il professor Daniel Abadi e Kamil Bajda-Pawlikowski, uno studente di dottorato del dipartimento di informatica di Yale, hanno lavorato al progetto di ricerca HadoopDB. Dopo la pubblicazione di questo articolo, Justin Borgman, uno studente da ...
Google Dremel e Hadoop - dummies
Per la maggior parte delle persone, il termine Dremel riporta alla mente un pratico high-speed, low- strumento di coppia che funziona bene per una varietà di lavori in casa. Ma lo sapevi che Google ha creato un Dremel? Anziché produrre un altro strumento meccanico portatile, Google ha scelto uno strumento software rapido per l'analisi interattiva dei big data. ...
Hadoop e Hive - dummies
Per farla breve, Hive fornisce a Hadoop un ponte per il mondo RDBMS e fornisce un Dialetto SQL noto come Hive Query Language (HiveQL), che può essere utilizzato per eseguire attività simili a SQL. Questa è la grande novità, ma c'è molto di più in Hive di quanto sembri, come si dice, o più applicazioni di ...
Nodi di bordo in Hadoop Clusters - dummies
I nodi di bordo sono l'interfaccia tra il cluster Hadoop e la rete esterna. Per questo motivo, a volte vengono definiti nodi gateway. Più comunemente, i nodi periferici vengono utilizzati per eseguire applicazioni client e strumenti di amministrazione del cluster. Sono spesso utilizzati anche come aree di sosta per i dati trasferiti nel cluster Hadoop. In quanto tale, Oozie, ...
Frode Rilevamento con Hadoop - dummies
L'enorme volume di transazioni rende più difficile individuare le frodi a causa del volume di dati, Per ironia della sorte, questa stessa sfida può aiutare a creare modelli predittivi di frodi migliori, un'area in cui Hadoop brilla. Nel mondo interconnesso di oggi, il volume e la complessità delle transazioni rendono più difficile che mai trovare una frode. Cosa usato ...
Graph Processing In Hadoop - dummies
Una delle tecnologie NoSQL emergenti più interessanti riguarda la memorizzazione e l'elaborazione dei dati del grafico. Potresti pensare che questa affermazione sia una vecchia notizia perché gli scienziati informatici hanno sviluppato tecniche di analisi del grafico per decenni. Quello che dici potrebbe essere vero, ma la novità è che usando Hadoop puoi fare il grafico ...
Hadoop Distributed File System (HDFS) Federation - dummies
La soluzione per espandere indefinitamente i cluster Hadoop è federare il NameNode. Prima che Hadoop 2 entrasse in scena, i cluster Hadoop dovevano convivere con il fatto che NameNode ponesse dei limiti al grado di scalabilità. Pochi cluster erano in grado di scalare oltre 3, 000 o 4, 000 nodi. La necessità di NameNode di mantenere i record per ...
Hadoop Disponibilità elevata file system distribuito (HDFS) - manichini
Spesso nell'infanzia di Hadoop, una grande quantità di discussione era centrata sulla rappresentazione del NameNode di un singolo punto di errore. Hadoop, nel complesso, ha sempre avuto un'architettura robusta e tollerante ai guasti, con l'eccezione di questa area chiave. Senza il NameNode, non esiste un cluster Hadoop. Usando Hadoop 2, puoi configurare HDFS in modo che ci sia ...
Hadoop come motore di pre-elaborazione dei dati - dummies
Uno dei primi casi d'uso per Hadoop nell'azienda era come motore di trasformazione programmatico utilizzato per preelaborare i dati rilegati per un data warehouse. In sostanza, questo caso d'uso sfrutta la potenza dell'ecosistema Hadoop per manipolare e applicare le trasformazioni ai dati prima che vengano caricati in un data warehouse. Anche se la trasformazione effettiva ...
Hadoop come archivio interrogabile di dati di magazzino freddi - manichini
Una moltitudine di studi mostra che la maggior parte dei dati in un data warehouse aziendale viene raramente interrogato. I fornitori di database hanno risposto a tali osservazioni implementando i propri metodi per l'individuazione dei dati che vengono posti dove. Un metodo ordina l'universo dei dati in designazioni di caldo, caldo o freddo, dove i dati caldi (talvolta chiamati attivi ...
Hadoop come destinazione dei dati di archiviazione - dummies
Il costo di archiviazione economico per Hadoop e la possibilità di eseguire query sui dati di Hadoop con SQL rende Hadoop la destinazione principale per i dati di archiviazione. Questo caso d'uso ha un impatto ridotto sulla tua organizzazione perché puoi iniziare a costruire il tuo set di competenze Hadoop su dati che non sono memorizzati su sistemi mission-critical. Inoltre, non ...
Hadoop Administration Commands - dummies
Qualsiasi amministratore Hadoop degno di questo nome deve padroneggiare un set completo di comandi per l'amministrazione cluster. Il seguente elenco riepiloga i comandi più importanti, indicando cosa fa il comando e anche sintassi ed esempi. Conoscili e avanzerai lungo il cammino verso la saggezza di Hadoop. bilanciatore: esegue l'utilità di bilanciamento del cluster. ...
Hadoop Distributed File System (HDFS) per progetti Big Data - dummies
Il file distribuito Hadoop System è un approccio versatile, resiliente e in cluster alla gestione dei file in un ambiente di big data. HDFS non è la destinazione finale per i file. Piuttosto, si tratta di un servizio dati che offre un set unico di funzionalità necessarie quando i volumi e la velocità dei dati sono elevati. Perché i dati vengono scritti una volta e ...
Ha restituito MapReduce for Big Data - dummies
Per comprendere appieno le funzionalità di Hadoop MapReduce, è importante distinguere tra MapReduce ( l'algoritmo) e un'implementazione di MapReduce. Hadoop MapReduce è un'implementazione dell'algoritmo sviluppato e gestito dal progetto Apache Hadoop. È utile pensare a questa implementazione come un motore MapReduce, perché è esattamente come ...
Considerazioni sui rack haemoop - dummies
Un principio di base di Hadoop si sta estendendo con nodi slave aggiuntivi per soddisfare l'aumento di memorizzazione dei dati e - richieste di elaborazione. In un modello di scalabilità orizzontale, è necessario considerare attentamente la progettazione di un cluster, poiché dozzine e persino centinaia di nodi slave avranno infine bisogno di essere rackizzati, alimentati, collegati in rete e raffreddati. Fattori di forma del server Una delle prime scelte ...
Hadoop Integrazione con R - dummies
All'inizio, i big data e R non erano amici naturali. La programmazione R richiede che tutti gli oggetti vengano caricati nella memoria principale di una singola macchina. I limiti di questa architettura si realizzano rapidamente quando i big data diventano parte dell'equazione. Al contrario, i file system distribuiti come Hadoop mancano di forza ...
Come ottenere Apache Oozie Set Up in Hadoop - dummies
Apache Oozie è incluso in tutti i principali Hadoop distribuzione, incluso Apache Bigtop. Nel tuo cluster Hadoop, installa il server Oozie su un nodo edge, dove eseguirai anche altre applicazioni client rispetto ai dati del cluster, come mostrato. I nodi periferici sono progettati per essere un gateway per la rete esterna al cluster Hadoop. Questo ...
Importazione di dati con Sqoop - dummies
Pronti per l'importazione di dati con Sqoop? Inizia dando un'occhiata alla figura, che illustra i passaggi in una tipica operazione di importazione Sqoop da un RDBMS o un sistema di data warehouse. Niente di troppo complicato qui - solo una tipica tabella di dati dei prodotti di un'impresa (tipica) fittizia che viene importata in un tipico ...
Image La classificazione con Hadoop - dummies
Per la classificazione delle immagini richiede una quantità significativa di risorse per l'elaborazione dei dati, che tuttavia ha limitato la scala di schieramenti. La classificazione delle immagini è un tema caldo nel mondo Hadoop perché nessuna tecnologia mainstream è stata capace - fino a quando Hadoop è arrivata - di aprire le porte a questo tipo di elaborazione costosa su una così imponente ed efficiente ...
Modalità locali e distribuite di script in esecuzione su Hadoop - dummies
Prima di poter eseguire il tuo primo Script di maiale in Hadoop, è necessario avere una guida su come i programmi Pig possono essere confezionati con il server Pig. Pig ha due modalità per eseguire gli script: Modalità locale: tutti gli script vengono eseguiti su una singola macchina senza richiedere Hadoop MapReduce e HDFS. Questo può essere utile per ...
Input Splits in MapReduce di Hadoop - dummies
Il modo in cui HDFS è stato impostato, suddivide i file molto grandi in grandi blocchi (ad esempio, misurando 128 MB) e memorizza tre copie di questi blocchi su diversi nodi nel cluster. HDFS non ha consapevolezza del contenuto di questi file. In YARN, quando viene avviato un lavoro MapReduce, il Gestore risorse (il ...
Unendo tabelle con Hive - dummies
Probabilmente già sapete che gli esperti di modellazione e progettazione di database relazionali di solito passano molto del loro tempo progettando database normalizzati, o schemi. La normalizzazione del database è una tecnica che protegge dalla perdita di dati, dalla ridondanza e da altre anomalie man mano che i dati vengono aggiornati e recuperati. Gli esperti seguono una serie di regole per arrivare a ...
Gestione dei Big Data con Hadoop: HDFS e MapReduce - dummies
Hadoop, un framework software open-source utilizza HDFS (Hadoop Distributed File System) e MapReduce per analizzare i big data su cluster di hardware commodity, ovvero in un ambiente di calcolo distribuito. Il file system distribuito Hadoop (HDFS) è stato sviluppato per consentire alle aziende di gestire più facilmente enormi volumi di dati in modo semplice e pragmatico. Hadoop ...
Chiave Coppie di valori nel modello di dati HBase - dummies
Il modello logico di dati HBase è semplice ma elegante, e fornisce un meccanismo naturale di memorizzazione dei dati per tutti i tipi di dati, in particolare i big data set non strutturati. Tutte le parti del modello di dati convergono in una coppia chiave-valore. Prima di tutto, in un mondo in cui puoi pensare al tasto della riga come ...
Networking e Hadoop Clusters - dummies
Come con qualsiasi sistema distribuito, la rete può creare o distruggere un cluster Hadoop: non "Andare a buon mercato. "Una grande quantità di chatter avviene tra i nodi master e i nodi slave in un cluster Hadoop, essenziale per mantenere il cluster in esecuzione, quindi gli switch di classe enterprise sono decisamente raccomandati. Per ogni rack nel tuo cluster, tu ...
Log Analisi dei dati con Hadoop - dummies
Log analysis è un caso comune per un progetto Hadoop inaugurale. In effetti, i primi usi di Hadoop riguardavano l'analisi su larga scala dei log clickstream: i registri che registrano i dati sulle pagine Web visitate dalle persone e in quale ordine vengono visitati. Tutti i registri di dati generati dalla tua infrastruttura IT ...
Registra i dati con Flume in HDFS - dummies
Alcuni dei dati che finisce nel file system distribuito Hadoop ( HDFS) potrebbe atterrare lì tramite operazioni di caricamento del database o altri tipi di processi batch, ma cosa succede se si desidera acquisire i dati che fluiscono in flussi di dati ad alta velocità, come i dati del registro delle applicazioni? Apache Flume è l'attuale metodo standard per ...
Tiene traccia dei blocchi dati con NameNode in HDFS - dummies
Il NameNode funge da rubrica per Hadoop Distributed File System (HDFS) perché non sa solo quali blocchi compongono i singoli file ma anche dove sono memorizzati ciascuno di questi blocchi e le loro repliche. Quando un utente memorizza un file in HDFS, il file è diviso in blocchi di dati e tre copie di ...
Maiale latino nei programmi Pig Hadoop - manichini
Maiale latino è la lingua per i programmi Pig. Pig traduce lo script Pig Latin in lavori MapReduce che può essere eseguito all'interno del cluster Hadoop. Quando è arrivato con Pig Latin, il team di sviluppo ha seguito tre principi chiave di progettazione: mantieni la semplicità. Pig Latin fornisce un metodo semplificato per interagire con Java MapReduce. È un ...
NoSQL Data Stores contro Hadoop - dummies
Negozi di dati noSQL originariamente iscritti alla nozione "Just Say No to SQL" ( parafrasando da una campagna pubblicitaria anti-droga negli anni '80), ed erano una reazione ai limiti percepiti dei database relazionali (basati su SQL). Non è che queste persone odiassero SQL, ma erano stanchi di forzare i pioli quadrati nei fori rotondi di ...
Replica di blocchi di dati nel file system distribuito Hadoop - dummies
Hadoop Il file system distribuito (HDFS) è progettato per archiviare dati su hardware economico e inaffidabile. Poco costoso ha un suono attraente, ma solleva preoccupazioni circa l'affidabilità del sistema nel suo complesso, soprattutto per garantire l'elevata disponibilità dei dati. Pianificazione per il disastro, il cervello dietro HDFS realizzato ...
Gestione dei file con i comandi del file system Hadoop - dummies
HDFS è uno dei due componenti principali del Quadro Hadoop; l'altro è il paradigma computazionale noto come MapReduce. Un file system distribuito è un file system che gestisce lo storage attraverso un cluster di macchine in rete. HDFS memorizza i dati in blocchi, unità la cui dimensione predefinita è 64 MB. File che vuoi archiviare in ...
R su Hadoop e R Language - dummies
La disciplina di apprendimento automatico ha un ricco ed ampio catalogo di tecniche . Mahout offre una gamma di strumenti statistici e algoritmi alla tabella, ma cattura solo una frazione di quelle tecniche e algoritmi, poiché il compito di convertire questi modelli in un framework MapReduce è impegnativo. Nel tempo, Mahout è sicuro ...
Tasti di riga nel modello di dati HBase - dummies
HI magazzini di dati di base consistono di una o più tabelle, che sono indicizzato da chiavi di riga. I dati vengono archiviati in righe con colonne e le righe possono avere più versioni. Per impostazione predefinita, il controllo delle versioni dei dati per le righe è implementato con timestamp. Visualizzazione logica delle informazioni di contatto del cliente nella famiglia di colonne chiave della riga HBase: {Qualificatore colonna: versione: valore} 00001 CustomerName: ...
Regioni in HBase - dummies
RegionServer sono una cosa, ma devi anche dare un'occhiata a come funzionano le singole regioni. In HBase, una tabella è distribuita sia su un numero di RegionServer che su singole regioni. Quando le tabelle vengono divise, le divisioni diventano regioni. Le regioni memorizzano un intervallo di coppie chiave-valore, e ogni ...
Machine Learning con Mahout in Hadoop - dummies
Machine learning fa riferimento a una branca di tecniche di intelligenza artificiale che fornisce strumenti che consentono computer per migliorare le loro analisi in base agli eventi precedenti. Questi sistemi informatici sfruttano i dati storici di precedenti tentativi di risoluzione di un compito al fine di migliorare le prestazioni di futuri tentativi in attività simili. In termini di risultati attesi, l'apprendimento automatico ...
In esecuzione Applicazioni prima di Hadoop 2 - dummies
Perché ancora molte distribuzioni Hadoop esistenti non utilizzano ancora un altro negoziatore di risorse ( YARN), date una rapida occhiata a come Hadoop gestiva la sua elaborazione dei dati prima dei giorni di Hadoop 2. Concentratevi sul ruolo svolto dai demoni master JobTracker e dai daemon slave TaskTracker nella gestione dell'elaborazione MapReduce. L'intero punto di utilizzo dei sistemi distribuiti ...
Rischi La modellazione del rischio con Hadoop - dummies
È Un altro caso di utilizzo importante che è potenziato da Hadoop. Scoprirete che è strettamente correlato al caso d'uso del rilevamento delle frodi in quanto si tratta di una disciplina basata su modelli. Più dati hai e più puoi "connettere i punti", più spesso i tuoi risultati produrranno migliori modelli di previsione del rischio. La parola onnicomprensiva ...