Nodi principali in Hadoop Clusters - dummies
I nodi master in cluster Hadoop distribuiti ospitano i vari servizi di gestione dello storage e dell'elaborazione, descritto in questo elenco, per l'intero cluster Hadoop. La ridondanza è fondamentale per evitare singoli punti di errore, quindi vengono visualizzati due switch e tre nodi principali. NameNode: gestisce lo storage HDFS. Per garantire un'elevata disponibilità, hai sia un attivo ...
L'esecuzione di modelli statistici in MapReduce di Hadoop - dummies
La conversione di modelli statistici da eseguire in parallelo è un compito impegnativo. Nel paradigma tradizionale per la programmazione parallela, l'accesso alla memoria è regolato attraverso l'uso di thread - processi secondari creati dal sistema operativo per distribuire una singola memoria condivisa su più processori. Fattori come le condizioni di gara tra discussioni in competizione - quando due o ...
Pianificazione e coordinamento dei flussi di lavoro di Oozie in Hadoop - dummies
Dopo aver creato una serie di flussi di lavoro, è possibile utilizzare una serie di lavori di coordinatore Oozie per pianificare quando vengono eseguiti. Sono disponibili due opzioni di pianificazione per l'esecuzione: un tempo specifico e la disponibilità di dati in concomitanza con un certo tempo. Programmazione basata sul tempo per i lavori del coordinatore Oozie I lavori del coordinatore Oozie possono essere programmati per ...
Scripting con Pig Latin in Hadoop - dummies
Hadoop è un ecosistema ricco e in rapida evoluzione con un crescente numero di nuovi applicazioni. Piuttosto che cercare di tenere il passo con tutti i requisiti per nuove funzionalità, Pig è progettato per essere estendibile tramite funzioni definite dall'utente, note anche come UDF. Le UDF possono essere scritte in un numero di linguaggi di programmazione, inclusi Java, Python e ...
Nodo slave e guasti del disco in HDFS - manichini
Come morte e tasse, errori del disco (e tempo sufficiente , anche errori di nodo o rack), sono inevitabili in Hadoop Distributed File System (HDFS). Nell'esempio mostrato, anche se un rack dovesse fallire, il cluster potrebbe continuare a funzionare. Le prestazioni ne risentirebbero perché hai perso metà delle tue risorse di elaborazione, ma il sistema è ancora in linea ...
Dimensionare il tuo Hadoop Cluster - dummies
Dimensionare qualsiasi sistema di elaborazione dati è tanto una scienza quanto un'arte. Con Hadoop, si considerano le stesse informazioni che si farebbe con un database relazionale, ad esempio. Soprattutto, devi sapere quanti dati hai, stimare i tassi di crescita attesi e stabilire un criterio di conservazione (per quanto tempo fino a ...
Imposta l'ambiente Hadoop con Apache Bigtop - dummies
Se ti piace lavorare con VM e Linux , sentiti libero di installare Bigtop su una VM diversa da quella raccomandata. Se sei davvero audace e hai l'hardware, vai avanti e prova a installare Bigtop su un cluster di macchine in modalità completamente distribuita! Passaggio 1: scaricare una macchina virtuale Hadoop funziona su tutti i popolari sistemi Linux ...
Nodi slave in Hadoop Clusters - dummies
In un universo Hadoop, i nodi slave sono dove vengono memorizzati i dati Hadoop e dove i dati l'elaborazione ha luogo. I seguenti servizi consentono ai nodi slave di memorizzare ed elaborare i dati: NodeManager: coordina le risorse per un singolo nodo slave e riporta al Resource Manager. ApplicationMaster: tiene traccia dell'avanzamento di tutte le attività eseguite su ...
Nodi slave nel Hadoop Distributed File System (HDFS) - manichini
In un cluster Hadoop ogni nodo di dati (noto anche come nodo slave) esegue un processo in background denominato DataNode. Questo processo in background (noto anche come demone) tiene traccia delle fette di dati che il sistema memorizza sul suo computer. Parla regolarmente al server principale per HDFS (noto come NameNode) per ...
Importanza di sQL per Hadoop - dummies
Ci sono validi motivi per cui SQL ha dimostrato di essere resiliente. Il settore IT ha avuto 40 anni di esperienza con SQL, poiché è stato sviluppato per la prima volta da IBM all'inizio degli anni '70. Con l'aumento dell'adozione di basi di dati relazionali negli anni '80, SQL è diventato ormai un'abilità standard per la maggior parte dell'IT ...
Sqoop 2. 0 Anteprima - dummies
Con tutto il successo che circonda Sqoop 1. x alla sua laurea dall'incubatore Apache , Sqoop ha un impulso! Quindi, come ci si potrebbe aspettare, Sqoop 2. 0 è in lavorazione con nuove interessanti funzionalità in arrivo. Potete vedere che Sqoop 1. 99. 3 è scaricabile, completo di documentazione. Probabilmente ti starai chiedendo quante versioni 1. 99. x saranno ...
Connettori e driver sqoop - dummies
I connettori sqoop generalmente vanno di pari passo con un driver JDBC. Sqoop non raggruppa i driver JDBC perché di solito sono proprietari e autorizzati dal fornitore RDBMS o DW. Quindi ci sono tre possibili scenari per Sqoop, a seconda del tipo di sistema di gestione dei dati (RDBMS, DW o NoSQL) che si sta tentando di ...
Sqoop Esportazioni utilizzando l'aggiornamento e l'aggiornamento Inserisci approccio - dummies
Con modalità di inserimento, record esportati da Sqoop vengono aggiunti alla fine della tabella di destinazione. Sqoop fornisce anche una modalità di aggiornamento che è possibile utilizzare fornendo l'argomento della riga di comando -update-key . Questa azione fa sì che Sqoop generi un'istruzione SQL UPDATE da eseguire su RDBMS o data warehouse. Supponiamo che tu ...
SQuirreL come Hive Client con il driver JDBC - dummies
SQuirreL SQL è uno strumento open source che funge da un client Hive. Puoi scaricare questo client SQL universale dal sito Web di SourceForge. Fornisce un'interfaccia utente per Hive e semplifica le attività di interrogazione di tabelle di grandi dimensioni e analisi dei dati con Apache Hive. La figura illustra come funzionerebbe l'architettura Hive quando ...
Analisi del sentimento sociale con Hadoop - dummies
Analisi del sentimento sociale è facilmente il più sopraffatto degli usi di Hadoop, che dovrebbe essere nessuna sorpresa, dato che il mondo è costantemente connesso e l'attuale popolazione espressiva. Questo caso d'uso sfrutta il contenuto di forum, blog e altre risorse di social media per sviluppare un senso di ciò che le persone stanno facendo (ad esempio, eventi della vita) ...
L'ecosistema Apache Hadoop - dummies
Hadoop è più di MapReduce e HDFS (Hadoop Distributed File System): è anche una famiglia di progetti correlati (un ecosistema, davvero) per l'elaborazione distribuita e l'elaborazione di dati su larga scala. La maggior parte (ma non tutti) di questi progetti sono ospitati da Apache Software Foundation. La tabella elenca alcuni di questi progetti. Progetti correlati Hadoop Nome progetto Descrizione ...
The Hadoop dfsadmin Command Options - dummies
Gli strumenti dfsadmin sono un insieme specifico di strumenti progettati per aiutarti a estrarre le informazioni sul tuo Hadoop Distributed File System (HDFS). Come bonus aggiuntivo, puoi usarli per eseguire anche alcune operazioni di amministrazione su HDFS. Opzione Cosa fa - report Riporta informazioni e statistiche di base sul file system. -safemode enter | ...
Prendi HBase per un test run - dummies
Qui, scopri come scaricare e distribuire HBase in modalità standalone . È incredibilmente semplice installare HBase e iniziare a utilizzare la tecnologia. Tieni a mente che HBase viene generalmente distribuito su un cluster di server commodity, anche se puoi anche distribuire facilmente HBase in una configurazione standalone invece, per l'apprendimento o la dimostrazione ...
L'opzione di pre-elaborazione dei dati ibridi in Hadoop - dummies
Oltre a dover archiviare grandi volumi di dati a freddo, una pressione che si vede nei tradizionali data warehouse è che vengono utilizzate quantità crescenti di risorse di elaborazione per i carichi di lavoro di trasformazione (ELT). L'idea di utilizzare Hadoop come motore di preelaborazione per gestire la trasformazione dei dati significa liberare preziosi cicli di elaborazione, consentendo ...
L'architettura di Apache Hive - dummies
Mentre si esaminano gli elementi di Apache Hive mostrati, è possibile vedere in fondo che Hive si trova in cima ai sistemi Hadoop Distributed File System (HDFS) e MapReduce. Nel caso di MapReduce, i mostri sono entrambi i componenti Hadoop 1 e Hadoop 2. Con Hadoop 1, le query Hive vengono convertite in codice MapReduce ...
La zona di atterraggio basata su Hadoop - manichini
Quando cerchi di capire come potrebbe essere un ambiente di analisi Nel futuro, inciamperai di nuovo nel modello della zona di atterraggio basata su Hadoop. In effetti, non è più nemmeno una discussione orientata al futuro perché la zona di atterraggio è diventata il modo in cui le aziende lungimiranti ora cercano di salvare IT ...
Limitazioni del campionamento in Hadoop - manichini
L'analisi statistica è lungi dall'essere un nuovo bambino sul blocco, e è certamente una vecchia notizia che dipende dall'elaborazione di grandi quantità di dati per ottenere nuove informazioni. Tuttavia, la quantità di dati tradizionalmente elaborati da questi sistemi era compresa tra 10 e 100 (o centinaia di) gigabyte - ...
HBase MasterServer - dummies
Avviare una discussione sull'architettura HBase (Hadoop Database) descrivendo RegionServers invece del MasterServer potrebbe sorprendervi . Il termine RegionServer sembrerebbe implicare che esso dipende (ed è secondario) dal MasterServer e che quindi è necessario discutere prima il MasterServer. Come dice la vecchia canzone, però, "non è necessariamente così. "Il ...
Le chiavi per adottare con successo Hadoop - dummies
In qualsiasi progetto Hadoop serio, dovresti iniziare collaborando con il business IT leader dai VP in poi per aiutare a risolvere i punti deboli della tua azienda - quei problemi (reali o percepiti) che incombono alla mente di tutti. Le aziende vogliono vedere il valore dei loro investimenti IT e con Hadoop può venire in una varietà ...
Hive CLI Client - dummies
Il primo client Hive è l'interfaccia a riga di comando Hive (CLI). Per padroneggiare i punti più fini del client CLI Hive, potrebbe essere utile rivedere l'architettura Hive (un po 'caotica). Nella seconda figura, l'architettura è ottimizzata per concentrarsi solo sui componenti richiesti durante l'esecuzione della CLI. Questi sono i componenti ...
L'ecosistema client HBase - dummies
HBase è scritto in Java, un linguaggio elegante per la creazione di tecnologie distribuite come HBase, ma non tutti coloro che vogliono sfruttare le innovazioni HBase sono sviluppatori Java. Ecco perché c'è un ricco ecosistema di client HBase là fuori il cui unico scopo è quello di fare il pesante sollevamento Java per te e ...
L'importanza di MapReduce in Hadoop - manichini
Per la maggior parte della storia di Hadoop, MapReduce è stato l'unico gioco in città quando si tratta di elaborazione dei dati. La disponibilità di MapReduce è stata la ragione del successo di Hadoop e allo stesso tempo un fattore importante nel limitare l'ulteriore adozione. MapReduce consente ai programmatori esperti di scrivere applicazioni distribuite senza doversi preoccupare di ...
Gli attributi di HBase - dummies
HBase (database Hadoop) è un'implementazione Java di Google BigTable. Google definisce BigTable come una "mappa ordinata multidimensionale sparsa, distribuita e persistente. "È una definizione abbastanza concisa, ma sarai anche d'accordo che è un po 'complicato. Per abbattere un po 'la complessità di BigTable, segue una discussione di ogni attributo. Hbase è scarso ...
L'origine e il design di Hadoop - manichini
Quindi cos'è esattamente questa cosa con il nome divertente - Hadoop? Al suo interno, Hadoop è un framework per la memorizzazione di dati su grandi cluster di hardware di base - l'hardware di tutti i giorni che è conveniente e facilmente disponibile - e l'esecuzione di applicazioni contro tali dati. Un cluster è un gruppo di computer interconnessi (noto come ...
L'architettura Pig in Hadoop - manichini
"Semplice" spesso significa "elegante" quando si tratta di quei disegni architettonici per quella nuova villa della Silicon Valley che hai pianificato quando il denaro inizia a rotolare dopo aver implementato Hadoop. Lo stesso principio vale per l'architettura del software. Pig è costituito da due componenti (count 'em, two): Il linguaggio stesso: come prova che i programmatori ...
Il flusso di applicazioni MapReduce in Hadoop - dummies
Al centro, MapReduce è un modello di programmazione per l'elaborazione di set di dati che sono memorizzati in modo distribuito attraverso i nodi slave di un cluster Hadoop. Il concetto chiave qui è dividere e conquistare. In particolare, si desidera rompere un set di dati di grandi dimensioni in molti pezzi più piccoli e elaborarli in parallelo con lo stesso algoritmo. ...
Il flusso di applicazioni latine di maiale in Hadoop - dummies
Nel suo nucleo, Pig Latin è un linguaggio di flusso di dati, dove si definisce un flusso di dati e una serie di trasformazioni che vengono applicate ai dati mentre scorre attraverso l'applicazione. Questo è in contrasto con un linguaggio di controllo del flusso (come C o Java), in cui si scrive una serie di istruzioni. Nel flusso di controllo ...
Principi di Sqoop Design - dummies
Quando si tratta di Sqoop, un'immagine vale spesso più di mille parole, quindi controlla la figura, che ti offre una vista a volo d'uccello dell'architettura Sqoop. L'idea alla base di Sqoop è che sfrutta le attività della mappa - attività che eseguono l'importazione e l'esportazione parallele di tabelle di database relazionali - direttamente da ...
La fase di riduzione del flusso di applicazioni MapReduce di Hadoop - dummies
La fase di riduzione elabora le chiavi e i relativi elenchi di valori in modo che ciò che viene normalmente restituito all'applicazione client sia un insieme di coppie chiave / valore. Ecco il blow-by-blow fino ad ora: un grande set di dati è stato suddiviso in parti più piccole, chiamate split di input, e singole istanze di task mapper hanno elaborato ogni ...
Il browser Web come Hive Client - dummies
Utilizzando la CLI Hive richiede un solo comando per avviare la shell Hive, ma quando si desidera accedere a Hive utilizzando un browser Web, è necessario innanzitutto avviare il server HWI e quindi indirizzare il browser alla porta su cui il server è in ascolto. La seguente figura illustra come questo tipo di client Hive ...
Della fase mappa del flusso di applicazioni MapReduce di Hadoop - dummies
Un'applicazione MapReduce elabora i dati negli split di input su una registrazione per record e che ogni record è interpretato da MapReduce come coppia chiave / valore. Dopo aver calcolato le divisioni di input, le attività del mapper possono iniziare a elaborarle, ovvero subito dopo che la funzione di pianificazione del Resource Manager assegna loro le proprie risorse di elaborazione. ...
L'architettura YARN in Hadoop - dummies
YARN, per coloro che stanno appena arrivando a questa festa in particolare, è l'acronimo di Yet Another Resource Negoziatore, uno strumento che consente ad altri framework di elaborazione dati di funzionare su Hadoop. La gloria di YARN è che presenta Hadoop con una soluzione elegante a una serie di sfide da lungo tempo. YARN ha lo scopo di fornire un filato più efficiente e ...
Che cosa significa in realtà SQL Access - dummies
Un numero di aziende sta investendo molto per guidare progetti open source e soluzioni proprietarie per Accesso SQL ai dati Hadoop. Quando ascolti il termine accesso SQL, dovresti sapere che stai facendo affidamento su alcuni presupposti di base: standard linguistici: lo standard più importante, ovviamente, riguarda la lingua stessa. Esistono molte soluzioni "simili a SQL", ...
Master dell'applicazione yARN in Hadoop - dummies
A differenza di altri componenti YARN (Yet Another Resource Negotiator), nessun componente in Hadoop 1 mappa direttamente al Master dell'applicazione. In sostanza, questo è il lavoro svolto da JobTracker per ogni applicazione, ma l'implementazione è radicalmente diversa. Ogni applicazione in esecuzione sul cluster Hadoop ha una propria istanza Application Master dedicata, che viene effettivamente eseguita in ...
La fase Shuffle del flusso di applicazioni MapReduce di Hadoop - dummies
Dopo la fase Map e prima dell'inizio del La fase di riduzione è un processo di handoff, noto come shuffle e sort. Qui, i dati delle attività del mappatore vengono preparati e spostati nei nodi in cui verranno eseguite le attività del riduttore. Una volta completata l'attività di mappatura, i risultati vengono ordinati per chiave, partizionati se ...