Identifica i dati necessari per i tuoi big data - dummies

Fai il punto sul tipo di dati che stai trattando nel tuo progetto Big Data. Molte organizzazioni riconoscono che molti dati generati internamente non sono stati sfruttati in tutto il suo potenziale in passato.

Sfruttando nuovi strumenti, le organizzazioni stanno acquisendo nuove informazioni dalle fonti precedentemente non sfruttate di dati non strutturati nelle e-mail, nei record del servizio clienti, nei dati dei sensori e nei registri di sicurezza. Inoltre, c'è molto interesse nel cercare nuove informazioni basate sull'analisi dei dati che sono principalmente esterni all'organizzazione, come i social media, la posizione dei telefoni cellulari, il traffico e le condizioni meteorologiche.

La fase esplorativa per i big data

Nelle fasi iniziali della tua analisi, dovrai cercare i pattern nei dati. È solo esaminando grandi volumi di dati che possono emergere relazioni nuove e inaspettate e correlazioni tra elementi. Questi modelli possono fornire informazioni dettagliate sulle preferenze dei clienti per un nuovo prodotto, ad esempio. Avrai bisogno di una piattaforma per organizzare i tuoi big data per cercare questi modelli.

Hadoop è ampiamente usato come componente fondamentale per catturare ed elaborare i big data. Hadoop è progettato con funzionalità che accelerano l'elaborazione dei big data e consentono di identificare pattern in enormi quantità di dati in un tempo relativamente breve. I due componenti principali di Hadoop - Hadoop Distributed File System (HDFS) e MapReduce - sono usati per gestire ed elaborare i tuoi big data.

FlumeNG per l'integrazione di big data

Spesso è necessario raccogliere, aggregare e spostare quantità estremamente grandi di dati di streaming per cercare pattern nascosti nei big data. Gli strumenti di integrazione tradizionali come ETL non sarebbero abbastanza veloci da spostare i grandi flussi di dati nel tempo per fornire risultati per analisi come il rilevamento delle frodi in tempo reale. FlumeNG carica i dati in tempo reale trasmettendo i tuoi dati in Hadoop.

In genere, Flume viene utilizzato per raccogliere grandi quantità di dati di registro da server distribuiti. Tiene traccia di tutti i nodi fisici e logici in un'installazione Flume. I nodi agente sono installati sui server e sono responsabili della gestione del modo in cui un singolo flusso di dati viene trasferito ed elaborato dal punto di inizio al punto di destinazione.

Inoltre, i collector vengono utilizzati per raggruppare i flussi di dati in flussi più grandi che possono essere scritti su un file system Hadoop o su un altro contenitore di archiviazione di big data. Flume è progettato per la scalabilità e può continuamente aggiungere più risorse a un sistema per gestire quantità estremamente elevate di dati in modo efficiente.L'output di Flume può essere integrato con Hadoop e Hive per l'analisi dei dati.

Flume ha anche elementi di trasformazione da utilizzare sui dati e può trasformare la tua infrastruttura Hadoop in una sorgente streaming di dati non strutturati.

Patterns in big data

Troverai molti esempi di aziende che iniziano a realizzare vantaggi competitivi dall'analisi dei big data. Per molte aziende, i flussi di dati sui social media stanno diventando sempre più parte integrante di una strategia di marketing digitale. Nella fase esplorativa, questa tecnologia può essere utilizzata per cercare rapidamente enormi quantità di dati di streaming e tirare fuori i modelli di tendenza che riguardano specifici prodotti o clienti.

La fase di codifica per i big data

Con centinaia di negozi e molte migliaia di clienti, è necessario un processo ripetibile per passare dall'identificazione dei modelli all'implementazione della selezione di nuovi prodotti e di un marketing più mirato. Dopo aver trovato qualcosa di interessante nella tua analisi dei big data, codificalo e rendilo parte del tuo processo aziendale.

Per codificare la relazione tra l'analisi dei big data e i dati operativi, è necessario integrare i dati.

Integrazione dei big data e fase di incorporazione

I big data stanno avendo un impatto importante su molti aspetti della gestione dei dati, inclusa l'integrazione dei dati. Tradizionalmente, l'integrazione dei dati si è concentrata sul movimento dei dati attraverso il middleware, comprese le specifiche sul passaggio dei messaggi e i requisiti per le API (Application Programming Interface). Questi concetti di integrazione dei dati sono più appropriati per gestire i dati a riposo piuttosto che i dati in movimento.

Il passaggio nel nuovo mondo di dati non strutturati e flussi di dati cambia la nozione convenzionale di integrazione dei dati. Se si desidera incorporare l'analisi dei dati di streaming nel processo aziendale, è necessaria una tecnologia avanzata che sia abbastanza veloce da consentire di prendere decisioni in tempo reale.

Al termine dell'analisi dei Big Data, è necessario un approccio che consenta di integrare o incorporare i risultati dell'analisi dei Big Data nei processi aziendali e nelle attività aziendali in tempo reale.

Le aziende hanno grandi aspettative per ottenere un valore aziendale reale dall'analisi dei big data. Infatti, molte aziende vorrebbero iniziare un'analisi più approfondita dei big data generati internamente, come i dati dei registri di sicurezza, che in precedenza non erano possibili a causa dei limiti tecnologici.

Le tecnologie per il trasporto ad alta velocità di dati molto grandi e veloci sono un requisito per l'integrazione tra le grandi fonti di dati distribuite e tra i big data e i dati operativi. Spesso le fonti di dati non strutturate devono essere spostate rapidamente su grandi distanze geografiche per la condivisione e la collaborazione.

Il collegamento di fonti tradizionali con dati di grandi dimensioni è un processo a più fasi dopo aver esaminato tutti i dati dallo streaming di fonti di dati di grandi dimensioni e identificato i modelli pertinenti. Dopo aver ridotto la quantità di dati che devi gestire e analizzare, ora devi pensare all'integrazione.