Big Data For Dummies Cheat Sheet - dummies

Di Judith Hurwitz, Alan Nugent, Fern Halper, Marcia Kaufman

Le aziende devono trovare un modo pratico per gestire i big data per rimanere competitivi - per apprendere nuovi modi per acquisire e analizzare quantità crescenti di informazioni su clienti, prodotti e servizi. I dati stanno diventando sempre più complessi in modi strutturati e non strutturati. Nuove fonti di dati provengono da macchine, come i sensori; siti di social business; e interazione con il sito web, come i dati del flusso di clic. Soddisfare questi mutevoli requisiti aziendali richiede che le informazioni giuste siano disponibili al momento giusto.

Definizione di big data: volume, velocità e varietà

I big data consentono alle organizzazioni di archiviare, gestire e manipolare grandi quantità di dati disparati alla giusta velocità e al momento giusto. Per ottenere le informazioni giuste, i big data sono generalmente suddivisi in base a tre caratteristiche:

Volume: Quanti dati
Velocità: Velocità di elaborazione dei dati
Varietà: I vari tipi di dati

Mentre è conveniente semplificare i big data nei tre V, può essere fuorviante e troppo semplicistico. Ad esempio, potresti gestire una quantità relativamente piccola di dati molto disparati e complessi oppure potresti elaborare un volume enorme di dati molto semplici. Questi dati semplici possono essere tutti strutturati o tutti non strutturati.

Ancora più importante è la quarta V, veridicità. Quanto sono accurati i dati nella previsione del valore aziendale? I risultati di una grande analisi dei dati hanno davvero senso? I dati devono poter essere verificati in base alla precisione e al contesto. Un'azienda innovativa potrebbe voler essere in grado di analizzare enormi quantità di dati in tempo reale per valutare rapidamente il valore di tale cliente e la possibilità di fornire ulteriori offerte a tale cliente. È necessario identificare la giusta quantità e tipi di dati che possono essere analizzati in tempo reale per influire sui risultati di business.

I big data comprendono tutte le varietà di dati, inclusi dati strutturati e dati non strutturati da e-mail, social media, flussi di testo e così via. Questo tipo di gestione dei dati richiede alle aziende di sfruttare i loro dati strutturati e non strutturati.

Comprensione dei dati non strutturati

I dati non strutturati sono diversi dai dati strutturati in quanto la loro struttura è imprevedibile. Esempi di dati non strutturati includono documenti, e-mail, blog, immagini digitali, video e immagini satellitari. Include anche alcuni dati generati da macchine o sensori. In effetti, i dati non strutturati rappresentano la maggior parte dei dati che si trovano nella sede della tua azienda, nonché esterni alla tua azienda in fonti private e pubbliche online come Twitter e Facebook.

In passato, la maggior parte delle aziende non era in grado di acquisire o archiviare questa grande quantità di dati. Era semplicemente troppo costoso o troppo opprimente. Anche se le aziende erano in grado di acquisire i dati, non disponevano degli strumenti per analizzare facilmente i dati e utilizzare i risultati per prendere decisioni. Pochissimi strumenti potrebbero dare un senso a queste enormi quantità di dati. Gli strumenti esistenti erano complessi da usare e non producevano risultati in tempi ragionevoli.

Alla fine, coloro che volevano davvero dedicarsi all'enorme sforzo di analizzare questi dati furono costretti a lavorare con istantanee di dati. Questo ha l'effetto indesiderato di perdere eventi importanti perché non erano in una particolare istantanea.

Un approccio che sta diventando sempre più apprezzato come un modo per ottenere valore di business dai dati non strutturati è analisi del testo, il processo di analisi del testo non strutturato, estraendo informazioni rilevanti e trasformandolo in informazioni strutturate che possono quindi essere sfruttato in vari modi. I processi di analisi ed estrazione traggono vantaggio dalle tecniche originate dalla linguistica computazionale, dalle statistiche e da altre discipline informatiche.

Il ruolo dei dati operativi tradizionali nell'ambiente Big Data

Conoscere quali dati sono archiviati e dove sono memorizzati sono elementi costitutivi fondamentali nell'implementazione dei Big Data. È improbabile che utilizziate gli RDBMS per il nucleo dell'implementazione, ma è molto probabile che dovrete fare affidamento sui dati archiviati in RDBMS per creare il massimo livello di valore per l'azienda con i big data.

La maggior parte delle piccole e grandi aziende probabilmente memorizza la maggior parte delle loro importanti informazioni operative in sistemi di gestione di database relazionali (RDBMS), che sono costruiti su una o più relazioni e rappresentati da tabelle. Queste tabelle sono definite dal modo in cui i dati vengono archiviati. I dati vengono archiviati in oggetti di database chiamati tabelle, organizzati in righe e colonne. Gli RDBMS seguono un approccio coerente nel modo in cui i dati vengono archiviati e recuperati.

Per ottenere il massimo valore aziendale dall'analisi in tempo reale dei dati non strutturati, è necessario comprendere tali dati nel contesto dei dati storici su clienti, prodotti, transazioni e operazioni. In altre parole, sarà necessario integrare i dati non strutturati con i dati operativi tradizionali.

Nozioni di base sull'infrastruttura Big Data

I big data riguardano l'alta velocità, i grandi volumi e un'ampia varietà di dati, quindi l'infrastruttura fisica letteralmente "farà o distruggerà" l'implementazione. La maggior parte delle implementazioni di big data devono essere altamente disponibili, quindi le reti, i server e lo storage fisico devono essere resilienti e ridondanti.

La resilienza e la ridondanza sono correlate. Un'infrastruttura, o un sistema, resiste agli errori o alle modifiche quando sono disponibili sufficienti risorse ridondanti pronte a entrare in azione. La resilienza aiuta a eliminare singoli punti di errore nell'infrastruttura. Ad esempio, se esiste una sola connessione di rete tra la tua azienda e Internet, non hai ridondanza di rete e l'infrastruttura non è resiliente rispetto a un'interruzione della rete.

Nei data center di grandi dimensioni con requisiti di business continuity, la maggior parte della ridondanza è presente e può essere sfruttata per creare un ambiente di big data. Nelle nuove implementazioni, i progettisti hanno la responsabilità di mappare l'implementazione alle esigenze dell'azienda in base a costi e prestazioni.

Gestione dei Big Data con Hadoop: HDFS e MapReduce

Hadoop, un framework software open-source, utilizza HDFS (Hadoop Distributed File System) e MapReduce per analizzare i big data su cluster di hardware commodity, ovvero, in un ambiente di calcolo distribuito.

Il file system distribuito Hadoop (HDFS) è stato sviluppato per consentire alle aziende di gestire più facilmente enormi volumi di dati in modo semplice e pragmatico. Hadoop consente di scomporre i grandi problemi in elementi più piccoli, in modo che l'analisi possa essere eseguita rapidamente ed economicamente. HDFS è un approccio versatile, resiliente e in cluster alla gestione dei file in un ambiente big data.

HDFS non è la destinazione finale per i file. Piuttosto si tratta di un "servizio" di dati che offre un insieme unico di funzionalità necessarie quando i volumi di dati e la velocità sono elevati.

MapReduce è un framework software che consente agli sviluppatori di scrivere programmi in grado di elaborare enormi quantità di dati non strutturati in parallelo su un gruppo distribuito di processori. MapReduce è stato progettato da Google come un modo per eseguire in modo efficiente una serie di funzioni rispetto a una grande quantità di dati in modalità batch.

Il componente "mappa" distribuisce il problema o le attività di programmazione su un numero elevato di sistemi e gestisce il posizionamento delle attività in un modo che bilancia il carico e gestisce il ripristino da errori. Una volta completato il calcolo distribuito, un'altra funzione chiamata "reduce" aggrega tutti gli elementi di nuovo insieme per fornire un risultato. Un esempio di utilizzo di MapReduce potrebbe essere determinare il numero di pagine di un libro scritte in ciascuna delle 50 lingue diverse.

Come porre le basi per la strategia dei Big Data

Le aziende stanno nuotando in grandi quantità. Il problema è che spesso non sanno come pragmaticamente utilizzare quei dati per essere in grado di prevedere il futuro, eseguire processi aziendali importanti o semplicemente acquisire nuove conoscenze. L'obiettivo della strategia e del piano dei Big Data dovrebbe essere quello di trovare un modo pragmatico per sfruttare i dati per risultati di business più prevedibili.

Inizia la tua strategia sui Big Data intraprendendo un processo di scoperta. Hai bisogno di capire quali dati hai già, dove sono, chi li possiede e come li controlla e come sono attualmente utilizzati. Ad esempio, quali sono le fonti di dati di terze parti su cui si basa la tua azienda? Questo processo può fornire molte informazioni:

È possibile determinare il numero di origini dati disponibili e la quantità di sovrapposizione esistente.
È possibile identificare le lacune nella conoscenza di tali origini dati.
Potresti scoprire di avere molti dati duplicati in un'area del business e quasi nessun dato in un'altra area.
Potresti accertarti di dipendere da dati di terze parti che non sono accurati come dovrebbero.

Dedica il tempo necessario per eseguire questo processo di scoperta perché costituirà la base per la pianificazione e l'esecuzione della strategia dei Big Data.