Come utilizzare Data Streaming per Big Data - dummies

A volte, quando ci si avvicina ai big data, le aziende devono affrontare enormi quantità di dati e poca idea di dove andare dopo. Inserisci lo streaming dei dati. Quando una quantità significativa di dati deve essere elaborata rapidamente quasi in tempo reale per ottenere informazioni approfondite, i dati in movimento sotto forma di dati in streaming sono la risposta migliore.

Che cosa sono i dati non a riposo? Si tratterebbe di sistemi che gestiscono transazioni attive e che pertanto richiedono persistenza. In questi casi, i dati verranno archiviati in un archivio dati operativo. Tuttavia, in altre situazioni, tali transazioni sono state eseguite ed è ora di analizzare tali dati in genere in un data warehouse o data mart.

Ciò significa che le informazioni vengono elaborate in batch e non in tempo reale. Quando le organizzazioni pianificano il proprio futuro, devono essere in grado di analizzare molti dati, dalle informazioni su ciò che i clienti stanno acquistando e perché. È importante comprendere i principali indicatori del cambiamento. In altre parole, in che modo i cambiamenti influiranno sui prodotti e servizi che un'organizzazione offrirà in futuro?

Molte organizzazioni di ricerca utilizzano questo tipo di analisi dei big data per scoprire nuovi farmaci. Una compagnia di assicurazioni potrebbe voler confrontare i modelli di incidenti stradali in un'ampia area geografica con le statistiche meteorologiche. In questi casi, non esiste alcun vantaggio per gestire queste informazioni a velocità in tempo reale. Chiaramente, l'analisi deve essere veloce e pratica. Inoltre, le organizzazioni analizzeranno i dati per vedere se emergono nuovi modelli.

Lo streaming di dati è una piattaforma di analisi analitica focalizzata sulla velocità. Questo perché queste applicazioni richiedono un flusso continuo di dati spesso non strutturati da elaborare. Pertanto, i dati vengono continuamente analizzati e trasformati in memoria prima di essere memorizzati su un disco. L'elaborazione dei flussi di dati funziona elaborando "finestre temporali" di dati in memoria attraverso un cluster di server.

Questo è simile all'approccio nella gestione dei dati a riposo sfruttando Hadoop. La principale differenza è la questione della velocità. Nel cluster Hadoop, i dati vengono raccolti in modalità batch e quindi elaborati. La velocità conta meno in Hadoop che nello streaming di dati. I principi chiave che definiscono quando utilizzare gli stream è il più appropriato:

Quando è necessario determinare un'opportunità di acquisto al dettaglio nel punto di coinvolgimento, tramite social media o tramite messaggistica basata su autorizzazioni
Raccolta di informazioni sul movimento attorno a un sito sicuro
Per essere in grado di reagire a un evento che richiede una risposta immediata, come un'interruzione del servizio o un cambiamento delle condizioni mediche del paziente
Calcolo in tempo reale dei costi che dipendono da variabili come l'utilizzo e risorse disponibili

I dati di streaming sono utili quando l'analisi deve essere eseguita in tempo reale mentre i dati sono in movimento.Infatti, il valore dell'analisi (e spesso dei dati) diminuisce nel tempo. Ad esempio, se non è possibile analizzare e agire immediatamente, è possibile che si perda un'opportunità di vendita o che una minaccia non venga rilevata.

Di seguito sono riportati alcuni esempi che possono aiutare a spiegare come ciò sia utile.

Una centrale elettrica deve essere un ambiente altamente sicuro in modo che le persone non autorizzate non interferiscano con l'erogazione di energia ai clienti. Le aziende spesso posizionano sensori attorno al perimetro di un sito per rilevare i movimenti. Ma potrebbe esistere un problema. Esiste un'enorme differenza tra un coniglio che si muove furiosamente attorno al sito e un'auto che guida velocemente e deliberatamente. Pertanto, la grande quantità di dati provenienti da questi sensori deve essere analizzata in tempo reale in modo che venga emesso un allarme solo quando esiste una minaccia reale.

Una società di telecomunicazioni in un mercato altamente competitivo vuole assicurarsi che le interruzioni siano attentamente monitorate in modo che un calo rilevato dei livelli di servizio possa essere aumentato al gruppo appropriato. I sistemi di comunicazione generano enormi volumi di dati che devono essere analizzati in tempo reale per intraprendere le azioni appropriate. Un ritardo nella rilevazione di un errore può avere un serio impatto sulla soddisfazione del cliente.

Inutile dire che le aziende hanno a che fare con molti dati che devono essere elaborati e analizzati in tempo reale. Pertanto, l'ambiente fisico che supporta questo livello di reattività è fondamentale. Gli ambienti di dati in streaming richiedono in genere una soluzione hardware in cluster e, a volte, per gestire l'analisi è necessario un approccio di elaborazione in parallelo.

Un fattore importante nello streaming dell'analisi dei dati è il fatto che si tratta di un'analisi a passaggio singolo. In altre parole, l'analista non può rianalizzare i dati dopo che è stato trasmesso in streaming. Questo è comune nelle applicazioni in cui si sta cercando l'assenza di dati.

Se sono necessari più passaggi, i dati dovranno essere inseriti in una sorta di magazzino in cui è possibile eseguire analisi aggiuntive. Ad esempio, è spesso necessario stabilire un contesto. In che modo questi dati di streaming si confrontano con i dati storici? Questa correlazione può dirti molto su cosa è cambiato e cosa potrebbe significare questo cambiamento per la tua azienda.