Modifica i prodotti di Business Intelligence per gestire i Big Data - dummy

I prodotti di business intelligence tradizionali non erano realmente progettati per gestire i big data, quindi potrebbero richiedere alcune modifiche. Sono stati progettati per funzionare con dati altamente strutturati e ben compresi, spesso archiviati in un repository di dati relazionali e visualizzati sul desktop o sul laptop. Questa tradizionale analisi di business intelligence viene in genere applicata a istantanee di dati anziché all'intera quantità di dati disponibili. Cosa c'è di diverso nell'analisi dei big data?

Dati di grandi dimensioni

I big data sono costituiti da dati strutturati, semi-strutturati e non strutturati. Ne hai spesso un sacco e può essere piuttosto complesso. Quando pensi di analizzarlo, devi essere consapevole delle potenziali caratteristiche dei tuoi dati:

Può provenire da fonti non attendibili. L'analisi dei Big Data spesso implica l'aggregazione di dati da varie fonti. Questi possono includere fonti di dati interne ed esterne. Quanto sono affidabili queste fonti esterne di informazione? Ad esempio, quanto sono affidabili i dati sui social media come un tweet? Le informazioni potrebbero provenire da una fonte non verificata. L'integrità di questi dati deve essere considerata nell'analisi.
Può essere sporco. I dati sporchi si riferiscono a dati inesatti, incompleti o errati. Questo può includere l'errore ortografico delle parole; un sensore che è rotto, non correttamente calibrato o corrotto in qualche modo; o anche dati duplicati. Gli scienziati dei dati discutono su dove pulire i dati, vicino all'origine o in tempo reale.

Naturalmente, una scuola di pensiero dice che i dati sporchi non dovrebbero essere puliti affatto perché potrebbero contenere valori anomali interessanti. La strategia di pulizia dipenderà probabilmente dall'origine e dal tipo di dati e dall'obiettivo della tua analisi. Ad esempio, se stai sviluppando un filtro antispam, l'obiettivo è rilevare gli elementi non validi nei dati, quindi non vorrai pulirli.
Il rapporto segnale-rumore può essere basso. In altre parole, il segnale (informazioni utilizzabili) può essere solo una piccola percentuale dei dati; il rumore è il resto. Essere in grado di estrarre un segnale minuscolo da dati rumorosi è parte del vantaggio dell'analisi dei big data, ma è necessario essere consapevoli che il segnale potrebbe effettivamente essere piccolo.
Può essere in tempo reale. In molti casi, tenterai di analizzare i flussi di dati in tempo reale.

La governance dei big data sarà una parte importante dell'equazione analitica. Sotto l'analisi aziendale, sarà necessario apportare miglioramenti alle soluzioni di governance per garantire la veridicità proveniente dalle nuove fonti di dati, specialmente se combinate con i dati affidabili esistenti memorizzati in un magazzino.Anche le soluzioni di sicurezza e privacy dei dati devono essere migliorate per supportare la gestione / gestione dei big data archiviati nelle nuove tecnologie.

Algoritmi analitici per big data

Quando si considera l'analisi dei big data, è necessario essere consapevoli che quando si espande oltre il desktop, gli algoritmi utilizzati spesso devono essere refactored, modificare il codice interno senza influire sul suo funzionamento esterno. La bellezza di una grande infrastruttura di dati è che puoi eseguire un modello che richiedeva ore o giorni in pochi minuti.

Ciò consente di eseguire iterazioni sul modello centinaia di volte. Tuttavia, se si esegue una regressione su un miliardo di righe di dati in un ambiente distribuito, è necessario considerare i requisiti delle risorse relativi al volume di dati e alla relativa posizione nel cluster. I tuoi algoritmi devono essere consapevoli dei dati.

Inoltre, i fornitori stanno iniziando a offrire nuove analisi progettate per essere collocate vicino alle grandi fonti di dati per analizzare i dati in atto. Questo approccio di analisi analitiche più vicino alle fonti di dati riduce al minimo la quantità di dati memorizzati mantenendo solo i dati di alto valore. Ti consente anche di analizzare i dati prima, il che è fondamentale per prendere decisioni in tempo reale.

Naturalmente, l'analisi continuerà ad evolversi. Ad esempio, potresti aver bisogno di funzionalità di visualizzazione in tempo reale per visualizzare dati in tempo reale che cambiano continuamente. Come fai a tracciare praticamente un miliardo di punti su una trama grafica? Oppure, come si lavora con gli algoritmi predittivi in modo che eseguano un'analisi sufficientemente rapida e sufficientemente profonda da utilizzare un set di dati complesso e in continua espansione? Questa è un'area di ricerca attiva.

Supporto dell'infrastruttura di dati di grandi dimensioni

Basti dire che se stai cercando una piattaforma, è necessario ottenere quanto segue:

Integrare le tecnologie: L'infrastruttura deve integrare nuove tecnologie di big data con tecnologie tradizionali per essere in grado di elaborare tutti i tipi di big data e renderli consumabili dalle analisi tradizionali.
Memorizza grandi quantità di dati disparati: Potrebbe essere necessario un sistema Hadoop rinforzato dall'azienda in grado di elaborare / archiviare / gestire grandi quantità di dati a riposo, siano essi strutturati, semi-strutturati o non strutturati.
Elaborazione dei dati in movimento: Potrebbe essere necessaria una capacità di calcolo del flusso per elaborare i dati in movimento che viene continuamente generato da sensori, dispositivi intelligenti, video, audio e registri per supportare il processo decisionale in tempo reale.
Dati di magazzino: Potrebbe essere necessaria una soluzione ottimizzata per carichi di lavoro analitici operativi o profondi per archiviare e gestire la crescente quantità di dati affidabili.

E, naturalmente, è necessaria la capacità di integrare i dati già esistenti con i risultati dell'analisi dei big data.