Video: Analisi dei dati | FedericaX on edX 2024
L'analisi dei big data ha ricevuto molto hype di recente, e per una buona ragione. Dovrai conoscere le caratteristiche dell'analisi dei big data se vuoi far parte di questo movimento. Le aziende sanno che c'è qualcosa là fuori, ma fino a poco tempo fa, non erano in grado di estrarlo. Questo spingere l'involucro all'analisi è un aspetto eccitante del movimento di analisi dei big data.
Le aziende sono entusiaste di essere in grado di accedere e analizzare i dati che stanno raccogliendo o di cui desiderano ottenere informazioni, ma che non sono stati in grado di gestire o analizzare in modo efficace. Potrebbe comportare la visualizzazione di enormi quantità di dati disparati, o potrebbe comportare streaming avanzato analizzato in tempo reale. È evolutivo in alcuni aspetti e rivoluzionario in altri.
Quindi, cosa c'è di diverso quando la tua azienda sta spingendo la busta con l'analisi dei big data? L'infrastruttura che supporta l'analisi dei big data è diversa e gli algoritmi sono stati modificati per essere consapevoli dell'infrastruttura.
L'analisi dei big data dovrebbe essere vista da due punti di vista:
-
orientata alle decisioni
orientata all'azione L'analisi orientata alle decisioni è più simile alla business intelligence tradizionale. Guarda sottogruppi selettivi e rappresentazioni di fonti di dati più grandi e prova ad applicare i risultati al processo di prendere decisioni di business. Certamente queste decisioni potrebbero comportare qualche tipo di azione o cambiamento di processo, ma lo scopo dell'analisi è quello di aumentare il processo decisionale.
L'analisi orientata all'azione viene utilizzata per una risposta rapida, quando emerge un modello o vengono rilevati tipi specifici di dati e viene richiesta un'azione. Sfruttare i big data attraverso l'analisi e causare cambiamenti di comportamento proattivi o reattivi offre un grande potenziale per i primi utenti.
Trovare e utilizzare i big data creando applicazioni di analisi può essere la chiave per estrarre il valore prima piuttosto che dopo. Per eseguire questa operazione, è più efficace creare da zero queste applicazioni personalizzate o sfruttando piattaforme e / o componenti.
Per prima cosa, guarda alcune delle caratteristiche aggiuntive dell'analisi dei big data che la rendono diversa dai tradizionali tipi di analisi a parte i tre V del volume, della velocità e della varietà:
-
Può essere programmatico. Uno dei più grandi cambiamenti nell'analisi è che in passato si trattava di set di dati che si potevano caricare manualmente in un'applicazione ed esplorare. Con l'analisi dei big data, potresti trovarti di fronte a una situazione in cui potresti iniziare con dati non elaborati che spesso devono essere gestiti a livello di programmazione per eseguire qualsiasi tipo di esplorazione a causa della scala dei dati.
-
Può essere guidato da dati. Mentre molti scienziati informatici utilizzano un approccio guidato dall'ipotesi per l'analisi dei dati (sviluppare una premessa e raccogliere dati per vedere se tale premessa è corretta), è anche possibile utilizzare i dati per guidare l'analisi, specialmente se si è raccolto un enorme quantità di esso. Ad esempio, è possibile utilizzare un algoritmo di apprendimento automatico per eseguire questo tipo di analisi senza ipotesi.
-
Può utilizzare molti attributi . In passato, avresti potuto gestire centinaia di attributi o caratteristiche di quell'origine dati. Ora potresti avere a che fare con centinaia di gigabyte di dati composti da migliaia di attributi e milioni di osservazioni. Tutto sta accadendo ora su una scala più ampia.
-
Può essere iterativo. Maggiore potenza di calcolo significa che è possibile eseguire un'iterazione sui modelli fino a quando non li ottieni come li vuoi. Ecco un esempio. Supponiamo che tu stia creando un modello che sta cercando di trovare i predittori per determinati comportamenti dei clienti associati. È possibile iniziare a estrarre un campione ragionevole di dati o connettersi a dove risiedono i dati. Potresti costruire un modello per verificare un'ipotesi.
Mentre in passato potevi non avere molta memoria per far funzionare il tuo modello in modo efficace, avrai bisogno di un'enorme quantità di memoria fisica per passare attraverso le iterazioni necessarie richieste per addestrare l'algoritmo. Potrebbe anche essere necessario utilizzare tecniche di calcolo avanzate come l'elaborazione del linguaggio naturale o reti neurali che evolvono automaticamente il modello in base all'apprendimento man mano che vengono aggiunti più dati.
-
Può essere rapido per ottenere i cicli di calcolo necessari sfruttando un'infrastruttura basata su cloud come servizio. Con piattaforme Infrastructure as a Service (IaaS) come Amazon Cloud Services (ACS), è possibile eseguire rapidamente il provisioning di un cluster di macchine per importare insiemi di dati di grandi dimensioni e analizzarli rapidamente.