Casa Finanza personale Big Data For Dummies Cheat Sheet - dummies

Big Data For Dummies Cheat Sheet - dummies

Video: Big-O notation in 5 minutes — The basics 2025

Video: Big-O notation in 5 minutes — The basics 2025
Anonim

Di Judith Hurwitz, Alan Nugent, Fern Halper, Marcia Kaufman

Le aziende devono trovare un modo pratico per gestire i big data per rimanere competitivi - per apprendere nuovi modi per acquisire e analizzare quantità crescenti di informazioni su clienti, prodotti e servizi. I dati stanno diventando sempre più complessi in modi strutturati e non strutturati. Nuove fonti di dati provengono da macchine, come i sensori; siti di social business; e interazione con il sito web, come i dati del flusso di clic. Soddisfare questi mutevoli requisiti aziendali richiede che le informazioni giuste siano disponibili al momento giusto.

Definizione di big data: volume, velocità e varietà

I big data consentono alle organizzazioni di archiviare, gestire e manipolare grandi quantità di dati disparati alla giusta velocità e al momento giusto. Per ottenere le informazioni giuste, i big data sono generalmente suddivisi in base a tre caratteristiche:

  • Volume: Quanti dati

  • Velocità: Velocità di elaborazione dei dati

  • Varietà: I vari tipi di dati

Mentre è conveniente semplificare i big data nei tre V, può essere fuorviante e troppo semplicistico. Ad esempio, potresti gestire una quantità relativamente piccola di dati molto disparati e complessi oppure potresti elaborare un volume enorme di dati molto semplici. Questi dati semplici possono essere tutti strutturati o tutti non strutturati.

Ancora più importante è la quarta V, veridicità. Quanto sono accurati i dati nella previsione del valore aziendale? I risultati di una grande analisi dei dati hanno davvero senso? I dati devono poter essere verificati in base alla precisione e al contesto. Un'azienda innovativa potrebbe voler essere in grado di analizzare enormi quantità di dati in tempo reale per valutare rapidamente il valore di tale cliente e la possibilità di fornire ulteriori offerte a tale cliente. È necessario identificare la giusta quantità e tipi di dati che possono essere analizzati in tempo reale per influire sui risultati di business.

I big data comprendono tutte le varietà di dati, inclusi dati strutturati e dati non strutturati da e-mail, social media, flussi di testo e così via. Questo tipo di gestione dei dati richiede alle aziende di sfruttare i loro dati strutturati e non strutturati.

Comprensione dei dati non strutturati

I dati non strutturati sono diversi dai dati strutturati in quanto la loro struttura è imprevedibile. Esempi di dati non strutturati includono documenti, e-mail, blog, immagini digitali, video e immagini satellitari. Include anche alcuni dati generati da macchine o sensori. In effetti, i dati non strutturati rappresentano la maggior parte dei dati che si trovano nella sede della tua azienda, nonché esterni alla tua azienda in fonti private e pubbliche online come Twitter e Facebook.

In passato, la maggior parte delle aziende non era in grado di acquisire o archiviare questa grande quantità di dati. Era semplicemente troppo costoso o troppo opprimente. Anche se le aziende erano in grado di acquisire i dati, non disponevano degli strumenti per analizzare facilmente i dati e utilizzare i risultati per prendere decisioni. Pochissimi strumenti potrebbero dare un senso a queste enormi quantità di dati. Gli strumenti esistenti erano complessi da usare e non producevano risultati in tempi ragionevoli.

Alla fine, coloro che volevano davvero dedicarsi all'enorme sforzo di analizzare questi dati furono costretti a lavorare con istantanee di dati. Questo ha l'effetto indesiderato di perdere eventi importanti perché non erano in una particolare istantanea.

Un approccio che sta diventando sempre più apprezzato come un modo per ottenere valore di business dai dati non strutturati è analisi del testo, il processo di analisi del testo non strutturato, estraendo informazioni rilevanti e trasformandolo in informazioni strutturate che possono quindi essere sfruttato in vari modi. I processi di analisi ed estrazione traggono vantaggio dalle tecniche originate dalla linguistica computazionale, dalle statistiche e da altre discipline informatiche.

Il ruolo dei dati operativi tradizionali nell'ambiente Big Data

Conoscere quali dati sono archiviati e dove sono memorizzati sono elementi costitutivi fondamentali nell'implementazione dei Big Data. È improbabile che utilizziate gli RDBMS per il nucleo dell'implementazione, ma è molto probabile che dovrete fare affidamento sui dati archiviati in RDBMS per creare il massimo livello di valore per l'azienda con i big data.

La maggior parte delle piccole e grandi aziende probabilmente memorizza la maggior parte delle loro importanti informazioni operative in sistemi di gestione di database relazionali (RDBMS), che sono costruiti su una o più relazioni e rappresentati da tabelle. Queste tabelle sono definite dal modo in cui i dati vengono archiviati. I dati vengono archiviati in oggetti di database chiamati tabelle, organizzati in righe e colonne. Gli RDBMS seguono un approccio coerente nel modo in cui i dati vengono archiviati e recuperati.

Per ottenere il massimo valore aziendale dall'analisi in tempo reale dei dati non strutturati, è necessario comprendere tali dati nel contesto dei dati storici su clienti, prodotti, transazioni e operazioni. In altre parole, sarà necessario integrare i dati non strutturati con i dati operativi tradizionali.

Nozioni di base sull'infrastruttura Big Data

I big data riguardano l'alta velocità, i grandi volumi e un'ampia varietà di dati, quindi l'infrastruttura fisica letteralmente "farà o distruggerà" l'implementazione. La maggior parte delle implementazioni di big data devono essere altamente disponibili, quindi le reti, i server e lo storage fisico devono essere resilienti e ridondanti.

La resilienza e la ridondanza sono correlate. Un'infrastruttura, o un sistema, resiste agli errori o alle modifiche quando sono disponibili sufficienti risorse ridondanti pronte a entrare in azione. La resilienza aiuta a eliminare singoli punti di errore nell'infrastruttura. Ad esempio, se esiste una sola connessione di rete tra la tua azienda e Internet, non hai ridondanza di rete e l'infrastruttura non è resiliente rispetto a un'interruzione della rete.

Nei data center di grandi dimensioni con requisiti di business continuity, la maggior parte della ridondanza è presente e può essere sfruttata per creare un ambiente di big data. Nelle nuove implementazioni, i progettisti hanno la responsabilità di mappare l'implementazione alle esigenze dell'azienda in base a costi e prestazioni.

Gestione dei Big Data con Hadoop: HDFS e MapReduce

Hadoop, un framework software open-source, utilizza HDFS (Hadoop Distributed File System) e MapReduce per analizzare i big data su cluster di hardware commodity, ovvero, in un ambiente di calcolo distribuito.

Il file system distribuito Hadoop (HDFS) è stato sviluppato per consentire alle aziende di gestire più facilmente enormi volumi di dati in modo semplice e pragmatico. Hadoop consente di scomporre i grandi problemi in elementi più piccoli, in modo che l'analisi possa essere eseguita rapidamente ed economicamente. HDFS è un approccio versatile, resiliente e in cluster alla gestione dei file in un ambiente big data.

HDFS non è la destinazione finale per i file. Piuttosto si tratta di un "servizio" di dati che offre un insieme unico di funzionalità necessarie quando i volumi di dati e la velocità sono elevati.

MapReduce è un framework software che consente agli sviluppatori di scrivere programmi in grado di elaborare enormi quantità di dati non strutturati in parallelo su un gruppo distribuito di processori. MapReduce è stato progettato da Google come un modo per eseguire in modo efficiente una serie di funzioni rispetto a una grande quantità di dati in modalità batch.

Il componente "mappa" distribuisce il problema o le attività di programmazione su un numero elevato di sistemi e gestisce il posizionamento delle attività in un modo che bilancia il carico e gestisce il ripristino da errori. Una volta completato il calcolo distribuito, un'altra funzione chiamata "reduce" aggrega tutti gli elementi di nuovo insieme per fornire un risultato. Un esempio di utilizzo di MapReduce potrebbe essere determinare il numero di pagine di un libro scritte in ciascuna delle 50 lingue diverse.

Come porre le basi per la strategia dei Big Data

Le aziende stanno nuotando in grandi quantità. Il problema è che spesso non sanno come pragmaticamente utilizzare quei dati per essere in grado di prevedere il futuro, eseguire processi aziendali importanti o semplicemente acquisire nuove conoscenze. L'obiettivo della strategia e del piano dei Big Data dovrebbe essere quello di trovare un modo pragmatico per sfruttare i dati per risultati di business più prevedibili.

Inizia la tua strategia sui Big Data intraprendendo un processo di scoperta. Hai bisogno di capire quali dati hai già, dove sono, chi li possiede e come li controlla e come sono attualmente utilizzati. Ad esempio, quali sono le fonti di dati di terze parti su cui si basa la tua azienda? Questo processo può fornire molte informazioni:

  • È possibile determinare il numero di origini dati disponibili e la quantità di sovrapposizione esistente.

  • È possibile identificare le lacune nella conoscenza di tali origini dati.

  • Potresti scoprire di avere molti dati duplicati in un'area del business e quasi nessun dato in un'altra area.

  • Potresti accertarti di dipendere da dati di terze parti che non sono accurati come dovrebbero.

Dedica il tempo necessario per eseguire questo processo di scoperta perché costituirà la base per la pianificazione e l'esecuzione della strategia dei Big Data.

Big Data For Dummies Cheat Sheet - dummies

Scelta dell'editore

Il programma in cinque passaggi per superare la menopausa - dummy

Il programma in cinque passaggi per superare la menopausa - dummy

Alcune donne capiscono a malapena che la menopausa è loro. Altre donne, tuttavia, sono meno fortunate. Se sei uno di questi, prendi in mano questi pochi modi per rendere la tua esperienza più facile per te stesso: capisci e accetta che stai attraversando una transizione naturale, proprio come la pubertà. Fortunatamente, sei più vecchio e più saggio di te ...

Menopausa For Dummies Cheat Sheet (edizione UK) - dummies

Menopausa For Dummies Cheat Sheet (edizione UK) - dummies

Menopausa segna la fine della fase riproduttiva della tua vita e così è un momento significativo di cambiamento fisico, emotivo e mentale per molte donne ma, per generazioni, donne di tutte le età hanno vagato alla cieca in menopausa senza sapere cosa aspettarsi. Qui puoi scoprire alcune delle nozioni di base.

Perimenopausa: facilitare la transizione dalle mestruazioni alla menopausa - manichini

Perimenopausa: facilitare la transizione dalle mestruazioni alla menopausa - manichini

Mestruazioni e menopausa sono ben noti biologici pietre miliari nella vita di una femmina. Contrariamente al pensiero popolare, la menopausa non è il periodo di mesi o anni in cui una donna sta "attraversando il cambiamento". "Questo lasso di tempo è chiamato perimenopausa. La menopausa è una data effettiva nel tempo. In particolare, è il 12 ° anniversario dell'ultimo ciclo mestruale di una donna. ...

Scelta dell'editore

Come utilizzare il filtro automatico personalizzato su una tabella di Excel - dummies

Come utilizzare il filtro automatico personalizzato su una tabella di Excel - dummies

È Possibile creare un filtro automatico personalizzato . Per fare ciò, seleziona il comando Filtro testo dal menu della tabella e scegli una delle opzioni di filtro del testo. Indipendentemente dall'opzione di filtro del testo selezionata, Excel visualizza la finestra di dialogo Filtro automatico personalizzato. Questa finestra di dialogo consente di specificare con estrema precisione quali record si desidera ...

Come utilizzare la funzione DPRODUCT in un database Excel - dummies

Come utilizzare la funzione DPRODUCT in un database Excel - dummies

DPRODUCT moltiplica i valori che corrispondono al criterio in un database Excel. Questo è potente ma anche in grado di produrre risultati che non sono l'intenzione. In altre parole, è una cosa da aggiungere e ricavare una somma. Questa è un'operazione comune su un set di dati. Osservando la seguente figura, è possibile ...

Come utilizzare la funzione DPRODUCT in Excel - dummy

Come utilizzare la funzione DPRODUCT in Excel - dummy

La funzione DPRODUCT in Excel è strana. La funzione DPRODUCT moltiplica i valori nei campi da un elenco di database in base ai criteri di selezione. Perché vorresti farlo? Chissà. La funzione utilizza la sintassi = DPRODUCT (database, campo, criteri) in cui il database è un riferimento all'intervallo alla tabella di Excel che contiene il valore desiderato ...

Scelta dell'editore

Programmazione con Java: riutilizzo dei nomi nella tua app per Android - dummies

Programmazione con Java: riutilizzo dei nomi nella tua app per Android - dummies

Ci sono un paio di cose a cui vuoi pensare quando riutilizzi i nomi nella tua app per Android. È possibile dichiarare due variabili Java - bag1 e bag2 - per fare riferimento a due diversi oggetti BagOfCheese. Va bene. Ma a volte, avere solo una variabile e riutilizzarla per il secondo oggetto funziona altrettanto bene, ...

Java: Mettere a frutto l'uso della classe - dummies

Java: Mettere a frutto l'uso della classe - dummies

La classe Employee nell'elenco non ha alcun metodo principale , quindi non c'è un punto di partenza per l'esecuzione del codice. Per risolvere questo problema, il programmatore scrive un programma separato con un metodo principale e utilizza tale programma per creare istanze Employee. Questo elenco di codici mostra una classe con un metodo principale - uno che inserisce il ...

Classi wrapper java - dummies

Classi wrapper java - dummies

La differenza tra tipi primitivi e tipi di riferimento è una delle funzionalità più controverse di Java e gli sviluppatori si lamentano spesso sulle differenze tra valori primitivi e valori di riferimento. Ogni tipo primitivo viene cotto nella lingua. Java ha otto tipi primitivi. Ogni tipo di riferimento è una classe o un'interfaccia. È possibile definire il proprio ...