Sommario:
Video: Biblical Series I: Introduction to the Idea of God 2024
Il termine dati strutturati si riferisce generalmente a dati che hanno una lunghezza e un formato definiti per i big data. Esempi di dati strutturati includono numeri, date e gruppi di parole e numeri chiamati stringhe . La maggior parte degli esperti concorda sul fatto che questo tipo di dati rappresenta circa il 20 percento dei dati disponibili. I dati strutturati sono i dati con cui probabilmente sei abituato a trattare. Di solito è memorizzato in un database.
Fonti di grandi dati strutturati
Anche se questo potrebbe sembrare un business come al solito, in realtà, i dati strutturati stanno assumendo un nuovo ruolo nel mondo dei big data. L'evoluzione della tecnologia fornisce nuove fonti di dati strutturati in fase di produzione, spesso in tempo reale e in grandi volumi. Le fonti di dati sono suddivise in due categorie:
-
Generato da computer o macchina: I dati generati dalla macchina generalmente si riferiscono a dati creati da una macchina senza intervento umano.
-
Generato dall'uomo: Si tratta di dati che gli esseri umani, in interazione con i computer, forniscono.
Alcuni esperti sostengono che esiste una terza categoria che è un ibrido tra macchina e uomo. Qui però, siamo interessati alle prime due categorie.
I dati strutturati generati dalla macchina possono includere quanto segue:
-
Dati sensore: Esempi includono tag ID a radiofrequenza, contatori intelligenti, dispositivi medici e dati del sistema di posizionamento globale. Le aziende sono interessate a questo per la gestione della supply chain e il controllo del magazzino.
-
dati del registro web: Quando operano server, applicazioni, reti e così via, acquisiscono tutti i tipi di dati relativi alla loro attività. Ciò può comportare enormi volumi di dati che possono essere utili, ad esempio, per gestire accordi a livello di servizio o per prevedere violazioni della sicurezza.
-
Dati punto vendita: Quando il cassiere fa scorrere il codice a barre di qualsiasi prodotto che si sta acquistando, vengono generati tutti i dati associati al prodotto.
-
Dati finanziari: Un sacco di sistemi finanziari sono ora programmatici; vengono gestiti in base a regole predefinite che automatizzano i processi. I dati di stock-trading sono un buon esempio di questo. Contiene dati strutturati come il simbolo dell'azienda e il valore in dollari. Alcuni di questi dati sono generati automaticamente, altri sono generati dall'uomo.
Esempi di dati strutturati generati dall'uomo potrebbero includere quanto segue:
-
Dati di input: Questa è una qualsiasi parte di dati che un essere umano potrebbe immettere in un computer, come nome, età, reddito, non libero -formare le risposte al sondaggio e così via. Questi dati possono essere utili per capire il comportamento di base del cliente.
-
Dati flusso clic: I dati vengono generati ogni volta che si fa clic su un collegamento su un sito Web. Questi dati possono essere analizzati per determinare il comportamento del cliente e i modelli di acquisto.
-
Dati relativi al gioco: È possibile registrare ogni mossa effettuata in una partita. Questo può essere utile per comprendere come gli utenti finali si muovono attraverso un portafoglio di giochi.
Se preso insieme a milioni di altri utenti che inviano le stesse informazioni, la dimensione è astronomica. Inoltre, molti di questi dati hanno una componente in tempo reale che può essere utile per la comprensione di modelli che hanno il potenziale di prevedere i risultati.
La linea di fondo è che questo tipo di informazioni può essere potente e può essere utilizzato per molti scopi.
Il ruolo dei database relazionali nei big data
La persistenza dei dati si riferisce al modo in cui un database conserva versioni di se stesso una volta modificato. Il grande nonno di archivi di dati persistenti è il sistema di gestione del database relazionale . Nella sua infanzia, l'industria informatica usava quelle che ora sono considerate tecniche primitive per la persistenza dei dati.
Il modello relazionale è stato inventato da Edgar Codd, uno scienziato IBM, negli anni '70 ed è stato utilizzato da IBM, Oracle, Microsoft e altri. È ancora oggi ampiamente utilizzato e svolge un ruolo importante nell'evoluzione dei big data. Comprendere il database relazionale è importante perché altri tipi di database vengono utilizzati con i big data.
In un modello relazionale, i dati sono memorizzati in una tabella. Questo database conterrà uno schema , ovvero una rappresentazione strutturale di ciò che è presente nel database. Ad esempio, in un database relazionale, lo schema definisce le tabelle, i campi nelle tabelle e le relazioni tra i due.
I dati sono memorizzati in colonne, una per ciascun attributo specifico. I dati sono anche memorizzati nella riga. La prima tabella memorizza le informazioni sul prodotto; il secondo memorizza informazioni demografiche. Ognuno ha vari attributi. Ogni tabella può essere aggiornata con nuovi dati e i dati possono essere cancellati, letti e aggiornati. Questo è spesso realizzato in un modello relazionale che utilizza un linguaggio di query strutturato (SQL).
Un altro aspetto del modello relazionale che utilizza SQL è che le tabelle possono essere interrogate utilizzando una chiave comune. La chiave comune nelle tabelle è CustomerID.
È possibile inviare una query, ad esempio, per determinare il sesso dei clienti che hanno acquistato un prodotto specifico. Potrebbe essere qualcosa del tipo:
Seleziona CustomerID, Stato, Sesso, Prodotto da "tabella demografica", "tabella prodotto" dove Prodotto = XXYY