Video: Thanos Was Wrong - Eugenics and Overpopulation | Renegade Cut 2024
Ottenere la giusta prospettiva sulla qualità dei dati può essere molto difficile nel mondo dei big data. Con la maggior parte delle grandi fonti di dati, è necessario presumere che si stia lavorando con dati non puliti. In effetti, la schiacciante abbondanza di dati apparentemente casuali e sconnessi nei flussi di dati sui social media è una delle cose che rendono così utile alle aziende.
Inizi a cercare petabyte di dati senza sapere cosa potresti trovare dopo aver iniziato a cercare i modelli nei dati. Devi accettare il fatto che nei dati ci sarà molto rumore. È solo attraverso la ricerca e la corrispondenza delle corrispondenze che sarete in grado di trovare alcune scintille di verità in mezzo a dati molto sporchi.
Naturalmente, alcune grandi fonti di dati, come i dati dei tag o dei sensori RFID, hanno regole stabilite meglio dei dati dei social media. I dati del sensore dovrebbero essere ragionevolmente puliti, sebbene ci si possa aspettare di trovare alcuni errori. È sempre tua responsabilità analizzare grandi quantità di dati per pianificare il livello di qualità di tali dati. Dovresti seguire un approccio in due fasi alla qualità dei dati:
Fase 1 : Cerca modelli nei big data senza preoccuparti della qualità dei dati.
Fase 2: Dopo aver individuato i modelli e stabilito i risultati importanti per l'azienda, applicare gli stessi standard di qualità dei dati applicati alle origini dati tradizionali. Desiderate evitare di raccogliere e gestire i big data che non sono importanti per l'azienda e potenzialmente corromperanno altri elementi di dati in Hadoop o altre piattaforme di big data.
Quando inizi a incorporare i risultati dell'analisi dei Big Data nel tuo processo aziendale, riconosci che i dati di alta qualità sono essenziali affinché un'azienda possa prendere decisioni aziendali sane. Questo è vero sia per i big data che per i dati tradizionali.
La qualità dei dati si riferisce alle caratteristiche dei dati, tra cui coerenza, accuratezza, affidabilità, completezza, tempestività, ragionevolezza e validità. Il software di qualità dei dati garantisce che gli elementi dei dati siano rappresentati allo stesso modo in diversi archivi o sistemi di dati per aumentare la coerenza dei dati.
Ad esempio, un data store può utilizzare due linee per l'indirizzo di un cliente e un altro data store può utilizzare una riga. Questa differenza nel modo in cui i dati vengono rappresentati può risultare in informazioni imprecise sui clienti, ad esempio un cliente identificato come due clienti diversi.
Una società potrebbe utilizzare dozzine di varianti del nome della sua società quando acquista prodotti.Il software di qualità dei dati può essere utilizzato per identificare tutte le varianti del nome della società nei diversi archivi dati e assicurarsi di conoscere tutto ciò che questo cliente acquista dalla tua attività.
Questo processo è chiamato fornendo una vista unica del cliente o del prodotto. Il software di qualità dei dati combina i dati tra diversi sistemi e pulisce o rimuove i dati ridondanti. Il processo di qualità dei dati fornisce all'azienda informazioni più facili da usare, interpretare e comprendere.
Gli strumenti di profilazione dei dati vengono utilizzati nel processo di qualità dei dati per aiutarvi a comprendere il contenuto, la struttura e le condizioni dei vostri dati. Raccolgono informazioni sulle caratteristiche dei dati in un database o in un altro archivio dati per iniziare il processo di conversione dei dati in un modulo più affidabile. Gli strumenti analizzano i dati per identificare errori e incongruenze.
Possono apportare modifiche a questi problemi e correggere gli errori. Gli strumenti controllano valori, schemi e intervalli accettabili e consentono di identificare i dati che si sovrappongono. Il processo di analisi dei dati, ad esempio, verifica se i dati devono essere alfa o numerici. Gli strumenti controllano anche le dipendenze o per vedere come i dati si riferiscono ai dati di altri database.
Gli strumenti di analisi dei dati per i big data hanno una funzione simile agli strumenti di profilazione dei dati per i dati tradizionali. Gli strumenti di analisi dei dati per Hadoop forniranno importanti informazioni sui dati nei cluster Hadoop. Questi strumenti possono essere utilizzati per cercare le corrispondenze e rimuovere le duplicazioni. Di conseguenza, puoi assicurarti che i tuoi big data siano coerenti. Strumenti Hadoop come HiveQL e Pig Latin possono essere utilizzati per il processo di trasformazione.