Video: Vantaggi imbattibili | Serie i4000, Capture Pro e servizi | Alaris Information Management 2024
Per comprendere i flussi di lavoro di grandi quantità di dati, è necessario capire cos'è un processo e come si riferisce al flusso di lavoro negli ambienti ad alta intensità di dati. I processi tendono ad essere progettati come strutture end-to-end di alto livello utili per il processo decisionale e per normalizzare il modo in cui le cose vengono fatte in un'azienda o in un'organizzazione.
Al contrario, i flussi di lavoro sono orientati ai compiti e spesso richiedono dati più specifici dei processi. I processi sono composti da uno o più flussi di lavoro rilevanti per l'obiettivo generale del processo.
In molti modi, i flussi di lavoro dei Big Data sono simili ai flussi di lavoro standard. In effetti, in qualsiasi flusso di lavoro, i dati sono necessari nelle varie fasi per svolgere le attività. Considera il flusso di lavoro in una situazione sanitaria.
Un flusso di lavoro elementare è il processo di "prelievo di sangue". "Disegnare il sangue è un compito necessario per completare il processo diagnostico generale. Se succede qualcosa e il sangue non è stato prelevato o i dati di quell'analisi del sangue sono andati persi, ciò avrà un impatto diretto sulla veridicità o veridicità dell'attività complessiva.
Cosa succede quando si introduce un flusso di lavoro che dipende da una grande fonte di dati? Sebbene sia possibile utilizzare i flussi di lavoro esistenti, non si può presumere che un processo o un flusso di lavoro funzioneranno correttamente semplicemente sostituendo una grande sorgente di dati per un'origine standard. Questo potrebbe non funzionare perché i metodi di elaborazione dei dati standard non hanno gli approcci o le prestazioni di elaborazione per gestire la complessità dei big data.
L'esempio di assistenza sanitaria si concentra sulla necessità di condurre un'analisi dopo che il sangue è stato prelevato dal paziente. Nel flusso di lavoro dei dati standard, il sangue viene digitato e quindi determinati test chimici vengono eseguiti in base ai requisiti del professionista sanitario.
È improbabile che questo flusso di lavoro comprenda i test richiesti per identificare specifici biomarcatori o mutazioni genetiche. Se forniste grandi fonti di dati per biomarcatori e mutazioni, il flusso di lavoro fallirebbe. Non è a conoscenza dei big data e dovrà essere modificato o riscritto per supportare i big data.
La best practice per la comprensione dei flussi di lavoro e l'effetto dei big data è di fare quanto segue:
-
Identificare le fonti di Big Data che è necessario utilizzare.
-
Associa i tipi di dati di grandi dimensioni ai tipi di dati del flusso di lavoro.
-
Assicurarsi di disporre della velocità di elaborazione e dell'accesso allo storage per supportare il flusso di lavoro.
-
Seleziona l'archivio dati più adatto ai tipi di dati.
-
Modifica il flusso di lavoro esistente per accogliere i big data o creare un nuovo flusso di lavoro per i big data.
Dopo aver eseguito i flussi di lavoro di grandi quantità di dati, sarà necessario perfezionarli per evitare di sovraccaricare o contaminare le analisi.Ad esempio, molte fonti di dati di grandi dimensioni non includono definizioni di dati ben definiti e metadati relativi agli elementi di tali fonti. A volte, queste origini dati non sono state pulite. Devi assicurarti di avere il giusto livello di conoscenza sulle fonti che utilizzerai.