Video: Quale algoritmo usare? Classificatore vs Regressore 2024
Anche se continuano a essere disponibili nuovi set di strumenti che consentono di gestire e analizzare la struttura dei Big Data in modo più efficace, potrebbe non essere possibile ottenere ciò di cui si ha bisogno. Inoltre, una gamma di tecnologie può supportare l'analisi e i requisiti dei big data come disponibilità, scalabilità e alte prestazioni. Alcuni di questi includono appliance per big data, database colonnari, database in memoria, database non relazionali e motori di elaborazione in parallelo.
Quindi, cosa cercano gli utenti business quando si tratta di analisi di big data? La risposta a questa domanda dipende dal tipo di problema aziendale che stanno cercando di risolvere. Alcune considerazioni importanti quando si seleziona un framework di analisi di applicazioni Big Data sono le seguenti:
-
Supporto per più tipi di dati: Molte organizzazioni stanno incorporando, o prevedono di incorporare, tutti i tipi di dati come parte delle loro implementazioni di big data, inclusi dati strutturati, semi-strutturati e non strutturati.
-
Gestisce l'elaborazione batch e / o i flussi di dati in tempo reale: L'orientamento dell'azione è un prodotto dell'analisi su flussi di dati in tempo reale, mentre l'orientamento decisionale può essere adeguatamente gestito dall'elaborazione batch. Alcuni utenti richiedono entrambi, mentre evolvono per includere diverse forme di analisi.
-
Utilizza ciò che già esiste nel tuo ambiente: Per ottenere il contesto giusto, potrebbe essere importante sfruttare i dati e gli algoritmi esistenti nel framework di analisi dei big data.
-
Supporto NoSQL e altre forme più recenti di accesso ai dati: Mentre le organizzazioni continueranno a utilizzare SQL, molti stanno anche esaminando nuove forme di accesso ai dati per supportare tempi di risposta più rapidi o tempi più rapidi per prendere decisioni.
-
Supera la bassa latenza: Se hai a che fare con un'alta velocità dei dati, avrai bisogno di un framework in grado di supportare i requisiti di velocità e prestazioni.
-
Fornisce uno spazio di archiviazione economico: I big data significano potenzialmente un sacco di spazio di archiviazione, a seconda della quantità di dati che si desidera elaborare e / o conservare.
-
Integrazione con le distribuzioni cloud: Il cloud può fornire capacità di storage e calcolo su richiesta. Sempre più aziende utilizzano il cloud come un'analisi "sandbox". "Sempre più spesso, il cloud sta diventando un importante modello di implementazione per integrare i sistemi esistenti con le distribuzioni cloud in un modello ibrido.
Sebbene tutte queste caratteristiche siano importanti, il valore percepito e reale della creazione di applicazioni da un framework è il tempo di implementazione più rapido.Tenendo conto di tutte queste funzionalità, si consideri un framework per applicazioni di analisi dei big data da un'azienda chiamata Continuity.
Continuity AppFabric è un framework che supporta lo sviluppo e la distribuzione di applicazioni Big Data. Lo stesso AppFabric è un insieme di tecnologie specificatamente progettate per astrarre i capricci delle tecnologie dei big data di basso livello. Il builder dell'applicazione è un plug-in Eclipse che consente allo sviluppatore di creare, testare e eseguire il debug localmente e in ambienti familiari.
Le funzionalità di AppFabric includono:
-
Supporto streaming per analisi in tempo reale e reazione
-
Unified API, eliminando la necessità di scrivere su infrastrutture di grandi dimensioni
-
Interfacce di query per risultati semplici e supporto per processori di query collegabili
-
Set di dati che rappresentano dati e tabelle interrogabili accessibili dall'API Unificata
-
Lettura e scrittura di dati indipendenti da formati di input o di output o specifiche dei componenti sottostanti
-
Elaborazione di eventi basata su transazioni
-
Distribuzione multimodale su un singolo nodo o il cloud
Questo approccio sta andando a guadagnare trazione per lo sviluppo di applicazioni Big Data principalmente a causa della pletora di strumenti e tecnologie necessarie per creare un ambiente di big data.
La mancanza di collaborazione può essere costosa in molti modi. Le grandi organizzazioni possono trarre vantaggio dagli strumenti che guidano le collaborazioni. Molto spesso le persone che svolgono un lavoro simile non sono consapevoli dei reciproci sforzi che portano a duplicare il lavoro.
Un altro buon esempio di un framework applicativo è OpenChorus. Oltre al rapido sviluppo di applicazioni di analisi di big data, supporta anche la collaborazione e offre molte altre funzionalità importanti per gli sviluppatori di software, come l'integrazione degli strumenti, il controllo della versione e la gestione della configurazione.
Open Chorus è un progetto gestito da EMC Corporation ed è disponibile con la licenza Apache 2. 0. EMC produce e supporta anche una versione commerciale di Chorus. Sia Open Chorus che Chorus dispongono di reti di partner vivaci e di una vasta serie di collaboratori individuali e aziendali.
Open Chorus è un framework generico. La sua caratteristica principale è la capacità di creare un "hub" comune per la condivisione di grandi fonti di dati, approfondimenti, tecniche di analisi e visualizzazioni. Open Chorus fornisce quanto segue:
-
Repository di strumenti, artefatti e tecniche di analisi con versioning completo, tracciamento delle modifiche e archiviazione
-
Aree di lavoro e sandbox auto-provisionate e facilmente gestibili dai membri della comunità
-
Visualizzazioni, incluso mappe di calore, serie temporali, istogrammi e così via
-
Ricerca federata di qualsiasi risorsa dati, inclusi Hadoop, metadati, repository SQL e commenti
-
Collaborazione attraverso funzionalità di social networking che incoraggiano la scoperta, la condivisione e il brainstorming
-
Estensibilità per l'integrazione di componenti e tecnologie di terze parti