Livello 1 del Big Data Stack: Sicurezza Infrastruttura - manichini

Requisiti di sicurezza e privacy, livello 1 del grande stack di dati, sono simili ai requisiti per ambienti di dati convenzionali. I requisiti di sicurezza devono essere strettamente allineati alle specifiche esigenze aziendali. Alcune sfide uniche sorgono quando i big data diventano parte della strategia:

Accesso ai dati: L'accesso degli utenti a big data grezzi o calcolati ha lo stesso livello di requisiti tecnici delle implementazioni di non big data. I dati dovrebbero essere disponibili solo per coloro che hanno un'esigenza aziendale legittima di esaminarli o interagire con essi. La maggior parte delle piattaforme di archiviazione dei dati di base ha schemi di sicurezza rigorosi e sono integrate con una capacità di identità federata, fornendo un accesso appropriato tra i vari livelli dell'architettura.
Accesso alle applicazioni: L'accesso alle applicazioni ai dati è anche relativamente semplice dal punto di vista tecnico. La maggior parte delle API (Application Programming Interface) offrono protezione dall'uso o dall'accesso non autorizzato. Questo livello di protezione è probabilmente adeguato per la maggior parte delle implementazioni di big data.
Crittografia dati: La crittografia dei dati è l'aspetto più impegnativo della sicurezza in un ambiente di grandi dimensioni. Negli ambienti tradizionali, la crittografia e la decrittografia dei dati sottolineano davvero le risorse dei sistemi. Questo problema è esacerbato dai big data. L'approccio più semplice è fornire capacità computazionali più e più veloci. Un approccio più moderato consiste nell'identificare gli elementi di dati che richiedono questo livello di sicurezza e criptare solo gli elementi necessari.
Rilevamento delle minacce: L'inclusione di dispositivi mobili e social network aumenta in modo esponenziale sia la quantità di dati che le opportunità per le minacce alla sicurezza. È quindi importante che le organizzazioni adottino un approccio multiperimetro alla sicurezza.

Quindi, l'infrastruttura fisica abilita tutto e l'infrastruttura di sicurezza protegge tutti gli elementi nel tuo ambiente Big Data. Il livello successivo nello stack sono le interfacce che forniscono accesso bidirezionale a tutti i componenti dello stack, dalle applicazioni aziendali ai feed di dati da Internet.

Una parte importante del design di queste interfacce è la creazione di una struttura coerente condivisibile sia all'interno che all'esterno dell'azienda, nonché con partner tecnologici e partner commerciali.

Per decenni, i programmatori hanno utilizzato API per fornire accesso ae da implementazioni software. I fornitori di strumenti e tecnologie faranno di tutto per assicurare che sia un compito relativamente semplice creare nuove applicazioni usando i loro prodotti.Sebbene sia molto utile, a volte è necessario per i professionisti IT creare API personalizzate o proprietarie esclusive dell'azienda.

Potrebbe essere necessario farlo a vantaggio della concorrenza, un'esigenza unica per la propria organizzazione o qualche altra esigenza aziendale e non è un compito semplice. Le API devono essere ben documentate e mantenute per preservare il valore per l'azienda. Per questo motivo, alcune aziende scelgono di utilizzare i toolkit API per iniziare subito questa importante attività.

I toolkit API hanno un paio di vantaggi rispetto alle API sviluppate internamente. Il primo è che i toolkit API sono prodotti creati, gestiti e gestiti da una terza parte indipendente. In secondo luogo, sono progettati per risolvere un requisito tecnico specifico.

Le sfide relative ai Big Data richiedono un approccio leggermente diverso allo sviluppo o all'adozione dell'API. Poiché gran parte dei dati non è strutturata e viene generata al di fuori del controllo dell'azienda, una nuova tecnica, chiamata Natural Language Processing (NLP), sta emergendo come metodo preferito per l'interfaccia tra i big data e i programmi applicativi.

La PNL consente di formulare query con la sintassi del linguaggio naturale anziché un linguaggio di query formale come SQL. Per la maggior parte degli utenti di big data, sarà molto più facile chiedere "Elenco di tutti i consumatori maschi sposati tra i 30 ei 40 anni che risiedono negli Stati Uniti sudorientali e sono fan di NASCAR" piuttosto che scrivere una query SQL a 30 righe per la risposta.

Poiché la maggior parte della raccolta e dello spostamento dei dati ha caratteristiche molto simili, è possibile progettare una serie di servizi per raccogliere, pulire, trasformare, normalizzare e archiviare elementi di dati di grandi dimensioni nel sistema di archiviazione di propria scelta.

Per creare la massima flessibilità necessaria, la fabbrica può essere guidata con descrizioni dell'interfaccia scritte in XML (Extensible Markup Language). Questo livello di astrazione consente di creare interfacce specifiche in modo facile e veloce senza la necessità di creare servizi specifici per ciascuna origine dati.

In pratica, è possibile creare una descrizione delle interfacce delle applicazioni SAP o Oracle utilizzando qualcosa come XML. Ciascuna interfaccia utilizza lo stesso software sottostante per migrare i dati tra l'ambiente big data e l'ambiente di applicazione di produzione indipendentemente dalle specifiche di SAP o Oracle. Se hai bisogno di raccogliere dati dai siti sociali su Internet, la pratica sarebbe identica.

Descrivi le interfacce ai siti in XML, quindi coinvolgi i servizi per spostare i dati avanti e indietro. In genere, queste interfacce sono documentate per l'uso da parte di tecnici interni ed esterni.