Frode Rilevamento con Hadoop - dummies

L'enorme volume di transazioni rende più difficile individuare le frodi a causa del volume di dati, ironia della sorte, questa stessa sfida può aiutare a creare modelli predittivi di frodi migliori - un'area in cui Hadoop brilla.

Nel mondo interconnesso di oggi, il volume e la complessità delle transazioni rendono più difficile che mai trovare una frode. Quello che si chiamava "trovare un ago in un pagliaio" è diventato il compito di "trovare un ago specifico in pile di aghi. “

Gli approcci tradizionali alla prevenzione delle frodi non sono particolarmente efficienti. Ad esempio, la gestione dei pagamenti illeciti è spesso gestita dagli analisti che controllano ciò che equivale a un campione molto piccolo di richieste abbinate alla richiesta di documentazione medica da parte di coloro che hanno inviato messaggi mirati. Il termine del settore per questo modello è la retribuzione: i reclami vengono accettati e pagati e i processi cercano pagamenti in eccesso intenzionali o non intenzionali attraverso la revisione post-pagamento di tali richieste.

Quindi come viene fatto il rilevamento delle frodi ora? A causa dei limiti delle tecnologie tradizionali, i modelli di frodi vengono creati dai dati di campionamento e utilizzando il campione per creare una serie di modelli di previsione e di frode. Quando si confronta questo modello con un reparto antifrode ancorato a Hadoop che utilizza l'intero set di dati - nessun campionamento - per costruire i modelli, è possibile vedere la differenza.

Il tema ricorrente più comune che si riscontra nella maggior parte dei casi di utilizzo di Hadoop è che aiuta le aziende a superare il soffitto di vetro sul volume e sulla varietà di dati che possono essere incorporati nell'analisi delle decisioni. Più dati hai (e più memoria immagazzini), migliori saranno i tuoi modelli.

Il mixaggio di forme non tradizionali di dati con il tuo set di transazioni storiche può rendere i tuoi modelli di frodi ancora più robusti. Ad esempio, se un lavoratore fa una richiesta di risarcimento per un maltrattato da un incidente di caduta e caduta, un pool di milioni di casi di esito del paziente che dettagliano il trattamento e la durata del recupero aiuta a creare un modello di individuazione per la frode.

Come esempio di come questo modello può funzionare, immagina di provare a scoprire se i pazienti nelle aree rurali si riprendono più lentamente di quelli nelle aree urbane. È possibile iniziare esaminando la vicinanza ai servizi di fisioterapia. Esiste una correlazione tra i tempi di recupero e la posizione geografica?

Se il reparto antifrode determina che un determinato infortunio richiede tre settimane di recupero ma che un agricoltore con la stessa diagnosi vive un'ora da un fisioterapista e l'impiegato ha un medico nel suo ufficio, questa è un'altra variabile da aggiungere alla frode modello di rilevamento.

Quando raccogli dati di social network per i richiedenti e trova un paziente che sostiene di soffrire di colpo di frusta si vanta di completare la serie di eventi di resistenza noti come Tough Mudder, è un esempio di miscelazione di nuovi tipi di dati con forme dati tradizionali individuare le frodi.

Se si desidera ridurre a un livello superiore gli sforzi di rilevamento delle frodi, la propria organizzazione può lavorare per abbandonare la modellizzazione del segmento di mercato e passare alla modellazione a livello di transazione o a livello personale.

Molto semplicemente, fare una previsione basata su un segmento è utile, ma prendere una decisione basata su informazioni particolari su una singola transazione è (ovviamente) migliore. Per fare ciò, elaborate un insieme di dati più ampio di quanto sia convenzionalmente possibile nell'approccio tradizionale. È utilizzato solo (massimo) il 30 percento delle informazioni disponibili che potrebbero essere utili per la modellazione di frodi.

Per la creazione di modelli di rilevamento delle frodi, Hadoop è adatto per

Gestire il volume: Ciò significa elaborare l'intero set di dati - nessun campionamento dei dati.
Gestisci nuove varietà di dati: Esempi sono l'inclusione di servizi di prossimità per la cura e circoli sociali per decorare il modello di frode.
Mantenere un ambiente agile: Abilitare diversi tipi di analisi e modifiche ai modelli esistenti.

I modellatori di frodi possono aggiungere e testare nuove variabili al modello senza dover presentare una proposta al team di amministratori del database e quindi attendere un paio di settimane per approvare una modifica dello schema e inserirla nel proprio ambiente.

Questo processo è fondamentale per il rilevamento delle frodi poiché gli ambienti dinamici hanno spesso modelli di frode ciclica che vanno e vengono in ore, giorni o settimane. Se i dati utilizzati per identificare o rafforzare nuovi modelli di rilevamento delle frodi non sono disponibili in un momento preciso, quando si scoprono questi nuovi modelli, potrebbe essere troppo tardi per evitare danni.

Valuta il vantaggio per la tua azienda non solo di creare modelli più completi con più tipi di dati, ma anche di essere in grado di aggiornare e migliorare tali modelli più velocemente che mai. L'azienda che può aggiornare e migliorare i modelli ogni giorno andrà meglio di quelli che lo fanno ogni trimestre.

Potresti credere che questo problema abbia una risposta semplice - basta chiedere al CIO le approvazioni per spese operative (OPEX) e spese in conto capitale (CAPEX) per accogliere più dati per realizzare modelli migliori e caricare l'altro 70 percento dei dati nel tuo modelli decisionali.

Potresti persino credere che questo investimento si ripaghi da solo con una migliore individuazione delle frodi; tuttavia, il problema con questo approccio è l'alto costo iniziale che deve essere immesso in dati sconosciuti , in cui non si sa se contenga informazioni davvero preziose.

Certo, triplicando le dimensioni del tuo data warehouse, ad esempio, avrai più accesso ai dati storici strutturati per mettere a punto i tuoi modelli, ma non possono ospitare scoppi dei social media. Anche le tecnologie tradizionali non sono così agili. Hadoop semplifica l'introduzione di nuove variabili nel modello e, se si scopre di non apportare miglioramenti al modello, puoi semplicemente scartare i dati e andare avanti.