Casa Finanza personale Come cercare i dati di Predictive Analytics - dummies

Come cercare i dati di Predictive Analytics - dummies

Sommario:

Video: Philip Evans: How data will transform business 2025

Video: Philip Evans: How data will transform business 2025
Anonim

Per utilizzare i dati di analisi predittiva necessari per sapere come trovare le informazioni che si desidera trovare. Esistono due concetti principali di ricerca dei dati in preparazione per l'utilizzo nell'analisi predittiva:

  • Prepararsi ad andare oltre la ricerca di parole chiave di base

  • Rendere semanticamente ricercabili i dati

Come utilizzare la ricerca basata sulle parole chiave in modalità predittiva analisi

Immagina se tu fossi incaricato di cercare grandi quantità di dati. Un modo per affrontare il problema è quello di pubblicare una query di ricerca che consiste (ovviamente) di parole. Lo strumento di ricerca cerca le parole corrispondenti nel database, nel data warehouse o fruga in qualsiasi testo in cui risiedono i tuoi dati.

Supponiamo che stia emettendo la seguente query di ricerca: il Presidente degli Stati Uniti visita l'Africa . I risultati della ricerca saranno costituiti da un testo che contiene esattamente una o una combinazione delle parole Presidente, Stati Uniti, visite, Africa . Potresti ottenere le informazioni esatte che stai cercando, ma non sempre.

E i documenti che non contengono nessuna delle parole precedentemente menzionate, ma una combinazione dei seguenti: Viaggio di Obama in Kenya .

Nessuna delle parole che hai inizialmente cercato è lì - ma i risultati della ricerca sono semanticamente (significativamente) utili. Come puoi preparare i tuoi dati per essere semanticamente recuperabili? Come puoi andare oltre la tradizionale ricerca per parole chiave? Le tue risposte possono essere trovate se continui a leggere.

Come utilizzare le ricerche semantiche nell'analisi predittiva

Un'illustrazione di come funziona la ricerca basata sulla semantica è un progetto che Anasse Bari ha condotto presso il World Bank Group, un'organizzazione internazionale la cui missione principale è combattere la povertà in tutto il mondo.

Il progetto intendeva investigare la ricerca e l'analisi aziendale esistente su larga scala sul mercato e costruire un prototipo per una struttura all'avanguardia che avrebbe organizzato i dati della Banca Mondiale - la maggior parte dei quali era una raccolta non strutturata di documenti, pubblicazioni, rapporti di progetto, riassunti e casi studio.

Questa enorme conoscenza preziosa è una risorsa utilizzata per la principale missione della Banca di ridurre la povertà nel mondo. Ma il fatto che non sia strutturato rende difficile accedere, acquisire, condividere, capire, cercare, estrarre dati e visualizzare.

La Banca Mondiale è un'immensa organizzazione, con molte divisioni in tutto il mondo. Una delle principali divisioni si stava sforzando di avere un quadro ed era pronta a stanziare risorse per aiutare la squadra di Bari a costituire la Rete di sviluppo umano all'interno della Banca Mondiale.

Il vicepresidente della Human Development Network ha delineato un problema che scaturiva dall'ambiguità: la sua divisione utilizzava diversi termini e concetti che avevano lo stesso significato generale ma sfumature diverse.

Per esempio, termini come climatologia, cambiamenti climatici, esaurimento dell'ozono di gas, e emissioni di gas serra erano tutti correlati semanticamente ma non identici nel significato. Voleva una capacità di ricerca abbastanza intelligente da estrarre i documenti che contenevano concetti correlati quando qualcuno cercava uno di questi termini.

La struttura del prototipo per quella funzionalità selezionata dal team di Bari è stata l'architettura non strutturata di gestione delle informazioni (UIMA), una soluzione basata su software. Progettato originariamente da IBM Research, UIMA è disponibile in software IBM come IBM Content Analytics, uno degli strumenti che ha alimentato IBM Watson, il famoso computer che ha vinto il gioco Jeopardy.

Il team di Bari ha unito le forze con un team di talento di IBM Content Management e Enterprise Search, e in seguito con un team IBM Watson, per collaborare a questo progetto.

Una soluzione non strutturata di gestione delle informazioni (UIM) è un sistema software che analizza grandi volumi di informazioni non strutturate (testo, audio, video, immagini e così via) per scoprire, organizzare e fornire conoscenze pertinenti a il client o l'utente finale dell'applicazione.

L'ontologia di un dominio è una serie di concetti e termini correlati, in particolare a un dominio. Una soluzione basata su UIMA utilizza ontologie per fornire tag semantici, che consente una ricerca arricchita indipendentemente dal formato dei dati (testo, sintesi vocale, presentazione di PowerPoint, posta elettronica, video e così via). UIMA aggiunge un altro livello ai dati acquisiti, quindi aggiunge metadati per identificare i dati che possono essere strutturati e cercati semanticamente.

La ricerca semantica si basa sul significato contestuale dei termini di ricerca così come appaiono nello spazio dati ricercabile che UIMA costruisce. La ricerca semantica è più accurata della normale ricerca basata su parole chiave perché una query utente restituisce risultati di ricerca non solo di documenti che contengono i termini di ricerca, ma anche di documenti semanticamente rilevanti per la query.

Se stai cercando biodiversità in Africa , una ricerca tipica (basata su parole chiave) restituirà documenti con le parole biodiversità e Africa esatte. Una ricerca semantica basata su UIMA restituirà non solo i documenti che hanno queste due parole, ma anche tutto ciò che è semanticamente rilevante per i documenti "biodiversità in Africa" ​​che contengono tali combinazioni di parole come "risorse vegetali in Africa", "risorse animali in Marocco, "o" risorse genetiche nello Zimbabwe. "

Attraverso il tagging semantico e l'uso di ontologie, le informazioni diventano semanticamente recuperabili, indipendentemente dalla lingua o dal supporto in cui sono state create le informazioni (Word, PowerPoint, e-mail, video e così via). Questa soluzione fornisce un singolo hub in cui i dati possono essere acquisiti, organizzati, scambiati e resi semanticamente recuperabili.

I dizionari di sinonimi e termini correlati sono open-source (disponibili gratuitamente) oppure puoi sviluppare i tuoi dizionari specifici per il tuo dominio o i tuoi dati. È possibile creare un foglio di calcolo con la parola radice e le relative parole correlate, sinonimi e termini più ampi. Il foglio di calcolo può essere caricato in uno strumento di ricerca come IBM Content Analytics (ICA) per potenziare la ricerca aziendale e l'analisi dei contenuti.

Come cercare i dati di Predictive Analytics - dummies

Scelta dell'editore

Come salvare le immagini in un file immagine in R - dummies

Come salvare le immagini in un file immagine in R - dummies

Se vuoi pubblicare le tue risultati, è necessario salvare la trama in un file in R e quindi importare questo file grafico in un altro documento. Tuttavia, per la maggior parte del tempo, potresti semplicemente voler utilizzare la grafica R in modo interattivo per esplorare i tuoi dati. Per salvare un grafico su un'immagine ...

Come cercare più parole in R - dummies

Come cercare più parole in R - dummies

Quando si lavora con il testo in R, potrebbe essere necessario per trovare parole o motivi all'interno del testo. Immagina di avere una lista degli stati negli Stati Uniti e vuoi scoprire quali nomi di stato consistono in due parole. Per trovare sottostringhe, è possibile utilizzare la funzione grep (), che prende due argomenti essenziali: ...

Come cercare le singole parole in R - dummies

Come cercare le singole parole in R - dummies

Quando lavori con il testo, spesso tu può risolvere i problemi se riesci a trovare parole o motivi all'interno del testo. R rende questo facile da fare. Immagina di avere una lista degli stati negli Stati Uniti e vuoi scoprire quale di questi stati contiene la parola Nuovo. Per indagare su questo ...

Scelta dell'editore

Come calcolare le detrazioni e i crediti di imposta sugli investimenti immobiliari per l'esame di licenza immobiliare

Come calcolare le detrazioni e i crediti di imposta sugli investimenti immobiliari per l'esame di licenza immobiliare

Una detrazione fiscale è qualcosa che puoi vedere nell'esame di licenza immobiliare che puoi detrarre dal reddito di un investimento immobiliare per ridurre le tasse. Un credito d'imposta è qualcosa che puoi detrarre dalle tasse dovute. I governi federali e talvolta statali creano programmi che consentono crediti d'imposta o detrazioni per ...

Fattori economici che influenzano il valore per l'esame di licenza immobiliare - dummies

Fattori economici che influenzano il valore per l'esame di licenza immobiliare - dummies

Valore doesn ' semplicemente succede; le persone devono crearlo. La maggior parte di queste azioni personali che saranno trattate durante l'esame di licenza immobiliare, di solito chiamate influenze economiche, non sono altro che normali comportamenti umani. Il test pone due tipi di domande su questi principi o fattori economici. Vedrai domande sulle definizioni e ...

Come calcolare le aliquote fiscali per l'esame di licenza immobiliare - dummy

Come calcolare le aliquote fiscali per l'esame di licenza immobiliare - dummy

Pur calcolando la tassa le tariffe non sono qualcosa che devi sapere esattamente come fare per l'esame di licenza immobiliare, è qualcosa che devi capire in generale per rispondere a domande di non-matematica sul processo. Sapere come calcolare le tasse non è una cosa brutta da sapere, perché probabilmente si pagano le tasse di proprietà e ...

Scelta dell'editore

Suggerimenti per la registrazione Regole di gioco logiche sull'LSAT - manichini

Suggerimenti per la registrazione Regole di gioco logiche sull'LSAT - manichini

La maggior parte dei giochi di logica sull'LSAT hanno tre, quattro o cinque condizioni o regole che limitano il modo in cui giochi con i pezzi. Per ordinare i giochi, le restrizioni forniscono indizi su come i pezzi possono essere posizionati in relazione l'uno con l'altro. I tipi comuni di regole di ordinazione sono obiettivi, distanziatori e arrangiatori. Regole di destinazione I bersagli danno ...

Come gestire il tuo tempo con saggezza sul TASC - dummies

Come gestire il tuo tempo con saggezza sul TASC - dummies

Perché ogni sezione del TASC, oppure Prova l'esame di completamento secondario, ha un limite di tempo, vorrai essere consapevole di quanto tempo è passato mentre stai facendo il test. Un modo per gestire efficacemente il tuo tempo è semplicemente indossando un orologio. I centri di test potrebbero non avere sempre un orologio disponibile e ...

Rendendo più semplice il giorno di prova SSAT o ISEE - manichini

Rendendo più semplice il giorno di prova SSAT o ISEE - manichini

Non è possibile effettuare SSAT o ISEE più facile, ma puoi iniziare la giornata di test correttamente e renderlo più semplice e meno stressante, il che può portare a risultati migliori durante l'esame di ammissione. Ecco alcuni suggerimenti da tenere a mente al giorno del test SSAT o ISEE: riposati molto. La ...