I limiti dei dati di valutazione in Machine Learning - dummies

Video: The jobs we'll lose to machines -- and the ones we won't | Anthony Goldbloom 2024

I dati di valutazione hanno i suoi limiti nell'apprendimento automatico. Perché i sistemi di raccomandazione funzionino bene, hanno bisogno di conoscere te e altre persone, come te L'acquisizione dei dati di valutazione consente a un sistema di raccomandazione di imparare dalle esperienze di più clienti. I dati di valutazione potrebbero derivare da un giudizio (come valutare un prodotto usando stelle o numeri) o un fatto (un binario 1/0 che semplicemente indica che hai acquistato il prodotto, visto un film o interrotto la navigazione in una determinata pagina Web.

Indipendentemente dall'origine o dal tipo di dati, i dati di valutazione riguardano sempre i comportamenti. Per valutare un film, devi decidere di vederlo, guardarlo e valutarlo in base alla tua esperienza di visione del film. I sistemi di raccomandazione effettivi apprendono dai dati di valutazione in diversi modi:

Filtro collaborativo: Corrispondenze valutatori basati su somiglianze di film o prodotti utilizzati in passato. È possibile ottenere consigli basati sugli articoli piaciuto da persone simili a te o su articoli simili a quelli che ti piacciono.
Filtro basato sul contenuto: Va oltre il fatto che hai guardato un film. Esamina le caratteristiche relative a te e al film per determinare se esiste una corrispondenza in base alle categorie più grandi rappresentate dalle caratteristiche. Ad esempio, se sei una femmina a cui piacciono i film d'azione, il recommender cercherà suggerimenti che includano l'intersezione di queste due categorie.
Raccomandazioni basate sulla conoscenza: In base ai metadati, come le preferenze espresse dagli utenti e le descrizioni dei prodotti. Si basa sull'apprendimento automatico ed è efficace quando non si dispone di dati comportamentali sufficienti per determinare le caratteristiche dell'utente o del prodotto. Si chiama avvio a freddo e rappresenta una delle attività di raccomandazione più difficili perché non si ha accesso al filtro collaborativo o al filtro basato sul contenuto.

Quando si utilizza il filtro collaborativo, è necessario calcolare la somiglianza. A parte le distanze tra Euclide, Manhattan e Chebyshev, il resto di queste informazioni discute la somiglianza del coseno. La somiglianza del coseno misura la distanza angolare del coseno tra due vettori, che può sembrare un concetto difficile da afferrare ma è solo un modo per misurare gli angoli negli spazi dei dati.

Immagina uno spazio fatto di funzioni e con due punti. Puoi misurare la distanza tra i punti. Ad esempio, potresti usare la distanza euclidea, che è una scelta perfetta quando hai poche dimensioni, ma che fallisce miseramente quando hai più dimensioni a causa della maledizione della dimensionalità.

L'idea alla base della distanza del coseno è quella di utilizzare l'angolo creato dai due punti collegati all'origine dello spazio (il punto in cui tutte le dimensioni sono zero). Se i punti sono vicini, l'angolo è stretto, indipendentemente da quante dimensioni ci siano. Se sono lontani, l'angolo è abbastanza grande.

La somiglianza del coseno implementa la distanza del coseno in percentuale ed è abbastanza efficace nel dire se un utente è simile a un altro o se un film può essere associato a un altro perché gli stessi utenti lo preferiscono. L'esempio seguente individua i film che sono i film più simili al film 50, Star Wars.

stampa (colnames (MovieLense [50]))

[1] "Star Wars (1977)"

similar_movies <- somiglianza (MovieLense [50],

MovieLense [-50],

method = "cosine",

which = "items")

colnames (similar_movies) [which (similar_movies> 0. 70)]

[1] "Toy Story (1995)" < "Empire Strikes Back, The (1980)"

[3] "Raiders of the Lost Ark (1981)"

"Return of the Jedi (1983)"