martes, 2 de mayo de 2017

Clase n3: 02-Mayo-2017 - Filtrado Basado en Contenido

Recomendación Basado en Contenido

Este sistema trabaja con datos entregados por los usuarios, ya sea explícitos mediante dando rating a un producto, compra de productos/servicios anteriores o implícitamente dando un click a un link más el contenido descriptivo (características) del item. Basados en estos datos, se hace un perfil para el usuario para luego hacer recomendaciones para él. Entre más datos se tenga mejor será el sistema de recomendación.

Los modelos colaborativos tienen las desventajas mencionas (cold-start, new-item problem, sparcity y transparency). Es por ellos que los sistema recomendación en contenido suelen ser utiles porque no sufren los problemas mencionados y se pueden combinar con diferentes modelos de aprendizajes y de procesamiento de texto.

Estos modelos funcionan bien como se centran un en solo tipo de contenido de items, como Pandora en recomendar música que escuchar o como IMDB en que película ver, pero cuando se quiere hacer recomendación de un item con otro tipo de contenido estos modelos no logran bien su objetivo.


Sin embargo tiene aspectos en contra:

  • sobre-especialización, creando recomendaciones similares creando burbujas.
  • pueden ser menos precisos en su recomendación que los basados en colaborativo 

Modelo del Algoritmo




Representación del Contenido


  • Bolsa de Palabras
  • VSM:
    • Frecuencia de Terminos
    • Log de Frecuencia de los Terminos
    • TF-IDF: más conocidos  y usado

Representación Semántica del Contenido

  • Opción 1: Semántica explicita
    • Ontologias
    • WordNet
    • ConcepNet
  • Opción 2:Inferir representación semántica
    • LSI: Latent Semantic Indexing
    • LDA Latent Dirichlet Allocation



Búsqueda de Items Similares

  • Distancia Euclidiana
  • Distancia Coseno
  • Okapi BM25

Procesamiento  Adicionales

  • Pasar a mayuscula/Minuscula
  • Tokenization
  • Stemming
  • Lemmatization




Modelos de aprendizajes ocupados:

  • a. Relevance Feedback
  • b. Genetic Algorithms
  • c. Neural Networks
  • d. Bayesian Classifier

 info