lunes, 22 de mayo de 2017

Clase n5: 15-Mayo-2017 - Maquinas de Factorizacion

Maquinas de Factorizacion

La máquinas de factorización (FM) que son un nuevo modelo de clase que combina las ventajas
de SVM con modelos de factorización. Al igual que las SVM, las FM son un predictor general que
vector de características con valor real. En contraste con SVMs, los FMs interacciones entre variables utilizando parámetros factorizados. Así son capaces de estimar las interacciones incluso en problemas con sparsity, donde fallan SVMs. Lla ecuación modelo de FMs se puede calcular en tiempo lineal por lo tanto las FM pueden ser optimizadas directamente. 

A diferencia de lo no lineal de SVMs, una transformación en la forma dual no es necesaria y los parámetros del modelo se pueden estimar directamente sin la necesidad de cualquier vector de soporte en la solución. Por otro lado, existen muchos modelos de factorización diferentes
Factorización de la matriz, análisis de factores paralelos o modelos como SVD ++, PITF o FPMC. El inconveniente de estos es que no son aplicables para las tareas generales de predicción pero sólo funcionan con datos de entrada especiales. Además su modelo las ecuaciones y los algoritmos de optimización se derivan individualmente para cada tarea. 



  • FMs combinan regresión lineal/polinomial con modelos de factorización.
  •  Interacción entre variables se aprenden vía representación low-rank. 
  • Es posible la estimación de observaciones no observadas. 
  • Se pueden calcular eficientemente y tienen una buena calidad de predicción. 

lunes, 15 de mayo de 2017

Clase n5: 15-Mayo-2017 - Sistemas Recomendadores Híbridos


Sistemas Recomendadores Híbridos

Las técnicas mencionadas en las clases anteriores funcionan correctamente pero tienen los ciertos problemas como cold start, sparcity entre otros. Por eso surge la idea de combinar dos o mas estrategias para evitar algunas de carencias nombradas. Existen 7 tipo de estrategias para hacer sistemas hibridios  y estas se pueden resumir en 3 grandes grupos: Monolitico, Parelelo y Distribuido.

Estrategia de Hibridización



Diseños Generales

  1. Monolítico: Es un híbrido virtual. Característica/Conocimiento de distintas fuentes son combinadas. Por ejemplo: Valoraciones y datos de usuario demográficos o requisitos de usuario utilizados para medir la similitud
Características híbridas:
  • Características sociales: Películas que le han gustado a un usuario 
  • Características del contenido: Tipo de película (género)
  • Características híbridas: Al usuario le han gustado muchas películas que son comedia…

    1. Feature Combination
    2. Feature Augmentation




  1. Paralelizado: La salida se obtiene a partir de la combinación de distintas implementaciones: 

    1. Weighted
    2. Switching
    3. Mixed

  1. Pipeline
Un recomendador pre-procesa alguna entrada para la siguiente etapa.
Las listas de recomendación se van refinando

  • El primer recomendador excluye elementos
  • El segundo recomendador asigna valoraciones

    1. Cascade
    2. Meta-Level


Clase n5: 15-Mayo-2017 - Recomendación Basada en Contexto

Recomendación Basada en Contexto


Definición por Dey(2001)
Context is any information that can be used to characterise the situation of an entity. An entity is a person, place, or object that is considered relevant to the interaction between a user and an application, including the user and applications themselves





lunes, 8 de mayo de 2017

Clase n4: 08-Mayo-2017 - Métricas de Evaluación

Métricas de Evaluación

Métricas para Lista de Recomendación



Precision




Recall


Metricas para Predicción de Ratings


MAE: Mean Absolute Error



MSE: Mean Square Error



RMSE: Root Mean Square Error.



Metricas para Conjuntos a Ranking


MRR
Precision@N
MAP
Rank Score
DGC
nDCG

Significancia Estadísticas


Estadisticas de los Resultados
Test de Grupos

Clase n4: 08-Mayo-2017 - Slope One

Slope One



  1. Fácil de Implementar y mantener 
  2. Actualizable en línea: nuevos ratings deberían cambiar las predicciones rápidamente. 
  3. Eficiente al momento de consulta: costo principal debería llevarlo el almacenamiento. 
  4. Funciona con poco feedback del usuario 
  5. Razonablemente preciso, dento de ciertos rangos en los que una pequeña ganancia en exactitud no signifique un gran sacrificio de simplicidad y escalabilidad.

martes, 2 de mayo de 2017

Clase n3: 02-Mayo-2017 - Solr

Solr



Apache Solr es una plataforma de búsqueda de código abierto basada en una biblioteca de Java llamada Lucene. Solr es una popular plataforma de búsqueda para sitios Web, ya que puede indexar y buscar múltiples sitios y devolver recomendaciones para contenido relacionado basado en la taxonomía de la consulta de búsqueda.




Guida Complementaria para aprender a usar
http://blog.cloudera.com/blog/2015/10/how-to-use-apache-solr-to-query-indexed-data-for-analytics/

Clase n3: 02-Mayo-2017 - Filtrado Basado en Contenido

Recomendación Basado en Contenido

Este sistema trabaja con datos entregados por los usuarios, ya sea explícitos mediante dando rating a un producto, compra de productos/servicios anteriores o implícitamente dando un click a un link más el contenido descriptivo (características) del item. Basados en estos datos, se hace un perfil para el usuario para luego hacer recomendaciones para él. Entre más datos se tenga mejor será el sistema de recomendación.

Los modelos colaborativos tienen las desventajas mencionas (cold-start, new-item problem, sparcity y transparency). Es por ellos que los sistema recomendación en contenido suelen ser utiles porque no sufren los problemas mencionados y se pueden combinar con diferentes modelos de aprendizajes y de procesamiento de texto.

Estos modelos funcionan bien como se centran un en solo tipo de contenido de items, como Pandora en recomendar música que escuchar o como IMDB en que película ver, pero cuando se quiere hacer recomendación de un item con otro tipo de contenido estos modelos no logran bien su objetivo.


Sin embargo tiene aspectos en contra:

  • sobre-especialización, creando recomendaciones similares creando burbujas.
  • pueden ser menos precisos en su recomendación que los basados en colaborativo 

Modelo del Algoritmo




Representación del Contenido


  • Bolsa de Palabras
  • VSM:
    • Frecuencia de Terminos
    • Log de Frecuencia de los Terminos
    • TF-IDF: más conocidos  y usado

Representación Semántica del Contenido

  • Opción 1: Semántica explicita
    • Ontologias
    • WordNet
    • ConcepNet
  • Opción 2:Inferir representación semántica
    • LSI: Latent Semantic Indexing
    • LDA Latent Dirichlet Allocation



Búsqueda de Items Similares

  • Distancia Euclidiana
  • Distancia Coseno
  • Okapi BM25

Procesamiento  Adicionales

  • Pasar a mayuscula/Minuscula
  • Tokenization
  • Stemming
  • Lemmatization




Modelos de aprendizajes ocupados:

  • a. Relevance Feedback
  • b. Genetic Algorithms
  • c. Neural Networks
  • d. Bayesian Classifier

 info