FILTRADO COLABORATIVO Y ERROR DE PREDICCIÓN

El filtrado colaborativo es una técnica enfocada en la predicción y recomendación  de elementos a partir de recolección  de preferencias de muchos y distintos tipos de usuarios . Su principal premisa es que si dos o más usuarios tienen similares características deben tener similares preferencias en ciertos productos y contenidos.

Existen dos tipos de filtrado colaborativo, como son los basados en memoria y los basados en modelos. Los basados en memoria realizan las predicciones a partir de una recopilación de datos en la que se almacenan los usuarios, los contenidos y los ratings con sus respectivas relaciones. A través de este historial de valoraciones, se puede inferir una lista de productos recomendados.


Los basados en modelos, se basan en “machine learning” o en algoritmos de aprendizajes, es decir, pueden ser entrenados de manera que vayan mejorando su precisión en las predicciones y/o recomendaciones a los usuarios, a medida que se entrena el modelo. En términos sencillos, se calcula el valor esperado para cada contenido en función de las valoraciones ya realizadas.

Filtrado colaborativo basado en el usuario

Este algoritmo se basa en fórmulas matemáticas para cuantificar la semejanza entre dos o más usuarios. Es el caso de encontrar los K vecinos (KNN) más cercanos al usuario , por medio de indicadores de similaridad, que formalmente queda expresado de la siguiente forma:


La similaridad es una medida de correlación entre variables, donde es posible relacionar a usuarios u objetos con ciertos atributos o características que lo identifican. Si bien existen múltiples medidas de correlación, para el caso de KNN se utilizará  el coeficiente de Pearson, que describe la similaridad entre (u,n) como sigue:


Suponga que tiene 3 usuarios que califican tres películas con distintos ratings (Figura 1), y además hay un usuario activo,valorando las mismas películas. El objetivo es medir la similaridad con cada uno de los usuarios, pudiendo identificar alguna correlación fuerte entre el usuario activo y el resto de los usuarios (1, 2 y 3), con la idea de poder realizar una recomendación al usuario activo por medio de las características similares que se encontraron.

Figura 2: Usuarios relacionados con otros items

Donde los usuarios que calificaron la misma película que el usuario activo, tienen seleccionada preferencias por otros items (estos podrían ser otras películas, música, videos, documentos etc.). Entonces, si se quiere predecir utilizando a los "u" vecinos para los "n" la especificación queda como sigue:




Donde los resultados relacionados con los usuarios 1 y 2, son los siguientes:


Estos resultados nos indican que la predicción para los usuarios 1 y 2 fue de un rating de 3.563 para el item 2, y donde estos usuarios previamente habían calificado este item en 3 y 4, respectivamente. Denotando que la predicción quedó entre estas dos calificaciones. Ahora bien, lo que se desconoce es si esta predicción es buena o mala, o si pueden existir mejores, donde la distancia entre el valor observado y la predicción sea menor a 0,437 en valor absoluto.

Para lograr medir cual es la mejor predicción y en consecuencia entregar una mejor recomendación existen 3 (y posiblemente más) conocidas métricas de estimación del error, como los son: RMSE, MSE y MAE.

1) MSE

El error cuadrático medio, mide el promedio de los errores al cuadrado, es decir, contabiliza la diferencia entre el valor observado y la estimación que se hace de este. En términos estadísticos, esta métrica no es frecuentemente usado, dado que se prefiera la raíz cuadrada de este indicador (RMSE), dado que es más fácil explicar y definir la distancia de manera lineal (desviación) que de manera cuadrática (varianza).




2) RMSE


La raíz del error medio cuadrado, es la raíz de MSE, y su medida se encuentra en la unidad de la variable dependiente, que en términos simples es la desviación de la predicción versus el valor observado.


3) MAE

El error medio absoluto, también es una medida de dispersión, pero considera el valor absoluto de los errores, solucionando el problema de las desviaciones negativas. Entregando el valor de la distancia entre la predicción y el valor observado, sin considerar la dirección de la dispersión, al igual que RMSE.

Estas son últimas métricas, expresan error promedio de predicción del modelo en unidades de la variable de interés, y pueden variar de 0 a ∞. Además, estos indicadores son puntuaciones orientadas a cosas negativas, lo que significa que valore más bajos son mejores.


Las diferencias entre estas medidas, se encuentra en el peso relativo que se le dan a los errores altos, por lo tanto tomar la raíz cuadrada de los errores cuadritos medios tiene algunas implicaciones interesantes para RMSE. Puesto que los errores se colocan al cuadrado antes de que se promedien, por lo que el RMSE da un peso relativamente alto a los errores grandes, esto significa que debe ser más útil cuando los errores grandes son particularmente indeseables.


El filtrado colaborativo presenta varios problemas en su proceso, entre estos se encuentra la limitación de la data, producto que requiere grandes volúmenes de usuarios realizando valoraciones de contenidos similares, los cuales deben permitir cuantificar vencida, predicciones y recomendaciones. Adicionalmente, la estabilidad para poder calcular vecinos cercanos, dado que su costo computacional aumenta a medida que la cantidad de datos aumenta.


Cuando aparece un nuevo contenido este no es recomendado hasta que no haya recibido alguna valoración, presentando así el problema del nuevo elemento (cold star). Entonces , si un nuevo usuario se registra en algún sitio web, este no tendrá información suficiente sobre sus preferencias, debido a que no ha realizado valoraciones de los contenidos publicados. Por lo tanto, este nuevo usuario no puede ser asociado a ningún grupo y no recibirá recomendaciones.

Comentarios

Entradas populares de este blog

Breve Historia