Modelo de relevancia probabilístico

El modelo de relevancia probabilístico fue propuesto por Robertson y Spark-Jones en 1976 con el objetivo de representar el proceso de recuperación de información desde el punto de vista de las probabilidades.<ref>S.E. Robertson; K.S. Jones (May - June 1976), Relevance weighting of search terms, Journal of teh American Society for Information Science, pp. 129-146.</ref>

Presentación

Este modelo hace una estimación de la probabilidad de que un documento dj sea relevante una consulta q, asumiendo que dicha probabilidad depende de la representación del documento y de la consulta. Además se asume que existe un subconjunto de documentos de la colección que el usuario prefiere como respuesta a la consulta q. Dicho subconjunto ideal se denota por REL y debe maximizar la probabilidad total de relevancia para un dicho usuario. La predicción se basa en que los documentos que se encuentran en el conjunto REL son relevantes para la consulta y los que no están presentes son no relevantes.

Considerando una consulta se puede dividir una colección de N documentos en cuatro subconjuntos distintos:

REL conjunto de documentos relevantes
REC conjunto de documentos recuperados
RR conjunto de documentos relevantes recuperados
NN el conjunto de documentos no relevantes no recuperados

Archivo:ConjuntosJM.jpg

Conjuntos en los que se divide la colección de conjuntos.

En una primera fase se hace una descripción probabilística preliminar del conjunto REL. Posteriormente el usuario analiza cuales de los documentos del cjto REL son realmente relevantes, se hace un proceso de refinamiento de dicho conjunto y se pasa nuevamente al primer paso. Se sigue el procedimiento hasta obtener una probabilidad aceptable o si el usuario decide terminar y trabajar con los documentos recobrados.

Dada una consulta q y un documento dj en la colección este modelo trata de estimar la probabilidad de que el usuario encuentre interesante al documento. Si denotamos al conjunto de documentos relevantes (REL) por R y a su complemento por R techo la función de similitud quedaría como muestra la figura.

Archivo:SimilitudJM.jpg

Función de similitud.

Definición Formal

Siguiendo la notación tradicional para la deficición formal de un Modelo de recuperación de información, la definición formal del Modelo Probabilístico es la siguiente:<ref>Baeza-Yates, R., Ribeiro-Net, B. (1998) Modern Information Retrieval. 30-34, 38-41, 61-65</ref>

Documentos: Vectores de pesos (binarios) de palabras (términos indexados).
Consultas: Vectores de pesos (binarios).
Marco de Trabajo: Teoría de probabilidades.
Ranking: Cálculo de la probabilidad de que el documento dj sea relevante dada la consulta q sobre la probabilidad de que no sea relevante.

Modelos relacionados

Este marco de trabajo posee algunas limitaciones que necesitan ser superadas en próximos desarrollos del mismo:

No existe un valor exacto del valor de la probabilidad a usar en el primer paso del algoritmo.
Los términos indexados no poseen peso.
No se considera la dependencia entre términos.

Para responder a estas limitaciones existen otros modelos basados en el marco de trabajo probabilístico, por ejemplo el modelo de independencia binaria, desarrollado por los mismos autores. El esquema de pesos Okapi(BM25) es derivado de este marco de trabajo al igual que el Okapi(BM25F).

Referencias

Modelo de relevancia probabilístico

Sumario

Presentación

Definición Formal

Modelos relacionados

Referencias

Menú de navegación

Herramientas personales

Espacios de nombres

Variantes

Vistas

Más

Buscar

Navegación

Herramientas

Tipos de Riesgo

Plataformas

Normas