Recuperacion y Organizacion de la Informacion

Modelo probabilístico

La idea principal del funcionamiento de este modelo de recuperación consiste en el cálculo de la probabilidad de que un documento sea relevante para una consulta realizada. La diferencia básica con los modelos de recuperación anteriores es que éstos están basados en la equiparación en la forma más «dura». En el booleano es o no coincidente, y en el vectorial el umbral de similitud es un conjunto, y si un documento no está en dicho conjunto no es similar y, por lo tanto, no recuperable.

La equiparación probabilística se basa en que, dados un documento y una pregunta, es posible calcular la probabilidad de que ese documento sea relevante para esa pregunta.

Si un documento es seleccionado aleatoriamente de la base de datos hay cierta probabilidad de que sea relevante a la pregunta. Si una base de datos contiene N documentos, n de ellos son relevantes, entonces la probabilidad se estima en:

P(rel) = n/ N

Siguiendo la teoría de la probabilidad, la de que un documento no sea relevante a una pregunta dada viene expresada por la siguiente formula:

P(|rel) = 1 - P (rel) = N - n/ N

Obviamente, los documentos no son elegidos aleatoriamente, sino que se eligen sobre la base de la equiparación con la pregunta —basado en el análisis de los términos contenidos en ambos—. Así, la idea de relevancia está relacionada con los términos de la pregunta que aparecen en el documento.

Tras una aproximación, se obtiene un subconjunto inicial, que usaremos para refinar la búsqueda, recalculando las probabilidades, incluyendo en las fórmulas valores como el número de archivos en este subconjunto, o premiando a los documentos que pertenezcan a él. Estas operaciones se repiten iterativamente, hasta que se obtienen las probabilidades definitivas.

Una de las principales desventajas del modelo de recuperación probabilístico es que puede que no todos los documentos seleccionados sean realmente relevantes. Entonces, se debe considerar la posibilidad de que un documento seleccionado sea relevante o no. Supongamos que un conjunto de documentos S de la base de datos ha sido seleccionado en respuesta a una pregunta. La cuestión es hasta qué punto éste es el conjunto que debería haber sido seleccionado en respuesta a la pregunta. Un criterio para decidir esto podría ser seleccionar el conjunto si es más probable que un documento del conjunto sea más relevante que otro que no lo es.

Recuperacion y Organizacion de la Informacion

Modelos de Recuperacion I

Modelo probabilístico

Enlaces