En este modelo de recuperación de información, cada documento se representa a través de un vector de n dimensiones cuyas componentes son los términos que aparecen en el texto. El valor de cada componente se calcula a partir del IDF (Inverse Document Frequency) y se obtiene una representación vectorial para las consultas, que se comparan con los vectores de los documentos empleando una función de similitud. Para obtener la similitud entre un documento y su consulta se pueden utilizar algunas de las funciones siguientes:
Producto escalar:
Distancia euclídea:
Fórmula del coseno:
Entre las ventajas de este modelo de recuperación se encuentran:
Como principal desventaja a destacar es que se supone que los términos de
indexación son independientes.
Página creada por David Miguel Campos Ramírez
Última Actualización: 07-04-2007
Wiki Grupo 1 - Recuperación y Organización de la información - Modelos de Recuperación I