Modelo vectorial generalizado

Introducción

La modelación del proceso de recuperación de información de manera vectorial surge por primera vez en 1968, por Gerard Salton y Lesk.[1]

Este modelo tiene su base en el álgebra lineal multidimensional y ofrece características destacables en cuanto a diseño, implementación y resultados. Los términos indexados como los documentos se modelan como vectores, los cuales son llamados vectores-términos y vectores-documentos, respectivamente. El conjunto de vectores términos representa la base de dicho espacio vectorial. El peso de un término indexado en un documento representa la componente del documento asociada al correspondiente vector término de la base.

En el modelo adoptado por Salton asume que los vectores términos son ortonormales, pero no se especifica nada acerca de la correlación de estos.

Es un modelo que deriva del clásico propuesto por Salton, y en realidad podemos contemplarlo como una extensión del mismo, ya que los principios en que está basado son muy parecidos, se puede decir que el modelo vectorial es un caso particular del Modelo Vectorial Generalizado, el cual permite, mediante transformaciones del vectorial, tomar en cuenta las relaciones entre los términos, y cuyo propósito principal es el de integrarle naturalmente al modelo, el cómputo de la correlación entre términos. También es relativamente fácil de implementar sobre sistemas que tienen implementado el modelo vectorial.[2]

Ideas Básicas

La idea fundamental que plantea el modelo vectorial es que la colección de documentos y la consulta se representan como vectores multidimensionales. El espacio vectorial sobre el que se definen estos vectores está generado por el conjunto de vectores términos {} ( = 1,.., n). De esta idea podemos definir formalmente las siguientes expresiones.

Documentos

(1)

Vectores de Peso (términos indexados i en el documento j)

- representa el peso asociado al término indexado i en el documento j

Consultas

(2)

Vectores de Peso (términos indexados i en la consulta j)

- representa el peso asociado al término indexado i en la consulta q

Ranking

(3)

Determina cuan relevante es un documento a una consulta q se determina la magnitud del coseno del ángulo entre ellos.

Al plantear los vectores documentos en forma matricial tenemos:

(4)

Donde y

Si planteamos de igual manera la función de similitud en forma matricial nos queda:

(5)

Donde:

Esta es una generalización del MRI Vectorial Clásico, pues este se puede obtener como caso particular haciendo G= I (Matriz Identidad), de lo cual podemos decir que en este caso t es ortonormal.

Modelo Vectorial Generalizado

El MRI Vectorial Generalizado tiene sus principios en el Álgebra Booleana y la integración teórica de esta en el modelo vectorial.

Sea el álgebra booleana generada por n literales .

Un minterm sobre es una conjunción donde cada literal o su negación aparece exactamente una vez.

Si tenemos n-literales se pueden conformar minterm.

Si denotamos como {} al conjunto de minterms sobre , implica que a cada minterm se le puede asociar una etiqueta donde es decir:

, donde

Una expresión booleana se puede transformar de manera única en una disyunción de minterms. En especial un literal de se puede expresar de manera única como:

para todo

Se puede generalizar el álgebra booleana de y representar el conjunto de minterms {} como un conjunto de vectores ortonormales sobre :

Correlación y Representación de Términos

La correlación de dos términos indexados depende de la cantidad de documentos en los que ellos aparecen juntos. El MRI Vectorial Generalizado se basa en esta idea para determinar el grado de correlación de dos términos. Pretendemos mostrar como el producto escalar de los vectores de términos determina el grado de correlación entre estos, demostrando así que es la representación correcta del modelo vectorial general, lo que refleja implícitamente la relevancia a la dependencia entre términos.

Supongamos que la colección de documentos está representada por un conjunto de vectores binarios.

Entonces el k-ésimo documento de la colección se representa como:[3]

, donde:

Para obtener la representación explícita del véctor término sumemos los vectores que representan a los minterm, multipliquémoslos por su factor de correlación asociado al término indexado i y normalicemos el vector.

Por lo que podemos decir que:

donde,

El producto escalar entre dos vectores términos proporciona una medida “normalizada" de la cantidad de documentos en los que ellos aparecen. Representar los documentos como vectores de valores reales lo único que modifica es el factor de correlación asociado a un término indexado, dado por .Tomando como base la definición la definición general de modelo vectorial tenemos que:

Obteniéndose, de manera general, como grado de correlación entre dos términos indexados:

Los cuales quedan almacenados en la matriz G y son utilizados en el cómputo del ranking como se planificó inicialmente.

Definición Formal del Modelo Vectorial Generalizado

Se define como el cuádruplo: MVG = <D,Q,F,R>

Documentos (D): Vectores de peso dados por (1)

Consultas (Q): Vectores de peso dados por (2)

Framework (F): Álgebra Booleana y Lineal. Espacio vectorial n-dimensional con vectores de dimensión 2𝑛

Ranking (R): Ecuación (5)

Ventajas y Desventajas

Ventajas:

  • El aporte fundamental de este modelo es la definición formal y elegante de un framework que permita la representación de dependencia entre términos indexados y aproveche las bondades del modelo vectorial.
  • Establece una función de correlación entre los términos.
  • Posee todas las ventajas del MRI Vectorial Clásico.
  • Ofrece nuevas ideas desde un punto de vista teórico y enriquece el MRI Vectorial Clásico.

Desventajas:

  • No está claro que en situaciones prácticas sea superior al modelo clásico.
  • El costo computacional del cómputo del ranking puede ser enorme en colecciones de documentos suficientemente grandes.
  • Su implementación tiene mayor complejidad que los modelos clásicos.
  • Al construir los vectores términos a partir de los documentos, al modificar la colección de documentos habrá que recalcular nuevamente todos los valores almacenados en el sistema, tanto de los vectores términos como de los vectores documentos.

Referencias

  1. Generalized Vector Space Model In Information Retrieval, S.K.M. Wong, Wojciech Ziarko and Patrick C.N. Wong, Department of Computer Science, University of Regina, Regina, Sask., Canada S4S OA2.
  2. Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier: Modern Information Retrieval. New York: ACM; Harlow, Essex: Addison-Wesley Longman, 1999.
  3. A Generalized Vector Space Model for Text Retrieval Based on Semantic Relatedness, George Tsatsaronis and Vicky Panagiotopoulou, Department of Informatics, Athens University of Economics and Business, 76, Patision Str., Athens, Greece
Este artículo ha sido escrito por Wikipedia. El texto está disponible bajo la licencia Creative Commons - Atribución - CompartirIgual. Pueden aplicarse cláusulas adicionales a los archivos multimedia.