Modelo booleano

El Modelo Booleano de recuperación de información(MRIB)[1] es uno de los modelos clásicos de recuperación de información(RI) y, al mismo tiempo, el primero y más adoptado.Es usado por varios sistemas de RI en estos días. [cita requerida]

Definiciones

El MRIB está basado en la Lógica Booleana y la clásica Teoría de Conjuntos en el cual ambos, los documentos a buscar y la consulta del usuario, son concebidos como un conjunto de términos.La recuperación está basada en cuando los documentos contienen o no los términos de la consulta. Dado un conjunto finito

T = {t1, t2, ..., tj, ..., tm}

de elementos llamados índices (e.g. palabras o expresiones - las cuales pueden estar lematizadas - describiendo o caracterizando documentos como son palabras dadas para un artículo de un periódico ), un conjunto finito

D = {D1, ..., Di, ..., Dn}, donde Di es un elemento del conjunto potencia de T

de elementos llamados documentos.Dada una expresión Booleana - en forma normal - Q llamada consulta como sigue a continuación:

Q = (Wi OR Wk OR ...) AND ... AND (Wj OR Ws OR ...) ,
con Wi=ti, Wk=tk, Wj=tj, Ws=ts, or Wi=NON ti, Wk=NON tk, Wj=NON tj, Ws=NON ts

donde ti significa que el término ti está presente en el documento Di y, por el contrario, NON ti significa que no está.

Equivalentemente, Q puede ser dado en forma normal disjuntiva, también.Una operación de recuperación consiste de dos pasos como se define a continuación:

1. El conjunto Sj de documentos que son obtenidos que contienen o no el término tj (dependiendo de cuando Wj=tj o Wj=NON tj) :
Sj = {Di | Wj elemento de Di}
2. Estos documentos son recuperados como respuesta a Q, los cuales son el resultado de las correspondientes operaciones entre conjuntos, i.e. la respuesta a Q es como sigue:
UNION ( INTERSECCION Sj)

Ejemplo

Sea el conjunto de documentos originales (reales) en idioma inglés , por ejemplo:

O = {O1, O2, O3}

donde

O1 = Principio de Bayes: El principio que, en la estimación de un parámetro, pudiera inicialmente suponer que cada posible valor tiene igual probabilidad (una distribución uniforme).

O2 = Teoría de la decisión Bayesiana: Una teoría matemática de toma de decisiones, la cual supone utilidad y funciones de probabilidad, y de acuerdo con el acto de ser elegido es el acto de Bayes, por ejemplo: uno con la mayor Utilidad Subjetiva Esperada. Si uno tuvo tiempo ilimitado y un poder de calcular con el cual hacer cada decisión, este procedimiento será la mejor vía para hacer cualquier decisión.

O3 = Epistemología Bayesiana : Una teoría filosófica la cual sostiene que el estatus epistémico de una proposición (ejemplo: que tan bien provista o establecida está) está mejor medido por una probabilidad y que la vía verdadera para revisar esta probabilidad está dada por la condicionante Bayesiana o por procedimientos similares. Un epistemólogo Bayesiano utilizaría una probabilidad para definir, y explorar la relación entre, conceptos como estatus epistémico, soporte o poder explicativo.

Sea el conjunto T de términos:

T = {t1 = Principio de Bayes, t2 = probabilidad, t3 = toma de decisión, t4 = Epistemología Bayesiana}

Entonces, el conjunto D de documentos es como sigue:

D = {D1, D2, D3}

donde

D1 = {Principio de Bayes, probabilidad}

D2 = {probabilidad, toma de decisión}

D3 = {probabilidad, Epistemología Bayesiana}

Sea la consulta Q:

Q = probabilidad AND toma de decisión

1. Primeramente, los siguientes conjuntos S1 y S2 de documentos Di son obtenidos (recuperados):

S1 = {D1, D2, D3}

S2 = {D2}

2. Finalmente, los siguientes documentos Di son recuperados en respuesta a Q:{D1, D2, D3} INTERSECTION {D2} = {D2}

Esto significa que el documento original O2 (correspondiente a D2) es la respuesta a Q.

Obviamente, si hay más de un documento con la misma representación, cada documento es recuperado. Dichos documentos son, en el MRIB, indistinguibles (o en otras palabras, equivalentes).

Ventajas

  • Formalismo.
  • Fácil de implementar.
  • Conceptos intuitivos.

Desventajas

  • Puede recuperar muchos o pocos documentos.
  • Dificultad para hacer ranking con los documentos resultado, algunos documentos son más importantes que otros.
  • Difícil de traducir una consulta en una expresión Booleana.
  • Todos los términos tiene el mismo peso.
  • Más como recuperación de datos que como recuperación de información.

Estructuras de datos y algoritmos

Desde un puro y formal punto de vista matemático, el MRIB es directo. Desde un punto de vista práctico, de cualquier manera, varios problemas pueden ser resueltos relacionando algoritmos con estructuras de datos, como son por ejemplo, la elección de términos (manual, automática o ambas), lematización, tabla hash, estructura de índices invertidos , y mucho más.[2]

Conjuntos Hash

Otra posibilidad es el uso de Conjuntos Hash.Cada documento es representado por una tablas hash, la cual contiene cada término del documento. Desde que el tamaño de la tabla hash crece y decrece en tiempo real con adición y eliminación de términos, cada documento ocupará mucho menos espacio en memoria.De cualquier manera, tendrá una caída de rendimiento porque las operaciones son más complejas que con vectores de bits.En el peor caso el rendimiento puede bajar desde O(n) hasta O(n2).En el caso promedio, la caída del rendimiento no será mucho peor que con vectores de bits y el espacio usado es mucho más eficiente.

Referencias

  1. Lancaster, F.W.; Fayen, E.G. (1973), Information Retrieval On-Line, Melville Publishing Co., Los Angeles, California .
  2. Wartik, Steven (1992). «Boolean operations». Information Retrieval Data Structures & Algorithms. Prentice-Hall, Inc. ISBN 0-13-463837-9. Archivado desde el original el 28 de septiembre de 2013. Consultado el 24 de diciembre de 2013.
  • Lashkari, A.H.; Ghomi, V. (2009), A Boolean Model in Information Retrieval for Search Engines, doi:10.1109/ICIME.2009.101 |autor1= y |last= redundantes (ayuda).
Este artículo ha sido escrito por Wikipedia. El texto está disponible bajo la licencia Creative Commons - Atribución - CompartirIgual. Pueden aplicarse cláusulas adicionales a los archivos multimedia.