Punto de información mutua

El Punto de Información Mutua (PIM) o Información Mutua Puntual, (IMP) (en inglés, Pointwise mutual information (PMI)),[1] es una medida de asociación utilizada en la teoría y la estadística de la información. En contraste con la información mutua (Mutual Information, MI), que se basa en PIM, esta se refiere a los eventos individuales, mientras que MI se refiere a la media de todos los eventos posibles.

Definición

El PMI de un par de resultados x e y perteneciente a variables discretas aleatorias X e Y, cuantifican la diferencia entre la probabilidad de su coincidencia dada su distribución conjunta y sus distribuciones individuales, suponiendo independencia matemática:

La información mutua (MI) de las variables aleatorias X y Y es el valor esperado del PIM sobre todos los resultados posibles (con respeto a la distribución junta )

La medida es simétrica () Puede tomar valores positivos o negativos, pero es cero si X y Y es independiente. Note que incluso aunque PIM puede ser negativo o positivo, su resultado esperado sobre todos los acontecimientos de junta (MI) es positivo. PMI se maximiza cuando X y Y son perfectamente asociados (i.e.), produciendo los siguientes límites:

Finalmente, aumentará si es fijo pero disminuye.

Aquí, un ejemplo para ilustrar:

x y p(x, y)
0 0 0.1
0 1 0.7
1 0 0.15
1 1 0.05

Utilizando esta tabla podemos distribuir de manera marginal para conseguir la siguiente tabla adicional para las distribuciones individuales:

p(x) p(y)
0 0.8 0.25
1 0.2 0.75

Con este ejemplo, podemos computar cuatro valores para . Utilizando logaritmo base-2:

pmi(x=0;y=0) = −1
pmi(x=0;y=1) = 0.222392421
pmi(x=1;y=0) = 1.584962501
pmi(x=1;y=1) = −1.584962501

(Para referencia, la información mutua entonces sería 0.214170945)

Similitudes con información mutua

El punto de información mutua tiene muchas relaciones de semejanza con la información mutua. Por ejemplo,

Normalización de la información mutua específica

El punto de información mutua puede ser normalizada entre [-1,+1] resultando en -1 (en el límite) para nunca ocurriendo junto, 0 para independencia, y +1 para completo co-ocurrencia.

Regla de la cadena para Información Mutua Específica

Como MI PMI sigue la regla de la cadena, es decir,[2]

Esto es fácilmente demostrado por:

Aplicaciones

En lingüística computacional, PMI ha sido usado para encontrar colocaciones y asociaciones entre palabras. Por ejemplo, los conteos de occurrencias y co-ocurrencias de las palabras en un corpus puede ser usado para aproximar las probabilidades y respectivamente. La siguiente tabla muestra pares de palabras y sus conteos de ocurrencias y co-ocurrencias los primeros 50 millones de palabras en la Wikipedia en español (descarga de octubre del 2015) filtrando aquellos pares con 1.000 o más co-ocurrencias. La tabla muestra los pares de palabras con los 10 mayores y 10 menores valores de PMI.

palabra 1palabra 2conteo palabra 1conteo palabra 2conteo de co-ocurrenciasPMI
starwars1.8121.3551.15910,0691059068
lourdescardenal2.0282.4411.0539,27196636042
bellasartes1.4314.7471.2139,09699129423
penínsulaibérica5.1612.1091.6718,94585899336
nuestraseñora5.0602.7852.1018,91658006959
objetosastronómicos5.8111.3501.1688,91521662327
cabedestacar3.1503.0361.3208,83946942863
nacionesunidas4.9373.4112.2508,80694785791
mitologíagriega2.9242.9861.0118,66383370344
elde1'468.3443'640.70310.187-2,35092918598
losde741.6643'640.7034.483-2,48875491469
lade1'991.8833'640.70311.497-2,53490063915
node255.9633'640.7031.404-2,58585866663
sela601.9531'991.8831.688-2,65368967007
deel3'640.7031'468,3445.978-2,88395551973
ay837.6361'246.8971.133-2,91434699616
ael837.6361'468.3441.061-3,14348128868
quede996.1793'640.7033.099-3,15299855095
dea3'640.703837.6361.296-3,85145211009

Los pares de palabras que son buenos candidatos para ser considerados como colocaciones obtienen valores altos de PMI porque la probabilidad de co-ocurrencia es solamente un poco menor que las probabilidades de ocurrencia de cada una de las palabras. Contrariamente, los pares de palabras cuyas probabilidades de ocurrencia son considerablemente mayores que su probabilidad de co-ocurrencia obtienen valores pequeños de PMI.

Referencias

  1. Kenneth Ward Church and Patrick Hanks (March 1990).
  2. Paul L. Williams.
  • Fano, R M (1961). "Capítulo 2". Transmisión de Información: Una Teoría Estadística de Comunicaciones. MIT Prensa, Cambridge, MA. ISBN 978-0262561693.

Enlaces externos

Este artículo ha sido escrito por Wikipedia. El texto está disponible bajo la licencia Creative Commons - Atribución - CompartirIgual. Pueden aplicarse cláusulas adicionales a los archivos multimedia.