Prior conjugada
En la teoría bayesiana de la probabilidad, si la distribución posterior pertenece a la misma familia de distribuciones de probabilidad que la distribución de probabilidad a priori , las distribuciones a priori y a posteriori se denominan entonces distribuciones conjugadas, y la a priori se denomina prior conjugada para la función de verosimilitud .
Una prior conjugada es una conveniencia algebraica, que da una expresión de forma cerrada para la posterior; de lo contrario, puede ser necesaria la integración numérica. Además, las a priori conjugadas pueden ser más intuitivas al mostrar de forma más transparente cómo una función de verosimilitud actualiza una distribución a priori.
El concepto, así como el término "prior conjugada", fueron introducidos por Howard Raiffa y Robert Schlaifer en sus trabajos sobre la teoría bayesiana de la decisión.[1] Un concepto similar había sido descubierto independientemente por George Alfred Barnard.[2]
Ejemplo
La forma de prior conjugada puede determinarse generalmente mediante la inspección de la densidad de probabilidad o la función de masa de probabilidad de una distribución. Por ejemplo, consideremos una variable aleatoria que consiste en el número de aciertos en Ensayo Bernoulli con probabilidad desconocida de éxito en [0,1]. Esta variable aleatoria seguirá la distribución binomial, con una función de masa de probabilidad de la forma:
La prior conjugada habitual es la distribución beta con parámetros (, ):
Donde y se eligen para reflejar cualquier creencia o información existente ( and daría una distribución uniforme y es la función Beta que actúa como constante normalizadora.
En este contexto, y se denominan "hiperparámetros" (parámetros a priori), para distinguirlos de los parámetros del modelo subyacente (aquí ).Una característica típica de los a priori conjugados es que la dimensionalidad de los hiperparámetros es uno mayor que la de los parámetros de la distribución original. Si todos los parámetros son valores escalares, entonces habrá un hiperparámetro más que parámetro; pero esto también se aplica a los parámetros con valores vectoriales y matriciales. (Véase el artículo general sobre la familia exponencial, y considérese también la distribución de Wishart, prior conjugado de la matriz de covarianza de una distribución normal multivariante, para un ejemplo en el que interviene una gran dimensionalidad).
Si muestreamos esta variable aleatoria y obtenemos éxitos y fallos, entonces tenemos
que es otra distribución Beta con parámetros . Esta distribución posterior podría utilizarse como prior para más muestras, y los hiperparámetros simplemente añadirían cada dato adicional a medida que se obtuviera.
Interpretaciones
Pseudo-observaciones
A menudo es útil pensar que los hiperparámetros de una distribución a priori conjugada corresponden a haber observado un cierto número de pseudo-observaciones con propiedades especificadas por los parámetros. Por ejemplo, los valores y de una distribución beta puede considerarse como correspondiente a éxitos y fallos si se utiliza el modo posterior para elegir un ajuste óptimo de los parámetros, o éxitos y fallos si se utiliza la media posterior para elegir un ajuste óptimo de los parámetros. En general, para casi todas las distribuciones a priori conjugadas, los hiperparámetros pueden interpretarse en términos de pseudo-observaciones. Esto puede ayudar a proporcionar intuición detrás de las ecuaciones de actualización a menudo desordenadas y ayudar a elegir hiperparámetros razonables para una prioridad.
Sistema dinámico
Se puede pensar en el condicionamiento prior conjugado como la definición de una especie de sistema dinámico (en tiempo discreto): a partir de un conjunto dado de hiperparámetros, los datos entrantes actualizan estos hiperparámetros, por lo que se puede ver el cambio en los hiperparámetros como una especie de "evolución temporal" del sistema, correspondiente al "aprendizaje". Comenzando en puntos diferentes se obtienen flujos diferentes a lo largo del tiempo. Esto vuelve a ser análogo al sistema dinámico definido por un operador lineal, pero hay que tener en cuenta que, dado que muestras diferentes conducen a inferencias diferentes, esto no depende simplemente del tiempo, sino más bien de los datos a lo largo del tiempo. Para enfoques relacionados, véase Estimación bayesiana recursiva y Asimilación de datos.
Ejemplo práctico
Supongamos que en su ciudad opera un servicio de alquiler de vehículos. Los conductores pueden dejar y recoger los carros en cualquier lugar dentro de los límites de la ciudad. Puedes encontrar y alquilar los carros usando una aplicación.
Supongamos que desea averiguar la probabilidad de encontrar un vehículo de alquiler a poca distancia de su domicilio a cualquier hora del día.
Durante tres días miras la aplicación y encuentras el siguiente número de coches a poca distancia de la dirección de tu casa: Supongamos que los datos proceden de una distribución de Poisson. En ese caso, podemos calcular la estimación de máxima verosimilitud de los parámetros del modelo, que es Utilizando esta estimación de máxima verosimilitud, podemos calcular la probabilidad de que haya al menos un coche disponible un día determinado: Se trata de la distribución de Poisson que es la más probable que haya generado los datos observados . Pero los datos también podrían proceder de otra distribución de Poisson, por ejemplo, una con , o , etc. De hecho, existe un número infinito de distribuciones de Poisson que podrían haber generado los datos observados. Con relativamente pocos puntos de datos, deberíamos estar bastante inseguros sobre qué distribución de Poisson exacta generó estos datos. Intuitivamente, deberíamos tomar una media ponderada de la probabilidad de para cada una de esas distribuciones de Poisson, ponderadas según la probabilidad de cada una de ellas, dados los datos que hemos observado . Generalmente, esta cantidad se conoce como distribución predictiva posterior donde es un nuevo punto de datos, son los datos observados y son los parámetros del modelo. Utilizando el teorema de Bayes podemos expandir por lo tanto, En general, esta integral es difícil de calcular. Sin embargo, si se elige una distribución prior conjugada ,se puede derivar una expresión de forma cerrada. Esta es la columna de predicción posterior en las tablas siguientes.
Volviendo a nuestro ejemplo, si elegimos la distribución Gamma como nuestra distribución a priori sobre la tasa de las distribuciones Poisson, entonces la predictiva a posteriori es la distribución binomial negativa, como puede verse en la tabla siguiente. La distribución Gamma está parametrizada por dos hiperparámetros que tenemos que elegir. Observando los gráficos de la distribución gamma, elegimos , que parece ser una prioridad razonable para el número medio de coches. La elección de hiperparámetros a priori es inherentemente subjetiva y se basa en conocimientos previos. Dados los hiperparámetros a priori y podemos calcular los hiperparámetros posteriores y Dados los hiperparámetros posteriores, podemos finalmente calcular la predicción posterior de
Esta estimación mucho más conservadora refleja la incertidumbre en los parámetros del modelo, que la predicción posterior tiene en cuenta.
Tabla de distribuciones conjugadas
Sea n el número de observaciones. En todos los casos siguientes, se supone que los datos constan de n puntos (que serán vectores aleatorios en los casos multivariantes).
Si la función de verosimilitud pertenece a la familia exponencial, entonces existe una prior conjugada, a menudo también en la familia exponencial; véase Familia exponencial: Distribuciones conjugadas.
Cuando la función de verosimilitud es una distribución discreta
Verosimilitud | Parámetros del modelo | Distribución a priori conjugada | Hiperparámetros a priori | Hiperparámetros a posteriori [nota 1] | Interpretación de hiperparámetros | Predicción a posteriori [nota 2] |
---|---|---|---|---|---|---|
Bernoulli | p (probabilidad) | Beta | éxitos, fallas [nota 3] | |||
Binomio con número conocido de ensayos, m | p (probabilidad) | Beta | éxitos, fallas [nota 3] | (beta-binomio) | ||
Binomio negativo con número de fallos conocido, r | p (probabilidad) | Beta | total de éxitos, fallas [nota 3] |
(beta-binomio negativo) | ||
Poisson | λ (rate) | Gamma | total ocurrencias en intervalos | (binomio negativo) | ||
total ocurrencias en intervalos | (binomio negativo) | |||||
Categórica | p (vector de probabilidad), k (número de categorías; es decir, tamaño de p) | Dirichlet | donde es el número de observaciones de la categoría i | ocurrencias de categoría [nota 3] | ||
Multinomio | p (vector de probabilidad), k (número de categorías; es decir, tamaño de p) | Dirichlet | ocurrencias de categoría [nota 3] | (Dirichlet-multinomio) | ||
Hipergeométrico con un tamaño de población total conocido, N | M (número de miembros objetivo) | Beta-binomio[3] | éxitos, fallas[nota 3] | |||
Geométrico | p0 (probabilidad) | Beta | experimentos, falla total[nota 3] |
Cuando la función de verosimilitud es una distribución continua
Verosimilitud | Parámetros del modelo | Distribución a priori conjugada | Hiperparámetros a priori | Hiperparámetros a posteriori [nota 1] | Interpretación de hiperparámetros | Predicción a posteriori [nota 5] |
---|---|---|---|---|---|---|
Normal con varianza conocida σ2 | μ (media) | Normal | la media se estimó a partir de observaciones con precisión total (suma de todas las precisiones individuales) y con media muestral | [4] | ||
Normal con precisión conocida τ | μ (media) | Normal | la media se estimó a partir de observaciones con precisión total (suma de todas las precisiones individuales) y con media muestral | [4] | ||
Normal con media conocida μ | σ2 (varianza) | Gamma inverso | [nota 6] | la varianza se estimo de observaciones con varianza muestral (es decir, con suma de desviaciones al cuadrado , donde las desviaciones son respecto a la media conocida ) | [4] | |
Normal con media conocida μ | σ2 (varianza) | Chi cuadrado inverso escalado | La varianza se estimó a partir de observaciones con varianza muestral | [4] | ||
Normal con media conocida μ | τ (precisión) | Gamma | [nota 4] | La precisión se estimó a partir de observaciones con varianza muestral (es decir, con suma de desviaciones al cuadrado , donde las desviaciones son respecto a la media conocida ) | [4] | |
Normal[nota 7] | μ y σ2
Suponiendo la intercambiabilidad |
Gamma normal-inversa |
|
La media se estimó a partir de observaciones con media muestral ; la varianza se estimó a partir de observaciones con media muestral y suma de desviaciones al cuadrado | [4] | |
Normal | μ y τ
Suponiendo intercambiabilidad |
Normal-gamma |
|
La media se estimó a partir de observaciones con media muestral , la varianza se estimó a partir de observaciones con media muestral y suma de desviaciones al cuadrado | [4] | |
Multivariante normal con matriz de covarianza conocida Σ | μ (vector medio) | Normal multivariante |
|
la media se estimó a partir de observaciones con precisión total (suma de todas las precisiones individuales) y con media muestral | [4] | |
Multivariante normal con matriz de precisión conocida Λ | μ (vector medio) | Normal multivariante |
|
la media se estimó a partir de observaciones con precisión total (suma de todas las precisiones individuales) y con media muestral | [4] | |
Normal multivariante con media conocida μ | Σ (matriz de covarianza) | Wishart inverso | La matriz de covarianza se estimó a partir de observaciones con suma de productos de desviación por pares | [4] | ||
Normal multivariante con media conocida μ | Λ (matriz de precisión) | Wishart | La matriz de covarianza se estimó a partir de observaciones con suma de productos de desviación por pares | [4] | ||
Normal multivariante | μ (vector medio) y Σ (matriz de covarianza) | Wishart normal-inverso |
|
la media se estimó a partir de observaciones con media muestral ; la matriz de covarianza se estimó a partir de las observaciones con media muestral y con suma de productos de desviación por pares | [4] | |
Normal multivariante | μ (vector medio) y Λ (matriz de precisión) | Wishart normal |
|
la media se estimó a partir de observaciones con media muestral ; matriz de covarianza se estimó a partir de observaciones con media muestral y con suma de productos de desviación por pares | [4] | |
Uniforme | Pareto | observaciones con valor máximo | ||||
Pareto con un mínimo conocido xm | k (forma) | Gamma | observaciones con suma del orden de magnitud de cada observación (es decir, el logaritmo de la relación entre cada observación y el mínimo ) | |||
Weibull con forma β conocida | θ (escala) | Gamma inverso[3] | observaciones con suma de la potencia β de cada observación | |||
Log-normal | Igual que para la distribución normal después de aplicar el logaritmo natural a los datos para los hiperparámetros posteriores. Consulte Fink (1997, pp. 21-22) para ver los detalles. | |||||
Exponencial | λ (tasa) | Gamma | [nota 4] | observaciones que suman [5] | (distribución Lomax) | |
Gamma con forma conocida α | β (tasa) | Gamma | observaciones que suman | [nota 8] | ||
Gamma inversa con forma conocida α | β (escala inversa) | Gamma | observaciones que suman | |||
Gamma con tasa β conocida | α (forma) | o observaciones ( para estimar , para estimar ) con resultado | ||||
Gamma | α (forma), β (escala inversa) | fue estimado de observaciones con resultado ; fue estimado de observaciones con suma | ||||
Beta | α, β | y fueron estimado de observaciones con resultado y producto de los complementos |
Notas
- Se denotan con los mismos símbolos que los hiperparámetros previos con primos añadidos ('). Por ejemplo, es denotado
- Esta es la distribución predictiva posterior de un nuevo punto de datos dados los puntos de datos observados, con la distribución marginal de los parámetros. Las variables con números primos indican los valores posteriores de los parámetros. y se refieren a la distribución normal y a la distribución t de Student, respectivamente, o a la distribución normal multivariante y a la distribución t multivariante en los casos multivariantes.
- <La interpretación exacta de los parámetros de una distribución beta en términos de número de aciertos y fallos depende de la función que se utilice para extraer una estimación puntual de la distribución. La media de una distribución beta es que corresponde a éxitos y fallas mientras que el modo es que corresponde a éxitos y fallas. En general, los bayesianos prefieren utilizar la media posterior en lugar de la moda posterior como estimación puntual, lo que se justifica por una función de pérdida cuadrática y el uso de y es más conveniente desde el punto de vista matemático, mientras que el uso de y tiene la ventaja de que corresponde a 0 aciertos y 0 fallos. Las mismas cuestiones se aplican a la distribución Dirichlet.>
- Beta es la tasa o escala inversa. En la parametrización de la distribución gamma
- Esta es la distribución predictiva posterior de un nuevo punto de datos dados los puntos de datos observados, con la distribución marginal de los parámetros. Las variables con números primos indican los valores posteriores de los parámetros. y se refieren a a la distribución normal y a la distribución t de Student, respectivamente, o a la distribución normal multivariante y a la distribución t multivariante en los casos multivariantes.
- En términos de la gamma inversa, beta es un parámetro de escala>
- Una prioridad conjugada diferente para la media y la varianza desconocidas, pero con una relación fija y lineal entre ellas, se encuentra en la mezcla varianza-media normal, con la gaussiana inversa generalizada como distribución de mezcla conjugada.
- < es una distribución gamma compuesta; aquí es una distribución beta-prima generalizada
Véase también
Referencias
- Howard Raiffa y Robert Schlaifer (1961). «Applied Statistical Decision Theory». Division of Research, Graduate School of Business Administration, Harvard University.
- «Earliest Known Uses of Some of the Words of Mathematics». jeff560.tripod.com. Consultado el 28 de septiembre de 2023.
- Fink, Daniel (1997). «A Compendium of Conjugate Priors». web.archive.org. Consultado el 3 de octubre de 2023.
- Murphy, Kevin P. (2007). Conjugate Bayesian analysis of the Gaussian distribution.
- Liu, Han; Wasserman, Larry (2014). Statistical Machine Learning.