Proceso estocástico del restaurante chino
En teoría de la probabilidad, un proceso estocástico de restaurante chino es un tipo de proceso estocástico de tiempo discreto, que es reminiscente al proceso de sentar clientes en las mesas de un restaurante chino, de ahí su nombre.
Imagínese un restaurante chino con un número infinito de mesas circulares, cada una con una capacidad infinita. El primer cliente se sienta en una mesa no ocupada con probabilidad 1. En el paso (n+1)-ésimo un nuevo cliente escoge donde sentarse de acuerdo con un proceso aleatorio que consiste en escoger una silla entre n+1 disponibles: o bien directamente a la izquierda de uno de los n clientes ya sentados, o bien en una mesa no ocupada.
Después de n pasos, el valor del proceso estocástico del restaurante chino es una partición del conjunto de n clientes, donde las mesas son los bloques de la partición. Este problema tiene interés matemático, y algunas aplicaciones, y se ha estudiado la distribución de probabilidad de las posibles particiones tras n pasos.
David J. Aldous atribuye la analogía del restaurante chino para este proceso a Jim Pitman y Lester Dubins en su libro de 1983.[1]
Definición formal
Para cualquier tiempo n (siendo n un entero positivo) el valor del proceso es una partición Bn del conjunto {1, 2, 3, ..., n}, cuya distribución de probabilidad se determina como sigue. En el instante n = 1, se obtiene la partición trivial { {1} } con probabilidad 1. En el instante n + 1 el elemento n + 1 o bien:
- se añade a uno de los bloques de la partición Bn, donde cada bloque se escoge con probabilidad |b|/(n + 1) donde |b| es el número de elementos del bloque, o bien
- se añade a la partición Bn como un bloque de un solo elemento (cliente en mesa desocupada, en la analogía del restaurante), con probabilidad 1/(n + 1).
La partición aleatoria así generada tiene algunas propiedades especiales. Esta partición tiene la propiedad de la intercambiabilidad en el sentido de que reetiquetar a los clientes {1, ..., n} no cambia la distribución de la partición, y es consistente en el sentido de que la ley de la partición de n − 1 obtenida eliminando el elemento n-ésimo de la partición aleatoria en el instante n es la misma que la ley de partición en el instante n − 1.
La probabilidad asingada a una partición particular (ignorando el orden en el que los clientes se sientan alrededor de una mesa particular) viene dado por:
donde b es un bloque de la partición B y |b| es el tamaño ( i.e. el número de elementos) de b.
Generalización
Esta construcción anterior puede generalizarse a un modelo con dos parámetros adicionales, α y θ,[2][3] comúnmente llamados parámetros de descuento y de fortaleza (o de concentración). En el instante n + 1, el siguiente cliente en llegar encuentra |B| mesas ocupadas y cedide sentarse en una mesa vacía con probabilidad
o en una mesa ocupada b de tamaño |b| con probabilidad
Para que la construcción defina una medida de probabilidad válida es necesario suponer que o bien α < 0 y θ = - Lα para algún L ∈ {1, 2, ...}; o bien que 0 ≤ α < 1 y θ > −α.
Bajo este modelo la probabilidad asignada a una partición particular B de n, en términos del símbolo de Pochhammer, es
donde, por convención, y para
Por tanto, para el caso en el que la probabilida de la partición puede expresarse en términos de la función gamma como
En el caso uniparamétrico, donde es cero, esta expresión se simplifica a:
O cuando es cero,
Como antes, la probabilidad asignada a una partición particular depende solamente de los tamaños de los bloques, así que como antes la partición aleatoria es intercambiable en el sentido explicado anteriormente. La propiedad de consistencia también sigue siendo cierta, como antes, por construcción.
Si α = 0, la distribución de probabilidad de la partición aleatoria de n, así generada es la distribución de Ewens con parámetro θ, que se usa en genética de poblaciones y en teoría de la biodiversidad.
Derivación
Esta sección presenta una derivación de la probabilidad de una partición dada. Sea Ci el bloque aleatorio en el que se añade al cliente i-ésimo, para i = 1, 2, 3, ... . Entonces
donde δ es la función indicatriz, es decir, δ(A) = 1 or 0 según el evento A ocurra o no ocurra.
La probabilida de que Bn sea una partición particular del conjunto { 1, ..., n } es el producot de estas probabilidades según i varía entre 1 y n. Ahora considérese el tamaño del bloque b: este se incrementa en 1 cada vez que se añade un elemento a él. Cuando se añade el último elemento al bloque b, el tamaño del bloque es (|b| − 1). Por ejemplo, considérese esta secuencia de elecciones: (generar un nuevo bloque b)(añadir a b)(añadir a b)(añadir a b). Al final, el bloque b tiene 4 elements y el producto de los numeradores en la ecuación anterior da θ · 1 · 2 · 3. Siguiendo esta lógica, se obtiene Pr(Bn = B) como antes.
Número esperado de mesas
Para el caso uniparamétrico, con α = 0 y 0 < θ < ∞, el número esperado de mesas, dad que existen clientes sentados, resulta ser[4]
donde es la función digamma. En el caso general, (α > 0) el número esperado de mesas ocupadas viene dado por[3]
El proceso del bufé indio
Es posible adaptar el modelo de manera que cada paso no esté unívocamente asociado con una clase ( i.e. ya no se está construyendo una partición), pero que pueda ser asociado con una combinación de clases. En la analogía de los restaurantes, este proceso puede ser entendido como una sucesión aleatoria de comidas servidas a partir de una carta con infinitos platos ofrecidos por un bufé. La probabilidad de que una comida particular esté asociada a un plato es proporcional a la popularidad del plato entre los clientes, y además cada nueva comida pueda ser tomada de comidas que todavía nadie se ha servido. Este proceso más complejo se ha denominado proceso estocástico del buffet indio y puede ser usado para inferir ciertas características latentes en los datos.[5]
Aplicaciones
El proceso estocástico del restaurante chino está estrechamente relacionado con el proceso de Dirichlet y el esquema de la urna de Pólya y, por tanto, es útil en las aplicaciones de los métodos bayesianos no paramétricos. Los procesos generalizados del restauranete chino por otra parte están estrechamente relacionados con el proceso de Pitman–Yor. Este tipo de procesos han sido usados en muchas aplicaciones, que incluyen la predicción de texto, la clasificación de datos biológicos,[6] y la modelización de la biodeversidad, así como la detección de objetos en imágenes.
Referencias
- Aldous, D. J. (1985). «Exchangeability and related topics». École d'Été de Probabilités de Saint-Flour XIII — 1983. Lecture Notes in Mathematics 1117. pp. 1-1. ISBN 978-3-540-15203-3. doi:10.1007/BFb0099421.
- Pitman, Jim (1995). «Exchangeable and Partially Exchangeable Random Partitions». Probability Theory and Related Fields 102 (2): 145-158. MR 1337249. doi:10.1007/BF01213386.
- Pitman, Jim (2006). Combinatorial Stochastic Processes. Berlin: Springer-Verlag. Archivado desde el original el 25 de septiembre de 2012. Consultado el 28 de diciembre de 2015.
- Xinhua Zhang, "A Very Gentle Note on the Construction of Dirichlet Process", September 2008, The Australian National University, Canberra. Online: «Copia archivada». Archivado desde el original el 11 de abril de 2011. Consultado el 4 de noviembre de 2013.
- Griffiths, T.L. and Ghahramani, Z. (2005) Infinite Latent Feature Models and the Indian Buffet Process. Gatsby Unit Technical Report GCNU-TR-2005-001.
- Qin, Zhaohui S. "Clustering microarray gene expression data using weighted Chinese restaurant process." Bioinformatics 22.16 (2006): 1988-1997.
Enlaces externos
- A talk by Michael I. Jordan on the CRP: