Distribución uniforme discreta
En teoría de probabilidad y estadística, la distribución uniforme discreta es una distribución de probabilidad discreta simétrica que surge en espacios de probabilidad equiprobables, es decir, en situaciones donde de resultados diferentes, todos tienen la misma probabilidad de ocurrir.
Un ejemplo simple de la distribución uniforme discreta es tirar los dados. Los valores posibles son 1, 2, 3, 4, 5, 6 y cada vez que se lanza el dado, la probabilidad de una puntuación determinada es de 1/6. Si se lanzan dos dados y se suman sus valores, la distribución resultante ya no es uniforme porque no todas las sumas tienen la misma probabilidad. Aunque es conveniente describir distribuciones uniformes discretas sobre enteros, como este, también se pueden considerar distribuciones uniformes discretas sobre cualquier conjunto finito . Por ejemplo, una permutación aleatoria es una permutación generada uniformemente a partir de las permutaciones de una longitud determinada, y un árbol de expansión uniforme es un árbol de expansión. generado uniformemente a partir de los árboles de expansión de un gráfico dado.
La distribución uniforme discreta en sí misma es intrínsecamente no paramétrica. Es conveniente, sin embargo, para representar sus valores en general por todos los números enteros en un intervalo [ a , b ], de modo que una y b se convierten en los principales parámetros de la distribución (a menudo uno simplemente considera el intervalo [1, n ] con la sola parámetro n ). Con estas convenciones, la función de distribución acumulativa (CDF) de la distribución uniforme discreta se puede expresar, para cualquier k ∈ [ a , b ], como
Definición
Notación
Si es una variable aleatoria discreta cuyo soporte es el conjunto y tiene una distribución uniforme discreta entonces escribiremos .
Propiedades
La familia de distribuciones uniformes sobre rangos de números enteros (con uno o ambos límites desconocidos) tiene un estadístico suficiente de dimensión finita, es decir, el triple del máximo de la muestra, el mínimo de la muestra y el tamaño de la muestra, pero no es una familia exponencial de distribuciones, porque el soporte varía con los parámetros. Para las familias cuyo apoyo no depende de los parámetros, el teorema de Pitman-Koopman-Darmois establece que solo las familias exponenciales tienen una estadística suficiente cuya dimensión está acotada a medida que aumenta el tamaño de la muestra. La distribución uniforme es, por tanto, un ejemplo sencillo que muestra el límite de este teorema.
Si entonces la variable aleatoria satisface algunas propiedades.
Ejemplos
- Para un dado perfecto, todos los resultados tienen la probabilidad de .
- Para una moneda perfecta, todos los resultados tienen la probabilidad de .
Problema del tanque alemán
Se puede formular el problema de la estimación del máximo en una población de la siguiente manera:
- Suponga ser un analista de inteligencia para los Aliados durante la Segunda Guerra Mundial, y tener algunos números de serie de tanques alemanes capturados. Además, asuma que todos los tanques alemanes han sido numerados secuencialmente desde 1 hasta N. ¿Cómo se podría estimar el número total de tanques?
Para la estimación puntual (estimar un valor único para el total), el estimador de mínima varianza sin sesgo viene dado por la fórmula:
donde m es el mayor número de serie observado (máximo de la muestra) y k es el número de tanques observado (tamaño de la muestra).[1][2][3] La fórmula puede entenderse como
- "El máximo en la muestra más el hueco medio en la muestra"
En la primera ecuación, el primer sumando es el máximo y el segundo sumando es el hueco medio.
El nombre del estimador (sin sesgo) se puede entender si consideramos que estamos tomando el máximo de la muestra como nuestra estimación básica y luego corrigiendo su sesgo, tendente a "subestimar" el verdadero máximo de la población, puesto que el máximo en la muestra puede ser igual o menor, pero nunca mayor que el máximo de la población.
Nótese que, debido a la suposición de que no hay reemplazo, una vez se ha observado un número de serie, ya no se encuentra en el repositorio de observaciones y no puede volver a ser visto.
Datos específicos
Según las estimaciones de la inteligencia convencional aliada, los alemanes estaban produciendo en torno a 1400 tanques por mes entre junio de 1940 y septiembre de 1942. Aplicando la fórmula citada arriba a los números de serie de los tanques alemanes capturados (tanto aquellos que aún estuvieran en estado de ser utilizados como aquellos parcialmente destruidos), el número resultante se calculó en 256 al mes. Después de la guerra, las cifras de producción oficiales, obtenidas de documentos incautados en el Ministerio de la Guerra de Albert Speer, mostraron que el número real fue de 255.[4]
Se han citado las siguientes estimaciones para algunos meses específicos:[5][6]
Mes | Estimación estadística | Estimación de inteligencia | Registro alemán |
Junio de 1940 | 169 | 1000 | 122 |
Junio de 1941 | 244 | 1550 | 271 |
Agosto de 1942 | 327 | 1550 | 342 |
Contramedidas
Para confundir el análisis de los números de serie, se pueden excluir los números de serie o reducir la información auxiliar utilizable. Alternativamente, se pueden utilizar números de serie que resistan el criptoanálisis, de forma más efectiva eligiendo números aleatoriamente sin reemplazo de una lista que sea mucho mayor que el número de objetos producidos, o produciendo números aleatorios y comprobándolos con la lista de números ya asignados; es probable que se produzcan colisiones a menos que el número de dígitos posibles sea más del doble del número de dígitos en el número de objetos producidos (donde el número de serie puede estar en cualquier base); véase problema del cumpleaños.[7] Para ello, se puede utilizar un generador de números pseudoaleatorios criptográficamente seguro. Todos estos métodos requieren una tabla de búsqueda (o romper el cifrado) para pasar del número de serie al orden de producción, lo que complica el uso de los números de serie: por ejemplo, no se puede recuperar un rango de números de serie, sino que hay que buscar cada uno por separado o generar una lista.
Alternativamente, se pueden encriptar los números de serie secuenciales mediante un cifrado por sustitución simple, que permite una fácil decodificación, pero que también es fácilmente deducible mediante análisis de frecuencias: aún cuando se empiece desde un punto arbitrario, el texto sin formato tiene un patrón (o sea, los números se encuentran en secuencia). Hay un ejemplo de ello en la novela de Ken Follett Code to Zero, donde el encriptado de los números de serie del cohete Jupiter-C son obtenidos como:
H | U | N | T | S | V | I | L | E | X |
---|---|---|---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 0 |
La palabra clave aquí es Huntsville (donde se omiten las letras repetidas) lo que provee una clave de diez letras.[8] Por lo tanto el cohete número 13 era "HN", y el número del cohete 24 era "UT".
Referencias
- Johnson, Roger (1994). «Estimating the Size of a Population». Teaching Statistics 16 (2): 50. doi:10.1111/j.1467-9639.1994.tb00688.x. Archivado desde el original el 26 de mayo de 2009. Consultado el 18 de octubre de 2010.
- Johnson, Roger (2006). «Estimating the Size of a Population». Getting the Best from Teaching Statistics. Archivado desde el original el 20 de noviembre de 2008.
- Joyce Smart. German Tank Problem Logan High School cita Activity Based Statistics [by Richard L. Scheaffer (?)] p. 148-150. Exploring Surveys and Information from Samples, [by James M. Landwehr (?)] Section IX, p. 75–83. Statistical Reasoning, Gary Smith, p. 148-149
- «Gavyn Davies does the maths – How a statistical formula won the war». The Guardian. 20 de julio de 2006. Consultado el 6 de julio de 2014.
- Ruggles & Brodie, p. 89
- Order Statistics, in Virtual Laboratories in Probability and Statistics
- Como se discute en ataque de cumpleaños, se puede esperar una colisión después de 1,25Plantilla:Radic números, si se elige entre H posibles salidas. Esta raíz cuadrada corresponde a la mitad de los dígitos. Por ejemplo, en cualquier base, la raíz cuadrada de un número con 100 dígitos es aproximadamente un número con 50 dígitos.
- «Rockets and Missiles». www.spaceline.org.