Censura (estadística)
En estadística aplicada (especialmente en investigaciones médicas e ingeniería) la censura es el fenómeno que ocurre cuando el valor de una observación solo se conoce parcialmente.
Por ejemplo, en el estudio del impacto de cierta medicina en la mortalidad que produce cierta enfermedad, puede saberse únicamente que cierto sujeto está vivo a la edad de 75 años (que es cuando se le realizó el último seguimiento), pero no si sigue todavía vivo o no. La censura también puede ocurrir cuando hay observaciones fuera del rango de cierto instrumento de medida: si se utiliza un termómetro con un valor máximo de 100 grados para medir la temperatura en un experimento, si para una observación se alcanzan esos 100 grados, solo se sabe que para ella la temperatura superó dicho umbral, pero no se sabe en qué medida.
La censura no debería confundirse con el concepto relacionado de truncamiento. Con censura, se sabe que las observaciones censuradas superan cierto umbral (o están en cierto intervalo) y esa información parcial puede usarse a la hora de modelar estadísticamente el fenómeno. Con el truncamiento, las observaciones se descartan enteramente.
La censura también está relacionada con el problema de los datos perdidos.
Tipos de censura
- Por la izquierda: una observación está por debajo de cierto valor, pero se ignora cuánto.
- En un intervalo: se sabe que una observación está entre dos valores extremos, pero no exactamente dónde.
- Por la derecha: una observación está por encima de cierto valor, pero se ignora cuánto.
- De tipo I: en el contexto del análisis de la supervivencia ocurre cuando se realiza un experimento que termina en un momento determinado tras el que los sujetos todavía vivos quedan todos censurados por la derecha.
- De tipo II: en el mismo contexto, ocurre cuando el experimento termina cuando sólo queda un cierto número de sujetos vivos, que son los que quedan censurados por la derecha.
- Aleatoria (o no-informativa): cuando cada sujeto tiene un tiempo de censura que es independiente del momento de su muerte. El tiempo de supervivencia observado es el mínimo entre el momento de la censura y de la muerte. Los sujetos que abandonan el estudio antes de su muerte son los que quedan censurados por la derecha.
Campos de aplicación
Epidemiología
Uno de los primeros intentos para analizar datos estadísticos en los que aparecían datos censurados fue el de Daniel Bernoulli en 1766 cuando estudió la mortalidad debida a la viruela y la efectividad de la vacuna.[1]
Fiabilidad en ingeniería
En ingeniería a veces se realizan pruebas para determinar cuánto tiempo discurre antes de que falle cierto equipo.
- A veces los fallos no ocurren al cabo de un plazo razonable, lo que da lugar a observaciones censuradas.
- En otras ocasiones se planifica la prueba para terminarla después de cierto número de fallos habidos.
Análisis
Existen técnicas estadísticas especiales para lidiar con datos censurados.
Referencias
- Bernoulli D. (1766) "Essai d’une nouvelle analyse de la mortalité causée par la petite vérole. Mem. Math. Phy. Acad. Roy. Sci. Paris, reprinted in Bradley (1971) 21 and Blower (2004)
Bibliografía
- Blower, S. (2004), D, Bernoulli's "An attempt at a new analysis of the mortality caused by smallpox and of the advantages of inoculation to prevent it — PDF (146 KiB)", Reviews of Medical Virolology, 14: 275–288
- Bradley, L. (1971) Smallpox Inoculation: An Eighteenth Century Mathematical Controversy, Nottingham
- Mann, N. R. et al. (1975). Methods for Statistical Analysis of Reliability and Life Data. Nueva York: Wiley. ISBN 0-471-56737-X.