Pareamiento por puntaje de propensión
En el análisis estadístico de los estudios observacionales, el pareamiento por puntaje de propensión o Propensity score matching (PSM) en inglés, es una técnica estadística de coincidencia que intenta estimar el efecto de un tratamiento,[1] una política,[2] u otra intervención por cuenta de las covariables que predicen que recibe el tratamiento. PSM intenta reducir el sesgo debido a la confusión de las variables que se pueden encontrar en una estimación del efecto del tratamiento obtenido de la simple comparación de los resultados entre unidades que recibieron el tratamiento frente a los que no lo hicieron. La técnica fue publicada por primera vez por Paul Rosenbaum y Donald Rubin en 1983,[3] y aplica el modelo causal de Rubin para los estudios observacionales.
La posibilidad de sesgo surge porque la aparente diferencia en los resultados de estos dos grupos de unidades puede depender de las características que afectaron en la decisión de administrar un cierto tratamiento a una unidad en lugar de por el efecto del tratamiento en sí. En experimentos aleatorios, la aleatorización permite la estimación objetiva de los efectos del tratamiento, para cada covariable aleatorización implica que los grupos de tratamiento se equilibrarán en promedio, por la ley de los grandes números. Desafortunadamente, para los estudios de observación, la asignación de tratamientos a los sujetos de investigación es, por definición, no aleatorio. Este método trata de imitar al azar mediante la creación de una muestra de unidades que recibió el tratamiento que sea comparable en todas las covariables observadas a una muestra de unidades que no recibieron el tratamiento.
Por ejemplo, uno puede estar interesado en saber las consecuencias de fumar o las consecuencias de ir a la universidad. El conjunto 'tratado' son simplemente aquellos- los fumadores, o graduados de la universidad- que se someten en el curso de la vida diaria a aquello que está siendo estudiado por el investigador. En ambos casos no es factible (y quizás poco ético) asignar al azar a las personas a fumar o a la educación universitaria. El efecto estimado del tratamiento mediante la simple comparación de un resultado, por ejemplo la tasa de cáncer o los ingresos a lo largo de la vida, entre los que fumaban y no fumaban o entre los que asistieron o no asistieron a la universidad estaría sesgado por factores que predicen el tabaquismo o la asistencia a la universidad, respectivamente. PSM intenta controlar estas diferencias para que los grupos que recibieron tratamiento y no tratamiento se aproximen a una investigación aleatoria y ver que estos sean más comparables.
Descripción
El PSM se usa para casos de inferencia causal y sesgo simple de selección en los métodos no experimentales en los que sucede lo siguiente: (i) pocas unidades en el grupo de comparación no experimental son comparables a las unidades de tratamiento, y (ii) la selección de un subconjunto de unidades de comparación similares a la unidad de tratamiento es difícil porque las unidades deben ser comparadas a través de un conjunto de alta dimensión de las características previas al tratamiento.
En Matching normal hacemos coincidir las características únicas que distinguen a los grupos de control (para tratar de hacerlos más parecidos) y tratamiento. Pero si los dos grupos no tienen una superposición sustancial, entonces un error sustancial puede ser introducido: Por ejemplo, si sólo los peores casos del grupo de "comparación" no tratados se comparan con sólo los mejores casos del grupo de tratamiento, el resultado puede ser la regresión hacia la media que puede hacer que el grupo de comparación se vea mejor o peor que la realidad.
PSM cuenta con una probabilidad predicha de pertenencia a un grupo, por ejemplo, el tratamiento frente al control de grupo basado en predictores observados, normalmente obtenidos de la regresión logística para crear un grupo contrafactual. También puntuaciones de propensión se pueden utilizar para hacer coincidir o como covariables independiente o con otras variables coincidentes o covariables.
Procedimiento general
1.Realizar una regresión logística:
- Variable dependiente: Y = 1, si participar; Y = 0, de lo contrario.
- Elegir las variables de confusión adecuadas (variables hipotéticamente asociadas con el tratamiento y el resultado).
- Obtener la puntuación de propensión: probabilidad predicha (p) o log [p / (1 - p)].
2.Emparejar cada participante a uno o más de los no participantes según el puntaje de propensión:
- Vecino más cercano similar
- Emparejamiento por calibre (caliper)
- Emparejamiento según el valor Mahalanobis junto con PSM
- Emparejamiento por estratificación
- Emparejamiento por diferencias en diferencias (kernel y los pesos lineales locales)
3.Verificar que las covariables está equilibradas entre el grupo de tratamiento y el de comparación de la nueva muestra emparejada o ponderada
4.Realizar un análisis multivariado sobre la base de la nueva muestra
- Utilizar los análisis apropiados para diferentes muestras no independientes
Definición formal
Un puntaje de propensión es la probabilidad de una unidad (por ejemplo, la persona, el aula, la escuela) que se le asigne a un tratamiento particular dado un conjunto de covariables observadas. Las puntuaciones de propensión se utilizan para reducir el sesgo de selección , al equiparar los grupos basados en estas covariables.
Supongamos que tenemos un tratamiento binario T, Y un resultado y las variables de fondo X. La puntuación de propensión se define como la probabilidad condicional de tratamiento dadas las variables del entorno:
Sea Y (0) y Y (1) los resultados potenciales bajo control y tratamiento, respectivamente. La asignación del tratamiento no estará condicionalmente confundida si los resultados potenciales son independientes del tratamiento condicionado por las variables previas (X). Esto se puede escribir de forma compacta como
donde denota independencia estadística.
Si unconfoundedness mantiene, entonces
Pearl (2000) ha demostrado que un criterio gráfico simple llamada puerta trasera proporciona una definición equivalente de unconfoundedness.[4]
Ventajas y desventajas
Al igual que otros procedimientos el PSM estima el efecto promedio del tratamiento en los datos observados. Las ventajas clave del PSM eran, en el momento de su introducción, que mediante el uso de una combinación lineal de las covariables para una única puntuación, que equilibra los grupos de tratamiento y control en un gran número de covariables sin perder un gran número de observaciones. Si las unidades en el tratamiento y control se equilibraron en un gran número de covariables uno a la vez, serían necesarios un gran número de observaciones para superar el "problema de dimensionalidad" por lo que la introducción de una nueva covariable de equilibrio aumenta el número mínimo necesario de observaciones en la muestra geométricamente.
Una desventaja de los PSM es que sólo representa covariables observadas (y observables). Factores que afectan a la asignación al tratamiento, pero que no pueden ser observados no pueden ser contabilizados en el procedimiento correspondiente. Otra cuestión es que el PSM requiere grandes muestras, con superposición sustancial entre los grupos de tratamiento y control. Cualquier sesgo oculto debido a variables latentes puede permanecer después de contrastar ya que el procedimiento sólo se controla por las variables observadas.[5]
Preocupaciones generales con juego también han sido planteadas por Judea Pearl, quien ha argumentado que el sesgo oculto puede en realidad aumentar porque igualan variables observadas puede desatar el sesgo debido a factores de confusión no observados latentes. Del mismo modo, Pearl ha argumentado que la reducción del sesgo sólo se puede garantizar (asintótica) modelando las relaciones de causalidad entre el tratamiento cualitativo, los resultados, observados y no observados covariables.[6] La confusión se produce cuando los controles experimentales no permiten al experimentador para eliminar razonablemente alternativa plausible explicaciones de la relación observada entre las variables independientes y dependientes. La confusión se produce cuando el experimentador no es capaz de controlar a soluciones alternativas explicaciones no causales para una relación observada entre las variables independientes y dependientes. Este control deberá satisfacer el " criterio de puerta trasera " de Pearl.[6]
Referencias
- Austin, P. C. (2008). A critical appraisal of propensity‐score matching in the medical literature between 1996 and 2003. Statistics in medicine, 27(12), 2037-2049.
- Lechner, M. (2002). Program heterogeneity and propensity score matching: An application to the evaluation of active labor market policies. Review of Economics and Statistics, 84(2), 205-220.
- Rosenbaum, Paul R.; Rubin, Donald B. (1983). «The central role of the propensity score in observational studies for causal effects». Biometrika 70 (1): 41-55. doi:10.1093/biomet/70.1.41.
- Pearl, J. (2000). Causality: Models, Reasoning, and Inference, Cambridge University Press.
- Shadish, W. R.; Cook, T. D.; Campbell, D. T. (2002). Experimental and Quasi-experimental Designs for Generalized Causal Inference. Boston: Houghton Mifflin. ISBN 0-395-61556-9.
- Pearl, J. (2009). «Understanding propensity scores». Causality: Models, Reasoning, and Inference (Second edición). Nueva York: Cambridge University Press. ISBN 978-0-521-89560-6.