Regresión segmentada
Regresión segmentada o regresión por pedazos es un método en el análisis de regresión en que el variable independiente es particionada en intervalos ajustando en cada intervalo una línea o curva a los datos. La regresión segmentada se puede aplicar también a la regresión con múltiples variables independientes particionando todas estas.
La regresión segmentada es útil cuando la variable dependiente muestra una reacción abruptamente diferente a la variable independiente en los varios segmentos. En este caso el límite entre los segmentos se llama punto de quiebra.
Regresión segmentada lineal es la regresión segmentada en que la relación entre el variable dependiente e independiente dentro de los segmentos se obtiene por regresión lineal.
Regresión segmentada lineal, 2 segmentos
Regresión segmentada lineal en dos segmentos separados por un punto de quiebra puede ser útil para cuantificar un cambio abrupto en la función de reacción de un factor de interés a la variación de otro factor influencial. El punto de quiebra se interpreta como un valor seguro, crítico o umbral cuando efectos (no) deseados suceden a uno de los dos lados.
El punto de quiebra puede ser un factor importante para la toma de decisiones de manejo.[1]
El análisis de la regresión segmentada se basa en la presencia de un juego de datos ( y, x ), donde y es el variable dependiente y x el variable independiente, es decir que el valor de x influye el valor de y.
El método de los mínimos cuadrados aplicado separadamente a cada segmento, por lo cual las dos líneas de regresión se ajustan a los datos tan cerca como posible minimizando la suma de los cuadrados de las diferencias (SCD) entre el valor observado (y) y valor calculado por regresión (Yr) de la variable dependiente, resulta en las ecuaciones siguientes:
- Yr = A1. x + K1 para x < PQ (punto de quiebra)
- Yr = A2. x + K2 para x > PQ (punto de quiebra)
donde:
- Yr es el valor esperado (pronosticado) de y para un cierto valor de x
- A1 y A2 son los coeficientes de regresión indicando la inclinación de las líneas en los segmentos respectivos
- K1 and K2 son los constantes de regresión en los segmentos respectivos indicando los valores de Yr cuando x = 0
Los datos pueden mostrar diferentes tipos de tendencia,[2] véase las figuras.
El método también rinde dos coeficientes de correlación:
- (R1)2 = 1 – suma { (y – Yr)2 } / suma { (y – Ya1)2 } para x < PQ (punto de quiebra)
- (R2)2 = 1 – suma { (y – Yr)2 } / suma { (y – Ya2)2 } para x > PQ (punto de quiebra)
donde
- suma { (y – Yr)2 } es la suma de cuadrados de las diferencias (SCD) minimizado por segmento
- Ya1 e Ya2 son los valores promedios de y en los segmentos respectivos
Cuando no se detecta un punto de quiebra, hay que volver a una regresión sin punto de quiebra.
Ejemplo
De la figura azul arriba, que da la relación entre la cosecha de mostaza (colza) en t/ha y la salinidad del suelo (x = Ss) expresada en conductividad eléctrica (EC en dS/m) de la solución del suelo,[3] se desprende que:
- PQ = 4.93, A1 = 0, K1 = 1.74, A2 = –0.129, K2 = 2.38, (R1)2 = 0.0035 (no significante), (R2)2 = 0.395 (significante) y:
- Yr = 1.74 t/ha para Ss < 4.93 (punto de quiebra)
- Yr = –0.129 Ss + 2.38 t/ha para Ss > 4.93 (punto de quiebra)
indicando que una salinidad del suelo < 4.93 dS/m es segura y una salinidad del suelo > 4.93 reduce la cosecha @ 0.129 tonelada/ha por unidad de aumento de salinidad de suelo.
La figura también muestra intervalos de confianza e inseguridad.
Procedimiento de pruebas
Las siguientes pruebas estadísticas se emplean para determinar el tipo de tendencia:
- Significatividad estadística del punto de quiebre (PQ) expresando PQ como una función de los coeficientes de regresión A1 y A2, los promedios Y1 e Y2 de los datos y, y los promedios X1 y X2 de los datos x (al lado izquierdo y derecho de PQ respectivamente), utilizando las leyes de propagación de errores en adiciones y multiplicaciones para la computación del error estándar (ES) de PQ, seguido por la prueba t de Student
- Significatividad estadística de A1 y A2 aplicando la prueba t de Student y el error estándar ES de A1 y A2
- Significatividad estadística de la diferencia de A1 y A2 aplicando la prueba t de Student y el error estándar ES de la diferencia
- Significatividad estadística de la diferencia de Y1 e Y2 aplicando la prueba t de Student y el error estándar ES de la diferencia
Adicionalmente se emplea de coeficiente de correlación de todos los datos (Ra), el coeficiente de determinación (o coeficiente de explicación), intervalos de confianza de las funciones (líneas) de regresión, y un análisis de la varianza (ANOVA).[4]
El coeficiente de determinación de todos los datos (Cd), lo cual se debe maximizar bajo las condiciones especificados arriba en pruebas estadísticas, se defina como:
- Cd = 1 – suma { (y – Yr)2 } / suma { (y – Ya)2 }
donde Yr es el valor esperado (pronosticado) de y de acuerdo a las ecuaciones de regresión previas, y Ya es el promedio de todo los valores y.
El coeficiente Cd puede variar entre 0 (ninguna explicación de la regresión segmentada) y 1 (perfecta explicación).
En una regresión lineal pura, sin segmentación, los valores de Cd y Ra2 son iguales. En la regresión segmentada, Cd debe ser significativamente mayor que Ra2 para justificar la segmentación.
La optimización del punto de quiebre PQ se alcanza probando una serie de puntos tentativos y seleccionando el punto que tiene el coeficiente Cd máximo.
Rango de "no-efecto"
La regresión segmentada se utiliza frecuentemente para detectar sobre cual rango la variable explicativa (X) no tiene efecto sobre la variable dependiente (Y), mientras afuera de este rango sí existe una respuesta clara, sea positiva o negativa. El segmento de "no-efecto" se ubica en la parte inicial del dominio o más bien en la parte final. En vez del método de mínimos cuadrados empleado anteriormente, para el análisis de "no efecto" se puede aplicar el método de regresión parcial progresiva sobre el rango, extiendolo a pasos pequeños hasta que el coeficiente de regresión (la pendiente de la línea) se vuelve significativamente diferente de zero.[5]
En la figura al lado el punto de quiebre se encuentra a X=7.9 mientras para los mismos datos (ver figura arriba de color azul para bersim), el método de mínimos cuadrados rinde un punto de quiebre de solo X=4.9. El último valor es más bajo, pero el ajuste de las líneas a los datos sobre el dominio completo es más preciso. Por ello el propósito de análisis decide cual de los métodos es preferible.
Referencias
- Frequency and Regression Analysis. Chapter 6 in: H.P.Ritzema (ed., 1994), Drainage Principles and Applications, Publ. 16, pp. 175-224, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. ISBN 90 70754 3 39. Bajar de: , bajo no. 13, o directamente como PDF:
- Drainage research in farmers' fields: analysis of data. Part of project “Liquid Gold” of the International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. Bajar como PDF:
- R.J.Oosterbaan, D.P.Sharma, K.N.Singh and K.V.G.K.Rao, 1990, Crop production and soil salinity: evaluation of field data from India by segmented linear regression. In: Proceedings of the Symposium on Land Drainage for Salinity Control in Arid and Semi-Arid Regions, February 25th to March 2nd, 1990, Cairo, Egypt, Vol. 3, Session V, p. 373 - 383
- Statistical significance of segmented linear regression with break-point using variance analysis and F-tests. Bajar de: , bajo. no. 13, o directamente como PDF:
- Partial Regression Analysis, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. Bajar libremente de la pagina web