Regresión segmentada

De wikiRiesgos
Ir a la navegación Ir a la búsqueda

Regresión segmentada o regresión por pedazos es un método en el análisis de regresión en que el variable independiente es particionada en intervalos ajustando en cada intervalo una linea o curva a los datos. La regresión segmentada se puede aplicar también a la regresión con múltiples variables independientes particionando todas estas.

Archivo:MUSTARD.JPG
Regresión segmentada lineal, tipo 3

La regresión segmentada es util cuando el variable dependiente muestra una reacción abruptamente diferente a la variable independiente en los varios segmentos. En este caso el límite entre los segmentos se llama punto de quiebra.

Regresión segmentada lineal es la regresión segmentada en que la relación entre el variable dependiente e independiente dentro de los segmentos se obtiene por regresión lineal.

Regresión segmentada lineal, 2 segmentos

Archivo:SegReg3.gif
1.er miembro horizontal
Archivo:SegReg1.gif
1.er miembro inclinado hacia arriba
Archivo:SegReg2.gif
1.er miembro inclinado hacia abajo

Regresión segmentada lineal en dos segmentos separados por un punto de quiebra puede ser útil para cuantificar un cambio abrupto en la función de reacción de un factor de interés a la variación de otro factor influencial. El punto de quiebra se interpreta como un valor seguro, crítico o umbral cuando efectos (no) deseados suceden a uno de los dos lados.
El punto de quiebra puede ser un factor importante para la toma de decisiones de manejo.<ref> Frequency and Regression Analysis. Chapter 6 in: H.P.Ritzema (ed., 1994), Drainage Principles and Applications, Publ. 16, pp. 175-224, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. ISBN 90 70754 3 39. Bajar de: [1], bajo no. 13, o directamente como PDF: [2] </ref>

El análisis de la regresión segmentada se basa en la presencia de un juego de datos ( y, x ), donde y es el variable dependiente y x el variable independiente, es decir que el valor de x influye el valor de y.

El método de los mínimos cuadrados aplicado separadamente a cada segmento, por lo cual las dos lineas de regresión se ajustan a los datos tan cerca como posible minimizando la suma de los cuadrados de las diferencias (SCD) entre el valor observado (y) y valor calculado por regresión (Yr) de la variable dependiente, resulta en las ecuaciones siguientes:

  • Yr = A1. x + K1     para x < PQ (punto de quiebra)
  • Yr = A2. x + K2     para x > PQ (punto de quiebra)

donde:

Yr es el valor esperado (pronosticado) de y para un cierto valor de x
A1 y A2 son los coeficientes de regresión indicando la inclinación de las líneas en los segmentos respectivos
K1 and K2 son los constantes de regresión en los segmentos respectivos indicando los valores de Yr cuando x = 0

Los datos pueden mostrar diferentes tipos de tendencia,<ref> Drainage research in farmers' fields: analysis of data. Part of project “Liquid Gold” of the International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. Bajar como PDF: [3] </ref> véase las figuras.

El metodo también rinde dos coeficientes de correlación:

  • (R1)2 = 1 – suma { (yYr)2 } / suma { (yYa1)2 }     para x < PQ (punto de quiebra)
  • (R2)2 = 1 – suma { (yYr)2 } / suma { (yYa2)2 }     para x > PQ (punto de quiebra)

donde

suma { (yYr)2 } es la suma de cuadrados de las diferencias (SCD) minimizado por segmento
Ya1 e Ya2 son los valores promedios de y en los segmentos respectivos

Cuando no se detecta un punto de quiebra, hay que volver a una regresión sin punto de quiebra.

Ejemplo

Para la figura azul arriba, que da la relación entre la cosecha de mostaza (colza) en t/ha y la salinidad del suelo (x = Ss) expresada en conductividad eléctrica (EC en dS/m) de la solución del suelo,<ref> R.J.Oosterbaan, D.P.Sharma, K.N.Singh and K.V.G.K.Rao, 1990, Crop production and soil salinity: evaluation of field data from India by segmented linear regression. In: Proceedings of the Symposium on Land Drainage for Salinity Control in Arid and Semi-Arid Regions, February 25th to March 2nd, 1990, Cairo, Egypt, Vol. 3, Session V, p. 373 - 383 </ref> se desprende que:

  • PQ = 4.93, A1 = 0, K1 = 1.74, A2 = –0.129, K2 = 2.38, (R1)2 = 0.0035 (no significante), (R2)2 = 0.395 (significante) y:
  • Yr = 1.74 t/ha                        para Ss < 4.93 (punto de quiebra)
  • Yr = –0.129 Ss + 2.38 t/ha     para Ss > 4.93 (punto de quiebra)

indicando que una salinidad del suelo < 4.93 dS/m es segura y una salinidad del suelo > 4.93 reduce la cosecha @ 0.129 tonelada/ha por unidad de aumento de salinidad de suelo.

La figura también muestra intervalos de confianza e inseguridad.

Procedimiento de pruebas

Archivo:CHAO.gif
Ejemplo de una serie temporal de descargas de un río, tipo 5

Las siguientes pruebas estadísticas se emplean para determinar el tipo de tendencia:

  1. Significatividad estadística del punto de quiebra (PQ) expresando PQ como una función de los coeficientes de regresión A1 y A2, los promedios Y1 e Y2 de los datos y, y los promedios X1 y X2 de los datos x (al lado izquierdo y derecho de PQ respectivamente), utilizando la leyes de propagación de errores en adiciones y multiplicaciones para la computación del error estándar (ES) de PQ, seguido por la prueba t de Student
  2. Significatividad estadística de A1 y A2 aplicando la prueba t de Student y el error estándar ES de A1 y A2
  3. Significatividad estadística de la diferencia de A1 y A2 aplicando la prueba t de Student y el error estándar ES de la diferencia
  4. Significatividad estadística de de la diferencia de Y1 e Y2 aplicando la prueba t de Student y el error estándar ES de la diferencia

Adicionalmente se emplea de coeficiente de correlación de todos los datos (Ra), el coeficiente de determinación (o coeficiente de explicación), intervalos de confianza de las funciones (líneas) de regresión, y un análisis de la varianza (ANOVA).<ref> Statistical significance of segmented linear regression with break-point using variance analysis and F-tests. Bajar de: [4], bajo. no. 13, o directamente como PDF: [5] </ref>

El coeficiente de determinación de todos los datos (Cd), lo cual se debe maximizar bajo las condiciones especificados arriba en pruebas estadísticas, se defina como:

  • Cd = 1 – suma { (yYr)2 } / suma { (yYa)2 }

donde Yr es el valor esperado (pronosticado) de y de acuerdo a las ecuaciones de regresión previas, y Ya es el promedio de todo los valores y. El coeficiente Cd puede variar entre 0 (ninguna explicación de la regresión segmentada) y 1 (perfecta explicación).
En una regresión lineal pura, sin segmentación, los valores de Cd y Ra2 son iguales. En la regresión segmentada, Cd debe ser significativamente mayor que Ra2 para justificar la segmentación.

La optimización del punto de quiebra PQ se alcanza probando una serie de puntos tentativos y seleccionando el punto que tiene el coeficiente Cd máximo.

Referencias

<references group=""></references>

Enlaces externos