Regresión segmentada

Regresión segmentada o regresión por pedazos es un método en el análisis de regresión en que el variable independiente es particionada en intervalos ajustando en cada intervalo una linea o curva a los datos. La regresión segmentada se puede aplicar también a la regresión con múltiples variables independientes particionando todas estas.

Archivo:MUSTARD.JPG

Regresión segmentada lineal, tipo 3

La regresión segmentada es util cuando el variable dependiente muestra una reacción abruptamente diferente a la variable independiente en los varios segmentos. En este caso el límite entre los segmentos se llama punto de quiebra.

Regresión segmentada lineal es la regresión segmentada en que la relación entre el variable dependiente e independiente dentro de los segmentos se obtiene por regresión lineal.

Sumario

1 Regresión segmentada lineal, 2 segmentos
2 Ejemplo
3 Procedimiento de pruebas
4 Referencias
5 Enlaces externos

Regresión segmentada lineal, 2 segmentos

Archivo:SegReg3.gif

1.^er miembro horizontal

Archivo:SegReg1.gif

1.^er miembro inclinado hacia arriba

Archivo:SegReg2.gif

1.^er miembro inclinado hacia abajo

Regresión segmentada lineal en dos segmentos separados por un punto de quiebra puede ser útil para cuantificar un cambio abrupto en la función de reacción de un factor de interés a la variación de otro factor influencial. El punto de quiebra se interpreta como un valor seguro, crítico o umbral cuando efectos (no) deseados suceden a uno de los dos lados.
El punto de quiebra puede ser un factor importante para la toma de decisiones de manejo.<ref> Frequency and Regression Analysis. Chapter 6 in: H.P.Ritzema (ed., 1994), Drainage Principles and Applications, Publ. 16, pp. 175-224, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. ISBN 90 70754 3 39. Bajar de: [1], bajo no. 13, o directamente como PDF: [2] </ref>

El análisis de la regresión segmentada se basa en la presencia de un juego de datos ( y, x ), donde y es el variable dependiente y x el variable independiente, es decir que el valor de x influye el valor de y.

El método de los mínimos cuadrados aplicado separadamente a cada segmento, por lo cual las dos lineas de regresión se ajustan a los datos tan cerca como posible minimizando la suma de los cuadrados de las diferencias (SCD) entre el valor observado (y) y valor calculado por regresión (Yr) de la variable dependiente, resulta en las ecuaciones siguientes:

Yr = A₁. x + K₁ para x < PQ (punto de quiebra)
Yr = A₂. x + K₂ para x > PQ (punto de quiebra)

donde:

Yr es el valor esperado (pronosticado) de y para un cierto valor de x

A₁ y A₂ son los coeficientes de regresión indicando la inclinación de las líneas en los segmentos respectivos

K₁ and K₂ son los constantes de regresión en los segmentos respectivos indicando los valores de Yr cuando x = 0

Los datos pueden mostrar diferentes tipos de tendencia,<ref> Drainage research in farmers' fields: analysis of data. Part of project “Liquid Gold” of the International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. Bajar como PDF: [3] </ref> véase las figuras.

El metodo también rinde dos coeficientes de correlación:

(R₁)² = 1 – suma { (y – Yr)² } / suma { (y – Ya1)² } para x < PQ (punto de quiebra)
(R₂)² = 1 – suma { (y – Yr)² } / suma { (y – Ya2)² } para x > PQ (punto de quiebra)

donde

suma { (y – Yr)² } es la suma de cuadrados de las diferencias (SCD) minimizado por segmento

Ya1 e Ya2 son los valores promedios de y en los segmentos respectivos

Cuando no se detecta un punto de quiebra, hay que volver a una regresión sin punto de quiebra.

Ejemplo

Para la figura azul arriba, que da la relación entre la cosecha de mostaza (colza) en t/ha y la salinidad del suelo (x = Ss) expresada en conductividad eléctrica (EC en dS/m) de la solución del suelo,<ref> R.J.Oosterbaan, D.P.Sharma, K.N.Singh and K.V.G.K.Rao, 1990, Crop production and soil salinity: evaluation of field data from India by segmented linear regression. In: Proceedings of the Symposium on Land Drainage for Salinity Control in Arid and Semi-Arid Regions, February 25th to March 2nd, 1990, Cairo, Egypt, Vol. 3, Session V, p. 373 - 383 </ref> se desprende que:

PQ = 4.93, A₁ = 0, K₁ = 1.74, A₂ = –0.129, K₂ = 2.38, (R₁)² = 0.0035 (no significante), (R₂)² = 0.395 (significante) y:
Yr = 1.74 t/ha para Ss < 4.93 (punto de quiebra)
Yr = –0.129 Ss + 2.38 t/ha para Ss > 4.93 (punto de quiebra)

indicando que una salinidad del suelo < 4.93 dS/m es segura y una salinidad del suelo > 4.93 reduce la cosecha @ 0.129 tonelada/ha por unidad de aumento de salinidad de suelo.

La figura también muestra intervalos de confianza e inseguridad.

Procedimiento de pruebas

Archivo:CHAO.gif

Ejemplo de una serie temporal de descargas de un río, tipo 5

Las siguientes pruebas estadísticas se emplean para determinar el tipo de tendencia:

Significatividad estadística del punto de quiebra (PQ) expresando PQ como una función de los coeficientes de regresión A₁ y A₂, los promedios Y₁ e Y₂ de los datos y, y los promedios X₁ y X₂ de los datos x (al lado izquierdo y derecho de PQ respectivamente), utilizando la leyes de propagación de errores en adiciones y multiplicaciones para la computación del error estándar (ES) de PQ, seguido por la prueba t de Student
Significatividad estadística de A₁ y A₂ aplicando la prueba t de Student y el error estándar ES de A₁ y A₂
Significatividad estadística de la diferencia de A₁ y A₂ aplicando la prueba t de Student y el error estándar ES de la diferencia
Significatividad estadística de de la diferencia de Y₁ e Y₂ aplicando la prueba t de Student y el error estándar ES de la diferencia

Adicionalmente se emplea de coeficiente de correlación de todos los datos (Ra), el coeficiente de determinación (o coeficiente de explicación), intervalos de confianza de las funciones (líneas) de regresión, y un análisis de la varianza (ANOVA).<ref> Statistical significance of segmented linear regression with break-point using variance analysis and F-tests. Bajar de: [4], bajo. no. 13, o directamente como PDF: [5] </ref>

El coeficiente de determinación de todos los datos (Cd), lo cual se debe maximizar bajo las condiciones especificados arriba en pruebas estadísticas, se defina como:

Cd = 1 – suma { (y – Yr)² } / suma { (y – Ya)² }

donde Yr es el valor esperado (pronosticado) de y de acuerdo a las ecuaciones de regresión previas, y Ya es el promedio de todo los valores y. El coeficiente Cd puede variar entre 0 (ninguna explicación de la regresión segmentada) y 1 (perfecta explicación).
En una regresión lineal pura, sin segmentación, los valores de Cd y Ra² son iguales. En la regresión segmentada, Cd debe ser significativamente mayor que Ra² para justificar la segmentación.

La optimización del punto de quiebra PQ se alcanza probando una serie de puntos tentativos y seleccionando el punto que tiene el coeficiente Cd máximo.

Referencias

Enlaces externos

SegReg, programa libre para regresión segmentada lineal con 2 variables independientes.

Regresión segmentada

Sumario

Regresión segmentada lineal, 2 segmentos

Ejemplo

Procedimiento de pruebas

Referencias

Enlaces externos

Menú de navegación

Herramientas personales

Espacios de nombres

Variantes

Vistas

Más

Buscar

Navegación

Herramientas

Tipos de Riesgo

Plataformas

Normas