Transformación Box-cox

De wikiRiesgos
Ir a la navegación Ir a la búsqueda

Las transformaciones box-cox son del tipo potencial. Se utilizan en estadística para corregir sesgos en la distribución de errores, para corregir varianzas desiguales (para diferentes valores de la variable predictora) y principalmente para corregir la no linealidad en la relación (mejorar correlación entre las variables). Esta transformación recibe el nombre de los estadísticos George E. P. Box y David Cox.

Definición

La transformación potencial está definida como una función continua que varía con respecto a la potencia lambda (<math>\lambda</math>). Para los datos (Y1,..., Yn). se realiza la transformación <math>Y_i^'=Y_i^\lambda</math> de la siguiente manera:<ref>Neter, J. et al. (1996) Applied Linear Statistical Models. McGrawHill</ref>

<math>Y_i^{(\lambda)}= \begin{cases} K_1*(Y_i^\lambda - 1) & \mathrm{si}\ \lambda\neq 0, \\ \\ K_2*ln(Y_i) & \mathrm{si}\ \lambda=0\end{cases}</math>

K2 es la media geométrica<ref>http://mathworld.wolfram.com/GeometricMean.html</ref> de los valores Y1, ..., Yn.

<math>K_2=\bigg(\prod_{i=1}^n Y_i \bigg)^{1/n} =(Y_1*Y_2* ... *Y_n)^{1/n}</math>

y K1 es un parámetro que depende de K2 y de <math>\lambda</math>, así:

<math>K_1= \dfrac{1}{\lambda *K_2^{\lambda - 1}} </math>

Procedimiento para la transformación

Para llevar a cabo una transformación potencial, dado un valor de lambda <math>\lambda</math>, se calcula primero la media geométrica de los valores Y1 (K2). Después se sustituye este valor para calcular el parámetro K1.


Procedimiento para la selección del mejor valor de <math>\lambda</math>

Primero se deben seleccionar el rango de valores de lambda <math>\lambda</math> de los cuales se quiere seleccionar el que logra que la transformación se acerque al máximo a los datos. Para cada valor de <math>\lambda</math> se realiza la transformación del paso anterior. Finalmente se sustituyen los valores de la o las variables explicativas en las diferentes funciones y se calculan los cuadrados de los residuales estadísticos. Aquella que tenga el menor valor de la suma de residuales será la mejor opción. Note que K2 es un valor fijo para todos los casos y que sólo hay que calcular de nuevo el valor K1.

Referencias

<references group=""></references>