Você está na página 1de 15

STATGRAPHICS Rev.

9/14/2006
2006 por StatPoint, Inc. Transformaciones de Box-Cox - 1
Transformaciones de Box-Cox

Resumen
El procedimiento para las Transformaciones de Box-Cox es diseado para determinar una
transformacin optima para Y mientras se estima un modelo de regresin lineal. Es muy til
cuando la variabilidad de Y cambia como una funcin de X. A menudo, una apropiada
transformacin de Y estabiliza la variabilidad y produce que las desviaciones alrededor del
modelo sean ms normalmente distribuidas.

La clase de transformaciones consideradas son transformaciones de potencia definidas por:

( )
1
2

+ = Y Y (1)

en la cual los datos son calculados en una potencia de
1
despus de cambiarlo a una cierta
cantidad
2
. Posteriormente, el parmetro de cambio
2
se fija igual a 0. Esta clase incluyen
races cuadradas, logaritmos, recprocos, y otras transformaciones comunes, que dependen sobre
una potencia. Los ejemplos incluyen:

Potencia Transformacin Descripcin

1
=2
2
Y Y =
Cuadrado

1
=1 Y Y = Datos sin Transformar

1
=0.5
Y Y =
Raz Cuadrada

1
=0.333
3
Y Y =
Raz Cbica

1
=0 ) ln(Y Y = Logaritmo

1
=-0.5
Y
Y
1
=
Raz Cuadrada Inversa

1
=-1
Y
Y
1
=
Reciproco

Note que si
1
0, la transformacin de potencia se enfoca en un logaritmo.


Ejemplo StatFolio: boxcox.sgp

STATGRAPHICS Rev. 9/14/2006
2006 por StatPoint, Inc. Transformaciones de Box-Cox - 2
Datos del Ejemplo:
El archivo plasma.sf3 contiene datos presentados por Neter et al. (1998) que muestran el nivel de
plasma de polaminos para n =25 nios sanos. Una porcin de los datos se muestra abajo:

Age
(Edad)
Plasma level
(Nivel Plasma)
0 13.44
0 12.84
0 11.91
0 20.09
0 15.6
1 10.11
1 11.38
1 10.28
1 8.96
1 8.59
2 9.83
2 9


Es deseable determinar un modelo relacionando el nivel de plasma para la edad de los nios.

Entrada de Datos
La caja de dialogo para la entrada de datos requiere los nombres de las columnas que contienen
la variable dependiente Y y la variable independiente X:



Y: Columna numrica que contiene las n observaciones para la variable dependiente Y.

X: Columna numrica que contiene las n observaciones para la variable independiente X.

Seleccin: Seleccin de un subconjunto de los datos.
STATGRAPHICS Rev. 9/14/2006
2006 por StatPoint, Inc. Transformaciones de Box-Cox - 3
Resumen del Anlisis
En relacin a las dos variables, el procedimiento para estimar un modelo es de la forma

+ + = X W
1 0
(2)

donde la variable dependiente W se relaciona con Y de acuerdo a


( ) [ ]
( )

+ +
+ +
=
2 2
2 1
ln 1
1 1
1

Y K
Y K
W si
0
0
1
1
=

(3)

y
n
n
i
i
Y K
/ 1
1
2 2
) (

+ =

=
(4)
1
2 1
1
1
1

K
K (5)

Note que K
2
es la media geomtrica de Y+
2
. Despus de Box y Cox (1964), la transformacin
ptima es la que minimiza el cuadrado medio del error de W. La razn para usar la variable
estandarizada W en vez de Y es ajustar la magnitud sobre la suma de cuadrados del error para
que haya el efecto de la transformacin potencia.

El Resumen del Anlisis presenta la potencia ptima y el resultado del modelo:

Transformaciones Box-Cox - Plasma Level vs. Age
Potencia =-0.506 Camibio =0.0
Variable dependiente: Plasma Level
Variable independiente: Age
Error T
Parmetro Estimado Estndar Estadstico Valor-P
Intercepto 37.6283 0.399299 94.2359 0.0000
Pendiente -1.99141 0.163013 -12.2162 0.0000

Anlisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razn-F Valor-P
Modelo 198.285 1 198.285 149.24 0.0000
Residuo 30.5593 23 1.32866
Total (Corr.) 228.845 24

Coeficiente de Correlacin =-0.93084
R-cuadrada =86.6463 porciento
Error Estndard del Est. =1.15268

Intervalo aproximado del 95% de confianza para la potencia: -1.116 a 0.063

Se incluye en la salida:
Parmetros de Potencia y Cambio: Los valores de
1
y
2
. Por defecto, el parmetro de
potencia es optimizado, mientras que el parmetro de cambio es fijado en 0. Esto se puede
cambiar usando Opciones del Anlisis. Tambin se incluye al final de la pantalla una
STATGRAPHICS Rev. 9/14/2006
2006 por StatPoint, Inc. Transformaciones de Box-Cox - 4
aproximacin de un intervalo de confianza para
1
por defecto en el nivel de confianza del
sistema.



Coeficientes: Los coeficientes estimados, errores estndares, estadstico-t, y valores P. La
estimacin de los coeficientes del modelo puede utilizarse para escribir la ecuacin estimada,
lo cul en el ejemplo es:

W =37.6386 1.99141 Edad (6)

El estadstico-t prueba la hiptesis nula de que los parmetros correspondientes al modelo
son iguales a 0, contra la hiptesis alternativa de que no sean iguales a 0. Valores P pequeos
(menor que 0.05 si esta operando un nivel de significancia al 5%) indica que un coeficiente
del modelo es significativamente diferente de 0. En los datos del ejemplo, ambos el
intercepto y la pendiente son estadsticamente significativos.

Anlisis de Varianza: Es una descomposicin de variabilidad en la variable dependiente W
dentro de un modelo de sumas de cuadrados y residuales o suma de cuadrados del error. Es
de particular inters la prueba F y su valor P asociado, el cual prueba la significancia
estadstica del modelo estimado. Un valor P pequeo (menor que 0.05 si esta operando un
nivel de significancia al 5%) indica que existe una relacin lineal significativa entre X y Y.
En los datos del ejemplo, el modelo es altamente significativo.

Estadsticas: Resumen de estadsticas para el modelo estimado, incluyendo:

Coeficiente de Correlacin Mide la fuerza de la relacin lineal entre W y X oscilando sobre
una escala de -1 (correlacin lineal perfecta negativa) a +1 (correlacin lineal perfecta
positiva).

R-Cuadrada - Representa el porcentaje de la variabilidad en W que puede explicarse por el
modelo de regresin estimado, oscilando de 0% hasta 100%.

Error Estndar de la Est. La estimacin de la desviacin estndar de los residuales (las
desviaciones alrededor del modelo). Este valor es utilizado para crear lmites de prediccin
para nuevas observaciones.

Media del Error Absoluto El promedio de los valores absolutos de los residuales.

En los datos del ejemplo, la transformacin seleccionada est muy cerca de una raz cuadrada
inversa, implicando que a NivelPlasm / 1 es una funcin lineal de la Edad. Sin embargo, de
acuerdo al intervalo de confianza, La transformacin optima real puede ser cualquiera entre un
reciproco y un logaritmo.
STATGRAPHICS Rev. 9/14/2006
2006 por StatPoint, Inc. Transformaciones de Box-Cox - 5
Opciones del Anlisis


Potencia: El valor del parmetro de potencia
1
. Si Optimizar esta seleccionado, esto sirve
como el valor inicial de la bsqueda de optimizacin cuando se presiona OK. Si Optimizar
no esta seleccionado, este es el valor usado para la transformacin.

Cambio: El valor del parmetro de potencia
2
. Este valor se resta de la variable dependiente
Y antes que la transformacin de potencia sea desarrollada.

Optimizar: Cuando se optimiza el parmetro de potencia o se usa el valor especificado.

Grafico del Modelo Estimado
Este panel muestra el modelo estimado, junto con lmites de confianza y prediccin si son
deseados.
Grfica del Modelo Ajustado
Potencia=-0.506, Cambio=0.0
0 1 2 3 4
Age
0
4
8
12
16
20
24
P
l
a
s
m
a

L
e
v
e
l

El grfico incluye:

La lnea del mejor ajuste o ecuacin de prediccin. Esta es la ecuacin que ser utilizada
para predecir valores de la variable dependiente Y dado los valores de la variable
independiente X. Note que se realiza un trabajo relativamente bueno al tomar el
incremento de la variabilidad del Nivel de Plasma sobre Edades bajas, as como la
relacin de la curvatura.

STATGRAPHICS Rev. 9/14/2006
2006 por StatPoint, Inc. Transformaciones de Box-Cox - 6
Intervalos de Confianza para la respuesta media en X. Estos son los lmites interiores en
el grfico anterior y describen que tan bien la localizacin de la lnea fue estimada dada la
muestra disponible de los datos. Como el tamao de n incrementa, testos lmites llegarn
a ser ms apretados Tambin debemos notar que la anchura de los lmites varia como una
funcin de X, con la lnea estimada lo ms exacto posible cerca del valor promedio x .

Lmites de Prediccin para nuevas observaciones. Estos son los lmites externos del
grfico anterior y describen como exactamente uno podra predecir donde mentira una
nueva observacin. Sin importar el tamao de muestra, las nuevas observaciones varan
alrededor de la verdadera lnea.

La inclusin de los lmites de confianza y prediccin y su nivel de confianza por defecto esta
determinado por la configuracin sobre la seccin Regresin/ANOVA de la caja de dialogo
Preferencias, accesible desde el men Edicin.

Opciones del Panel


Incluir: Los limites a incluir sobre el grfico.

Nivel de Confianza: El porcentaje del nivel de confianza para los lmites.

Resolucin del Eje X: El nmero de valores de X en los cuales se determina la lnea cuando
se grafica. Altas resoluciones dan como resultado grficos ms suaves.

Tipo de Lmites: Cuando se grafican intervalos de confianza de dos-colas o lmites de
confianza de una-cola.

Grfico de Comparacin CME
Al optimizar la transformacin, la potencia se reduce al mnimo sobre el cuadrado medio del
error del ajuste de W como una funcin de X. Para ilustrar el resultado de la bsqueda, el Grfico
de Comparacin CME presenta el cuadrado medio del error en la vecindad del valor ptimo:
STATGRAPHICS Rev. 9/14/2006
2006 por StatPoint, Inc. Transformaciones de Box-Cox - 7
Comparacin MSE
lambda2 =0.0
-2 -1 0 1 2
lambda1
0
2
4
6
8
10
12
M
S
E

Las lneas verticales se dibujan en
1
calculado y sus lmites de confianza. Note que el CME
alcanza un mnimo cercano a
1
= 0.5, aunque es relativamente plano con una regin amplia
alrededor del valor ptimo, indicando que la potencia puede cambiarse a otros valores sin afectar
sustancialmente el modelo.

Opciones del Panel


Lamda-1 Mnimo: El valor ms pequeo de
1
para incluir en el grfico.

Lamda-1 Mximo: El valor ms grande de
1
para incluir en el grfico.

Resolucin: Nmero de diferentes valores de
1
en el cul se calcula el CME.

STATGRAPHICS Rev. 9/14/2006
2006 por StatPoint, Inc. Transformaciones de Box-Cox - 8
Tabla de Comparacin CME
Esta tabla tabula los valores graficados por el Grfico de Comparacin CME.

Tabla Comparativa MSE
Cambio (lambda2): 0.0
lambda1 MSE
-1.0 1.4743
-0.95 1.44668
-0.9 1.42193
-0.85 1.40006
-0.8 1.38107
-0.75 1.36496
-0.7 1.35177
-0.65 1.34151
-0.6 1.33421
-0.55 1.32992
-0.5 1.32868
-0.45 1.33055
-0.4 1.33559
-0.35 1.34388
-0.3 1.35549
-0.25 1.37052
-0.2 1.38907
-0.15 1.41125
-0.1 1.43718
-0.05 1.467
0.0 1.50085

Las Opciones del Panel son las mismas que para el grfico.

Grfico de Sesgo y Curtosis
Este grfico presenta los valores estandarizados del sesgo y la curtosis como una funcin del
parmetro de potencia
1
.
sesgo
curtosis
Grfica de Sesgo y Curtosis
lambda2 =0.0
-2 -1 0 1 2
lambda1
-2
0
2
4
6

La estandarizacin del sesgo y la curtosis se presenta para ambas entre 2 y +2 para una
transformacin adecuada a los datos normalizados. El grfico muestra una lnea horizontal entre
2 y +2, con la lnea vertical indicando el valor ptimo de
1
y sus lmites de confianza.

STATGRAPHICS Rev. 9/14/2006
2006 por StatPoint, Inc. Transformaciones de Box-Cox - 9
Claramente, hay un amplio rango de valores para
1
que creara una transformacin razonable de
los datos.

Prueba de Falta de Ajuste
Cuando ms de una observacin se ha registrado en el mismo valor de X, una prueba de falta de
ajuste se puede desarrollar para determinar cuando la seleccin del modelo es adecuado para
describir la relacin entre X y Y. El panel de Falta-de-Ajuste despliega la siguiente tabla:

Anlisis de Varianza con Carencia de Ajuste
Fuente Suma de Cuadrados Gl Cuadrado Medio Razn-F Valor-P
Modelo 198.285 1 198.285 149.24 0.0000
Residuo 30.5593 23 1.32866
Carencia de Ajuste 3.83648 3 1.27883 0.96 0.4321
Error Puro 26.7228 20 1.33614
Total (Corr.) 228.845 24

La prueba de Falta-de-Ajuste descompone la suma de cuadrados del error de los valores
transformados de W en 2 componentes:

1. Error Puro: la variabilidad de los valores de W en el mismo valor de X.
2. Falta-de-Ajuste: la variabilidad del promedio de los valores de W alrededor del
modelo estimado.

Es de inters primario el valor P para la falta-de-ajuste. Un valor P pequeo (menor que 0.05 si
esta operando un nivel de significancia al 5%) indica que el modelo seleccionado no describe
adecuadamente la relacin observada.

Para los datos del ejemplo, el valor P grande indica que el modelo lineal explica adecuadamente
la relacin entre Nivel de Plasma y Edad.

Observado contra Predicho
El grfico de Observado contra Predicho muestra los valores observados de Y sobre el eje
vertical y los valores predichos de Y

sobre el eje horizontal, en la mtrica transformada.


Grfica de Plasma Level
0 4 8 12 16 20 24
predichos
0
4
8
12
16
20
24
o
b
s
e
r
v
a
d
o
s

STATGRAPHICS Rev. 9/14/2006
2006 por StatPoint, Inc. Transformaciones de Box-Cox - 10
Si el modelo se ajuste bien, los puntos se deben dispersar aleatoriamente alrededor de la lnea
diagonal. Es posible algunas veces ver curvaturas en este grfico, lo cual indicar la necesidad
de un modelo curvilneo ms que un modelo lineal. En este caso, el cambio de la variabilidad
sobre el grfico anterior si los valores predichos se incrementan no es una preocupacin, puesto
que fue estabilizado por la transformacin de Box-Cox.

Grfico de Residuales
Como con todos los modelos estadsticos, es una buena practica examinar los residuales. En una
regresin, los residuales estn definidos por:


i i i
W W e

= (7)

ej., los residuales son las diferencias entre los valores transformados de los datos y la estimacin
del modelo de regresin lineal.

El procedimiento de Transformaciones de Box-Cox crea 3 grficos de residuales:

1. contra X.
2. contra valores predichos W

.
3. contra nmero de fila.

Residuales contra X
Este grfico es provechoso en la visualizacin cuando fue buena la transformacin considerada
para cualquier curvatura en los datos.
Grfica de Residuos
0 1 2 3 4
Age
-2.7
-1.7
-0.7
0.3
1.3
2.3
3.3
R
e
s
i
d
u
o
s

E
s
t
u
d
e
n
t
i
z
a
d
o
s

Los residuales se deben dispersar aleatoriamente alrededor de 0.

STATGRAPHICS Rev. 9/14/2006
2006 por StatPoint, Inc. Transformaciones de Box-Cox - 11
Residuales contra Predichos
Este grfico es provechoso en la visualizacin cuando fue bueno el modelo para cualquier
heterocedasticidad en los datos.
Grfica de Residuos
5.4 7.4 9.4 11.4 13.4 15.4
Plasma Level predicho
-2.7
-1.7
-0.7
0.3
1.3
2.3
3.3
R
e
s
i
d
u
o
s

E
s
t
u
d
e
n
t
i
z
a
d
o
s

Si la transformacin fue efectiva, la variabilidad puede ser aproximadamente igual por todas
partes.


Residuales contra Observaciones
Este grfico muestra los residuales contra el nmero de fila en la base de datos:
Grfica de Residuos
0 5 10 15 20 25
nmero de fila
-2.7
-1.7
-0.7
0.3
1.3
2.3
3.3
R
e
s
i
d
u
o
s

E
s
t
u
d
e
n
t
i
z
a
d
o
s

Si los datos fueron arreglados en orden cronolgico, cualquier patrn en los dato sindican una
influencia extrema.

Opciones del Panel


Los siguientes residuales pueden graficarse sobre cualquier grfico residual:
STATGRAPHICS Rev. 9/14/2006
2006 por StatPoint, Inc. Transformaciones de Box-Cox - 12

1. Residuales Los residuales por estimacin de mnimos cuadrados.
2. Residuales Estandarizados La diferencia entre los valores observados w
i
y los valores
predichos
i
w cuando el modelo es ajustado usando todas las observaciones excepto el i-
simo, divididos por el error estndar de la estimacin. Estos residuales a veces se
llaman residuales externamente eliminados, puesto que miden que tan lejos esta cada
valor del modelo estimado cuando el modelo es ajustado usando todos los datos excepto
el punto inicial considerado. Esto es importante, puesto que un valor atpico muy grande
pueden afectar de alguna manera al modelo tanto que no parecera ser inusualmente
separado de la lnea.


Residuales Inusuales
Una vez que se ha estimado el modelo, es til estudiar los residuales para determinar donde
existe cualquier valor atpico que deba ser removido de los datos. El panel Residuales Inusuales
lista todas las observaciones que tienen un residual estandarizado mayor que 2.0 en valor
absoluto.

Residuos Atpicos
Y Residual
Row X Y Predicha Residual Estudentizado
4 0.0 20.09 13.9249 6.16515 2.22
18 3.0 5.14 6.63425 -1.49425 -2.64

Los residuales estandarizados mayor que 3 en valor absoluto corresponden a puntos a ms de 3
desviaciones estndar del modelo estimado, lo cual es un evento extremadamente raro para una
distribucin normal. Note que la fila 18 es ms de 2.5 desviaciones estndar hacia afuera por la
que habra que investigarlo.

Los puntos pueden removerse de la estimacin mientras se examina con el Grfico del Modelo
Estimado dando clic sobre un punto y presionando el botn Excluir/Incluir sobre la barra de
herramientas:
Grfica del Modelo Ajustado
Potencia=-0.629, Cambio=0.0
0 1 2 3 4
Age
0
4
8
12
16
20
24
P
l
a
s
m
a

L
e
v
e
l

Los puntos excluidos son marcados con una X. Para los datos del ejemplo, removiendo la fila 18
se tiene poco efecto sobre el modelo estimado o la transformacin optima.
STATGRAPHICS Rev. 9/14/2006
2006 por StatPoint, Inc. Transformaciones de Box-Cox - 13

Puntos Influyentes
En la estimacin de un modelo de regresin, todas las observaciones no tienen la misma
influencia sobre la estimacin de los parmetros en el modelo estimado. En una regresin lineal
simple, los puntos localizados con valores muy bajos o altos de X tienen mayor influencia que
los que estn localizados cerca de la media de X. El panel de Puntos Influyentes despliega
cualquier observacin que tiene una alta influencia sobre la estimacin del modelo:

Puntos Influyentes
Y Residual
Fila X Y Predicha Estudentizado Leverage
Valor de influencia promedio de un punto =0.08

La tabla anterior muestra todos los puntos con palancada igual o mayor a 3 veces sobre un valor
promedio de los datos, donde la palancada de una observacin es una medida de la influencia
sobre la estimacin de los coeficientes del modelo. En general, valores con palancada excesiva a
5 veces sobre de un valor promedio de los datos deben ser examinados a detalle, puesto que
tienen inusualmente un alto impacto sobre la estimacin del modelo. En los datos del ejemplo,
no hay observaciones con palancada inusualmente grande.

Pronsticos
El panel de Pronsticos crea predicciones usando el modelo estimado.

Valores Predichos
95.00% 95.00%
Predicho Lmites de Prediccin Lmites de Confianza
X Y Inferior Superior Inferior Superior
0.0 13.9226 9.83804 21.2112 12.3424 15.8276
1.0 10.534 7.82401 14.9464 9.77386 11.3866
2.0 8.24875 6.34227 11.1674 7.81234 8.72285
3.0 6.63479 5.22299 8.70911 6.25099 7.05514
4.0 5.45266 4.35965 7.01618 5.05345 5.90123
5.0 4.5609 3.68238 5.79685 4.15302 5.03211

Se incluyen en la tabla:

X El valor de la variable independiente en la cul la prediccin es realizada.

Prediccin Y El valor predicho de la variable dependiente usando el modelo estimado.

Lmites de Prediccin Lmites de prediccin para nuevas observaciones en la
seleccin del nivel de confianza (correspondientes a los lmites exteriores sobre el grfico
del modelo estimado).

Lmites de Confianza Lmites de confianza para la media de Y en la seleccin del
nivel de confianza (correspondientes a los lmites internos sobre el grfico del modelo
estimado).

Por ejemplo, en X =3, 95% de todos los nios se espera tener niveles de plasma entre 5.47 y
8.53.
STATGRAPHICS Rev. 9/14/2006
2006 por StatPoint, Inc. Transformaciones de Box-Cox - 14

Opciones del Panel


Nivel de Confianza: Porcentaje de confianza para los intervalos.

Tipo de Lmites: donde se definen lmites de dos-colas o una-cola.

Pronsticos en X: Hasta 10 valores de X para realizar predicciones.

Grabar Resultados
Los siguientes resultados pueden grabarse en la base de datos:
1. Valores Predichos El valor predicho de Y correspondiente a cada una de las n
observaciones.
2. Limite de Prediccin Inferior El lmite de prediccin inferior para cada valor predicho.
3. Limite de Prediccin Superior El lmite de prediccin superior para cada valor predicho.
4. Limite de Prediccin Inferior de la Media El lmite de confianza inferior para la media
de Y en cada n valores de X.
5. Limite de Prediccin Superior de la Media El lmite de confianza superior para la
media de Y en cada n valores de X.
6. Residuales Los n residuales.
7. Residuales Estandarizados Los n residuales estandarizados.
8. Palancadas Los valores de palancadas correspondientes a n valores de X.
9. Transformacin de los Datos Los n valores transformados W.

Nota: Si se graban los lmites, corresponden a la configuracin sobre el panel de Pronsticos. Si
los lmites de dos-colas son presentados en la tabla de Pronsticos, entonces los lmites
guardados sern tambin de dos-colas. Si los lmites de una-cola son presentados en la tabla de
Pronsticos, entonces los lmites guardados sern tambin de una-cola..

Clculos

La lnea de regresin es desarrollada sobre la transformacin de valores W. Los lmites de
prediccin son calculados en la mtrica transformada y deben invertirse antes de ser presentados.
STATGRAPHICS Rev. 9/14/2006
2006 por StatPoint, Inc. Transformaciones de Box-Cox - 15

Para ms detalle sobre los clculos, vea la documentacin de Regresin Simple.

Você também pode gostar