Escolar Documentos
Profissional Documentos
Cultura Documentos
Regresi
on lineal simple
1.1.
Introducci
on
Nuestro objetivo es obtener un modelo que permita establecer relaciones entre dos
variables: la variable y (variable dependiente, respuesta o de interes) y la variable x
(variable independiente, predictora o explicativa).
Si es posible establecer una relaci
on determinista entre las variables, es decir,
de la forma y = f (x), entonces la prediccion no tiene ning
un error. Por ejemplo,
un circuito electrico compuesto por una alimentacion de 10 voltios conectada a una
resistencia de 5 ohmios dara lugar a una intensidad de I=V/R=10/5=2 amperios. El
error obtenido al medirla es despreciable, por lo que mediciones sucesivas obtendran
siempre intensidades de dos amperios.
Como se observa en el grafico, todos los puntos se ajustan a la perfeccion a la
lnea recta.
R=5 constante
35
30
25
20
15
10
5
0
0
4
Intensidad (A)
Estadstica II
Sin embargo, en la mayora de las ocasiones, las relaciones entre las variables nos
son desconocidas o los errores de medicion no son negligibles. Bajo estas circunstancias de relaci
on no determinista, la relacion puede expresarse como
y = f (x) + u,
donde u es una perturbacion desconocida (una variable aleatoria). La presencia de
ese error aleatorio significa que dos observaciones identicas para x pueden dar lugar
a observaciones distintas para y (y viceversa). De particular interes en este curso son
aquellos modelos en los que la funcion f (x) es lineal:
y = 0 + 1 x + u.
La variable y vara linealmente con la variable x, pero no queda totalmente explicada por ella a causa de la presencia del error u. Los parametros 0 y 1 se denominan
coficientes de regresion; en particular, 0 es el intercepto y 1 es la pendiente.
Consideremos el siguiente diagrama de dispersi
on que muestra los distintos pesos
y alturas de un grupo de personas.
100
93
Peso (kg)
86
79
72
65
58
51
44
155
160
165
170
175
180
185
190
Estatura (cm)
Aunque las personas mas altas tienden a tener mayor peso que las bajas, no
podemos establecer una relacion determinista entre las variables peso y altura. Vemos
que existe una relacion entre ambas, pero que esta no es exacta.
El objetivo de un modelo de regresion es encontrar una relacion entre las variables
que se ajuste lo mejor posible a los datos. En el caso de un modelo de regresion lineal
simple, el objetivo es encontrar la recta de regresion
y = 0 + 1 x.
Por ejemplo, supongamos que la recta de regresion es y = 100 + x. Eso significa
que se estima que una persona cuya estatura es de 180 cm va a pesar 80 kg. Obviamente, esto no es siempre cierto: existen personas que miden 180 cm y no pesan
80 kg y al reves.
Tema 1. Regresi
on lineal simple
104
Peso (kg)
94
84
74
64
54
44
150
160
170
180
190
Estatura (cm)
1.2.
Hip
otesis del modelo
Para ser valido, el modelo de regresion lineal simple necesita que se satisfagan
las siguientes hipotesis:
1. linealidad,
2. homogeneidad,
3. homocedasticidad,
4. independencia,
5. normalidad.
1.2.1.
Linealidad
Estadstica II
600
25
500
20
400
15
300
10
200
5
100
0
0
0
10
15
20
25
10
15
20
25
1.2.2.
Homocedasticidad
16
14
20
12
10
15
10
6
4
5
2
0
0
0
1.2.3.
10
15
20
25
Homogeneidad
Tema 1. Regresi
on lineal simple
1.2.4.
Independencia
1.2.5.
Normalidad
1.3.
Estimaci
on de los par
ametros
800
700
600
500
400
300
200
100
0
0
1.3.1.
50
100
150
200
250
M
etodo de m
axima verosimilitud
(yi 0 1 xi )2
exp
f (yi ) =
2 2
2 2
1
Estadstica II
n
X
(yi 0 1 xi )
i=1
L(0 , 1 , 2 ) =
n exp
2 2
(2 2 ) 2
0
ln L
= 0,
1
ln L
= 0.
2
ln L
0
1
2
n
X
i=1
ln L
1
1
2
n
X
i=1
ln L
2
2n2
(yi 0 1 xi ).
xi (yi 0 1 xi ).
1
2 4
n
X
i=1
(yi 0 1 xi )2 .
yi = n0 + 1
xi yi = 0
b2 =
n
X
n
X
xi + 1
n
X
i=1
(1.1)
(yi 0 1 xi )2
n
x2i ,
(1.2)
i=1
i=1
i=1
xi ,
i=1
i=1
n
X
n
X
n
X
i=1
e2i
.
(1.3)
Tema 1. Regresi
on lineal simple
0 = y 1 x.
Seguimos con (1.2):
nxy = n0 x + n1 x2 ;
xy = y 1 x x + 1 x2 = xy 1 x2 + 1 x2 ;
xy xy = 1 x2 x2 ;
2
SX,Y = 1 SX
;
1 =
SX,Y
2
SX
2
SX,Y
2 S2
SX
Y
Por u
ltimo, evaluando la matriz hessiana con los valores obtenidos para los estimadores, se comprueba que se trata de un mnimo (local).
Algunas propiedades que se derivan para estos estimadores son las siguientes:
1. La recta de regresion simple pasa por la media muestral de los datos (
x, y).
2. La pendiente de la recta es proporcional a la covarianza entre las variables.
3. Como y = 0 + 1 x, entonces
yi = y + 1 (xi x), i = 1, . . . , n.
1.3.2.
M
etodo de mnimos cuadrados
En este caso se busca que sea mnima la suma de los cuadrados de las distancias
verticales entre los puntos y sus estimaciones a traves de la recta de regresion.
16
14
12
10
8
6
4
2
0
0
10
Estadstica II
y las derivadas parciales de S(0 , 1 ) nos llevan a las ecuaciones normales ya conocidas
n
X
n
X
ei = 0,
i=1
1.3.3.
ei xi = 0.
i=1
Estimaci
on de la varianza
b2 =
n
X
e2i
i=1
2
Sin embargo, se puede comprobar que E(b2 ) = (n2)
, por lo que el estimador no
n
es insesgado. En su lugar, usaremos la varianza residual
SR2 =
que s es insesgado.
n
X
e2i
i=1
n2
Tema 1. Regresi
on lineal simple
1.4.
1.4.1.
Coeficientes de regresi
on
Normalidad
Al ser yi = 0 + 1 xi + ui , entonces yi N (0 + 1 xi , 2 ). Obtendremos que los
estimadores 0 y 1 se distribuyen normalmente por ser combinaciones lineales de
variables normales.
1 =
n
X
(xi x)(yi y)
2
nSX
i=1
Como
n
X
(xi x)
y
2
nSX
i=1
entonces
1 =
xi
x
2 .
nSX
2
nSX
i=1
n
X
(xi x)
y
i=1
2
nSX
n
y X
(xi x) = 0,
=
2
nSX
i=1
n
X
(xi x)yi
2
nSX
i=1
con wi =
n
X
(xi x)yi
n
X
wi y i ,
i=1
Ahora
0 = y 1 x =
n
X
yi
i=1
n
X
i=1
wi y i =
n
X
1
i=1
xwi yi .
Esperanza
Veremos que tanto 0 como 1 son estimadores centrados.
E(1 ) = E
n
X
i=1
= 0
n
X
i=1
wi y i
wi + 1
n
X
i=1
n
X
i=1
wi E(yi ) =
n
X
wi (0 + 1 xi ) =
i=1
wi xi = 0 0 + 1 1 = 1 .
10
Estadstica II
E(0 ) = E
n
X
i=1
"
# X
n
1
xwi yi =
xwi E(yi ) =
n
n
i=1
n
X
1
i=1
X
1
xwi (0 + 1 xi ) = 0 +
n
i=1
1
xwi
n
+ 1
n
X
1
i=1
= 0 (1 x 0) + 1 (
x x 1) = 0 .
xwi xi =
Varianza
Como las variables yi son independientes, entonces
n
X
V ar(1 ) = V ar
wi y i
i=1
n
X
wi2 V
ar(yi ) =
n
X
wi2 2 =
i=1
i=1
n
2
X
(xi x)2
SX
2
2
=
=
=
.
2 2
2 2
2
n2 (SX
))
n2 (SX
))
nSX
i=1
2
V ar(0 ) =
n
X
1
i=1
n
X
i=1
xwi
2
V ar(yi ) =
n
X
1
i=1
xwi
2
n
n
X
2 X
1
1
2
2
2
2
2 2
w
=
wi
w
+
x
+
x
w
i
i
i
n2
n
n
n
i=1
i=1
1
1
2
x2
2
+ x2
+
0
=
1
+
.
2
2
n
nSX
n
SX
Sin embargo, la varianza 2 suele ser un dato desconocido, por lo que se define
el error est
andar estimado siguiente como medida de precision de la estimacion de
los coeficientes:
Tema 1. Regresi
on lineal simple
S(0 ) =
1.5.
2
SR
n
1+
11
x
2
2
SX
,
S(1 ) =
2
SR
2 .
nSX
1.5.1.
Intervalos de confianza
z1/2 2 ,
con P (N (0, 1) > z1/2 ) = /2.
Sabemos que
0 N
y
2
0 ,
n
1 N
x2
1+ 2
SX
2
.
1 ,
2
nSX
0 tn2,1/2
2
SR
n
1+
1 tn2,1/2
2
SR
2
nSX
x
2
2
SX
12
Estadstica II
para 0 y 1 , respectivamente.
Se demuestra (no lo haremos) teniendo en cuenta que
n
X
e2i
i=1
2n2
i i
V ar(i )
q
tn2 .
2
SR
2
Cuanto mas estrecho sea este intervalo, mejor sera la estimacion. Si el intervalo
de confianza contiene el valor cero, entonces no podemos descartar la posibilidad de
que 1 (la pendiente) sea cero, es decir, que las variables X e Y no esten relacionadas
(linealmente).
1.5.2.
Contraste de hip
otesis
Bajo la hipotesis nula, se tiene que S(1 ) tn2 , por lo que la region de rechazo
1
de la hipotesis nula es
1
> tn2,1/2 .
S(1 )
Tema 1. Regresi
on lineal simple
13
1.5.3.
Contraste de regresi
on y descomposici
on de la variabilidad
i=1
de la siguiente manera:
VT =
n
X
i=1
(yi
y )2 =
n
X
i=1
n
X
(yi
yi +
yi
y )2 =
n
X
i=1
n
n
X
X
(yi
yi )(
yi
y)
yi
y )2 +2
(yi
yi )2 + (
i=1
i=1
(yi yi )(
yi y) =
n
X
i=1
ei 1 (xi x) = 1
n
X
i=1
ei xi x
por lo que
V T = V E + V N E,
con
n
X
(yi y)2 ,
VT = variabilidad total =
i=1
n
X
(
yi y)2 ,
VE = variabilidad explicada =
i=1
n
X
i=1
(yi yi ) =
n
X
i=1
e2i .
n
X
i=1
ei
= 0,
14
Estadstica II
Si VE es peque
na, la recta de regresion no explica bien la variabilidad de los
datos.
No podemos comparar VE y VNE porque, en general, desconocemos su distribucion. Pero se puede demostrar que si 1 = 0, entonces
VE
F1,n2 (distribucion F de Snedecor).
V N E/(n 2)
Fuentes de
variacion
VE
Suma de
cuadrados
n
X
(
yi y)2
Se2
n2
SR2
Se2
2
SR
i=1
n
X
(yi yi )2
VNE
i=1
n
X
(yi y)2
VT
i=1
n1
1.5.4.
Coeficiente de determinaci
on
R2 =
n
X
(
yi y)2
VE
= i=1n
=
X
VT
2
yi y)
(
n
X
i=1
(
yi y)2
nSY2
i=1
1.6.
Predicci
on
Tema 1. Regresi
on lineal simple
15
(x0
x)2
2
nSX
.
1
n
(x0
x)2
2
nSX
.
Este intervalo tiene mayor amplitud (menos precision) porque no buscamos predecir un valor medio sino un valor especfico.
1.7.
1.7.1.
Linealidad
Con el grafico de dispersion X-Y vemos si los datos iniciales presentan una estructura lineal. Esta es una comprobacion que realizamos antes de comenzar el analisis
de regresion.
16
Estadstica II
Despues de obtener los parametros de regresion, estudiaremos el grafico de residuos frente a valores predichos. Este grafico debe presentar un aspecto totalmente
aleatoria, sin estructura alguna.
2,2
Residuos
1,2
0,2
-0,8
-1,8
0
200
400
600
800
Valores predichos
Si tienen alg
un tipo de estructura, entonces no se satisface la hipotesis de linealidad.
6
Residuos
4
2
0
-2
-4
-6
0
100
200
300
Valores predichos
1.7.2.
Homocedasticidad
Residuos
Residuos
Al analizar los residuos , tambien hay que verificar que su varianza sea mas o
menos constante. Nos seran u
tiles los graficos de residuos frente a valores ajustados
y de residuos frente a X.
0
-3
0
-3
-6
-6
-9
-9
0
40
80
120
160
200
50
Valores predichos
100
Tema 1. Regresi
on lineal simple
1.7.3.
17
Independencia
1.7.4.
Normalidad
Mediante un histograma o un gr
afico probabilstico normal de los residuos podemos verificar si estos se distribuyen normalmente.
25
99,9
99
Frecuencia
20
95
15
80
50
10
20
5
5
1
0
-1,9
-0,9
0,1
1,1
2,1
3,1
Residuos
1.7.5.
0.1
-1,8
-0,8
0,2
1,2
2,2
1.8.
Transformacion
apropiada
y = ln y
y = ln y, x = ln x
x = x1
y = y1 , x = x1
Ap
endice
18
Estadstica II
n
Y
f (|yi ).
i=1
2
SX
=
n
X
i=1
(xi x)2
n
= x2 x2 .
SX,Y =
xi
x
2 ,
nSX
4. Si wi =
i)
ii)
n
X
i=1
n
X
n
X
(xi x)(yi y)
i=1
= xy xy.
entonces:
wi = 0,
wi xi = 1.
i=1
Demostraci
on:
i)
n
X
wi =
n
X
xi x
i=1
i=1
2
nSX
ii)
n
X
i=1
wi x i =
n
X
xi x
i=1
2
nSX
1
= 2
SX
n
X
xi
n
X
i=1
x
= 1 (
n
S 2 x x) = 0.
n
X
i=1
1
xi = 2
SX
n
X
i=1
x2i
x
n
X
xi
2
x2 x2
SX
=
=
= 1.
2
2
n
SX
SX
i=1
Tema 1. Regresi
on lineal simple
19
i=1
i=1
Tema 2
Regresi
on lineal m
ultiple
2.1.
Introducci
on
2.2.
Hip
otesis del modelo
2.2.1.
Linealidad
22
Estadstica II
2.2.2.
Homocedasticidad
2.2.3.
Homogeneidad
2.2.4.
Independencia
2.2.5.
Normalidad
2.2.6.
Otras hip
otesis
Tema 2. Regresi
on lineal m
ultiple
2.3.
23
Y =
y1
y2
..
.
yn
1 x11
1 x21
.. ..
. .
1 xn1
X=
. . . x1k
. . . x2k
. . . ..
.
. . . xnk
0
1
..
.
k
U =
u1
u2
..
.
un
2.4.
Y N (X, 2 In ).
Estimaci
on de los par
ametros
2.4.1.
Coeficientes de regresi
on
0 =
0 =
L
0
L
j
= 2
= 2
n
X
i=1
n
X
i=1
24
Estadstica II
Llamando ei = yi yi = yi 0 1 xi1 k xik , entonces
X
n
ei = 0,
i=1
n
X
eu ixij = 0, j = 1, . . . , k.
i=1
L
= 2X t Y + 2X t X;
X t X = X t Y ;
= (X t X)1 X t Y.
2.4.2.
Varianza
SR2 =
n
X
e2i
i=1
.
nk1
2.4.3.
n
X
i=1
2
e2i
2nk1 .
Comentarios
P
P
P
Como y = 0 + ki=1 i xi e y = 0 + ki=1 i xi , entonces y y = ki=1 i (xi xi ).
Si
y1 y
..
Y = Y Y =
,
.
yn y
b = ...
k
Tema 2. Regresi
on lineal m
ultiple
entonces Y = Xb.
=
X
x11 x1 . . . x1k xk
x21 x1 . . . x2k xk
..
..
...
.
.
xn1 x1 . . . xnk xk
25
tX
t Y , es decir, SX,X es la matriz de varianzas
y SX,Y = 1 X
Sean ahora SX,X = n1 X
2
y covarianzas de las variables explicativas y SX,Y el vector de covarianzas entre las
variables explicativas y la variables respuesta. Se tiene que
Y = Xb;
t Y = X
t Xb;
X
t X)
1 X
t Y = S 1 SX,Y .
b = (X
X,X
Si las variables xi son incorreladas, entonces SXX es una matriz diagonal y se
resulta que
Cov(y, xi )
,
bi = i =
V ar(xi )
coincidiendo con el coeficiente de regresion obtenido para el modelo de regresion
lineal simple.
2.5.
2.5.1.
Normalidad
2.5.2.
Esperanza
= E (X t X)1 X t Y = (X t X)1 X t E(Y ) = (X t X)1 X t X = .
E()
26
Estadstica II
2.5.3.
Varianza
= V ar (X t X)1 X t Y = (X t X)1 X t V ar(Y )X(X t X)1 =
V ar()
= (X t X)1 X t 2 X(X t X)1 = 2 (X t X)1 .
En concreto,
1
V ar(i = 2 (X t X)ii ,
1
Cov(i , j ) = (X t X)ij .
As, i N (i , 2 (X t X)1
ii ).
Sin embargo, la varianza 2 suele ser desconocida. Por lo tanto, definimos el error
est
andar estimado como
S(i ) =
2.6.
2
(X t X)1
ii SR .
Inferencia
2.6.1.
i i
2 (X t X)1
ii
N (0, 1).
Tema 2. Regresi
on lineal m
ultiple
27
2
(nk1)SR
2
2
t
SR (X X)ii
nk1
Ahora, bajo la hipotesis nula se tiene que S(i ) tnk1 . Por lo tanto, si
i
i
> tnk1,1/2 ,
S(i )
2.6.2.
Intervalos de confianza
Puesto que
i i
S(i )
tnk1,1/2
i i
tnk1,1/2
S(i )
= 1 ;
P i tnk1,1/2 S(i ) < i < i + tnk1,1/2 S(i .
As que i tnk1,1/2 S(i ), i + tnk1,1/2 S(i ) es un intervalo de confianza para i con nivel de confianza 1 . Analogamente a lo ya visto, si n > 30 y
= 0.05, el intervalo puede aproximarse por i 2S(i ).
2.6.3.
Contraste de regresi
on
n
X
(
yi y)2 ,
VE = variabilidad explicada =
i=1
n
X
i=1
(yi yi ) =
n
X
i=1
e2i .
28
Estadstica II
El contraste de regresion establece si existe relacion lineal entre la variable respuesta y los coeficientes de regresion:
H0 : 1 = 2 = = k = 0,
H1 : j {1, . . . , k} / j 6= 0.
Por una parte, sabemos que
que VE2 2k . En consecuencia,
V NE
2
V E/k
Fk,nk1 .
V N E/(n k 1)
Fuentes de
variacion
VE (modelo)
Suma de
cuadrados
n
X
(
yi y)2
i=1
VNE (residual)
n
X
n
X
VT
i=1
e2i
nk1
(yi y)2
n1
i=1
Se2 =
VE
k
Se2
2
SR
SR2
2.7.
El coeficiente de determinaci
on corregido
Para construir una medida que describa el ajuste global del modelo se utiliza el
cociente entre las variabilidades explicada y total del modelo. Es lo que se llama el
coeficiente de determinacion.
R2 =
VE
=
VT
n
X
i=1
(
yi y)2
(yi
y)2
=1
V NE
.
VT
Tema 2. Regresi
on lineal m
ultiple
29
2.8.
Regresi
on con variables cualitativas
2.8.1.
Variables dicot
omicas
yB
B
yA
A
X
30
Estadstica II
Este suceso se da con mucha frecuencia. Datos que vienen en grupos son:
peso y altura en funcion del sexo,
densidad de un material y temperatura del proceso en funcion de la presencia
o ausencia de un metal,
consumo de un motor y potencia en funcion del tipo de motor (diesel o gasolina).
Para resolver este problema, se introducen unas variables binarias (dicotomicas)
denominadas variables ficticias, indicadoras o dummies:
(
0 si la observacion i pertenece al grupo A,
zi =
1 si la observacion i pertenece al grupo B.
Tras definir la variable z de este modo, se ajusta un modelo de la forma
y = 0 + 1 x + 2 z + u.
Este modelo tiene la propiedad de ajustar las dos rectas de regresion. Si la observacion i pertenece al grupo A, entonces
yi = 0 + 1 xi ,
mientras que si pertenece al grupo B, entonces
yi = (0 + 2 ) + 1 xi .
Supongamos que zi vale 1 si la observacion i pertenece a un hombre y 0 si pertenece a una mujer. Si ajustamos un modelo como el que acabamos de ver para
relacionar peso (y) y altura (x), obtendremos que un hombre pesa 2 kg mas que
una mujer de la misma altura. Ahora bien, de acuerdo con el modelo, el ratio de
crecimiento (la pendiente 1 ) es el mismo para ambos generos, cosa que podra no
ser cierta.
Tema 2. Regresi
on lineal m
ultiple
31
Para ver si el hecho de ser hombre o mujer (la variable cualitativa) afecta al ratio
de crecimiento (la pendiente de la recta de regresion), estudiaremos la interaccion
entre ambas mediante un modelo de la forma
y = 0 + 1 x + 2 z + 3 xz + u.
As, para una observacion i:
si zi = 0, entonces yi = 0 + 1 xi ,
si zi = 1, entonces yigorro = (0 + 2 ) + (1 + 3 )zi .
2.8.2.
Variables polit
omicas
2.9.
Predicci
on
32
Estadstica II
1
2 1+
SR
x
h )
( xth SXX
,
n
2.10.
1
1+
xth SXX
x
h
n
,
Multicolinealidad
Tema 2. Regresi
on lineal m
ultiple
33
2.11.
Diagnosis
2.12.
Ap
endice
1. Si y, a Rn , entonces
y t a
= y.
a
2. Si a Rn y X Rnn , entonces
at Xa
= 2Xa.
a
3. Si A Rmn e Y Rn , entonces:
a) E(AY ) = AE(Y );
b) V ar(AY ) = AV ar(Y )At .
4. Los autovalores de la matriz A Rnn se calculan resolviendo la ecuacion
|A In | = 0.
Tema 3
An
alisis de la varianza
3.1.
Introducci
on
36
Estadstica II
Para ello se realiza un experimento en el que se fabrica papel con distintos porcentajes de celulosa y se mide la resistencia.
% celulosa
5
10
15
20
7
12
14
19
Resistencia
8 15 11 9 10
17 13 18 19 15
18 19 17 16 18
25 22 23 18 20
25
Resistencia
22
19
16
13
10
7
5
10
15
20
Porcentaje de celulosa
3.2.
El modelo
Tema 3. An
alisis de la varianza
37
38
Estadstica II
3.3.
Estimaci
on de los par
ametros
Nuestro modelo es
yij = i + ij , yij N (i , 2 ), i = 1, . . . , I, j = 1, . . . , ni .
Este modelo tiene I + 1 parametros desconocidos: las medias 1 , . . . , I y la
varianza 2 . Vamos a estimarlos usando el metodo de maxima verosimilitud.
La funcion de densidad para la observacion yij es
2
f (yij |i , ) =
(yij i )2
,
exp
2 2
2 2
1
L(, 2 ) = (2 2 ) 2 exp
ni
I X
X
i=1 j=1
(yij i )2
2 2
Tomando logaritmos:
ni
I
n
1 XX
2
ln L = ln (2 ) 2
(yij i )2 .
2
2 i=1 j=1
As:
0=
ni
1 X
n
ln L
= 2
yi i );
(yij i ) = 2 (
i
j=1
i = yi .
En consecuencia, un estimador de la perturbacion ij sera
ij = yij
i .
A la estimacion del error se la denomina residuo:
eij = yij yi .
El residuo mide la variabilidad no explicada.
Busquemos ahora una estimacion de la varianza del error:
0=
ni
I
n
1 XX
ln L
(yij
i )2 ;
=
+
2
2
2
2
2
2( ) i=1 j=1
Tema 3. An
alisis de la varianza
39
ni
I
1 XX
0 = n + 2
(yij
i )2 ;
i=1 j=1
b2 =
ni
I X
X
(yij
i )2
i=1 j=1
ni
I X
X
(yij yi )2
i=1 j=1
ni
I X
X
e2ij
i=1 j=1
i=1 j=1
nI
SR2 =
Como
(ni 1)s2i
2
I
X
i=1
(ni 1)s2i
nI
2
(nI)SR
2
2ni 1 , entonces
2nI .
3.4.
3.4.1.
Esperanza
El estimador
i es centrado:
E(
i ) = E
3.4.2.
Pni
j=1 yij
ni
Pni
E(yi )
=
ni
i=1
Pn
i=1
ni
= i .
Varianza
V ar(
i ) = V ar
Pni
j=1
ni
yij
Pni
i=1
V ar(yi )
=
n2i
Pni
i=1
n2i
2
.
ni
40
Estadstica II
Ademas, como
i es combinacion lineal de variables aleatorias independientes
normales, entonces tambien esta distribuida normalmente. Luego
2
.
i N i ,
ni
Un intervalo de confianza para i es
i z1/2 .
ni
Pero como no suele conocerse, se usa
si
i tni 1,1/2 .
ni
3.5.
Descomposici
on de la variabilidad
ni
I X
X
i=1 j=1
(yij y)2 =
ni
ni
ni
I X
I X
I X
X
X
X
(
yi y)(yij yi ) =
(yij yi )2 + 2
(
yi y)2 +
i=1 j=1
i=1 j=1
i=1 j=1
Tema 3. An
alisis de la varianza
I
X
i=1
41
ni (
yi y) +
ni
I X
X
e2ij .
i=1 j=1
VT
VE
= variabilidad total =
ni
I X
X
(yij y)2 ,
i=1 j=1
I
X
= variabilidad explicada =
i=1
ni (
yi y)2 .
ni
I X
X
i=1 j=1
(yij yi )2 .
1.
V NE
2
2nI .
VE
2
2I1 .
42
Estadstica II
Fuentes de
variabilidad
VNE: residual
Suma de
cuadrados
PI
i=1
ni (
yi y)2
ni
I X
X
i=1 j=1
VT: total
(yij yi )2
ni
I X
X
i=1 j=1
Si
c2
S
e
2
SR
Grados de
libertad
(yij y)2
Varianza
c2 =
S
e
I 1
SR2 =
nI
I
X
i=1
ni (
yi y)
I1
ni
I X
X
(yij yi )2
Test F
c2
S
e
2
SR
i=1 j=1
nI
ni
I X
X
i=1 j=1
n1
n1
Ejemplo 2
En el ejemplo de la celulosa,
c2
S
e
= 19, 61 y F3,20;0.95=3.098 ,
2
S
R
3.6.
Estimaci
on de la diferencia de medias
Una vez sabemos que las medias son distintas, nos interesa saber si al menos
algunas de ellas son iguales. Para ello, una posibilidad es compararlas dos a dos
mediante el contraste
H0 :
H1 :
1 = 2 ,
1 6= 2 .
y1 y2
(n1 1)
s21 +(n2 1)
s22
n1 +n2 2
1
n1
1
n2
.
Tema 3. An
alisis de la varianza
43
Ejemplo 3
En el caso de la celulosa:
(i,j)
(1,2)
(1,3)
(1,4)
(2,3)
(2,4)
(3,4)
t
3.48
5.12
7.07
0.98
3.49
3.06
M
etodo de Fischer o LSD (Least Significative Distance)
Si, aunque desconocida, estamos aceptando que todas las varianzas son iguales,
entonces podemos estimar la varianza informacion de todas las muestras y no solo
la de los dos grupos que intervienen en el contraste: empleamos SR2 .
El estadstico es
t = r
y1 y2
.
1
1
+ n2 SR2
n1
t
3.84
4.75
7.57
0.90
3.73
2.82
44
Estadstica II
s
1
1
+
n1 n2
SR2 .
Como tnI,1/2
los efectos.
3.7.
r
1
n1
1
n2
Diagnosis
3.8.
Ap
endice
s2X =
n
X
i=1
(xi x)2
n1
Tema 4
Dise
nos factoriales a dos niveles
4.1.
Introducci
on
46
Estadstica II
4.2.
El dise
no 22. Dise
nos 2k
4.2.1.
Conceptos b
asicos
Factor B
(+)
y12 (b)
y22 (ab)
()
y11 (o)
()
y21 (a)
A B Y
- - y11 (o)
+ - y21 (a)
- + y12 (b)
+ + y22 (ab)
(+)
Factor A
Tema 4. Dise
nos factoriales a dos niveles
47
4.2.2.
X1 + X2 +
X1 X2 + ij .
2
2
2
Estimaci
on
0=
X
L
= 2
(yij i j ()ij ) = 8(
y );
i,j
= y;
0=
o + a + b + ab
.
4
X
L
= 2
(y2j 2 j ()2j ) = 4(
y2
2 );
2
j
48
Estadstica II
2 = y2
=
a + ab o + a + b + ab
o + a b + ab
=
;
2
4
4
0=
o + a b + ab
.
2
L
= (y22 2 2 ()22 );
()22
o + a + b + ab
4
o + a b + ab o a + b + ab
o a b +ab
=
;
4
4
4
c 22 = y2 2
()
2 2 = ab
c = 0 a b + ab .
Ejemplo 6
Una empresa farmaceutica desea conocer como afectan la concentracion de un reactivo (factor A) y la cantidad de un catalizador (factor B) a la cantidad de principio
activo obtenido en un proceso qumico.
(
() 15 %,
factor A =
(+) 25 %.
(
() 1 kg,
factor B =
(+) 2 kg.
A B Y
- - 28
+ - 36
- + 18
+ + 31
Estimamos los parametros:
= 28.25,
El modelo es
= 10.5,
= 7.5,
c = 2.5.
Tema 4. Dise
nos factoriales a dos niveles
49
:
c
:
estima
estima
estima
estima
el
el
el
el
efecto
efecto
efecto
efecto
Ejemplo 8 (Dise
no 23 )
Determinemos los estimadores de los efectos para un dise
no factorial 23 .
A
+
+
+
+
B
+
+
+
+
C AB
+
+
+ +
+
+
+ +
AC BC
+
+
+
+
+
+
+
+
ABC
+
+
+
+
Y
o
a
b
ab
c
ac
bc
abc
o + a + b + c + ab + ac + bc + abc
,
8
a + ab + ac + abc o + b + c + bc
A =
,
4
4
= b + ab + bc + abc o + a + c + ac ,
B
4
4
c + ac + bc + abc o + a + b + ab
C =
,
4
4
d = o + ab + c + abc a + b + ac + bc ,
AB
4
4
d = o + b + ac + abc a + ab + c + bc ,
AC
4
4
d = o + a + bc + abc b + ab + c + ac ,
BC
4
4
[ = a + b + c + abc o + ab + ac + bc .
ABC
4
4
50
Estadstica II
Ejemplo 9
Se realiza un experimento para mejorar la calidad del hormigon (la variable de interes
es la resistencia a la presion). Para ello, se obtuvieron muestras de hormigon variando
los niveles de tres factores. Los datos de la muestra son los siguientes:
o
a
b
c
ab
ac
bc
abc
700
900
3400
1200
5500
1200
3500
6200
El modelo es
y = 2825 + 625x1 + 1825x2 + 200x3 + 575x1 x2 + 50x1 x3 + 100x1 x2 x3 .
4.3.
4.3.1.
Gr
afico de efectos principales
Tema 4. Dise
nos factoriales a dos niveles
51
(X 1000)
5
Resistencia
4
3
2
1
0
-1
1
A
-1
-1
Se aprecia que el efecto del factor C es mucho menor que el de los otros factores.
4.3.2.
Diagrama de Pareto
En este grafico podemos ver las magnitudes de los efectos principales y de las
interacciones ordenadas de mayor a menor en valor absoluto.
B
A
AB
C
ABC
AC
BC
0
4
(X 1000)
4.3.3.
Gr
afico probabilstico normal/seminormal
Bajo las hipotesis habituales, los estimadores de los efectos siguen una distribucion normal.
Si el verdadero valor de los efectos es cero, los valores estimados se pueden considerar como una muestra de una distribucion normal de media cero.
52
Estadstica II
En este grafico se representan los efectos estandarizados frente a los percentiles. Estos efectos deberan estar alineados. En consecuencia, cuanto mas se aleje el
estimador del efecto de un factor de la lnea, mas significativo sera dicho factor.
99,9
99
Porcentaje
95
80
C
ABC
AC
50
20
5
A
AB
BC
1
0.1
0
Efectos estandarizados
4
(X 1000)
4.3.4.
M
etodo de la MEDA
M EDA
.
0.675
Tema 4. Dise
nos factoriales a dos niveles
s =
53
M EDA
100
=
= 148.15.
0.675
0.675
Son significativos los efectos mayores o iguales que 296.30, esto es, A, B, C y
AB.
Una vez hemos decidido que factores son significativos, escribimos la ecuacion
del modelo considerando solo esos terminos:
y = 2825 + 625x1 + 1825x2 + 200x3 + 575x1 x2 .
4.4.
Resumen de dise
nos 2k
2k = k factores con dos niveles cada uno.
Tema 5
Dise
nos fraccionales
5.1.
Introducci
on
Ejemplo 11
En un dise
no 25 tenemos 5 factores, 10 interacciones de segundo orden y 16 interacciones de orden superior. Luego el 50 % van a aportar poca informacion.
En un dise
no 26 tenemos 6 factores, 15 interacciones de segundo orden y 42 interacciones de orden superior. Luego el 66 % van a aportar poca informacion.
56
Estadstica II
5.2.
Dise
nos 2k1
B
+
+
+
+
C AB
+
+
+ +
+
+
+ +
AC BC
+
+
+
+
+
+
+
+
ABC
+
+
+
+
Y
o
a
b
ab
c
ac
bc
abc
Para realizar el experimento completo necesitaramos ocho observaciones. Supongamos que, sin embargo, solo podemos efectuar cuatro.
Elegimos los cuatro casos que para la interaccion ABC estan al nivel (+).
A B C AB
+ - - + - - + +
+ + + +
AC BC
+
+
+
+
ABC
+
+
+
+
Y
a
b
c
abc
Si prestamos atencion, vemos que los siguientes pares de columnas son iguales
entre s: A y BC, B y AC, C y AB, I y ABC. (Por I entendemos un columna
cuyas entradas son todas (+) y que esta asociada con el calculo de la media de las
observaciones). Ademas, ABC siempre es positiva.
d 8 son los estimadores de los efectos de A y BC en el dise
Si A8 y BC
no completo
y A4 es el estimador del efecto de A en este dise
no reducido, entonces:
a + ab + ac + abc o + b + c + bc
,
A8 =
4
4
d 8 = o + a + bc + abc b + c + ab + ac ,
BC
4
4
b
+
c
a
+
abc
d 8.
= A8 + BC
A4 =
2
2
Tema 5. Dise
nos fraccionales
57
d8,
C4 = C8 + AB
[ 8.
I4 = I8 + ABC
Al elegir esta fraccion del dise
no original en la que se confunden efectos principales
e interacciones, estamos asumiendo que los efectos principales son mas importantes
en el proceso que las interacciones.
Se denomina media fraccion o dise
no 2k1 cuando la fraccion del dise
no consiste
en elegir signos iguales de alg
un efecto. El n
umero de observaciones es la mitad que
en el dise
no completo. Obviamente, no hay un u
nico modo para elegir la fraccion.
5.2.1.
Ecuaci
on generatriz
58
Estadstica II
5.2.2.
Resoluci
on del dise
no
Los dise
nos fraccionales se basan en que el proceso que se estudia se ve afectado fundamentalmente por los efectos principales y las interacciones de orden bajo,
pudiendo considerarse nulas las interacciones de orden alto.
Un dise
no fraccional sera bueno si confunde los efectos principales con interacciones del orden mas alto posible. En cambio, un dise
no fraccional que confunda
efectos principales es poco recomendable, pues no podremos determinar el efecto de
que factor estamos estimando.
Se define la resolucion del dise
no como 1 + el orden de interaccion mas baja
confundida con alg
un efecto principal. Este valor coincide con el n
umero de letras de
la palabra de la ecuacion generatriz.
Interesan los dise
nos fraccionales de resolucion alta: los efectos principales estan
confundidos con interacciones de orden alto. Si el efecto es significativo, es muy
probable que sea a consecuencia del efecto principal y no de la interaccion.
Ejemplo 12
I = ABC
I = -AB
Ejemplo 13
En un experimento qumico se utiliza un dise
no 241 con I=ABCD para investigar
los efectos de cuatro factores.
A = temperatura,
B = presion,
C = concentracion,
D = velocidad de centrifugado.
La variable respuesta es la cantidad de residuos generada por el proceso.
A
+
+
+
+
B
+
+
+
+
C
+
+
+
+
D
Y
- 550
+ 749
+ 1052
- 650
+ 1075
- 642
- 601
+ 729
Tema 5. Dise
nos fraccionales
59
Se trata de un dise
no de resolucion IV y los estimadores de los efectos son
= 756,
A(+BCD) = 127,
D(+ABC) = 290.5,
B + (ACD) = 4,
AB+CD = 10,
C(+ABD) = 11.5,
AC+BD = 25.5,
AD+BC = 197.5.
A = BCD,
B = ACD,
C = ABD,
D = ABC,
AB = CD,
AC = BD,
AD = BC.
Mediante las herramientas ya estudiadas, descartamos los efectos poco significativos. Por ejemplo, el diagrama de Pareto que se obtiene es:
D
AD+BC
A
AC+BD
C
AB+CD
B
0
50
100
150
200
250
300
Los efectos D, AD+BC y A parecen ser los mas importantes (podemos confirmarlo mediante la correspondiente tabla ANOVA). Como B y C no son significativos,
tampoco lo son sus interacciones. Por lo tanto, en AD+BC el efecto mayor peso
sera el de AD.
En consecuencia, nuestro modelo queda
y = 756 63.5xA + 145.25xD 98.75xA xD .
Para minimizar y, interesa xA = 1 y xD = 1, es decir, baja temperatura y
poca velocidad de centrifugado. La presion y la concentracion no son importantes.
60
Estadstica II
5.3.
Dise
nos 2kp
B
+
+
+
+
C AB AC
+
+
+
+
+ +
+
+
+
+ +
+
BC
+
+
+
+
ABC
+
+
+
+
Tema 5. Dise
nos fraccionales
I
I
I
I
=
=
=
=
61
Un dise
no saturado es aquel en el que se a
nade un factor sobre cada columna de
74
interacciones. Por ejemplo, en un dise
no 2
asociamos los factores D, E, F y G con
las interacciones AB, AC, BC y ABC, respectivamente.
Una observacion final: cuando se utiliza el metodo de la MEDA en un dise
no
fraccional, en el calculo de la mediana intervienen todos los efectos excepto el asociado
a la media.