Você está na página 1de 61

Tema 1

Regresi
on lineal simple

1.1.

Introducci
on

Nuestro objetivo es obtener un modelo que permita establecer relaciones entre dos
variables: la variable y (variable dependiente, respuesta o de interes) y la variable x
(variable independiente, predictora o explicativa).
Si es posible establecer una relaci
on determinista entre las variables, es decir,
de la forma y = f (x), entonces la prediccion no tiene ning
un error. Por ejemplo,
un circuito electrico compuesto por una alimentacion de 10 voltios conectada a una
resistencia de 5 ohmios dara lugar a una intensidad de I=V/R=10/5=2 amperios. El
error obtenido al medirla es despreciable, por lo que mediciones sucesivas obtendran
siempre intensidades de dos amperios.
Como se observa en el grafico, todos los puntos se ajustan a la perfeccion a la
lnea recta.

Diferencia de potencial (V)

R=5 constante
35
30
25
20
15
10
5
0
0

4
Intensidad (A)

Estadstica II

Sin embargo, en la mayora de las ocasiones, las relaciones entre las variables nos
son desconocidas o los errores de medicion no son negligibles. Bajo estas circunstancias de relaci
on no determinista, la relacion puede expresarse como
y = f (x) + u,
donde u es una perturbacion desconocida (una variable aleatoria). La presencia de
ese error aleatorio significa que dos observaciones identicas para x pueden dar lugar
a observaciones distintas para y (y viceversa). De particular interes en este curso son
aquellos modelos en los que la funcion f (x) es lineal:
y = 0 + 1 x + u.
La variable y vara linealmente con la variable x, pero no queda totalmente explicada por ella a causa de la presencia del error u. Los parametros 0 y 1 se denominan
coficientes de regresion; en particular, 0 es el intercepto y 1 es la pendiente.
Consideremos el siguiente diagrama de dispersi
on que muestra los distintos pesos
y alturas de un grupo de personas.
100
93

Peso (kg)

86
79
72
65
58
51
44
155

160

165

170

175

180

185

190

Estatura (cm)

Aunque las personas mas altas tienden a tener mayor peso que las bajas, no
podemos establecer una relacion determinista entre las variables peso y altura. Vemos
que existe una relacion entre ambas, pero que esta no es exacta.
El objetivo de un modelo de regresion es encontrar una relacion entre las variables
que se ajuste lo mejor posible a los datos. En el caso de un modelo de regresion lineal
simple, el objetivo es encontrar la recta de regresion
y = 0 + 1 x.
Por ejemplo, supongamos que la recta de regresion es y = 100 + x. Eso significa
que se estima que una persona cuya estatura es de 180 cm va a pesar 80 kg. Obviamente, esto no es siempre cierto: existen personas que miden 180 cm y no pesan
80 kg y al reves.

Tema 1. Regresi
on lineal simple

104

Peso (kg)

94
84
74
64
54
44
150

160

170

180

190

Estatura (cm)

La diferencia entre el valor yi de una variable (p.ej., peso) y su estimacion yi es


el residuo ei :
ei = yi yi .
Graficamente, es la distancia vertical entre una observacion y su estimacion a traves
de la recta de regresion.

1.2.

Hip
otesis del modelo

Para ser valido, el modelo de regresion lineal simple necesita que se satisfagan
las siguientes hipotesis:

1. linealidad,
2. homogeneidad,
3. homocedasticidad,
4. independencia,
5. normalidad.

1.2.1.

Linealidad

Si pretendemos ajustar una lnea recta a un conjunto de datos es fundamental


que estos tengan un aspecto compatible con el de una recta.

Estadstica II

600

25

500

20

400
15

300
10

200
5

100
0

0
0

10

15

20

25

10

15

20

25

A menor linealidad, peor representacion mediante una recta de regresion.


Para comprobar la linealidad, representamos graficamente la nube de puntos
asociada al conjunto de observaciones {(xi , yi )}ni=1 .
Si los datos son no lineales, tal vez sea posible encontrar una relacion de los mismos que nos permite aceptar la hipotesis de linealidad para los datos transformados.

1.2.2.

Homocedasticidad

La varianza de los errores es constante:


V ar(ui ) = 2 , i = 1, . . . , n.
Graficamente, significa que la nube de puntos de los datos tiene una anchura mas
o menos constante a lo largo de la recta de regresion. En este caso, se dice que los
datos son homocedasticos; en caso contrario, se dice que son heterocedasticos.
25

16
14

20
12
10

15

10

6
4

5
2
0

0
0

1.2.3.

10

15

20

25

Homogeneidad

Las perturbaciones tienen esperanza nula: E(ui ) = 0, i = 1, . . . , n.


Esto significa que el ajuste que se va a hacer esta centrado respecto de los datos.

Tema 1. Regresi
on lineal simple

1.2.4.

Independencia

Las perturbaciones {ui }ni=1 son variables aleatorias independientes.

1.2.5.

Normalidad

Los errores tienen una distribucion normal: ui N (0, 2 ). Es decir, se distribuyen


siguiendo una campana de Gauss.
Esta suposicion es perfectamente razonable en virtud del teorema del lmite central: si una variable es suma de muchas otras mas peque
nas, entonces se distribuira normalmente.
Como consecuencia, yi N (0 + 1 xi , 2 ).
Observacion: Bajo las hipotesis de normalidad, la incorrelacion y la independencia
de las variables ui son equivalentes.

1.3.

Estimaci
on de los par
ametros

Buscamos los parametros 0 y 1 que mejor se adapten a nuestros datos.

800
700
600
500
400
300
200
100
0
0

1.3.1.

50

100

150

200

250

M
etodo de m
axima verosimilitud

Puesto que yi N (0 + 1 xi , 2 ), entonces su funcion de densidad es




(yi 0 1 xi )2
exp
f (yi ) =
2 2
2 2
1

Estadstica II

y su funcion de maxima verosimilitud es

n
X

(yi 0 1 xi )

i=1

L(0 , 1 , 2 ) =
n exp
2 2
(2 2 ) 2

A continuacion derivamos parcialmente respecto de las variables 0 , 1 and 2 .


ln L
= 0,

0
ln L
= 0,
1

ln L
= 0.
2

Las dos primeras ecuaciones se denominan ecuaciones normales de la regresion.

ln L
0

1
2

n
X
i=1

ln L
1

1
2

n
X
i=1

ln L
2

2n2

(yi 0 1 xi ).
xi (yi 0 1 xi ).

1
2 4

n
X
i=1

(yi 0 1 xi )2 .

Igualando a cero obtenemos que los estimadores 0 , 1 y b2 deben satisfacer


n
X

yi = n0 + 1

xi yi = 0

b2 =

n
X

n
X

xi + 1

n
X
i=1

(1.1)

(yi 0 1 xi )2
n

Comenzamos trabajando la ecuacion (1.1):


n
y = n0 + n1 x;
y = 0 + 1 x;

x2i ,

(1.2)

i=1

i=1

i=1

xi ,

i=1

i=1

n
X

n
X

n
X
i=1

e2i
.

(1.3)

Tema 1. Regresi
on lineal simple

0 = y 1 x.
Seguimos con (1.2):

nxy = n0 x + n1 x2 ;


xy = y 1 x x + 1 x2 = xy 1 x2 + 1 x2 ;


xy xy = 1 x2 x2 ;
2
SX,Y = 1 SX
;

1 =

SX,Y
2
SX

Finalmente, sustituyendo 0 y 1 en (1.3), se obtiene que



b2 = SY2 1

2
SX,Y
2 S2
SX
Y

Por u
ltimo, evaluando la matriz hessiana con los valores obtenidos para los estimadores, se comprueba que se trata de un mnimo (local).
Algunas propiedades que se derivan para estos estimadores son las siguientes:
1. La recta de regresion simple pasa por la media muestral de los datos (
x, y).
2. La pendiente de la recta es proporcional a la covarianza entre las variables.
3. Como y = 0 + 1 x, entonces
yi = y + 1 (xi x), i = 1, . . . , n.

1.3.2.

M
etodo de mnimos cuadrados

En este caso se busca que sea mnima la suma de los cuadrados de las distancias
verticales entre los puntos y sus estimaciones a traves de la recta de regresion.
16
14
12
10
8
6
4
2
0
0

10

Estadstica II

La suma de los cuadrados de los residuos es


n
X
(yi 0 1 xi )2 .
S(0 , 1 ) =
i=1

Al minimizar, obtenemos los mismos estimadores para los parametros que en el


metodo de maxima verosimilitud bajo la hipotesis de normalidad, pues
n
1 X
n
2
(yi 0 1 xi )2
ln L(0 , 1 , ) = ln (2 ) 2
2
2 i=1
2

y las derivadas parciales de S(0 , 1 ) nos llevan a las ecuaciones normales ya conocidas

n
X

n
X

ei = 0,

i=1

1.3.3.

ei xi = 0.

i=1

Estimaci
on de la varianza

Hemos visto que el estimador maximo verosmil es

b2 =

n
X

e2i

i=1

2
Sin embargo, se puede comprobar que E(b2 ) = (n2)
, por lo que el estimador no
n
es insesgado. En su lugar, usaremos la varianza residual

SR2 =

que s es insesgado.

n
X

e2i

i=1
n2

Tema 1. Regresi
on lineal simple

1.4.

Propiedades de los estimadores

1.4.1.

Coeficientes de regresi
on

Normalidad
Al ser yi = 0 + 1 xi + ui , entonces yi N (0 + 1 xi , 2 ). Obtendremos que los
estimadores 0 y 1 se distribuyen normalmente por ser combinaciones lineales de
variables normales.

1 =

n
X
(xi x)(yi y)
2
nSX

i=1

Como

n
X
(xi x)
y
2
nSX

i=1

entonces

1 =

xi
x
2 .
nSX

2
nSX

i=1

n
X
(xi x)
y

i=1

2
nSX

n
y X
(xi x) = 0,
=
2
nSX
i=1

n
X
(xi x)yi
2
nSX

i=1

con wi =

n
X
(xi x)yi

n
X

wi y i ,

i=1

Ahora
0 = y 1 x =

n
X
yi
i=1

n
X
i=1

wi y i =

n 
X
1
i=1

xwi yi .

Luego 0 y 1 son combinaciones lineales de variables normales e independientes.


En consecuencia, tambien siguen una distribucion normal.

Esperanza
Veremos que tanto 0 como 1 son estimadores centrados.

E(1 ) = E

n
X
i=1

= 0

n
X
i=1

wi y i

wi + 1

n
X
i=1

n
X
i=1

wi E(yi ) =

n
X

wi (0 + 1 xi ) =

i=1

wi xi = 0 0 + 1 1 = 1 .

10

Estadstica II

E(0 ) = E

n 
X
i=1

"

 # X

n 
1
xwi yi =
xwi E(yi ) =
n
n
i=1

n 
X
1
i=1

X
1
xwi (0 + 1 xi ) = 0 +
n
i=1

1
xwi
n

+ 1

n 
X
1
i=1

= 0 (1 x 0) + 1 (
x x 1) = 0 .

xwi xi =

As pues, 0 y 1 son estimadores insesgados.

Varianza
Como las variables yi son independientes, entonces
n
X

V ar(1 ) = V ar

wi y i

i=1

n
X

wi2 V

ar(yi ) =

n
X

wi2 2 =

i=1

i=1

n
2
X
(xi x)2
SX
2
2
=
=

=
.
2 2
2 2
2
n2 (SX
))
n2 (SX
))
nSX
i=1
2

La varianza de 1 mide el error que cometemos al estimar la pendiente de la


recta. Disminuira si:
aumenta n, es decir, se tiene una muestra de mayor tama
no;
2
aumenta SX
, es decir, los puntos estan mas dispersos.

V ar(0 ) =

n 
X
1
i=1

n 
X
i=1

xwi

2

V ar(yi ) =

n 
X
1
i=1

xwi

2

n
n
X
2 X
1
1
2
2
2
2
2 2

w
=

wi

w
+
x

+
x

w
i
i
i
n2
n
n
n
i=1
i=1




1
1
2
x2
2
+ x2
+
0
=
1
+
.
2
2
n
nSX
n
SX

Sin embargo, la varianza 2 suele ser un dato desconocido, por lo que se define
el error est
andar estimado siguiente como medida de precision de la estimacion de
los coeficientes:

Tema 1. Regresi
on lineal simple

S(0 ) =

1.5.

2
SR
n

1+

11

x
2
2
SX


,

S(1 ) =

2
SR
2 .
nSX

Inferencia respecto a los par


ametros

Despues de estimar los valores de los parametros es conveniente analizar el grado


de precision de la estimacion. Para ello nos valdremos de dos herramientas:
- intervalos de confianza y
- contrastes de hipotesis.

1.5.1.

Intervalos de confianza

Recordemos que si N (, 2 ), entonces un intervalo de confianza para a


nivel de confianza 1 viene dado por

z1/2 2 ,
con P (N (0, 1) > z1/2 ) = /2.
Sabemos que
0 N
y

2
0 ,
n

1 N



x2
1+ 2
SX



2

.
1 ,
2
nSX

Pero como 2 no es desconocida, la estimamos mediante SR2 . En consecuencia, los


intervalos de confianza se obtienen ahora para una variable aleatoria con varianza
desconocida y son

0 tn2,1/2

2
SR
n


1+

1 tn2,1/2

2
SR
2
nSX

x
2
2
SX

12

Estadstica II

para 0 y 1 , respectivamente.
Se demuestra (no lo haremos) teniendo en cuenta que
n
X

e2i

i=1

2n2

i i
V ar(i )
q
tn2 .

2
SR
2

Observacion: Si se tiene mas de 30 observaciones y se quiere un nivel de confianza


del 95 % (=0.05), entonces tn2,1/2 2. As, los intervalos de confianza seran
i 2S(i ).
O sea, hay (aproximadamente)
una probabilidad del

 95 % de que el parametro i
se encuentre en el intervalo i 2S(i ), i + 2S(i ) .

Cuanto mas estrecho sea este intervalo, mejor sera la estimacion. Si el intervalo
de confianza contiene el valor cero, entonces no podemos descartar la posibilidad de
que 1 (la pendiente) sea cero, es decir, que las variables X e Y no esten relacionadas
(linealmente).

1.5.2.

Contraste de hip
otesis

Un modo de comprobar si 1 es cero es comprobar si el cero es un valor admisible


para el intervalo de confianza. Otro metodo es realizar el contraste de hipotesis
H0 : 1 = 0,
H1 : 1 6= 0.

Bajo la hipotesis nula, se tiene que S(1 ) tn2 , por lo que la region de rechazo
1
de la hipotesis nula es



1

> tn2,1/2 .
S(1 )

De nuevo, si n > 30 y = 0.05, entonces podemos aceptar que 1 = 0 si


en el contraste obtenemos un valor para el estadstico que este entre -2 y 2. En
caso contrario, podemos asegurar que 1 no es nula para ese nivel de confianza (las
variables X e Y s estan relacionadas linealmente).

Tema 1. Regresi
on lineal simple

13

Muchos programas estadsticos lo que hacen es devolver el p-valor del contraste,


que se define como el mnimo nivel de significacion que rechaza la hipotesis nula en
favor de la alternativa. En este caso,


!

1
p-valor = P
> tn2,1/2 .
S(1 )

Si el p-valor es menor o igual que el nivel de confianza , entonces se rechaza la


hipotesis nula.

1.5.3.

Contraste de regresi
on y descomposici
on de la variabilidad

El contraste de regresion estudia la posibilidad de que la recta teorica tenga


pendiente nula (1 = 0). Aunque acabamos de ver ese contraste, vamos a tratarlo
ahora desde el punto de vista del analisis de la varianza. Mas adelante, en el modelo
de regresion lineal m
ultiple, se mostrara el interes de este contraste.
La Variabilidad Total (VT) del modelo es

i=1

de la siguiente manera:
VT =

n
X
i=1

(yi
y )2 =

n
X
i=1

n
X

(yi
yi +
yi
y )2 =

n
X
i=1

(yi y)2 y podemos descomponerla

n
n
X
X
(yi
yi )(
yi
y)
yi
y )2 +2
(yi
yi )2 + (
i=1

i=1

Ahora se tiene que


n
X
i=1

(yi yi )(
yi y) =

n
X
i=1

ei 1 (xi x) = 1

n
X
i=1

ei xi x

por lo que
V T = V E + V N E,
con
n
X
(yi y)2 ,
VT = variabilidad total =
i=1

n
X
(
yi y)2 ,
VE = variabilidad explicada =
i=1

VNE = variabilidad no explicada =

n
X
i=1

(yi yi ) =

n
X
i=1

e2i .

n
X
i=1

ei

= 0,

14

Estadstica II

Si VE es peque
na, la recta de regresion no explica bien la variabilidad de los
datos.
No podemos comparar VE y VNE porque, en general, desconocemos su distribucion. Pero se puede demostrar que si 1 = 0, entonces
VE
F1,n2 (distribucion F de Snedecor).
V N E/(n 2)
Fuentes de
variacion
VE

Suma de
cuadrados
n
X
(
yi y)2

Grados de Varianza Test F


libertad
1

Se2

n2

SR2

Se2
2
SR

i=1

n
X
(yi yi )2

VNE

i=1

n
X
(yi y)2

VT

i=1

n1

Tabla 1.1: Tabla ANOVA

1.5.4.

Coeficiente de determinaci
on

El coeficiente de determinacion R2 describe en que medida la variable x describe


la variabilidad de y.

R2 =

n
X
(
yi y)2

VE
= i=1n
=
X
VT
2
yi y)
(

n
X
i=1

(
yi y)2
nSY2

i=1

A mayor valor, mayor es la relacion entre las variables.

1.6.

Predicci
on

En un modelo de regresion hay dos objetivos fundamentales:


- conocer la relacion entre la variable respuesta y la explicativa,

Tema 1. Regresi
on lineal simple

15

- utilizar el modelo ajustado para predecir el valor de la variable respuesta.


En este segundo punto surgen dos tipos de situaciones en funcion de la pregunta
que queramos responder:
1. Estimacion de la respuesta media: Cual es el peso medio de las personas que
miden 180 cm de estatura?
2. Prediccion de una nueva observacion: Sabiendo que una persona mide 180 cm,
cual es su peso esperado?
En ambos caso el valor estimado se obtiene mediante la recta de regresion. Por
ejemplo, si esta es y = x 100, entonces para x0 = 180 cm obtendremos un peso
y0 = 80 kg. No obstante, la precision de las estimaciones es diferente.
En el primer caso, el intervalo de confianza es
r 
y0 tn2,1/2 SR2 n1 +

(x0
x)2
2
nSX


.

En el segundo obtendremos un intervalo mas amplio denominado intervalo de


prediccion:
r 
y0 tn2,1/2 SR2 1 +

1
n

(x0
x)2
2
nSX


.

Este intervalo tiene mayor amplitud (menos precision) porque no buscamos predecir un valor medio sino un valor especfico.

1.7.

Diagnosis mediante residuos

Despues de haber obtenido la recta de regresion, hay que comprobar si se cumplen


las hipotesis iniciales.

1.7.1.

Linealidad

Con el grafico de dispersion X-Y vemos si los datos iniciales presentan una estructura lineal. Esta es una comprobacion que realizamos antes de comenzar el analisis
de regresion.

16

Estadstica II

Despues de obtener los parametros de regresion, estudiaremos el grafico de residuos frente a valores predichos. Este grafico debe presentar un aspecto totalmente
aleatoria, sin estructura alguna.

2,2

Residuos

1,2

0,2

-0,8

-1,8
0

200

400

600

800

Valores predichos

Si tienen alg
un tipo de estructura, entonces no se satisface la hipotesis de linealidad.
6

Residuos

4
2
0
-2
-4
-6
0

100

200

300

Valores predichos

1.7.2.

Homocedasticidad

Residuos

Residuos

Al analizar los residuos , tambien hay que verificar que su varianza sea mas o
menos constante. Nos seran u
tiles los graficos de residuos frente a valores ajustados
y de residuos frente a X.

0
-3

0
-3
-6

-6

-9

-9
0

40

80

120

160

200

50

Valores predichos

100

Tema 1. Regresi
on lineal simple

1.7.3.

17

Independencia

Esta hipotesis es muy importante. Aunque existen contrastes para comprobarla


(contraste de Durbin-Watson), no profundizaremos en ese aspecto.
Simplemente hay que tener en cuenta que si los datos son temporales (por ejemplo, combustible utilizado y rendimiento en das sucesivos), entonces no debe emplearse un modelo de regresion lineal.

1.7.4.

Normalidad

Mediante un histograma o un gr
afico probabilstico normal de los residuos podemos verificar si estos se distribuyen normalmente.
25

99,9
99

Frecuencia

20

95
15

80
50

10

20
5

5
1

0
-1,9

-0,9

0,1

1,1

2,1

3,1

Residuos

1.7.5.

0.1
-1,8

-0,8

0,2

1,2

2,2

Transformaciones de los datos

En ocasiones, no se satisfacen las hipotesis exigidas por el modelo y es necesario


transformar los datos de tal forma que los datos transformados satisfagan dichas
hipotesis. Algunas transformaciones frecuentes son las siguientes:
Forma funcional que
relaciona y con x
Exponencial: y = aebx
Potencia:
y = axb
Recproca: y = a + xb
x
Hiperbolica: y = a+bx

1.8.

Transformacion
apropiada
y = ln y
y = ln y, x = ln x
x = x1
y = y1 , x = x1

Ap
endice

1. Si Yi es una variable aleatoria con funcion de densidad f (yi |), donde es un


parametro desconocido, e {y1 , . . . , yn } es una observacion de {Yi }, entonces la

18

Estadstica II

funcion de verosimilitud asociada a la observacion es


L(|y) =

n
Y

f (|yi ).

i=1

2. Varianza muestral de una variable X:

2
SX
=

n
X
i=1

(xi x)2
n

= x2 x2 .

3. Covarianza muestral de dos variables X e Y :

SX,Y =
xi
x
2 ,
nSX

4. Si wi =
i)
ii)

n
X

i=1
n
X

n
X
(xi x)(yi y)
i=1

= xy xy.

entonces:

wi = 0,
wi xi = 1.

i=1

Demostraci
on:
i)
n
X

wi =

n
X
xi x
i=1

i=1

2
nSX

ii)
n
X
i=1

wi x i =


n 
X
xi x
i=1

2
nSX

1
= 2
SX

n
X

xi

n
X
i=1
x

= 1 (
n
S 2 x x) = 0.
n
X

i=1

1
xi = 2
SX

n
X

i=1

x2i
x

n
X

xi
2
x2 x2
SX
=
=
= 1.
2
2
n
SX
SX

i=1

5. Esperanza y varianza de combinaciones lineales de variables aleatorias.


i) Si a R y X es una variables aleatoria, entonces
E(aX) = aE(X),
V ar(aX) = a2 V ar(X).

Tema 1. Regresi
on lineal simple

19

ii) Si a1 , . . . , an R y X1 , . . . , Xn son variables aleatorias, entonces


!
n
n
X
X
ai E(Xi ).
E
ai Xi =
i=1

i=1

iii) Si a1 , . . . , an R y X1 , . . . , Xn son variables aleatorias independientes,


entonces
!
n
n
X
X
V ar
ai Xi =
a2i V ar(Xi ).
i=1

i=1

Como las distribuciones normal y t de Student son simetricas respecto del


origen, entonces z = z1 y tn, = tn,1 .

Tema 2
Regresi
on lineal m
ultiple

2.1.

Introducci
on

Hasta ahora hemos estudiado un modelo en el que hay una u


nica variable explicativa. Sin embargo, es razonable pensar que puedan existir varias variables independientes xi que contribuyan a explicar la variable dependiente y. Es entonces cuando
se utiliza el modelo de regresion lineal m
ultiple
y = 0 + 1 x1 + + k xk + u.
Si tenemos n observaciones {(xi1 , . . . , xik )}ni=1 , entonces
yi = 0 + 1 xi1 + + k xik + ui , i = 1, . . . , n.

2.2.

Hip
otesis del modelo

El modelo de regresion lineal m


ultiple requiere diversas condiciones analogas a
las del modelo de regresion lineal simple.

2.2.1.

Linealidad

Los datos deben satisfacer una relacion lineal


yi = 0 + 1 xi1 + + k xik .
21

22

Estadstica II

Si hay solo dos variables explicativas,


yi = 0 + 1 xi1 + 2 xi2 ,
entonces los datos deben estar aproximadamente contenidos en un plano. Para tres
o mas variables explicativas, la ecuacion de regresion es un hiperplano y no podemos
visualizar los datos graficamente.

2.2.2.

Homocedasticidad

La varianza debe ser constante: V ar(ui ) = 2 , i = 1, . . . , n.

2.2.3.

Homogeneidad

La perturbacion tiene esperanza nula: E(ui ) = 0, i = 1, . . . , n.

2.2.4.

Independencia

Las perturbaciones ui son independientes entre s.

2.2.5.

Normalidad

Las perturbaciones ui tienen distribucion normal: ui N (0, 2 ), i = 1, . . . , n.


En consecuencia, yi N (0 + 1 xi1 + + k xik , 2 ), = 1, . . . , n.

2.2.6.

Otras hip
otesis

Hipotesis adicionales son:


El n
umero de datos n es mayor que k + 1.
Ninguna variable explicativa es una combinacion lineal de las demas, es decir,
las variables xi son linealmente independientes.

Tema 2. Regresi
on lineal m
ultiple

2.3.

23

Forma matricial del modelo

El modelo puede expresarse mediante matrices de la forma siguiente:


Y = X + U,
con

Y =

y1
y2
..
.
yn

1 x11
1 x21
.. ..
. .
1 xn1

X=

. . . x1k
. . . x2k
. . . ..
.
. . . xnk

0
1
..
.
k

U =

u1
u2
..
.
un

Con esta notacion matricial:


U N (0n , 2 In ),

2.4.

Y N (X, 2 In ).

Estimaci
on de los par
ametros

Buscamos estimar los parametros de regresion 0 , 1 , . . . , k .


Como consecuencia de las hipotesis del modelo, van a coincidir los estimadores
obtenidos mediante los metodos de maxima verosimilitud y mnimos cuadrados.

2.4.1.

Coeficientes de regresi
on

Calculemos 0 , . . . , k mediante mnimos cuadrados:


n
X
L(0 , 1 , . . . , k ) =
(yi 0 1 xi1 k xik )2 .
i=1

Derivando parcialmente, {0 , 1 , . . . , k } es la solucion de


L
= 0, j = 0, . . . , k;
j

0 =

0 =

L
0
L
j

= 2
= 2

n
X
i=1

n
X
i=1

(yi 0 1 xi1 k xik ,

(yi 0 1 xi1 k xik )xij , j = 1, . . . , k.

24

Estadstica II
Llamando ei = yi yi = yi 0 1 xi1 k xik , entonces
X
n

ei = 0,

i=1

n
X

eu ixij = 0, j = 1, . . . , k.

i=1

Estas ecuaciones podemos resolverlas si trabajamos con la expresion matricial


del modelo: Y = X + U . As,
L() = (Y X)t (Y X) = Y t Y 2Y t X + t X t X.
Derivando parcialmente esta expresion:
0=

L
= 2X t Y + 2X t X;

X t X = X t Y ;
= (X t X)1 X t Y.

2.4.2.

Varianza

Para estimar la varianza usaremos la varianza residual :

SR2 =

n
X

e2i

i=1
.
nk1

Este estimador es insesgado para 2 . Se puede demostrar que

2.4.3.

n
X

i=1
2

e2i
2nk1 .

Comentarios

P
P
P
Como y = 0 + ki=1 i xi e y = 0 + ki=1 i xi , entonces y y = ki=1 i (xi xi ).
Si

y1 y

..
Y = Y Y =
,
.
yn y

b = ...
k

Tema 2. Regresi
on lineal m
ultiple

entonces Y = Xb.

=
X

x11 x1 . . . x1k xk
x21 x1 . . . x2k xk
..
..
...
.
.
xn1 x1 . . . xnk xk

25

tX
t Y , es decir, SX,X es la matriz de varianzas
y SX,Y = 1 X
Sean ahora SX,X = n1 X
2
y covarianzas de las variables explicativas y SX,Y el vector de covarianzas entre las
variables explicativas y la variables respuesta. Se tiene que

Y = Xb;
t Y = X
t Xb;

X
t X)
1 X
t Y = S 1 SX,Y .
b = (X
X,X
Si las variables xi son incorreladas, entonces SXX es una matriz diagonal y se
resulta que
Cov(y, xi )
,
bi = i =
V ar(xi )
coincidiendo con el coeficiente de regresion obtenido para el modelo de regresion
lineal simple.

2.5.

Propiedades de los estimadores

2.5.1.

Normalidad

Sabemos que Y = X + U tiene una distribucion normal, Y N (X, 2 In ).


Como = (X t X)1 X t Y , entonces es una funcion lineal de Y . En consecuencia,
tambien se distribuye normalmente.

2.5.2.

Esperanza

El estimador es insesgado para .



= E (X t X)1 X t Y = (X t X)1 X t E(Y ) = (X t X)1 X t X = .
E()

26

Estadstica II

2.5.3.

Varianza


= V ar (X t X)1 X t Y = (X t X)1 X t V ar(Y )X(X t X)1 =
V ar()
= (X t X)1 X t 2 X(X t X)1 = 2 (X t X)1 .

En concreto,
1
V ar(i = 2 (X t X)ii ,
1
Cov(i , j ) = (X t X)ij .

As, i N (i , 2 (X t X)1
ii ).
Sin embargo, la varianza 2 suele ser desconocida. Por lo tanto, definimos el error
est
andar estimado como

S(i ) =

2.6.

2
(X t X)1
ii SR .

Inferencia

Puede resultar interesante realizar contrastes de hipotesis y obtener intervalos de


confianza para cada coeficiente de regresion. As podemos determinar la influencia
de cada variable explicativa sobre el modelo de regresion.

2.6.1.

Contrastes para los coeficientes de regresi


on

Estamos interesados en saber si la variable xi afecta o no a la respuestas (en cuyo


caso convendra eliminarla del modelo). Para ello realizamos el contraste
H0 : i = 0
H1 : i 6= 0.

Sabemos que i N (i , 2 (X t X)1


ii ), por lo que

i i
2 (X t X)1
ii

N (0, 1).

Tema 2. Regresi
on lineal m
ultiple

27

Como 2 no suele conocerse, en su lugar empleamos la varianza residual SR2 .


Puesto que
cion tnk1 :

2
(nk1)SR
2

2nk1 , entonces el siguiente estimador sigue una distribui i


N (0, 1)
i i
q 2
=q
.
=
i )
nk1
1
S(

2
t

SR (X X)ii
nk1

Ahora, bajo la hipotesis nula se tiene que S(i ) tnk1 . Por lo tanto, si
i



i

> tnk1,1/2 ,
S(i )

entonces rechazamos que i pueda ser cero. En concreto, si n > 30 y = 0.05,


entonces tnk1,1/2 2.

2.6.2.

Intervalos de confianza

Puesto que

i i
S(i )

tnk1 , se tiene que

tnk1,1/2

i i
tnk1,1/2

S(i )

= 1 ;



P i tnk1,1/2 S(i ) < i < i + tnk1,1/2 S(i .



As que i tnk1,1/2 S(i ), i + tnk1,1/2 S(i ) es un intervalo de confianza para i con nivel de confianza 1 . Analogamente a lo ya visto, si n > 30 y
= 0.05, el intervalo puede aproximarse por i 2S(i ).

2.6.3.

Contraste de regresi
on

Al igual que sucede en el modelo de regresion lineal simple, se tiene la relacion


V T = V E + V N E, donde
n
X
(yi y)2 ,
VT = variabilidad total =
i=1

n
X
(
yi y)2 ,
VE = variabilidad explicada =
i=1

VNE = variabilidad no explicada =

n
X
i=1

(yi yi ) =

n
X
i=1

e2i .

28

Estadstica II

El contraste de regresion establece si existe relacion lineal entre la variable respuesta y los coeficientes de regresion:
H0 : 1 = 2 = = k = 0,
H1 : j {1, . . . , k} / j 6= 0.
Por una parte, sabemos que
que VE2 2k . En consecuencia,

V NE
2

2nk1 . Por otra parte, se puede demostrar

V E/k
Fk,nk1 .
V N E/(n k 1)
Fuentes de
variacion
VE (modelo)

Suma de
cuadrados
n
X
(
yi y)2
i=1

VNE (residual)

n
X

n
X

VT

i=1

Grados de Varianza Test F


libertad
k

e2i

nk1

(yi y)2

n1

i=1

Se2 =

VE
k

Se2
2
SR

SR2

Tabla 2.1: Tabla ANOVA


Buscamos el valor Fk,nk1; tal que P (F > Fk,nk1;)= .
Por lo tanto, si el valor del estadstico es mayor que Fk,nk1; , entonces rechazaremos la hipotesis nula y concluiremos que el modelo explica una parte significativa
de y. En caso contrario, concluiremos que el modelo no explica conjuntamente nada.

2.7.

El coeficiente de determinaci
on corregido

Para construir una medida que describa el ajuste global del modelo se utiliza el
cociente entre las variabilidades explicada y total del modelo. Es lo que se llama el
coeficiente de determinacion.

R2 =

VE
=
VT

n
X
i=1

(
yi y)2

(yi

y)2

=1

V NE
.
VT

Por definicion, 0 R2 1. En particular, si R2 = 1, entonces existe una relacion


lineal exacta entre la variable respuesta y las variables explicativas.

Tema 2. Regresi
on lineal m
ultiple

29

Aunque el valor R2 da una medida de lo adecuado que es el modelo, un mayor R2


no tiene por que implicar un mejor modelo. La razon es que R2 aumenta siempre
que se introduce una nueva variable, aunque esta no sea significativa.
Para solventar este problema, el coeficiente R2 se corrige por el n
umero de grados
de libertad del modelo. Esto penaliza el n
umero de variables que se introducen.
As obtenemos el coeficiente de determinacion corregido
SR2
2 = 1 V N E/(n k 1) = 1
R
.
V T /(n 1)
V T /(n 1)
2 solo aumenta si disminuye S2 .
De este modo, R
R

2.8.

Regresi
on con variables cualitativas

2.8.1.

Variables dicot
omicas

Consideremos el siguiente diagrama de dispersion que representa el precio del


alquiler (y) en una muestra de viviendas de Madrid en funcion de su superficie en
metros cuadrados (x2 ).
y
Y

yB

B
yA

A
X

Al analizar la muestra, vemos claramente que existen dos grupos de observaciones.


Si se ignora este hecho, la recta de regresion va a estimar el modelo con muy poca
precision (la recta y). En cambio, si en lugar de una recta estimamos dos, entonces
obtenemos ajustes mucho mejores (rectas yA e yB ).

30

Estadstica II

Este suceso se da con mucha frecuencia. Datos que vienen en grupos son:
peso y altura en funcion del sexo,
densidad de un material y temperatura del proceso en funcion de la presencia
o ausencia de un metal,
consumo de un motor y potencia en funcion del tipo de motor (diesel o gasolina).
Para resolver este problema, se introducen unas variables binarias (dicotomicas)
denominadas variables ficticias, indicadoras o dummies:
(
0 si la observacion i pertenece al grupo A,
zi =
1 si la observacion i pertenece al grupo B.
Tras definir la variable z de este modo, se ajusta un modelo de la forma
y = 0 + 1 x + 2 z + u.
Este modelo tiene la propiedad de ajustar las dos rectas de regresion. Si la observacion i pertenece al grupo A, entonces
yi = 0 + 1 xi ,
mientras que si pertenece al grupo B, entonces
yi = (0 + 2 ) + 1 xi .
Supongamos que zi vale 1 si la observacion i pertenece a un hombre y 0 si pertenece a una mujer. Si ajustamos un modelo como el que acabamos de ver para
relacionar peso (y) y altura (x), obtendremos que un hombre pesa 2 kg mas que
una mujer de la misma altura. Ahora bien, de acuerdo con el modelo, el ratio de
crecimiento (la pendiente 1 ) es el mismo para ambos generos, cosa que podra no
ser cierta.

Tema 2. Regresi
on lineal m
ultiple

31

Para ver si el hecho de ser hombre o mujer (la variable cualitativa) afecta al ratio
de crecimiento (la pendiente de la recta de regresion), estudiaremos la interaccion
entre ambas mediante un modelo de la forma
y = 0 + 1 x + 2 z + 3 xz + u.
As, para una observacion i:
si zi = 0, entonces yi = 0 + 1 xi ,
si zi = 1, entonces yigorro = (0 + 2 ) + (1 + 3 )zi .

2.8.2.

Variables polit
omicas

Sucede a menudo que las variables cualitativas no se limitan a tomar valores en


dos categoras (s/no), sino que recorren ua gama mas amplia (estudios primarios,
medios o superiores; satisfaccion ninguna, poca, regular, bastante o completa. . . ).
Modelizar estas situaciones es bastante sencillo: si tenemos s categoras, entonces
introduciremos s 1 variables dicotomicas zt donde
(
1 si la observacion i pertenece a la categora t,
zi =
0 en caso contrario.
Por ejemplo, si se esta calentando una serie de barras para estudiar su dilatacion y
el proceso puede ser realizado en una las de cuatro maquinas disponibles, las distintas
variables del modelo son: y (dilatacion en centmetros), x (temperatura en grados
centgrados) y
(
1 si la maquina i es la empleada en el proceso,
zi =
0 en caso contrario.
El modelo sera
y = 0 + 1 x + 2 z1 + 3 z2 + 4 z3 + u.

2.9.

Predicci
on

Tanto para predecir el valor medio como el de una observacion especfica, la


estimacion se obtiene sustituyendo el valor de la observacion xh en el modelo de
regresion:
yh = 0 + 1 xh1 + + k xhk .

32

Estadstica II

Para el valor medio, un intervalo de confianza a nivel 1 es


yh tnk1,1/2

1
2 1+
SR
x
h )
( xth SXX
,
n

donde xh = (x1h x1 , . . . , xkh xk ) no incluye la entrada correspondiente al uno


de 0 y SXX es la matriz de varianzas y covarianzas entre las xi .
Un intervalo de prediccion para una observacion especficas es
r 
yh tnk1,1/2 SR2 1 +

2.10.

1
1+
xth SXX
x
h
n


,

Multicolinealidad

El problema de la multicolinealidad se da con frecuencia a la hora de ajustar


un modelo de regresion m
ultiple: se presenta cuando las variables cualitativas estan
altamente interrelacionadas. Si una variable explicativa esta relacionada exactamente
con las demas, entonces no es posible estimar sus efectos.
Hay que destacar que no es un problema del modelo sino de los datos: a la hora
de calcular (X t X)1 , puede suceder que det(X t X) sea cero o este muy cerca de serlo.
Podemos detectar que hay multicolinealidad de diferentes maneras:
1. Las variables explicativas son significativas en el modelo de regresion lineal
simple, pero dejan de serlo en el modelo de regresion m
ultiple (estadsticos t
bajos). Tambien se detecta la multicolinealidad porque, aunque el contraste t
de valores bajos, el contraste F indica que una parte importante de la variabilidad del modelo es explicada (valor alto del estadstico) y/o el coeficiente de
determinacion corregido es alto.
2. Indice de condicionamiento: Sean 1 k+1 los autovalores de X t X. Se
define el ndice de condicionamiento como
r
k+1
IC =
1.
1
Si 10 IC 30, se dice que hay multicolinealidad moderada. Si IC > 30, se
dice que hay multicolinealidad alta.
La idea es que si hay multicolinealidad, entonces alguno de los autovalores
de X t X estara proximo a cero.

Tema 2. Regresi
on lineal m
ultiple

33

Para reducir el problema de multicolinealidad, una posible solucion es eliminar


alguna de las variables explicativas que dependa fuertemente de otras.

2.11.

Diagnosis

El proceso de diagnosis en regresion m


ultiple es mas complejo porque no es posible
visualizar los datos correctamente.
Ademas de las tecnicas ya vistas en regresion simple para comprobar las hipotesis
de linealidad, heterocedasticidad y normalidad, en regresion m
ultiple tambien es u
til
realizar graficos de residuos frente a las variables explicativas xi . Permiten identificar
si alguna variable produce los efectos de falta de linealidad y heterocedasticidad.

2.12.

Ap
endice

1. Si y, a Rn , entonces

y t a
= y.
a

2. Si a Rn y X Rnn , entonces
at Xa
= 2Xa.
a
3. Si A Rmn e Y Rn , entonces:
a) E(AY ) = AE(Y );
b) V ar(AY ) = AV ar(Y )At .
4. Los autovalores de la matriz A Rnn se calculan resolviendo la ecuacion
|A In | = 0.

Tema 3
An
alisis de la varianza

3.1.

Introducci
on

El analisis de la varianza (ANalysis Of VAriance, ANOVA) es un procedimiento


para descomponer la variabilidad de un experimento en componentes independientes
que puedan asignarse a causas distintas.
A grandes rasgos, el problema es el siguiente:
1. Tenemos n elementos que se diferencia en un factor (estudiantes de distintas
clases, vehculos de distintas marcas, productos manufacturados en distintos
procesos. . . ).
2. En cada elemento (personas, vehculos, productos. . . ) observamos una caracterstica que vara aleatoriamente de un elemento a otro: las notas de los estudiantes, el consumo de gasolina de los vehculos, los tiempos de fabricacion de
los productos. . .
3. Se desea establecer si hay o no relacion entre el valor medio de la caracterstica estudiada y el factor: tienen todas las clases la misma nota media? los
vehculos el mismo consumo? los productos el mismo tiempo de fabricacion?
Veamoslo con un ejemplo:
Ejemplo 1
Un fabricante de bolsas de papel quiere mejorar la resistencia a la tension de las
bolsas. El ingeniero de produccion piensa que hay una relacion entre la cantidad de
celulosa utilizada en la fabricacion del papel y su resistencia.
35

36

Estadstica II

Para ello se realiza un experimento en el que se fabrica papel con distintos porcentajes de celulosa y se mide la resistencia.
% celulosa
5
10
15
20

7
12
14
19

Resistencia
8 15 11 9 10
17 13 18 19 15
18 19 17 16 18
25 22 23 18 20

25

Resistencia

22
19
16
13
10
7
5

10

15

20

Porcentaje de celulosa

3.2.

El modelo

Sea y la variable de interes.


y = resistencia de las bolsas
Sea F el factor que influye en los valores de y.
F = porcentaje de celulosa
Sea I el n
umero de niveles de F .
I=4
Sea ni , i = 1, . . . , I, el n
umero de observaciones tomadas para el nivel i. No tiene
por que haber el mismo n
umero de observaciones para todos los grupos.
n1 = n 2 = n3 = n4 = 6

Tema 3. An
alisis de la varianza

37

Ahora, para i = 1, . . . , I, j = 1, . . . , ni , sea yij = i + ij , con


yij
i
ij

= j-esima observacion del i-esimo grupo,


= media del i-esimo grupo,
= perturbacion que mide la variabilidad debida al error experimental.

Como ij = yij i , se puede ver como la desviacion de la j-esima observacion


del grupo i respecto de la media del grupo.
Otra forma de escribir el modelo es
yij = + i + ij ,
con

= media de todas las observaciones,


= efecto diferencial del grupo (i = i ).

Las perturbaciones ij representan la variabilidad intrnseca del experimento: son


variables aleatorias. Asumiremos para ellas las siguientes hipotesis:
1. El promedio de las perturbaciones es cero.
E(ij ) = 0 i, j.
2. La variabilidad es la misma en todos los grupos.
V ar(ij ) = 2 i, j.
3. La distribucion de las perturbaciones es normal.
ij N (0, 2 ) i, j.
Esto implica que sus desviaciones respecto de la media son simetricas y pocas
observaciones (el 5 %) se alejan mas de dos desviaciones tpicas respecto de la
media.
4. Las perturbaciones son independientes.
Como ij N (0, 2 ), entonces yij N (i , 2 ).

38

Estadstica II

3.3.

Estimaci
on de los par
ametros

Nuestro modelo es
yij = i + ij , yij N (i , 2 ), i = 1, . . . , I, j = 1, . . . , ni .
Este modelo tiene I + 1 parametros desconocidos: las medias 1 , . . . , I y la
varianza 2 . Vamos a estimarlos usando el metodo de maxima verosimilitud.
La funcion de densidad para la observacion yij es
2

f (yij |i , ) =

(yij i )2
,
exp
2 2
2 2
1

por lo que la funcion de maxima verosimilitud de la muestra es

L(, 2 ) = (2 2 ) 2 exp

ni
I X
X
i=1 j=1

(yij i )2

2 2

Tomando logaritmos:
ni
I
n
1 XX
2
ln L = ln (2 ) 2
(yij i )2 .
2
2 i=1 j=1

As:
0=

ni
1 X
n
ln L
= 2
yi i );
(yij i ) = 2 (
i
j=1

i = yi .
En consecuencia, un estimador de la perturbacion ij sera
ij = yij
i .
A la estimacion del error se la denomina residuo:
eij = yij yi .
El residuo mide la variabilidad no explicada.
Busquemos ahora una estimacion de la varianza del error:
0=

ni
I
n
1 XX
ln L
(yij
i )2 ;
=

+
2
2
2
2

2
2( ) i=1 j=1

Tema 3. An
alisis de la varianza

39

ni
I
1 XX
0 = n + 2
(yij
i )2 ;
i=1 j=1

b2 =

ni
I X
X
(yij
i )2
i=1 j=1

ni
I X
X
(yij yi )2
i=1 j=1

ni
I X
X

e2ij

i=1 j=1

Sin embargo, este estimador es sesgado. En su lugar, emplearemos la varianza


residual
ni
I X
X
e2ij
SR2 =

i=1 j=1

nI

Puede reescribirse como la media ponderada de las cuasivarianzas de cada grupo:

SR2 =

Como

(ni 1)s2i
2

I
X
i=1

(ni 1)s2i
nI

2
(nI)SR
2

2ni 1 , entonces

2nI .

3.4.

Propiedades de los estimadores de las medias

3.4.1.

Esperanza

El estimador
i es centrado:
E(
i ) = E

3.4.2.

Pni

j=1 yij
ni

Pni

E(yi )
=
ni

i=1

Pn

i=1

ni

= i .

Varianza

V ar(
i ) = V ar

Pni

j=1

ni

yij

Pni

i=1

V ar(yi )
=
n2i

Pni

i=1
n2i

2
.
ni

40

Estadstica II

Ademas, como
i es combinacion lineal de variables aleatorias independientes
normales, entonces tambien esta distribuida normalmente. Luego


2
.

i N i ,
ni
Un intervalo de confianza para i es

i z1/2 .
ni
Pero como no suele conocerse, se usa
si

i tni 1,1/2 .
ni

3.5.

Descomposici
on de la variabilidad

El objetivo del analisis es saber si el factor que se estudia es o no influyente. En


el modelo, esto significa que hay que comprobar si todas las medias son iguales o si
existe alguna que sea diferente. Es decir, se trata del contraste:
H0 : 1 = = I ,
H1 : i, j {1, . . . , I} / i 6= j .
Aunque estemos analizando medias, hablamos de analisis de la varianza porque la
variabilidad de los datos es fundamental para decidir si las medias son o no distintas.
Las desviaciones entre los datos observados y la media general pueden expresarse
mediante la identidad
yij y = (
yi y) + (yij yi ).
Esta igualdad descompone la variabilidad entre los datos y la media general en
dos terminos: la variabilidad entre las medias y la media general y la variabilidad
residual (variabilidad de los grupos).
Elevando al cuadrado y sumando para los n terminos:

ni
I X
X
i=1 j=1

(yij y)2 =

ni
ni
ni
I X
I X
I X
X
X
X
(
yi y)(yij yi ) =
(yij yi )2 + 2
(
yi y)2 +
i=1 j=1

i=1 j=1

i=1 j=1

Tema 3. An
alisis de la varianza

I
X
i=1

41

ni (
yi y) +

ni
I X
X

e2ij .

i=1 j=1

A continuacion se definen las siguientes expresiones:

VT
VE

= variabilidad total =

ni
I X
X

(yij y)2 ,

i=1 j=1
I
X

= variabilidad explicada =

i=1

VNE = variabilidad no explicada =

ni (
yi y)2 .

ni
I X
X
i=1 j=1

(yij yi )2 .

De este modo, VT = VE + VNE.


La variabilidad explicada es la variabilidad debida a la existencia de los distintos
grupos. Mide la variabilidad entre ellos. Si VE es peque
na, entonces las medias seran
similares.
La variabilidad no explicada es la variabilidad debida al error experimental. Mide
la variabilidad dentro de los grupos.
Aunque no es posible comparar VE y VNE porque desconocemos como estan
distribuidas, s sabemos que:

1.

V NE
2

2nI .

2. Si 1 = = I (la hipotesis nula es cierta), entonces

VE
2

2I1 .

En consecuencia, cuando se cumple la hipotesis nula, se tiene que


V E/(I 1)
FI1,nI .
V N E/(n I)
En la tabla ANOVA siguiente se muestra toda la informacion asociada al contraste:

42

Estadstica II

Fuentes de
variabilidad

VE: entre grupos

VNE: residual

Suma de
cuadrados
PI

i=1

ni (
yi y)2

ni
I X
X
i=1 j=1

VT: total

(yij yi )2

ni
I X
X
i=1 j=1

Si

c2
S
e
2
SR

Grados de
libertad

(yij y)2

Varianza

c2 =
S
e

I 1

SR2 =

nI

I
X
i=1

ni (
yi y)
I1

ni
I X
X
(yij yi )2

Test F

c2
S
e
2
SR

i=1 j=1

nI

ni
I X
X
i=1 j=1
n1

n1

> FI1,nI;1 , entonces se rechaza la hipotesis nula.

Ejemplo 2
En el ejemplo de la celulosa,
c2
S
e
= 19, 61 y F3,20;0.95=3.098 ,
2

S
R

por lo que las medias son distintas.

Ahora bien, existen algunas que puedan considerarse iguales?

3.6.

Estimaci
on de la diferencia de medias

Una vez sabemos que las medias son distintas, nos interesa saber si al menos
algunas de ellas son iguales. Para ello, una posibilidad es compararlas dos a dos
mediante el contraste
H0 :
H1 :

1 = 2 ,
1 6= 2 .

Como la varianza es desconocida, para el contraste tenemos el estadstico


t= r

y1 y2
(n1 1)
s21 +(n2 1)
s22
n1 +n2 2

1
n1

Si |t| > tn1 +n2 1,1/2 , entonces se rechaza H0 .

1
n2

.

Tema 3. An
alisis de la varianza

43

Ejemplo 3
En el caso de la celulosa:
(i,j)
(1,2)
(1,3)
(1,4)
(2,3)
(2,4)
(3,4)

t
3.48
5.12
7.07
0.98
3.49
3.06

Observamos que no hay diferencias entre los grupos 2 y 3.

M
etodo de Fischer o LSD (Least Significative Distance)
Si, aunque desconocida, estamos aceptando que todas las varianzas son iguales,
entonces podemos estimar la varianza informacion de todas las muestras y no solo
la de los dos grupos que intervienen en el contraste: empleamos SR2 .
El estadstico es
t = r

y1 y2
 .
1
1
+ n2 SR2
n1

Si |t| > tnI,1/2 , entonces se rechaza H0 .


Con el metodo de Fischer podemos detectar diferencias mas peque
nas.
Ejemplo 4
En el caso de la celulosa:
(i,j)
(1,2)
(1,3)
(1,4)
(2,3)
(2,4)
(3,4)

t
3.84
4.75
7.57
0.90
3.73
2.82

Nuevamente vemos que no hay diferencias entre los grupos 2 y 3.

44

Estadstica II

Un intervalo de confianzas para la diferencia de medias es


(
y1 y2 ) tnI,1/2

s

1
1
+
n1 n2

SR2 .

El metodo se denomina LSD


r porque si la distancia entre las medias, y1 y2 es
1
mayor que el valor tnI,1/2
+ n12 SR2 , entonces se consideran distintas.
n1
Ejemplo 5
En el caso de la celulosa:
(i,j) yi yj
(1,2)
5.66
(1,3)
7
(1,4) 11.16
(2,3)
1.34
(2,4)
5.5
(3,4)
4.16

Como tnI,1/2
los efectos.

3.7.

r

1
n1

1
n2

SR2 = 3.06 , las medias y2 e y3 son iguales a todos

Diagnosis

Normalidad: histograma de residuos, grafico probabilstico normal.


Linealidad, homocedasticidad: residuos frente a valores predichos.

3.8.

Ap
endice

1. Cuasivarianza muestra de una variable X:

s2X =

n
X
i=1

(xi x)2
n1

Tema 4
Dise
nos factoriales a dos niveles

4.1.

Introducci
on

Con mucha frecuencia aparece en la experimentacion industrial la necesidad de


conocer el efecto sobre la variable respuesta de un n
umero de factores elevado. Sin
embargo, no conviene utilizar demasiados factores (incluso si cada uno tiene muy
pocos niveles), pues el n
umero de combinaciones posibles aumenta rapidamente. Por
ejemplo, si tenemos 6 factores con 2,3,4,5,6 y 7 niveles, respectivamente, el n
umero
total de combinaciones posibles asciende a 7! = 5040.
Ante esta situacion, cabe dos opciones: reducir el n
umero de niveles o eliminar
factores. La solucion mas habitual es la primera: se eligen niveles en los valores extremos del factor (dos niveles u
nicamente). Pese a que parece experimentos demasiado
simples para ser de utilidad, son faciles de llevar a cabo, tienen bajo coste y sirven
para seleccionar que factores van a estudiarse con mayor profundidad.
Ejemplos:
hormigon 25 % o 50 % de cemento;
temperatura: baja o alta;
concentracion de un reactivo: 1 % o 2 %;
tiempo de secado de un pegamento: 1 minuto o 2 minutos.
La notacion que emplearemos es ab , donde b es el n
umero de factores y a es el
n
umero de niveles, que es el mismo para todos los factores.
45

46

Estadstica II

4.2.

El dise
no 22. Dise
nos 2k

4.2.1.

Conceptos b
asicos

Se trata del dise


no factorial mas sencillo: dos factores (A y B) con dos niveles
cada uno. Utilizaremos los signos (+) y () para representar los dos niveles de cada
factor. Para la variable respuesta Y se suele emplear la siguiente notacion:
(o) si ambos factores estan al nivel ();
(a) si el primer factor esta al nivel (+) y el segundo factor esta al nivel ();
(b) si el primer factor esta al nivel () y el segundo facto estan al nivel (+);
(ab) si ambos factores estan al nivel (+).

Factor B

(+)

y12 (b)

y22 (ab)

()
y11 (o)
()

y21 (a)

A B Y
- - y11 (o)
+ - y21 (a)
- + y12 (b)
+ + y22 (ab)

(+)

Factor A

El modelo estadstico asociado es el siguiente:


yij = + i + j + ()ij + uij , i = 1, 2, j = 1, 2,
siendo i el efecto del nivel i del factor A, j el efecto del nivel j del factor B y
()ij el efecto de la interaccion cuando el factor A esta al nivel i y el factor B
esta al nivel j.
Como los valores i son desviaciones respecto del valor medio, entonces se tiene
que 1 + 2 = 0. Es decir, 2 = 1 . Analogamente,
2 = 1 ,
()i2 = ()i1 , i = 1, 2,
()2j = ()1j , j = 1, 2.
Teniendo esto en cuenta, podemos definir las variables
(
+1 si el factor i esta al nivel (+),
Xi =
1 si el factor i esta al nivel (),

Tema 4. Dise
nos factoriales a dos niveles

47

i = 1, 2, y reescribir el modelo como


yij = + 2 X1 + 2 X2 + ()22 X1 X2 + ij .
Este modelo tiene cuatro parametros que deben estimarse.
El efecto de un factor sera el efecto por el paso del nivel () al nivel (+):
= efecto de A = 2 1 = 22 ,
= efecto de B = 2 1 = 22 ,
= efecto de la interaccion AB = ()22 ()12 = ()11 ()21 = 2()22 .
Luego nuestro modelo se puede escribir como
yij = +

4.2.2.

X1 + X2 +
X1 X2 + ij .
2
2
2

Estimaci
on

Utilizamos la siguiente forma de escribir el modelo para estimar sus parametros:


yij = + i + j + ()ij + uij , i = 1, 2, j = 1, 2.
El metodo que usaremos es el de mnimos cuadrados.
X
L=
(yij i j ()ij )2 .
ij

A continuacion, derivamos parcialmente e igualamos a cero haciendo uso de las


propiedades 1 + 2 = 0, 1 + 2 = 0,. . .

0=

X
L
= 2
(yij i j ()ij ) = 8(
y );

i,j

= y;

0=

o + a + b + ab
.
4

X
L
= 2
(y2j 2 j ()2j ) = 4(
y2
2 );
2
j

48

Estadstica II

2 = y2
=

a + ab o + a + b + ab
o + a b + ab

=
;
2
4
4

0=

o + a b + ab
.
2

L
= (y22 2 2 ()22 );
()22

o + a + b + ab

4
o + a b + ab o a + b + ab
o a b +ab

=
;
4
4
4
c 22 = y2 2
()

2 2 = ab

c = 0 a b + ab .

Ejemplo 6
Una empresa farmaceutica desea conocer como afectan la concentracion de un reactivo (factor A) y la cantidad de un catalizador (factor B) a la cantidad de principio
activo obtenido en un proceso qumico.
(
() 15 %,
factor A =
(+) 25 %.

(
() 1 kg,
factor B =
(+) 2 kg.

A B Y
- - 28
+ - 36
- + 18
+ + 31
Estimamos los parametros:

= 28.25,
El modelo es

= 10.5,

= 7.5,

c = 2.5.

y = 28.25 + 5.25X1 3.75X2 + 1.25X1 X2 .


El algoritmo de los signos
1. Se multiplican los signos de los niveles de los factores que intervienen en el
estimador.

Tema 4. Dise
nos factoriales a dos niveles

49

2. El estimador es la media de las observaciones con (+) menos la media de las


observaciones con ().
Ejemplo 7
Volvamos a calcular los estimadores del dise
no 22 :

:
c
:

estima
estima
estima
estima

el
el
el
el

efecto
efecto
efecto
efecto

de todos los factores: o+a+b+ab


.
4
a+ab
o+b
del factor A: 2 2 .
o+a
.
del factor B: b+ab
2
2
o+ab
.
de la interaccion AB: 2 a+b
2

Ejemplo 8 (Dise
no 23 )
Determinemos los estimadores de los efectos para un dise
no factorial 23 .
A
+
+
+
+

B
+
+
+
+

C AB
+
+
+ +
+
+
+ +

AC BC
+
+
+
+
+
+
+
+

ABC
+
+
+
+

Y
o
a
b
ab
c
ac
bc
abc

o + a + b + c + ab + ac + bc + abc
,
8

a + ab + ac + abc o + b + c + bc
A =

,
4
4
= b + ab + bc + abc o + a + c + ac ,
B
4
4
c + ac + bc + abc o + a + b + ab
C =

,
4
4
d = o + ab + c + abc a + b + ac + bc ,
AB
4
4
d = o + b + ac + abc a + ab + c + bc ,
AC
4
4

d = o + a + bc + abc b + ab + c + ac ,
BC
4
4

[ = a + b + c + abc o + ab + ac + bc .
ABC
4
4

50

Estadstica II

Ejemplo 9
Se realiza un experimento para mejorar la calidad del hormigon (la variable de interes
es la resistencia a la presion). Para ello, se obtuvieron muestras de hormigon variando
los niveles de tres factores. Los datos de la muestra son los siguientes:
o
a
b
c
ab
ac
bc
abc

700
900
3400
1200
5500
1200
3500
6200

El modelo es
y = 2825 + 625x1 + 1825x2 + 200x3 + 575x1 x2 + 50x1 x3 + 100x1 x2 x3 .

4.3.

Significatividad de los efectos

Para comprobar si un efecto es verdaderamente significativo, disponemos de las


siguientes herramientas:

grafico de efectos principales,


diagrama de Pareto,
grafico normal/seminormal,
metodo de la MEDA.

4.3.1.

Gr
afico de efectos principales

Se trata de un grafico en el que se representan las medias estimadas para los


niveles () y (+) de cada factor.

Tema 4. Dise
nos factoriales a dos niveles

51

(X 1000)
5

Resistencia

4
3
2
1
0
-1

1
A

-1

-1

Se aprecia que el efecto del factor C es mucho menor que el de los otros factores.

4.3.2.

Diagrama de Pareto

En este grafico podemos ver las magnitudes de los efectos principales y de las
interacciones ordenadas de mayor a menor en valor absoluto.

B
A
AB
C
ABC
AC
BC
0

4
(X 1000)

El factor C y sus interacciones parecen ser poco significativos.


En general, las interacciones de orden tercero o superior no suelen ser significativas.

4.3.3.

Gr
afico probabilstico normal/seminormal

Bajo las hipotesis habituales, los estimadores de los efectos siguen una distribucion normal.
Si el verdadero valor de los efectos es cero, los valores estimados se pueden considerar como una muestra de una distribucion normal de media cero.

52

Estadstica II

En este grafico se representan los efectos estandarizados frente a los percentiles. Estos efectos deberan estar alineados. En consecuencia, cuanto mas se aleje el
estimador del efecto de un factor de la lnea, mas significativo sera dicho factor.

99,9
99

Porcentaje

95

80
C
ABC
AC

50
20
5

A
AB

BC

1
0.1
0

Efectos estandarizados

4
(X 1000)

En el grafico probabilstico seminormal se utilizan las desviaciones estandarizadas


de los efectos en lugar de los percentiles.

4.3.4.

M
etodo de la MEDA

Las iniciales MEDA hacen referencia a mediana de las desviaciones a la mediana.


Este metodo se emplea cuando hay tantos parametros como observaciones.
1. Se comienza calculando el valor mediano M de los efectos estimados de las
interacciones.
2. A continuacion, se calculan las desviaciones (en valor absoluto) de los efectos
de las interacciones respecto de M . La MEDA es la mediana de estas observaciones.
3. Finalmente se calcula el estimador s =

M EDA
.
0.675

Si el valor del efecto es mayor o igual que 2


s y hay menos de cinco factores,
entonces es significativo.
Si el valor del efecto es mayor o igual que 3
s y hay al menos cinco factores,
entonces es significativo.
Ejemplo 10
En el ejemplo del hormigon que estamos usando:
M = mediana(AB,AC,BC,ABC) = mediana(1150,100,0,200) = 150;
MEDA = mediana(|AB M |, |AC M |, |BC M |, |ABC |) =
mediana(1000,50,150,50) = 100.

Tema 4. Dise
nos factoriales a dos niveles

s =

53

M EDA
100
=
= 148.15.
0.675
0.675

Son significativos los efectos mayores o iguales que 296.30, esto es, A, B, C y
AB.
Una vez hemos decidido que factores son significativos, escribimos la ecuacion
del modelo considerando solo esos terminos:
y = 2825 + 625x1 + 1825x2 + 200x3 + 575x1 x2 .

4.4.

Resumen de dise
nos 2k
2k = k factores con dos niveles cada uno.

Pasos del analisis:


1. Se estiman los efectos e interacciones utilizando el algoritmo de los signos.
2. Mediante el diagrama de Pareto y el grafico probabilstico normal (o el metodo
de la MEDA), se preseleccionan los efectos no significativos.
3. Se construye la tabla ANOVA con el resto de efectos y se comprueba si son
significativos. Se repite los pasos 2 y 3 hasta que todos los efectos que se
conserven sean significativos.
4. Se hace la diagnosis del modelo mediante el analisis de los residuos.
5. Se utiliza el modelo para obtener las condiciones de los factores que optimizan
la variable respuesta.

Tema 5
Dise
nos fraccionales

5.1.

Introducci
on

En la experimentacion industrial se necesita conocer el efecto de un gran n


umero
de factores sobre la variable respuesta. Incluso si solo consideramos dos niveles por
cada factor, siguen siendo necesarias muchas observaciones. Demasiadas como para
ser factible (normalmente porque implican un coste elevado).
Como, normalmente, las interacciones de orden tercero y superior no suelen ser
significativas, nos encontramos con que muchos datos del experimento los estamos
utilizando para estimar la variabilidad experimental.

Ejemplo 11
En un dise
no 25 tenemos 5 factores, 10 interacciones de segundo orden y 16 interacciones de orden superior. Luego el 50 % van a aportar poca informacion.

En un dise
no 26 tenemos 6 factores, 15 interacciones de segundo orden y 42 interacciones de orden superior. Luego el 66 % van a aportar poca informacion.

Una solucion para reducir el n


umero de observaciones necesarias pasa por considerar lo que se conoce como un dise
no fraccional. En este tipo de dise
no, se realiza
solo una parte de un dise
no completo de modo que la mayor parte de las observaciones se empleen para estimar los efectos principales y las interacciones de orden
bajo.
55

56

Estadstica II

5.2.

Dise
nos 2k1

Vamos a considerar un dise


no 23 clasico:
A
+
+
+
+

B
+
+
+
+

C AB
+
+
+ +
+
+
+ +

AC BC
+
+
+
+
+
+
+
+

ABC
+
+
+
+

Y
o
a
b
ab
c
ac
bc
abc

Para realizar el experimento completo necesitaramos ocho observaciones. Supongamos que, sin embargo, solo podemos efectuar cuatro.
Elegimos los cuatro casos que para la interaccion ABC estan al nivel (+).
A B C AB
+ - - + - - + +
+ + + +

AC BC
+
+
+
+

ABC
+
+
+
+

Y
a
b
c
abc

Si prestamos atencion, vemos que los siguientes pares de columnas son iguales
entre s: A y BC, B y AC, C y AB, I y ABC. (Por I entendemos un columna
cuyas entradas son todas (+) y que esta asociada con el calculo de la media de las
observaciones). Ademas, ABC siempre es positiva.
d 8 son los estimadores de los efectos de A y BC en el dise
Si A8 y BC
no completo
y A4 es el estimador del efecto de A en este dise
no reducido, entonces:
a + ab + ac + abc o + b + c + bc

,
A8 =
4
4
d 8 = o + a + bc + abc b + c + ab + ac ,
BC
4
4
b
+
c
a
+
abc
d 8.

= A8 + BC
A4 =
2
2

Vemos que se confunde el efecto de A con la interaccion BC: estamos estimando A


como A+BC. De la misma manera, podemos comprobar que
4 = B
8 + AC
d8 ,
B

Tema 5. Dise
nos fraccionales

57

d8,
C4 = C8 + AB

[ 8.
I4 = I8 + ABC
Al elegir esta fraccion del dise
no original en la que se confunden efectos principales
e interacciones, estamos asumiendo que los efectos principales son mas importantes
en el proceso que las interacciones.
Se denomina media fraccion o dise
no 2k1 cuando la fraccion del dise
no consiste
en elegir signos iguales de alg
un efecto. El n
umero de observaciones es la mitad que
en el dise
no completo. Obviamente, no hay un u
nico modo para elegir la fraccion.

5.2.1.

Ecuaci
on generatriz

La ecuacion generatriz de una fraccion permite conocer la estructura de confusion


de la fraccion (estructura del alias).
Disponemos de las siguientes reglas para trabajar con las columnas:
1. Las columnas no se modifican al multiplicarlas por I. Por ejemplo, AI = A.
2. El resultado de multiplicar una columna por s misma es siempre I. Por ejemplo,
AA = I.
La ecuacion generatriz es
I = columna con todos los signos iguales.
Para obtener la confusion de un factor, basta multiplicar ese factor por la ecuacion
generatriz.
Por ejemplo, en el caso anterior la ecuacion generatriz es I=ABC. La confusion
del factor A es
I A = ABC A;
A = BC.
Estamos confundiendo el factor A y la interaccion BC. Si hubiesemos elegido I =-AB,
entonces la confusion de A sera A=-B. Es decir, se confundiran dos efectos principales.

58

Estadstica II

5.2.2.

Resoluci
on del dise
no

Los dise
nos fraccionales se basan en que el proceso que se estudia se ve afectado fundamentalmente por los efectos principales y las interacciones de orden bajo,
pudiendo considerarse nulas las interacciones de orden alto.
Un dise
no fraccional sera bueno si confunde los efectos principales con interacciones del orden mas alto posible. En cambio, un dise
no fraccional que confunda
efectos principales es poco recomendable, pues no podremos determinar el efecto de
que factor estamos estimando.
Se define la resolucion del dise
no como 1 + el orden de interaccion mas baja
confundida con alg
un efecto principal. Este valor coincide con el n
umero de letras de
la palabra de la ecuacion generatriz.
Interesan los dise
nos fraccionales de resolucion alta: los efectos principales estan
confundidos con interacciones de orden alto. Si el efecto es significativo, es muy
probable que sea a consecuencia del efecto principal y no de la interaccion.
Ejemplo 12
I = ABC
I = -AB

resolucion III. Dise


no 231
III .
resolucion IV. Dise
no 241
IV .

Ejemplo 13
En un experimento qumico se utiliza un dise
no 241 con I=ABCD para investigar
los efectos de cuatro factores.
A = temperatura,
B = presion,
C = concentracion,
D = velocidad de centrifugado.
La variable respuesta es la cantidad de residuos generada por el proceso.
A
+
+
+
+

B
+
+
+
+

C
+
+
+
+

D
Y
- 550
+ 749
+ 1052
- 650
+ 1075
- 642
- 601
+ 729

Tema 5. Dise
nos fraccionales

59

Se trata de un dise
no de resolucion IV y los estimadores de los efectos son
= 756,

A(+BCD) = 127,

D(+ABC) = 290.5,

B + (ACD) = 4,

AB+CD = 10,

C(+ABD) = 11.5,

AC+BD = 25.5,

AD+BC = 197.5.

Las confusiones son


I = ABCD,

A = BCD,

B = ACD,

C = ABD,

D = ABC,

AB = CD,

AC = BD,

AD = BC.

Mediante las herramientas ya estudiadas, descartamos los efectos poco significativos. Por ejemplo, el diagrama de Pareto que se obtiene es:

D
AD+BC
A
AC+BD
C
AB+CD
B
0

50

100

150

200

250

300

Los efectos D, AD+BC y A parecen ser los mas importantes (podemos confirmarlo mediante la correspondiente tabla ANOVA). Como B y C no son significativos,
tampoco lo son sus interacciones. Por lo tanto, en AD+BC el efecto mayor peso
sera el de AD.
En consecuencia, nuestro modelo queda
y = 756 63.5xA + 145.25xD 98.75xA xD .
Para minimizar y, interesa xA = 1 y xD = 1, es decir, baja temperatura y
poca velocidad de centrifugado. La presion y la concentracion no son importantes.

Regla para resolver las confusiones


Los efectos principales son mas importantes que las interacciones.
Si dos factores no son significativos, es poco frecuente que lo sea la interaccion.
En caso de duda, debe ampliarse el experimento.

60

Estadstica II

5.3.

Dise
nos 2kp

Como la toma de observaciones a nivel industrial tiene un coste muy elevado,


el que un dise
no 2k1 reduzca a la mitad el n
umero de experimentos individuales a
realizar no suele ser suficiente; todava es necesario disminuirlo mas.
En un dise
no 2kp solo queremos realizar 2kp experimentos individuales. En estos
dise
nos la ecuacion generatriz tiene 2p 1 efectos confundidos con I.
Para generar un dise
no de resolucion maxima, seguimos el siguiente procedimiento:
1. Se genera un dise
no 2kp completo.
2. Se igualan los p factores que faltan a las interacciones de mayor orden del dise
no
anterior.
3. Si hay varias opciones, se elige la que proporcione un dise
no de resolucion
maxima.
Ejemplo 14 (Dise
no 263 )
1. Se genera un dise
no 23 completo.
A
+
+
+
+

B
+
+
+
+

C AB AC
+
+
+
+
+ +
+
+
+
+ +
+

BC
+
+
+
+

ABC
+
+
+
+

2. Se igualan los tres factores que faltan a interacciones del dise


no. Por ejemplo,
D=AC, E=BC y F=ABC.
En consecuencia, la ecuacion generatriz (incompleta) del modelo es
I = ACD = BCE = ABCF.
3. Para obtener la ecuacion generatriz completa hay que tener en cuenta que el
producto de los alias de I tambien es una columna alias de I (toda con signos
positivos). As que hacemos todos los productos posibles (en este caso, parejas
y ternas).

Tema 5. Dise
nos fraccionales

I
I
I
I

=
=
=
=

61

ACD BCE = ABDE,


ACD ABCF = BDF,
BCE ABCF = AEF,
ACD BCE ABCF = CDEF.

uego la ecuacion generatriz completa del dise


no (con 23 1 = 7 efectos confundidos) es
I = ACD = AEF = BCE = BDF = ABCF = ABDE = CDEF.
Se trata de un dise
no 263
III .
4. Para determinar las confusiones, se multiplica el factor por la ecuacion generatriz completa. Por ejemplo, la confusion asociada al factor A es
d + EF
d + ABCE
\ + ABDF
\ + BCF
\ + BDE
\ + ACDEF
\ .
A + CD

Un dise
no saturado es aquel en el que se a
nade un factor sobre cada columna de
74
interacciones. Por ejemplo, en un dise
no 2
asociamos los factores D, E, F y G con
las interacciones AB, AC, BC y ABC, respectivamente.
Una observacion final: cuando se utiliza el metodo de la MEDA en un dise
no
fraccional, en el calculo de la mediana intervienen todos los efectos excepto el asociado
a la media.

Você também pode gostar