Apuntes Est2gjh

Tema 1
Regresi
on lineal simple
1.1.
Introducci
on
Nuestro objetivo es obtener un modelo que permita establecer relaciones entre dos
variables: la variable y (variable dependiente, respuesta o de interes) y la variable x
(variable independiente, predictora o explicativa).
Si es posible establecer una relaci
on determinista entre las variables, es decir,
de la forma y = f (x), entonces la prediccion no tiene ning
un error. Por ejemplo,
un circuito electrico compuesto por una alimentacion de 10 voltios conectada a una
resistencia de 5 ohmios dara lugar a una intensidad de I=V/R=10/5=2 amperios. El
error obtenido al medirla es despreciable, por lo que mediciones sucesivas obtendran
siempre intensidades de dos amperios.
Como se observa en el grafico, todos los puntos se ajustan a la perfeccion a la
lnea recta.
Diferencia de potencial (V)
R=5 constante
35
30
25
20
15
10
5
0
0
4
Intensidad (A)
Estadstica II
Sin embargo, en la mayora de las ocasiones, las relaciones entre las variables nos
son desconocidas o los errores de medicion no son negligibles. Bajo estas circunstancias de relaci
on no determinista, la relacion puede expresarse como
y = f (x) + u,
donde u es una perturbacion desconocida (una variable aleatoria). La presencia de
ese error aleatorio significa que dos observaciones identicas para x pueden dar lugar
a observaciones distintas para y (y viceversa). De particular interes en este curso son
aquellos modelos en los que la funcion f (x) es lineal:
y = 0 + 1 x + u.
La variable y vara linealmente con la variable x, pero no queda totalmente explicada por ella a causa de la presencia del error u. Los parametros 0 y 1 se denominan
coficientes de regresion; en particular, 0 es el intercepto y 1 es la pendiente.
Consideremos el siguiente diagrama de dispersi
on que muestra los distintos pesos
y alturas de un grupo de personas.
100
93
Peso (kg)
86
79
72
65
58
51
44
155
160
165
170
175
180
185
190
Estatura (cm)
Aunque las personas mas altas tienden a tener mayor peso que las bajas, no
podemos establecer una relacion determinista entre las variables peso y altura. Vemos
que existe una relacion entre ambas, pero que esta no es exacta.
El objetivo de un modelo de regresion es encontrar una relacion entre las variables
que se ajuste lo mejor posible a los datos. En el caso de un modelo de regresion lineal
simple, el objetivo es encontrar la recta de regresion
y = 0 + 1 x.
Por ejemplo, supongamos que la recta de regresion es y = 100 + x. Eso significa
que se estima que una persona cuya estatura es de 180 cm va a pesar 80 kg. Obviamente, esto no es siempre cierto: existen personas que miden 180 cm y no pesan
80 kg y al reves.
Tema 1. Regresi
on lineal simple
104
Peso (kg)
94
84
74
64
54
44
150
160
170
180
190
Estatura (cm)
La diferencia entre el valor yi de una variable (p.ej., peso) y su estimacion yi es

el residuo ei :
ei = yi yi .
Graficamente, es la distancia vertical entre una observacion y su estimacion a traves
de la recta de regresion.
1.2.
Hip
otesis del modelo
Para ser valido, el modelo de regresion lineal simple necesita que se satisfagan
las siguientes hipotesis:
1. linealidad,
2. homogeneidad,
3. homocedasticidad,
4. independencia,
5. normalidad.
1.2.1.
Linealidad
Si pretendemos ajustar una lnea recta a un conjunto de datos es fundamental

que estos tengan un aspecto compatible con el de una recta.
Estadstica II
600
25
500
20
400
15
300
10
200
5
100
0
0
0
10
15
20
25
10
15
20
25
A menor linealidad, peor representacion mediante una recta de regresion.

Para comprobar la linealidad, representamos graficamente la nube de puntos
asociada al conjunto de observaciones {(xi , yi )}ni=1 .
Si los datos son no lineales, tal vez sea posible encontrar una relacion de los mismos que nos permite aceptar la hipotesis de linealidad para los datos transformados.
1.2.2.
Homocedasticidad
La varianza de los errores es constante:

V ar(ui ) = 2 , i = 1, . . . , n.
Graficamente, significa que la nube de puntos de los datos tiene una anchura mas
o menos constante a lo largo de la recta de regresion. En este caso, se dice que los
datos son homocedasticos; en caso contrario, se dice que son heterocedasticos.
25
16
14
20
12
10
15
10
6
4
5
2
0
0
0
1.2.3.
10
15
20
25
Homogeneidad
Las perturbaciones tienen esperanza nula: E(ui ) = 0, i = 1, . . . , n.

Esto significa que el ajuste que se va a hacer esta centrado respecto de los datos.
Tema 1. Regresi
on lineal simple
1.2.4.
Independencia
Las perturbaciones {ui }ni=1 son variables aleatorias independientes.
1.2.5.
Normalidad
Los errores tienen una distribucion normal: ui N (0, 2 ). Es decir, se distribuyen

siguiendo una campana de Gauss.
Esta suposicion es perfectamente razonable en virtud del teorema del lmite central: si una variable es suma de muchas otras mas peque
nas, entonces se distribuira normalmente.
Como consecuencia, yi N (0 + 1 xi , 2 ).
Observacion: Bajo las hipotesis de normalidad, la incorrelacion y la independencia
de las variables ui son equivalentes.
1.3.
Estimaci
on de los par
ametros
Buscamos los parametros 0 y 1 que mejor se adapten a nuestros datos.
800
700
600
500
400
300
200
100
0
0
1.3.1.
50
100
150
200
250
M
etodo de m
axima verosimilitud
Puesto que yi N (0 + 1 xi , 2 ), entonces su funcion de densidad es

(yi 0 1 xi )2
exp
f (yi ) =
2 2
2 2
1
Estadstica II
y su funcion de maxima verosimilitud es
n
X
(yi 0 1 xi )
i=1
L(0 , 1 , 2 ) =
n exp
2 2
(2 2 ) 2
A continuacion derivamos parcialmente respecto de las variables 0 , 1 and 2 .

ln L
= 0,
0
ln L
= 0,
1
ln L
= 0.
2
Las dos primeras ecuaciones se denominan ecuaciones normales de la regresion.
ln L
0
1
2
n
X
i=1
ln L
1
1
2
n
X
i=1
ln L
2
2n2
(yi 0 1 xi ).
xi (yi 0 1 xi ).
1
2 4
n
X
i=1
(yi 0 1 xi )2 .
Igualando a cero obtenemos que los estimadores 0 , 1 y b2 deben satisfacer

n
X
yi = n0 + 1
xi yi = 0
b2 =
n
X
n
X
xi + 1
n
X
i=1
(1.1)
(yi 0 1 xi )2
n
Comenzamos trabajando la ecuacion (1.1):

n
y = n0 + n1 x;
y = 0 + 1 x;
x2i ,
(1.2)
i=1
i=1
i=1
xi ,
i=1
i=1
n
X
n
X
n
X
i=1
e2i
.
(1.3)
Tema 1. Regresi
on lineal simple
0 = y 1 x.
Seguimos con (1.2):
nxy = n0 x + n1 x2 ;

xy = y 1 x x + 1 x2 = xy 1 x2 + 1 x2 ;

xy xy = 1 x2 x2 ;
2
SX,Y = 1 SX
;
1 =
SX,Y
2
SX
Finalmente, sustituyendo 0 y 1 en (1.3), se obtiene que

b2 = SY2 1
2
SX,Y
2 S2
SX
Y
Por u
ltimo, evaluando la matriz hessiana con los valores obtenidos para los estimadores, se comprueba que se trata de un mnimo (local).
Algunas propiedades que se derivan para estos estimadores son las siguientes:
1. La recta de regresion simple pasa por la media muestral de los datos (
x, y).
2. La pendiente de la recta es proporcional a la covarianza entre las variables.
3. Como y = 0 + 1 x, entonces
yi = y + 1 (xi x), i = 1, . . . , n.
1.3.2.
M
etodo de mnimos cuadrados
En este caso se busca que sea mnima la suma de los cuadrados de las distancias
verticales entre los puntos y sus estimaciones a traves de la recta de regresion.
16
14
12
10
8
6
4
2
0
0
10
Estadstica II
La suma de los cuadrados de los residuos es

n
X
(yi 0 1 xi )2 .
S(0 , 1 ) =
i=1
Al minimizar, obtenemos los mismos estimadores para los parametros que en el

metodo de maxima verosimilitud bajo la hipotesis de normalidad, pues
n
1 X
n
2
(yi 0 1 xi )2
ln L(0 , 1 , ) = ln (2 ) 2
2
2 i=1
2
y las derivadas parciales de S(0 , 1 ) nos llevan a las ecuaciones normales ya conocidas
n
X
n
X
ei = 0,
i=1
1.3.3.
ei xi = 0.
i=1
Estimaci
on de la varianza
Hemos visto que el estimador maximo verosmil es
b2 =
n
X
e2i
i=1
2
Sin embargo, se puede comprobar que E(b2 ) = (n2)
, por lo que el estimador no
n
es insesgado. En su lugar, usaremos la varianza residual
SR2 =
que s es insesgado.
n
X
e2i
i=1
n2
Tema 1. Regresi
on lineal simple
1.4.
Propiedades de los estimadores
1.4.1.
Coeficientes de regresi
on
Normalidad
Al ser yi = 0 + 1 xi + ui , entonces yi N (0 + 1 xi , 2 ). Obtendremos que los
estimadores 0 y 1 se distribuyen normalmente por ser combinaciones lineales de
variables normales.
1 =
n
X
(xi x)(yi y)
2
nSX
i=1
Como
n
X
(xi x)
y
2
nSX
i=1
entonces
1 =
xi
x
2 .
nSX
2
nSX
i=1
n
X
(xi x)
y
i=1
2
nSX
n
y X
(xi x) = 0,
=
2
nSX
i=1
n
X
(xi x)yi
2
nSX
i=1
con wi =
n
X
(xi x)yi
n
X
wi y i ,
i=1
Ahora
0 = y 1 x =
n
X
yi
i=1
n
X
i=1
wi y i =
n
X
1
i=1
xwi yi .
Luego 0 y 1 son combinaciones lineales de variables normales e independientes.

En consecuencia, tambien siguen una distribucion normal.
Esperanza
Veremos que tanto 0 como 1 son estimadores centrados.
E(1 ) = E
n
X
i=1
= 0
n
X
i=1
wi y i
wi + 1
n
X
i=1
n
X
i=1
wi E(yi ) =
n
X
wi (0 + 1 xi ) =
i=1
wi xi = 0 0 + 1 1 = 1 .
10
Estadstica II
E(0 ) = E
n
X
i=1
"
# X

n
1
xwi yi =
xwi E(yi ) =
n
n
i=1
n
X
1
i=1
X
1
xwi (0 + 1 xi ) = 0 +
n
i=1
1
xwi
n
+ 1
n
X
1
i=1
= 0 (1 x 0) + 1 (
x x 1) = 0 .
xwi xi =
As pues, 0 y 1 son estimadores insesgados.
Varianza
Como las variables yi son independientes, entonces
n
X
V ar(1 ) = V ar
wi y i
i=1
n
X
wi2 V
ar(yi ) =
n
X
wi2 2 =
i=1
i=1
n
2
X
(xi x)2
SX
2
2
=
=
=
.
2 2
2 2
2
n2 (SX
))
n2 (SX
))
nSX
i=1
2
La varianza de 1 mide el error que cometemos al estimar la pendiente de la

recta. Disminuira si:
aumenta n, es decir, se tiene una muestra de mayor tama
no;
2
aumenta SX
, es decir, los puntos estan mas dispersos.
V ar(0 ) =
n
X
1
i=1
n
X
i=1
xwi
2
V ar(yi ) =
n
X
1
i=1
xwi
2
n
n
X
2 X
1
1
2
2
2
2
2 2
w
=
wi
w
+
x
+
x
w
i
i
i
n2
n
n
n
i=1
i=1

1
1
2
x2
2
+ x2
+
0
=
1
+
.
2
2
n
nSX
n
SX
Sin embargo, la varianza 2 suele ser un dato desconocido, por lo que se define
el error est
andar estimado siguiente como medida de precision de la estimacion de
los coeficientes:
Tema 1. Regresi
on lineal simple
S(0 ) =
1.5.
2
SR
n
1+
11
x
2
2
SX

,
S(1 ) =
2
SR
2 .
nSX
Inferencia respecto a los par

ametros
Despues de estimar los valores de los parametros es conveniente analizar el grado

de precision de la estimacion. Para ello nos valdremos de dos herramientas:
- intervalos de confianza y
- contrastes de hipotesis.
1.5.1.
Intervalos de confianza
Recordemos que si N (, 2 ), entonces un intervalo de confianza para a

nivel de confianza 1 viene dado por
z1/2 2 ,
con P (N (0, 1) > z1/2 ) = /2.
Sabemos que
0 N
y
2
0 ,
n
1 N

x2
1+ 2
SX

2
.
1 ,
2
nSX
Pero como 2 no es desconocida, la estimamos mediante SR2 . En consecuencia, los

intervalos de confianza se obtienen ahora para una variable aleatoria con varianza
desconocida y son
0 tn2,1/2
2
SR
n

1+
1 tn2,1/2
2
SR
2
nSX
x
2
2
SX
12
Estadstica II
para 0 y 1 , respectivamente.
Se demuestra (no lo haremos) teniendo en cuenta que
n
X
e2i
i=1
2n2
i i
V ar(i )
q
tn2 .
2
SR
2
Observacion: Si se tiene mas de 30 observaciones y se quiere un nivel de confianza

del 95 % (=0.05), entonces tn2,1/2 2. As, los intervalos de confianza seran
i 2S(i ).
O sea, hay (aproximadamente)
una probabilidad del

95 % de que el parametro i
se encuentre en el intervalo i 2S(i ), i + 2S(i ) .
Cuanto mas estrecho sea este intervalo, mejor sera la estimacion. Si el intervalo
de confianza contiene el valor cero, entonces no podemos descartar la posibilidad de
que 1 (la pendiente) sea cero, es decir, que las variables X e Y no esten relacionadas
(linealmente).
1.5.2.
Contraste de hip
otesis
Un modo de comprobar si 1 es cero es comprobar si el cero es un valor admisible

para el intervalo de confianza. Otro metodo es realizar el contraste de hipotesis
H0 : 1 = 0,
H1 : 1 6= 0.
Bajo la hipotesis nula, se tiene que S(1 ) tn2 , por lo que la region de rechazo
1
de la hipotesis nula es

1

> tn2,1/2 .
S(1 )
De nuevo, si n > 30 y = 0.05, entonces podemos aceptar que 1 = 0 si

en el contraste obtenemos un valor para el estadstico que este entre -2 y 2. En
caso contrario, podemos asegurar que 1 no es nula para ese nivel de confianza (las
variables X e Y s estan relacionadas linealmente).
Tema 1. Regresi
on lineal simple
13
Muchos programas estadsticos lo que hacen es devolver el p-valor del contraste,

que se define como el mnimo nivel de significacion que rechaza la hipotesis nula en
favor de la alternativa. En este caso,

!

1
p-valor = P
> tn2,1/2 .
S(1 )
Si el p-valor es menor o igual que el nivel de confianza , entonces se rechaza la

hipotesis nula.
1.5.3.
Contraste de regresi
on y descomposici
on de la variabilidad
El contraste de regresion estudia la posibilidad de que la recta teorica tenga

pendiente nula (1 = 0). Aunque acabamos de ver ese contraste, vamos a tratarlo
ahora desde el punto de vista del analisis de la varianza. Mas adelante, en el modelo
de regresion lineal m
ultiple, se mostrara el interes de este contraste.
La Variabilidad Total (VT) del modelo es
i=1
de la siguiente manera:
VT =
n
X
i=1
(yi
y )2 =
n
X
i=1
n
X
(yi
yi +
yi
y )2 =
n
X
i=1
(yi y)2 y podemos descomponerla
n
n
X
X
(yi
yi )(
yi
y)
yi
y )2 +2
(yi
yi )2 + (
i=1
i=1
Ahora se tiene que

n
X
i=1
(yi yi )(
yi y) =
n
X
i=1
ei 1 (xi x) = 1
n
X
i=1
ei xi x
por lo que
V T = V E + V N E,
con
n
X
(yi y)2 ,
VT = variabilidad total =
i=1
n
X
(
yi y)2 ,
VE = variabilidad explicada =
i=1
VNE = variabilidad no explicada =
n
X
i=1
(yi yi ) =
n
X
i=1
e2i .
n
X
i=1
ei
= 0,
14
Estadstica II
Si VE es peque
na, la recta de regresion no explica bien la variabilidad de los
datos.
No podemos comparar VE y VNE porque, en general, desconocemos su distribucion. Pero se puede demostrar que si 1 = 0, entonces
VE
F1,n2 (distribucion F de Snedecor).
V N E/(n 2)
Fuentes de
variacion
VE
Suma de
cuadrados
n
X
(
yi y)2
Grados de Varianza Test F

libertad
1
Se2
n2
SR2
Se2
2
SR
i=1
n
X
(yi yi )2
VNE
i=1
n
X
(yi y)2
VT
i=1
n1
Tabla 1.1: Tabla ANOVA
1.5.4.
Coeficiente de determinaci
on
El coeficiente de determinacion R2 describe en que medida la variable x describe

la variabilidad de y.
R2 =
n
X
(
yi y)2
VE
= i=1n
=
X
VT
2
yi y)
(
n
X
i=1
(
yi y)2
nSY2
i=1
A mayor valor, mayor es la relacion entre las variables.
1.6.
Predicci
on
En un modelo de regresion hay dos objetivos fundamentales:

- conocer la relacion entre la variable respuesta y la explicativa,
Tema 1. Regresi
on lineal simple
15
- utilizar el modelo ajustado para predecir el valor de la variable respuesta.

En este segundo punto surgen dos tipos de situaciones en funcion de la pregunta
que queramos responder:
1. Estimacion de la respuesta media: Cual es el peso medio de las personas que
miden 180 cm de estatura?
2. Prediccion de una nueva observacion: Sabiendo que una persona mide 180 cm,
cual es su peso esperado?
En ambos caso el valor estimado se obtiene mediante la recta de regresion. Por
ejemplo, si esta es y = x 100, entonces para x0 = 180 cm obtendremos un peso
y0 = 80 kg. No obstante, la precision de las estimaciones es diferente.
En el primer caso, el intervalo de confianza es
r
y0 tn2,1/2 SR2 n1 +
(x0
x)2
2
nSX

.
En el segundo obtendremos un intervalo mas amplio denominado intervalo de

prediccion:
r
y0 tn2,1/2 SR2 1 +
1
n
(x0
x)2
2
nSX

.
Este intervalo tiene mayor amplitud (menos precision) porque no buscamos predecir un valor medio sino un valor especfico.
1.7.
Diagnosis mediante residuos
Despues de haber obtenido la recta de regresion, hay que comprobar si se cumplen

las hipotesis iniciales.
1.7.1.
Linealidad
Con el grafico de dispersion X-Y vemos si los datos iniciales presentan una estructura lineal. Esta es una comprobacion que realizamos antes de comenzar el analisis
de regresion.
16
Estadstica II
Despues de obtener los parametros de regresion, estudiaremos el grafico de residuos frente a valores predichos. Este grafico debe presentar un aspecto totalmente
aleatoria, sin estructura alguna.
2,2
Residuos
1,2
0,2
-0,8
-1,8
0
200
400
600
800
Valores predichos
Si tienen alg
un tipo de estructura, entonces no se satisface la hipotesis de linealidad.
6
Residuos
4
2
0
-2
-4
-6
0
100
200
300
Valores predichos
1.7.2.
Homocedasticidad
Residuos
Residuos
Al analizar los residuos , tambien hay que verificar que su varianza sea mas o
menos constante. Nos seran u
tiles los graficos de residuos frente a valores ajustados
y de residuos frente a X.
0
-3
0
-3
-6
-6
-9
-9
0
40
80
120
160
200
50
Valores predichos
100
Tema 1. Regresi
on lineal simple
1.7.3.
17
Independencia
Esta hipotesis es muy importante. Aunque existen contrastes para comprobarla

(contraste de Durbin-Watson), no profundizaremos en ese aspecto.
Simplemente hay que tener en cuenta que si los datos son temporales (por ejemplo, combustible utilizado y rendimiento en das sucesivos), entonces no debe emplearse un modelo de regresion lineal.
1.7.4.
Normalidad
Mediante un histograma o un gr
afico probabilstico normal de los residuos podemos verificar si estos se distribuyen normalmente.
25
99,9
99
Frecuencia
20
95
15
80
50
10
20
5
5
1
0
-1,9
-0,9
0,1
1,1
2,1
3,1
Residuos
1.7.5.
0.1
-1,8
-0,8
0,2
1,2
2,2
Transformaciones de los datos
En ocasiones, no se satisfacen las hipotesis exigidas por el modelo y es necesario

transformar los datos de tal forma que los datos transformados satisfagan dichas
hipotesis. Algunas transformaciones frecuentes son las siguientes:
Forma funcional que
relaciona y con x
Exponencial: y = aebx
Potencia:
y = axb
Recproca: y = a + xb
x
Hiperbolica: y = a+bx
1.8.
Transformacion
apropiada
y = ln y
y = ln y, x = ln x
x = x1
y = y1 , x = x1
Ap
endice
1. Si Yi es una variable aleatoria con funcion de densidad f (yi |), donde es un

parametro desconocido, e {y1 , . . . , yn } es una observacion de {Yi }, entonces la
18
Estadstica II
funcion de verosimilitud asociada a la observacion es

L(|y) =
n
Y
f (|yi ).
i=1
2. Varianza muestral de una variable X:
2
SX
=
n
X
i=1
(xi x)2
n
= x2 x2 .
3. Covarianza muestral de dos variables X e Y :
SX,Y =
xi
x
2 ,
nSX
4. Si wi =
i)
ii)
n
X
i=1
n
X
n
X
(xi x)(yi y)
i=1
= xy xy.
entonces:
wi = 0,
wi xi = 1.
i=1
Demostraci
on:
i)
n
X
wi =
n
X
xi x
i=1
i=1
2
nSX
ii)
n
X
i=1
wi x i =

n
X
xi x
i=1
2
nSX
1
= 2
SX
n
X
xi
n
X
i=1
x
= 1 (
n
S 2 x x) = 0.
n
X
i=1
1
xi = 2
SX
n
X
i=1
x2i
x
n
X
xi
2
x2 x2
SX
=
=
= 1.
2
2
n
SX
SX
i=1
5. Esperanza y varianza de combinaciones lineales de variables aleatorias.

i) Si a R y X es una variables aleatoria, entonces
E(aX) = aE(X),
V ar(aX) = a2 V ar(X).
Tema 1. Regresi
on lineal simple
19
ii) Si a1 , . . . , an R y X1 , . . . , Xn son variables aleatorias, entonces

!
n
n
X
X
ai E(Xi ).
E
ai Xi =
i=1
i=1
iii) Si a1 , . . . , an R y X1 , . . . , Xn son variables aleatorias independientes,

entonces
!
n
n
X
X
V ar
ai Xi =
a2i V ar(Xi ).
i=1
i=1
Como las distribuciones normal y t de Student son simetricas respecto del

origen, entonces z = z1 y tn, = tn,1 .
Tema 2
Regresi
on lineal m
ultiple
2.1.
Introducci
on
Hasta ahora hemos estudiado un modelo en el que hay una u

nica variable explicativa. Sin embargo, es razonable pensar que puedan existir varias variables independientes xi que contribuyan a explicar la variable dependiente y. Es entonces cuando
se utiliza el modelo de regresion lineal m
ultiple
y = 0 + 1 x1 + + k xk + u.
Si tenemos n observaciones {(xi1 , . . . , xik )}ni=1 , entonces
yi = 0 + 1 xi1 + + k xik + ui , i = 1, . . . , n.
2.2.
Hip
otesis del modelo
El modelo de regresion lineal m

ultiple requiere diversas condiciones analogas a
las del modelo de regresion lineal simple.
2.2.1.
Linealidad
Los datos deben satisfacer una relacion lineal

yi = 0 + 1 xi1 + + k xik .
21
22
Estadstica II
Si hay solo dos variables explicativas,

yi = 0 + 1 xi1 + 2 xi2 ,
entonces los datos deben estar aproximadamente contenidos en un plano. Para tres
o mas variables explicativas, la ecuacion de regresion es un hiperplano y no podemos
visualizar los datos graficamente.
2.2.2.
Homocedasticidad
La varianza debe ser constante: V ar(ui ) = 2 , i = 1, . . . , n.
2.2.3.
Homogeneidad
La perturbacion tiene esperanza nula: E(ui ) = 0, i = 1, . . . , n.
2.2.4.
Independencia
Las perturbaciones ui son independientes entre s.
2.2.5.
Normalidad
Las perturbaciones ui tienen distribucion normal: ui N (0, 2 ), i = 1, . . . , n.

En consecuencia, yi N (0 + 1 xi1 + + k xik , 2 ), = 1, . . . , n.
2.2.6.
Otras hip
otesis
Hipotesis adicionales son:

El n
umero de datos n es mayor que k + 1.
Ninguna variable explicativa es una combinacion lineal de las demas, es decir,
las variables xi son linealmente independientes.
Tema 2. Regresi
on lineal m
ultiple
2.3.
23
Forma matricial del modelo
El modelo puede expresarse mediante matrices de la forma siguiente:

Y = X + U,
con
Y =
y1
y2
..
.
yn
1 x11
1 x21
.. ..
. .
1 xn1
X=
. . . x1k
. . . x2k
. . . ..
.
. . . xnk
0
1
..
.
k
U =
u1
u2
..
.
un
Con esta notacion matricial:

U N (0n , 2 In ),
2.4.
Y N (X, 2 In ).
Estimaci
on de los par
ametros
Buscamos estimar los parametros de regresion 0 , 1 , . . . , k .

Como consecuencia de las hipotesis del modelo, van a coincidir los estimadores
obtenidos mediante los metodos de maxima verosimilitud y mnimos cuadrados.
2.4.1.
Coeficientes de regresi
on
Calculemos 0 , . . . , k mediante mnimos cuadrados:

n
X
L(0 , 1 , . . . , k ) =
(yi 0 1 xi1 k xik )2 .
i=1
Derivando parcialmente, {0 , 1 , . . . , k } es la solucion de

L
= 0, j = 0, . . . , k;
j
0 =
0 =
L
0
L
j
= 2
= 2
n
X
i=1
n
X
i=1
(yi 0 1 xi1 k xik ,
(yi 0 1 xi1 k xik )xij , j = 1, . . . , k.
24
Estadstica II
Llamando ei = yi yi = yi 0 1 xi1 k xik , entonces
X
n
ei = 0,
i=1
n
X
eu ixij = 0, j = 1, . . . , k.
i=1
Estas ecuaciones podemos resolverlas si trabajamos con la expresion matricial

del modelo: Y = X + U . As,
L() = (Y X)t (Y X) = Y t Y 2Y t X + t X t X.
Derivando parcialmente esta expresion:
0=
L
= 2X t Y + 2X t X;
X t X = X t Y ;
= (X t X)1 X t Y.
2.4.2.
Varianza
Para estimar la varianza usaremos la varianza residual :
SR2 =
n
X
e2i
i=1
.
nk1
Este estimador es insesgado para 2 . Se puede demostrar que
2.4.3.
n
X
i=1
2
e2i
2nk1 .
Comentarios
P
P
P
Como y = 0 + ki=1 i xi e y = 0 + ki=1 i xi , entonces y y = ki=1 i (xi xi ).
Si
y1 y
..
Y = Y Y =
,
.
yn y
b = ...
k
Tema 2. Regresi
on lineal m
ultiple
entonces Y = Xb.
=
X
x11 x1 . . . x1k xk
x21 x1 . . . x2k xk
..
..
...
.
.
xn1 x1 . . . xnk xk
25
tX
t Y , es decir, SX,X es la matriz de varianzas
y SX,Y = 1 X
Sean ahora SX,X = n1 X
2
y covarianzas de las variables explicativas y SX,Y el vector de covarianzas entre las
variables explicativas y la variables respuesta. Se tiene que
Y = Xb;
t Y = X
t Xb;
X
t X)
1 X
t Y = S 1 SX,Y .
b = (X
X,X
Si las variables xi son incorreladas, entonces SXX es una matriz diagonal y se
resulta que
Cov(y, xi )
,
bi = i =
V ar(xi )
coincidiendo con el coeficiente de regresion obtenido para el modelo de regresion
lineal simple.
2.5.
Propiedades de los estimadores
2.5.1.
Normalidad
Sabemos que Y = X + U tiene una distribucion normal, Y N (X, 2 In ).

Como = (X t X)1 X t Y , entonces es una funcion lineal de Y . En consecuencia,
tambien se distribuye normalmente.
2.5.2.
Esperanza
El estimador es insesgado para .

= E (X t X)1 X t Y = (X t X)1 X t E(Y ) = (X t X)1 X t X = .
E()
26
Estadstica II
2.5.3.
Varianza

= V ar (X t X)1 X t Y = (X t X)1 X t V ar(Y )X(X t X)1 =
V ar()
= (X t X)1 X t 2 X(X t X)1 = 2 (X t X)1 .
En concreto,
1
V ar(i = 2 (X t X)ii ,
1
Cov(i , j ) = (X t X)ij .
As, i N (i , 2 (X t X)1
ii ).
Sin embargo, la varianza 2 suele ser desconocida. Por lo tanto, definimos el error
est
andar estimado como
S(i ) =
2.6.
2
(X t X)1
ii SR .
Inferencia
Puede resultar interesante realizar contrastes de hipotesis y obtener intervalos de

confianza para cada coeficiente de regresion. As podemos determinar la influencia
de cada variable explicativa sobre el modelo de regresion.
2.6.1.
Contrastes para los coeficientes de regresi

on
Estamos interesados en saber si la variable xi afecta o no a la respuestas (en cuyo

caso convendra eliminarla del modelo). Para ello realizamos el contraste
H0 : i = 0
H1 : i 6= 0.
Sabemos que i N (i , 2 (X t X)1

ii ), por lo que
i i
2 (X t X)1
ii
N (0, 1).
Tema 2. Regresi
on lineal m
ultiple
27
Como 2 no suele conocerse, en su lugar empleamos la varianza residual SR2 .

Puesto que
cion tnk1 :
2
(nk1)SR
2
2nk1 , entonces el siguiente estimador sigue una distribui i

N (0, 1)
i i
q 2
=q
.
=
i )
nk1
1
S(
2
t
SR (X X)ii
nk1
Ahora, bajo la hipotesis nula se tiene que S(i ) tnk1 . Por lo tanto, si
i

i

> tnk1,1/2 ,
S(i )
entonces rechazamos que i pueda ser cero. En concreto, si n > 30 y = 0.05,

entonces tnk1,1/2 2.
2.6.2.
Intervalos de confianza
Puesto que
i i
S(i )
tnk1 , se tiene que
tnk1,1/2
i i
tnk1,1/2
S(i )
= 1 ;

P i tnk1,1/2 S(i ) < i < i + tnk1,1/2 S(i .

As que i tnk1,1/2 S(i ), i + tnk1,1/2 S(i ) es un intervalo de confianza para i con nivel de confianza 1 . Analogamente a lo ya visto, si n > 30 y
= 0.05, el intervalo puede aproximarse por i 2S(i ).
2.6.3.
Contraste de regresi
on
Al igual que sucede en el modelo de regresion lineal simple, se tiene la relacion

V T = V E + V N E, donde
n
X
(yi y)2 ,
VT = variabilidad total =
i=1
n
X
(
yi y)2 ,
VE = variabilidad explicada =
i=1
n
X
i=1
(yi yi ) =
n
X
i=1
e2i .
28
Estadstica II
El contraste de regresion establece si existe relacion lineal entre la variable respuesta y los coeficientes de regresion:
H0 : 1 = 2 = = k = 0,
H1 : j {1, . . . , k} / j 6= 0.
Por una parte, sabemos que
que VE2 2k . En consecuencia,
V NE
2
2nk1 . Por otra parte, se puede demostrar
V E/k
Fk,nk1 .
V N E/(n k 1)
Fuentes de
variacion
VE (modelo)
Suma de
cuadrados
n
X
(
yi y)2
i=1
VNE (residual)
n
X
n
X
VT
i=1
Grados de Varianza Test F

libertad
k
e2i
nk1
(yi y)2
n1
i=1
Se2 =
VE
k
Se2
2
SR
SR2
Tabla 2.1: Tabla ANOVA

Buscamos el valor Fk,nk1; tal que P (F > Fk,nk1;)= .
Por lo tanto, si el valor del estadstico es mayor que Fk,nk1; , entonces rechazaremos la hipotesis nula y concluiremos que el modelo explica una parte significativa
de y. En caso contrario, concluiremos que el modelo no explica conjuntamente nada.
2.7.
El coeficiente de determinaci
on corregido
Para construir una medida que describa el ajuste global del modelo se utiliza el
cociente entre las variabilidades explicada y total del modelo. Es lo que se llama el
coeficiente de determinacion.
R2 =
VE
=
VT
n
X
i=1
(
yi y)2
(yi
y)2
=1
V NE
.
VT
Por definicion, 0 R2 1. En particular, si R2 = 1, entonces existe una relacion

lineal exacta entre la variable respuesta y las variables explicativas.
Tema 2. Regresi
on lineal m
ultiple
29
Aunque el valor R2 da una medida de lo adecuado que es el modelo, un mayor R2

no tiene por que implicar un mejor modelo. La razon es que R2 aumenta siempre
que se introduce una nueva variable, aunque esta no sea significativa.
Para solventar este problema, el coeficiente R2 se corrige por el n
umero de grados
de libertad del modelo. Esto penaliza el n
umero de variables que se introducen.
As obtenemos el coeficiente de determinacion corregido
SR2
2 = 1 V N E/(n k 1) = 1
R
.
V T /(n 1)
V T /(n 1)
2 solo aumenta si disminuye S2 .
De este modo, R
R
2.8.
Regresi
on con variables cualitativas
2.8.1.
Variables dicot
omicas
Consideremos el siguiente diagrama de dispersion que representa el precio del

alquiler (y) en una muestra de viviendas de Madrid en funcion de su superficie en
metros cuadrados (x2 ).
y
Y
yB
B
yA
A
X
Al analizar la muestra, vemos claramente que existen dos grupos de observaciones.

Si se ignora este hecho, la recta de regresion va a estimar el modelo con muy poca
precision (la recta y). En cambio, si en lugar de una recta estimamos dos, entonces
obtenemos ajustes mucho mejores (rectas yA e yB ).
30
Estadstica II
Este suceso se da con mucha frecuencia. Datos que vienen en grupos son:
peso y altura en funcion del sexo,
densidad de un material y temperatura del proceso en funcion de la presencia
o ausencia de un metal,
consumo de un motor y potencia en funcion del tipo de motor (diesel o gasolina).
Para resolver este problema, se introducen unas variables binarias (dicotomicas)
denominadas variables ficticias, indicadoras o dummies:
(
0 si la observacion i pertenece al grupo A,
zi =
1 si la observacion i pertenece al grupo B.
Tras definir la variable z de este modo, se ajusta un modelo de la forma
y = 0 + 1 x + 2 z + u.
Este modelo tiene la propiedad de ajustar las dos rectas de regresion. Si la observacion i pertenece al grupo A, entonces
yi = 0 + 1 xi ,
mientras que si pertenece al grupo B, entonces
yi = (0 + 2 ) + 1 xi .
Supongamos que zi vale 1 si la observacion i pertenece a un hombre y 0 si pertenece a una mujer. Si ajustamos un modelo como el que acabamos de ver para
relacionar peso (y) y altura (x), obtendremos que un hombre pesa 2 kg mas que
una mujer de la misma altura. Ahora bien, de acuerdo con el modelo, el ratio de
crecimiento (la pendiente 1 ) es el mismo para ambos generos, cosa que podra no
ser cierta.
Tema 2. Regresi
on lineal m
ultiple
31
Para ver si el hecho de ser hombre o mujer (la variable cualitativa) afecta al ratio
de crecimiento (la pendiente de la recta de regresion), estudiaremos la interaccion
entre ambas mediante un modelo de la forma
y = 0 + 1 x + 2 z + 3 xz + u.
As, para una observacion i:
si zi = 0, entonces yi = 0 + 1 xi ,
si zi = 1, entonces yigorro = (0 + 2 ) + (1 + 3 )zi .
2.8.2.
Variables polit
omicas
Sucede a menudo que las variables cualitativas no se limitan a tomar valores en

dos categoras (s/no), sino que recorren ua gama mas amplia (estudios primarios,
medios o superiores; satisfaccion ninguna, poca, regular, bastante o completa. . . ).
Modelizar estas situaciones es bastante sencillo: si tenemos s categoras, entonces
introduciremos s 1 variables dicotomicas zt donde
(
1 si la observacion i pertenece a la categora t,
zi =
0 en caso contrario.
Por ejemplo, si se esta calentando una serie de barras para estudiar su dilatacion y
el proceso puede ser realizado en una las de cuatro maquinas disponibles, las distintas
variables del modelo son: y (dilatacion en centmetros), x (temperatura en grados
centgrados) y
(
1 si la maquina i es la empleada en el proceso,
zi =
0 en caso contrario.
El modelo sera
y = 0 + 1 x + 2 z1 + 3 z2 + 4 z3 + u.
2.9.
Predicci
on
Tanto para predecir el valor medio como el de una observacion especfica, la

estimacion se obtiene sustituyendo el valor de la observacion xh en el modelo de
regresion:
yh = 0 + 1 xh1 + + k xhk .
32
Estadstica II
Para el valor medio, un intervalo de confianza a nivel 1 es

yh tnk1,1/2
1
2 1+
SR
x
h )
( xth SXX
,
n
donde xh = (x1h x1 , . . . , xkh xk ) no incluye la entrada correspondiente al uno

de 0 y SXX es la matriz de varianzas y covarianzas entre las xi .
Un intervalo de prediccion para una observacion especficas es
r
yh tnk1,1/2 SR2 1 +
2.10.
1
1+
xth SXX
x
h
n

,
Multicolinealidad
El problema de la multicolinealidad se da con frecuencia a la hora de ajustar

un modelo de regresion m
ultiple: se presenta cuando las variables cualitativas estan
altamente interrelacionadas. Si una variable explicativa esta relacionada exactamente
con las demas, entonces no es posible estimar sus efectos.
Hay que destacar que no es un problema del modelo sino de los datos: a la hora
de calcular (X t X)1 , puede suceder que det(X t X) sea cero o este muy cerca de serlo.
Podemos detectar que hay multicolinealidad de diferentes maneras:
1. Las variables explicativas son significativas en el modelo de regresion lineal
simple, pero dejan de serlo en el modelo de regresion m
ultiple (estadsticos t
bajos). Tambien se detecta la multicolinealidad porque, aunque el contraste t
de valores bajos, el contraste F indica que una parte importante de la variabilidad del modelo es explicada (valor alto del estadstico) y/o el coeficiente de
determinacion corregido es alto.
2. Indice de condicionamiento: Sean 1 k+1 los autovalores de X t X. Se
define el ndice de condicionamiento como
r
k+1
IC =
1.
1
Si 10 IC 30, se dice que hay multicolinealidad moderada. Si IC > 30, se
dice que hay multicolinealidad alta.
La idea es que si hay multicolinealidad, entonces alguno de los autovalores
de X t X estara proximo a cero.
Tema 2. Regresi
on lineal m
ultiple
33
Para reducir el problema de multicolinealidad, una posible solucion es eliminar

alguna de las variables explicativas que dependa fuertemente de otras.
2.11.
Diagnosis
El proceso de diagnosis en regresion m

ultiple es mas complejo porque no es posible
visualizar los datos correctamente.
Ademas de las tecnicas ya vistas en regresion simple para comprobar las hipotesis
de linealidad, heterocedasticidad y normalidad, en regresion m
ultiple tambien es u
til
realizar graficos de residuos frente a las variables explicativas xi . Permiten identificar
si alguna variable produce los efectos de falta de linealidad y heterocedasticidad.
2.12.
Ap
endice
1. Si y, a Rn , entonces
y t a
= y.
a
2. Si a Rn y X Rnn , entonces
at Xa
= 2Xa.
a
3. Si A Rmn e Y Rn , entonces:
a) E(AY ) = AE(Y );
b) V ar(AY ) = AV ar(Y )At .
4. Los autovalores de la matriz A Rnn se calculan resolviendo la ecuacion
|A In | = 0.
Tema 3
An
alisis de la varianza
3.1.
Introducci
on
El analisis de la varianza (ANalysis Of VAriance, ANOVA) es un procedimiento

para descomponer la variabilidad de un experimento en componentes independientes
que puedan asignarse a causas distintas.
A grandes rasgos, el problema es el siguiente:
1. Tenemos n elementos que se diferencia en un factor (estudiantes de distintas
clases, vehculos de distintas marcas, productos manufacturados en distintos
procesos. . . ).
2. En cada elemento (personas, vehculos, productos. . . ) observamos una caracterstica que vara aleatoriamente de un elemento a otro: las notas de los estudiantes, el consumo de gasolina de los vehculos, los tiempos de fabricacion de
los productos. . .
3. Se desea establecer si hay o no relacion entre el valor medio de la caracterstica estudiada y el factor: tienen todas las clases la misma nota media? los
vehculos el mismo consumo? los productos el mismo tiempo de fabricacion?
Veamoslo con un ejemplo:
Ejemplo 1
Un fabricante de bolsas de papel quiere mejorar la resistencia a la tension de las
bolsas. El ingeniero de produccion piensa que hay una relacion entre la cantidad de
celulosa utilizada en la fabricacion del papel y su resistencia.
35
36
Estadstica II
Para ello se realiza un experimento en el que se fabrica papel con distintos porcentajes de celulosa y se mide la resistencia.
% celulosa
5
10
15
20
7
12
14
19
Resistencia
8 15 11 9 10
17 13 18 19 15
18 19 17 16 18
25 22 23 18 20
25
Resistencia
22
19
16
13
10
7
5
10
15
20
Porcentaje de celulosa
3.2.
El modelo
Sea y la variable de interes.

y = resistencia de las bolsas
Sea F el factor que influye en los valores de y.
F = porcentaje de celulosa
Sea I el n
umero de niveles de F .
I=4
Sea ni , i = 1, . . . , I, el n
umero de observaciones tomadas para el nivel i. No tiene
por que haber el mismo n
umero de observaciones para todos los grupos.
n1 = n 2 = n3 = n4 = 6
Tema 3. An
37
Ahora, para i = 1, . . . , I, j = 1, . . . , ni , sea yij = i + ij , con

yij
i
ij
= j-esima observacion del i-esimo grupo,

= media del i-esimo grupo,
= perturbacion que mide la variabilidad debida al error experimental.
Como ij = yij i , se puede ver como la desviacion de la j-esima observacion

del grupo i respecto de la media del grupo.
Otra forma de escribir el modelo es
yij = + i + ij ,
con
= media de todas las observaciones,

= efecto diferencial del grupo (i = i ).
Las perturbaciones ij representan la variabilidad intrnseca del experimento: son

variables aleatorias. Asumiremos para ellas las siguientes hipotesis:
1. El promedio de las perturbaciones es cero.
E(ij ) = 0 i, j.
2. La variabilidad es la misma en todos los grupos.
V ar(ij ) = 2 i, j.
3. La distribucion de las perturbaciones es normal.
ij N (0, 2 ) i, j.
Esto implica que sus desviaciones respecto de la media son simetricas y pocas
observaciones (el 5 %) se alejan mas de dos desviaciones tpicas respecto de la
media.
4. Las perturbaciones son independientes.
Como ij N (0, 2 ), entonces yij N (i , 2 ).
38
Estadstica II
3.3.
Estimaci
on de los par
ametros
Nuestro modelo es
yij = i + ij , yij N (i , 2 ), i = 1, . . . , I, j = 1, . . . , ni .
Este modelo tiene I + 1 parametros desconocidos: las medias 1 , . . . , I y la
varianza 2 . Vamos a estimarlos usando el metodo de maxima verosimilitud.
La funcion de densidad para la observacion yij es
2
f (yij |i , ) =
(yij i )2
,
exp
2 2
2 2
1
por lo que la funcion de maxima verosimilitud de la muestra es
L(, 2 ) = (2 2 ) 2 exp
ni
I X
X
i=1 j=1
(yij i )2
2 2
Tomando logaritmos:
ni
I
n
1 XX
2
ln L = ln (2 ) 2
(yij i )2 .
2
2 i=1 j=1
As:
0=
ni
1 X
n
ln L
= 2
yi i );
(yij i ) = 2 (
i
j=1
i = yi .
En consecuencia, un estimador de la perturbacion ij sera
ij = yij
i .
A la estimacion del error se la denomina residuo:
eij = yij yi .
El residuo mide la variabilidad no explicada.
Busquemos ahora una estimacion de la varianza del error:
0=
ni
I
n
1 XX
ln L
(yij
i )2 ;
=
+
2
2
2
2
2
2( ) i=1 j=1
Tema 3. An
39
ni
I
1 XX
0 = n + 2
(yij
i )2 ;
i=1 j=1
b2 =
ni
I X
X
(yij
i )2
i=1 j=1
ni
I X
X
(yij yi )2
i=1 j=1
ni
I X
X
e2ij
i=1 j=1
Sin embargo, este estimador es sesgado. En su lugar, emplearemos la varianza

residual
ni
I X
X
e2ij
SR2 =
i=1 j=1
nI
Puede reescribirse como la media ponderada de las cuasivarianzas de cada grupo:
SR2 =
Como
(ni 1)s2i
2
I
X
i=1
(ni 1)s2i
nI
2
(nI)SR
2
2ni 1 , entonces
2nI .
3.4.
Propiedades de los estimadores de las medias
3.4.1.
Esperanza
El estimador
i es centrado:
E(
i ) = E
3.4.2.
Pni
j=1 yij
ni
Pni
E(yi )
=
ni
i=1
Pn
i=1
ni
= i .
Varianza
V ar(
i ) = V ar
Pni
j=1
ni
yij
Pni
i=1
V ar(yi )
=
n2i
Pni
i=1
n2i
2
.
ni
40
Estadstica II
Ademas, como
i es combinacion lineal de variables aleatorias independientes
normales, entonces tambien esta distribuida normalmente. Luego

2
.
i N i ,
ni
Un intervalo de confianza para i es
i z1/2 .
ni
Pero como no suele conocerse, se usa
si
i tni 1,1/2 .
ni
3.5.
Descomposici
on de la variabilidad
El objetivo del analisis es saber si el factor que se estudia es o no influyente. En

el modelo, esto significa que hay que comprobar si todas las medias son iguales o si
existe alguna que sea diferente. Es decir, se trata del contraste:
H0 : 1 = = I ,
H1 : i, j {1, . . . , I} / i 6= j .
Aunque estemos analizando medias, hablamos de analisis de la varianza porque la
variabilidad de los datos es fundamental para decidir si las medias son o no distintas.
Las desviaciones entre los datos observados y la media general pueden expresarse
mediante la identidad
yij y = (
yi y) + (yij yi ).
Esta igualdad descompone la variabilidad entre los datos y la media general en
dos terminos: la variabilidad entre las medias y la media general y la variabilidad
residual (variabilidad de los grupos).
Elevando al cuadrado y sumando para los n terminos:
ni
I X
X
i=1 j=1
(yij y)2 =
ni
ni
ni
I X
I X
I X
X
X
X
(
yi y)(yij yi ) =
(yij yi )2 + 2
(
yi y)2 +
i=1 j=1
i=1 j=1
i=1 j=1
Tema 3. An
I
X
i=1
41
ni (
yi y) +
ni
I X
X
e2ij .
i=1 j=1
A continuacion se definen las siguientes expresiones:
VT
VE
= variabilidad total =
ni
I X
X
(yij y)2 ,
i=1 j=1
I
X
= variabilidad explicada =
i=1
ni (
yi y)2 .
ni
I X
X
i=1 j=1
(yij yi )2 .
De este modo, VT = VE + VNE.

La variabilidad explicada es la variabilidad debida a la existencia de los distintos
grupos. Mide la variabilidad entre ellos. Si VE es peque
na, entonces las medias seran
similares.
La variabilidad no explicada es la variabilidad debida al error experimental. Mide
la variabilidad dentro de los grupos.
Aunque no es posible comparar VE y VNE porque desconocemos como estan
distribuidas, s sabemos que:
1.
V NE
2
2nI .
2. Si 1 = = I (la hipotesis nula es cierta), entonces
VE
2
2I1 .
En consecuencia, cuando se cumple la hipotesis nula, se tiene que

V E/(I 1)
FI1,nI .
V N E/(n I)
En la tabla ANOVA siguiente se muestra toda la informacion asociada al contraste:
42
Estadstica II
Fuentes de
variabilidad
VE: entre grupos
VNE: residual
Suma de
cuadrados
PI
i=1
ni (
yi y)2
ni
I X
X
i=1 j=1
VT: total
(yij yi )2
ni
I X
X
i=1 j=1
Si
c2
S
e
2
SR
Grados de
libertad
(yij y)2
Varianza
c2 =
S
e
I 1
SR2 =
nI
I
X
i=1
ni (
yi y)
I1
ni
I X
X
(yij yi )2
Test F
c2
S
e
2
SR
i=1 j=1
nI
ni
I X
X
i=1 j=1
n1
n1
> FI1,nI;1 , entonces se rechaza la hipotesis nula.
Ejemplo 2
En el ejemplo de la celulosa,
c2
S
e
= 19, 61 y F3,20;0.95=3.098 ,
2
S
R
por lo que las medias son distintas.
Ahora bien, existen algunas que puedan considerarse iguales?
3.6.
Estimaci
on de la diferencia de medias
Una vez sabemos que las medias son distintas, nos interesa saber si al menos
algunas de ellas son iguales. Para ello, una posibilidad es compararlas dos a dos
mediante el contraste
H0 :
H1 :
1 = 2 ,
1 6= 2 .
Como la varianza es desconocida, para el contraste tenemos el estadstico

t= r
y1 y2
(n1 1)
s21 +(n2 1)
s22
n1 +n2 2
1
n1
Si |t| > tn1 +n2 1,1/2 , entonces se rechaza H0 .
1
n2
.
Tema 3. An
43
Ejemplo 3
En el caso de la celulosa:
(i,j)
(1,2)
(1,3)
(1,4)
(2,3)
(2,4)
(3,4)
t
3.48
5.12
7.07
0.98
3.49
3.06
Observamos que no hay diferencias entre los grupos 2 y 3.
M
etodo de Fischer o LSD (Least Significative Distance)
Si, aunque desconocida, estamos aceptando que todas las varianzas son iguales,
entonces podemos estimar la varianza informacion de todas las muestras y no solo
la de los dos grupos que intervienen en el contraste: empleamos SR2 .
El estadstico es
t = r
y1 y2
.
1
1
+ n2 SR2
n1
Si |t| > tnI,1/2 , entonces se rechaza H0 .

Con el metodo de Fischer podemos detectar diferencias mas peque
nas.
Ejemplo 4
(i,j)
(1,2)
(1,3)
(1,4)
(2,3)
(2,4)
(3,4)
t
3.84
4.75
7.57
0.90
3.73
2.82
Nuevamente vemos que no hay diferencias entre los grupos 2 y 3.
44
Estadstica II
Un intervalo de confianzas para la diferencia de medias es

(
y1 y2 ) tnI,1/2
s
1
1
+
n1 n2
SR2 .
El metodo se denomina LSD

r porque si la distancia entre las medias, y1 y2 es
1
mayor que el valor tnI,1/2
+ n12 SR2 , entonces se consideran distintas.
n1
Ejemplo 5
(i,j) yi yj
(1,2)
5.66
(1,3)
7
(1,4) 11.16
(2,3)
1.34
(2,4)
5.5
(3,4)
4.16
Como tnI,1/2
los efectos.
3.7.
r
1
n1
1
n2
SR2 = 3.06 , las medias y2 e y3 son iguales a todos
Diagnosis
Normalidad: histograma de residuos, grafico probabilstico normal.

Linealidad, homocedasticidad: residuos frente a valores predichos.
3.8.
Ap
endice
1. Cuasivarianza muestra de una variable X:
s2X =
n
X
i=1
(xi x)2
n1
Tema 4
Dise
nos factoriales a dos niveles
4.1.
Introducci
on
Con mucha frecuencia aparece en la experimentacion industrial la necesidad de

conocer el efecto sobre la variable respuesta de un n
umero de factores elevado. Sin
embargo, no conviene utilizar demasiados factores (incluso si cada uno tiene muy
pocos niveles), pues el n
umero de combinaciones posibles aumenta rapidamente. Por
ejemplo, si tenemos 6 factores con 2,3,4,5,6 y 7 niveles, respectivamente, el n
umero
total de combinaciones posibles asciende a 7! = 5040.
Ante esta situacion, cabe dos opciones: reducir el n
umero de niveles o eliminar
factores. La solucion mas habitual es la primera: se eligen niveles en los valores extremos del factor (dos niveles u
nicamente). Pese a que parece experimentos demasiado
simples para ser de utilidad, son faciles de llevar a cabo, tienen bajo coste y sirven
para seleccionar que factores van a estudiarse con mayor profundidad.
Ejemplos:
hormigon 25 % o 50 % de cemento;
temperatura: baja o alta;
concentracion de un reactivo: 1 % o 2 %;
tiempo de secado de un pegamento: 1 minuto o 2 minutos.
La notacion que emplearemos es ab , donde b es el n
umero de factores y a es el
n
umero de niveles, que es el mismo para todos los factores.
45
46
Estadstica II
4.2.
El dise
no 22. Dise
nos 2k
4.2.1.
Conceptos b
asicos
Se trata del dise

no factorial mas sencillo: dos factores (A y B) con dos niveles
cada uno. Utilizaremos los signos (+) y () para representar los dos niveles de cada
factor. Para la variable respuesta Y se suele emplear la siguiente notacion:
(o) si ambos factores estan al nivel ();
(a) si el primer factor esta al nivel (+) y el segundo factor esta al nivel ();
(b) si el primer factor esta al nivel () y el segundo facto estan al nivel (+);
(ab) si ambos factores estan al nivel (+).
Factor B
(+)
y12 (b)
y22 (ab)
()
y11 (o)
()
y21 (a)
A B Y
- - y11 (o)
+ - y21 (a)
- + y12 (b)
+ + y22 (ab)
(+)
Factor A
El modelo estadstico asociado es el siguiente:

yij = + i + j + ()ij + uij , i = 1, 2, j = 1, 2,
siendo i el efecto del nivel i del factor A, j el efecto del nivel j del factor B y
()ij el efecto de la interaccion cuando el factor A esta al nivel i y el factor B
esta al nivel j.
Como los valores i son desviaciones respecto del valor medio, entonces se tiene
que 1 + 2 = 0. Es decir, 2 = 1 . Analogamente,
2 = 1 ,
()i2 = ()i1 , i = 1, 2,
()2j = ()1j , j = 1, 2.
Teniendo esto en cuenta, podemos definir las variables
(
+1 si el factor i esta al nivel (+),
Xi =
1 si el factor i esta al nivel (),
Tema 4. Dise
47
i = 1, 2, y reescribir el modelo como

yij = + 2 X1 + 2 X2 + ()22 X1 X2 + ij .
Este modelo tiene cuatro parametros que deben estimarse.
El efecto de un factor sera el efecto por el paso del nivel () al nivel (+):
= efecto de A = 2 1 = 22 ,
= efecto de B = 2 1 = 22 ,
= efecto de la interaccion AB = ()22 ()12 = ()11 ()21 = 2()22 .
Luego nuestro modelo se puede escribir como
yij = +
4.2.2.
X1 + X2 +
X1 X2 + ij .
2
2
2
Estimaci
on
Utilizamos la siguiente forma de escribir el modelo para estimar sus parametros:

yij = + i + j + ()ij + uij , i = 1, 2, j = 1, 2.
El metodo que usaremos es el de mnimos cuadrados.
X
L=
(yij i j ()ij )2 .
ij
A continuacion, derivamos parcialmente e igualamos a cero haciendo uso de las

propiedades 1 + 2 = 0, 1 + 2 = 0,. . .
0=
X
L
= 2
(yij i j ()ij ) = 8(
y );
i,j
= y;
0=
o + a + b + ab
.
4
X
L
= 2
(y2j 2 j ()2j ) = 4(
y2
2 );
2
j
48
Estadstica II
2 = y2
=
a + ab o + a + b + ab
o + a b + ab
=
;
2
4
4
0=
o + a b + ab
.
2
L
= (y22 2 2 ()22 );
()22
o + a + b + ab
4
o + a b + ab o a + b + ab
o a b +ab
=
;
4
4
4
c 22 = y2 2
()
2 2 = ab
c = 0 a b + ab .
Ejemplo 6
Una empresa farmaceutica desea conocer como afectan la concentracion de un reactivo (factor A) y la cantidad de un catalizador (factor B) a la cantidad de principio
activo obtenido en un proceso qumico.
(
() 15 %,
factor A =
(+) 25 %.
(
() 1 kg,
factor B =
(+) 2 kg.
A B Y
- - 28
+ - 36
- + 18
+ + 31
Estimamos los parametros:
= 28.25,
El modelo es
= 10.5,
= 7.5,
c = 2.5.
y = 28.25 + 5.25X1 3.75X2 + 1.25X1 X2 .

El algoritmo de los signos
1. Se multiplican los signos de los niveles de los factores que intervienen en el
estimador.
Tema 4. Dise
49
2. El estimador es la media de las observaciones con (+) menos la media de las

observaciones con ().
Ejemplo 7
Volvamos a calcular los estimadores del dise
no 22 :
:
c
:
estima
estima
estima
estima
el
el
el
el
efecto
efecto
efecto
efecto
de todos los factores: o+a+b+ab

.
4
a+ab
o+b
del factor A: 2 2 .
o+a
.
del factor B: b+ab
2
2
o+ab
.
de la interaccion AB: 2 a+b
2
Ejemplo 8 (Dise
no 23 )
Determinemos los estimadores de los efectos para un dise
no factorial 23 .
A
+
+
+
+
B
+
+
+
+
C AB
+
+
+ +
+
+
+ +
AC BC
+
+
+
+
+
+
+
+
ABC
+
+
+
+
Y
o
a
b
ab
c
ac
bc
abc
o + a + b + c + ab + ac + bc + abc
,
8
a + ab + ac + abc o + b + c + bc
A =
,
4
4
= b + ab + bc + abc o + a + c + ac ,
B
4
4
c + ac + bc + abc o + a + b + ab
C =
,
4
4
d = o + ab + c + abc a + b + ac + bc ,
AB
4
4
d = o + b + ac + abc a + ab + c + bc ,
AC
4
4
d = o + a + bc + abc b + ab + c + ac ,
BC
4
4
[ = a + b + c + abc o + ab + ac + bc .
ABC
4
4
50
Estadstica II
Ejemplo 9
Se realiza un experimento para mejorar la calidad del hormigon (la variable de interes
es la resistencia a la presion). Para ello, se obtuvieron muestras de hormigon variando
los niveles de tres factores. Los datos de la muestra son los siguientes:
o
a
b
c
ab
ac
bc
abc
700
900
3400
1200
5500
1200
3500
6200
El modelo es
y = 2825 + 625x1 + 1825x2 + 200x3 + 575x1 x2 + 50x1 x3 + 100x1 x2 x3 .
4.3.
Significatividad de los efectos
Para comprobar si un efecto es verdaderamente significativo, disponemos de las

siguientes herramientas:
grafico de efectos principales,

diagrama de Pareto,
grafico normal/seminormal,
metodo de la MEDA.
4.3.1.
Gr
afico de efectos principales
Se trata de un grafico en el que se representan las medias estimadas para los

niveles () y (+) de cada factor.
Tema 4. Dise
51
(X 1000)
5
Resistencia
4
3
2
1
0
-1
1
A
-1
-1
Se aprecia que el efecto del factor C es mucho menor que el de los otros factores.
4.3.2.
Diagrama de Pareto
En este grafico podemos ver las magnitudes de los efectos principales y de las
interacciones ordenadas de mayor a menor en valor absoluto.
B
A
AB
C
ABC
AC
BC
0
4
(X 1000)
El factor C y sus interacciones parecen ser poco significativos.

En general, las interacciones de orden tercero o superior no suelen ser significativas.
4.3.3.
Gr
afico probabilstico normal/seminormal
Bajo las hipotesis habituales, los estimadores de los efectos siguen una distribucion normal.
Si el verdadero valor de los efectos es cero, los valores estimados se pueden considerar como una muestra de una distribucion normal de media cero.
52
Estadstica II
En este grafico se representan los efectos estandarizados frente a los percentiles. Estos efectos deberan estar alineados. En consecuencia, cuanto mas se aleje el
estimador del efecto de un factor de la lnea, mas significativo sera dicho factor.
99,9
99
Porcentaje
95
80
C
ABC
AC
50
20
5
A
AB
BC
1
0.1
0
Efectos estandarizados
4
(X 1000)
En el grafico probabilstico seminormal se utilizan las desviaciones estandarizadas

de los efectos en lugar de los percentiles.
4.3.4.
M
etodo de la MEDA
Las iniciales MEDA hacen referencia a mediana de las desviaciones a la mediana.

Este metodo se emplea cuando hay tantos parametros como observaciones.
1. Se comienza calculando el valor mediano M de los efectos estimados de las
interacciones.
2. A continuacion, se calculan las desviaciones (en valor absoluto) de los efectos
de las interacciones respecto de M . La MEDA es la mediana de estas observaciones.
3. Finalmente se calcula el estimador s =
M EDA
.
0.675
Si el valor del efecto es mayor o igual que 2

s y hay menos de cinco factores,
entonces es significativo.
Si el valor del efecto es mayor o igual que 3
s y hay al menos cinco factores,
entonces es significativo.
Ejemplo 10
En el ejemplo del hormigon que estamos usando:
M = mediana(AB,AC,BC,ABC) = mediana(1150,100,0,200) = 150;
MEDA = mediana(|AB M |, |AC M |, |BC M |, |ABC |) =
mediana(1000,50,150,50) = 100.
Tema 4. Dise
s =
53
M EDA
100
=
= 148.15.
0.675
0.675
Son significativos los efectos mayores o iguales que 296.30, esto es, A, B, C y
AB.
Una vez hemos decidido que factores son significativos, escribimos la ecuacion
del modelo considerando solo esos terminos:
y = 2825 + 625x1 + 1825x2 + 200x3 + 575x1 x2 .
4.4.
Resumen de dise
nos 2k
2k = k factores con dos niveles cada uno.
Pasos del analisis:

1. Se estiman los efectos e interacciones utilizando el algoritmo de los signos.
2. Mediante el diagrama de Pareto y el grafico probabilstico normal (o el metodo
de la MEDA), se preseleccionan los efectos no significativos.
3. Se construye la tabla ANOVA con el resto de efectos y se comprueba si son
significativos. Se repite los pasos 2 y 3 hasta que todos los efectos que se
conserven sean significativos.
4. Se hace la diagnosis del modelo mediante el analisis de los residuos.
5. Se utiliza el modelo para obtener las condiciones de los factores que optimizan
la variable respuesta.
Tema 5
Dise
nos fraccionales
5.1.
Introducci
on
En la experimentacion industrial se necesita conocer el efecto de un gran n

umero
de factores sobre la variable respuesta. Incluso si solo consideramos dos niveles por
cada factor, siguen siendo necesarias muchas observaciones. Demasiadas como para
ser factible (normalmente porque implican un coste elevado).
Como, normalmente, las interacciones de orden tercero y superior no suelen ser
significativas, nos encontramos con que muchos datos del experimento los estamos
utilizando para estimar la variabilidad experimental.
Ejemplo 11
En un dise
no 25 tenemos 5 factores, 10 interacciones de segundo orden y 16 interacciones de orden superior. Luego el 50 % van a aportar poca informacion.
En un dise
no 26 tenemos 6 factores, 15 interacciones de segundo orden y 42 interacciones de orden superior. Luego el 66 % van a aportar poca informacion.
Una solucion para reducir el n

umero de observaciones necesarias pasa por considerar lo que se conoce como un dise
no fraccional. En este tipo de dise
no, se realiza
solo una parte de un dise
no completo de modo que la mayor parte de las observaciones se empleen para estimar los efectos principales y las interacciones de orden
bajo.
55
56
Estadstica II
5.2.
Dise
nos 2k1
Vamos a considerar un dise

no 23 clasico:
A
+
+
+
+
B
+
+
+
+
C AB
+
+
+ +
+
+
+ +
AC BC
+
+
+
+
+
+
+
+
ABC
+
+
+
+
Y
o
a
b
ab
c
ac
bc
abc
Para realizar el experimento completo necesitaramos ocho observaciones. Supongamos que, sin embargo, solo podemos efectuar cuatro.
Elegimos los cuatro casos que para la interaccion ABC estan al nivel (+).
A B C AB
+ - - + - - + +
+ + + +
AC BC
+
+
+
+
ABC
+
+
+
+
Y
a
b
c
abc
Si prestamos atencion, vemos que los siguientes pares de columnas son iguales
entre s: A y BC, B y AC, C y AB, I y ABC. (Por I entendemos un columna
cuyas entradas son todas (+) y que esta asociada con el calculo de la media de las
observaciones). Ademas, ABC siempre es positiva.
d 8 son los estimadores de los efectos de A y BC en el dise
Si A8 y BC
no completo
y A4 es el estimador del efecto de A en este dise
no reducido, entonces:
a + ab + ac + abc o + b + c + bc
,
A8 =
4
4
d 8 = o + a + bc + abc b + c + ab + ac ,
BC
4
4
b
+
c
a
+
abc
d 8.
= A8 + BC
A4 =
2
2
Vemos que se confunde el efecto de A con la interaccion BC: estamos estimando A

como A+BC. De la misma manera, podemos comprobar que
4 = B
8 + AC
d8 ,
B
Tema 5. Dise
nos fraccionales
57
d8,
C4 = C8 + AB
[ 8.
I4 = I8 + ABC
Al elegir esta fraccion del dise
no original en la que se confunden efectos principales
e interacciones, estamos asumiendo que los efectos principales son mas importantes
en el proceso que las interacciones.
Se denomina media fraccion o dise
no 2k1 cuando la fraccion del dise
no consiste
en elegir signos iguales de alg
un efecto. El n
umero de observaciones es la mitad que
en el dise
no completo. Obviamente, no hay un u
nico modo para elegir la fraccion.
5.2.1.
Ecuaci
on generatriz
La ecuacion generatriz de una fraccion permite conocer la estructura de confusion

de la fraccion (estructura del alias).
Disponemos de las siguientes reglas para trabajar con las columnas:
1. Las columnas no se modifican al multiplicarlas por I. Por ejemplo, AI = A.
2. El resultado de multiplicar una columna por s misma es siempre I. Por ejemplo,
AA = I.
La ecuacion generatriz es
I = columna con todos los signos iguales.
Para obtener la confusion de un factor, basta multiplicar ese factor por la ecuacion
generatriz.
Por ejemplo, en el caso anterior la ecuacion generatriz es I=ABC. La confusion
del factor A es
I A = ABC A;
A = BC.
Estamos confundiendo el factor A y la interaccion BC. Si hubiesemos elegido I =-AB,
entonces la confusion de A sera A=-B. Es decir, se confundiran dos efectos principales.
58
Estadstica II
5.2.2.
Resoluci
on del dise
no
Los dise
nos fraccionales se basan en que el proceso que se estudia se ve afectado fundamentalmente por los efectos principales y las interacciones de orden bajo,
pudiendo considerarse nulas las interacciones de orden alto.
Un dise
no fraccional sera bueno si confunde los efectos principales con interacciones del orden mas alto posible. En cambio, un dise
no fraccional que confunda
efectos principales es poco recomendable, pues no podremos determinar el efecto de
que factor estamos estimando.
Se define la resolucion del dise
no como 1 + el orden de interaccion mas baja
confundida con alg
un efecto principal. Este valor coincide con el n
umero de letras de
la palabra de la ecuacion generatriz.
Interesan los dise
nos fraccionales de resolucion alta: los efectos principales estan
confundidos con interacciones de orden alto. Si el efecto es significativo, es muy
probable que sea a consecuencia del efecto principal y no de la interaccion.
Ejemplo 12
I = ABC
I = -AB
resolucion III. Dise

no 231
III .
resolucion IV. Dise
no 241
IV .
Ejemplo 13
En un experimento qumico se utiliza un dise
no 241 con I=ABCD para investigar
los efectos de cuatro factores.
A = temperatura,
B = presion,
C = concentracion,
D = velocidad de centrifugado.
La variable respuesta es la cantidad de residuos generada por el proceso.
A
+
+
+
+
B
+
+
+
+
C
+
+
+
+
D
Y
- 550
+ 749
+ 1052
- 650
+ 1075
- 642
- 601
+ 729
Tema 5. Dise
nos fraccionales
59
Se trata de un dise
no de resolucion IV y los estimadores de los efectos son
= 756,
A(+BCD) = 127,
D(+ABC) = 290.5,
B + (ACD) = 4,
AB+CD = 10,
C(+ABD) = 11.5,
AC+BD = 25.5,
AD+BC = 197.5.
Las confusiones son

I = ABCD,
A = BCD,
B = ACD,
C = ABD,
D = ABC,
AB = CD,
AC = BD,
AD = BC.
Mediante las herramientas ya estudiadas, descartamos los efectos poco significativos. Por ejemplo, el diagrama de Pareto que se obtiene es:
D
AD+BC
A
AC+BD
C
AB+CD
B
0
50
100
150
200
250
300
Los efectos D, AD+BC y A parecen ser los mas importantes (podemos confirmarlo mediante la correspondiente tabla ANOVA). Como B y C no son significativos,
tampoco lo son sus interacciones. Por lo tanto, en AD+BC el efecto mayor peso
sera el de AD.
En consecuencia, nuestro modelo queda
y = 756 63.5xA + 145.25xD 98.75xA xD .
Para minimizar y, interesa xA = 1 y xD = 1, es decir, baja temperatura y
poca velocidad de centrifugado. La presion y la concentracion no son importantes.
Regla para resolver las confusiones

Los efectos principales son mas importantes que las interacciones.
Si dos factores no son significativos, es poco frecuente que lo sea la interaccion.
En caso de duda, debe ampliarse el experimento.
60
Estadstica II
5.3.
Dise
nos 2kp
Como la toma de observaciones a nivel industrial tiene un coste muy elevado,

el que un dise
no 2k1 reduzca a la mitad el n
umero de experimentos individuales a
realizar no suele ser suficiente; todava es necesario disminuirlo mas.
En un dise
no 2kp solo queremos realizar 2kp experimentos individuales. En estos
dise
nos la ecuacion generatriz tiene 2p 1 efectos confundidos con I.
Para generar un dise
no de resolucion maxima, seguimos el siguiente procedimiento:
1. Se genera un dise
no 2kp completo.
2. Se igualan los p factores que faltan a las interacciones de mayor orden del dise
no
anterior.
3. Si hay varias opciones, se elige la que proporcione un dise
no de resolucion
maxima.
Ejemplo 14 (Dise
no 263 )
1. Se genera un dise
no 23 completo.
A
+
+
+
+
B
+
+
+
+
C AB AC
+
+
+
+
+ +
+
+
+
+ +
+
BC
+
+
+
+
ABC
+
+
+
+
2. Se igualan los tres factores que faltan a interacciones del dise

no. Por ejemplo,
D=AC, E=BC y F=ABC.
En consecuencia, la ecuacion generatriz (incompleta) del modelo es
I = ACD = BCE = ABCF.
3. Para obtener la ecuacion generatriz completa hay que tener en cuenta que el
producto de los alias de I tambien es una columna alias de I (toda con signos
positivos). As que hacemos todos los productos posibles (en este caso, parejas
y ternas).
Tema 5. Dise
nos fraccionales
I
I
I
I
=
=
=
=
61
ACD BCE = ABDE,

ACD ABCF = BDF,
BCE ABCF = AEF,
ACD BCE ABCF = CDEF.
uego la ecuacion generatriz completa del dise

no (con 23 1 = 7 efectos confundidos) es
I = ACD = AEF = BCE = BDF = ABCF = ABDE = CDEF.
Se trata de un dise
no 263
III .
4. Para determinar las confusiones, se multiplica el factor por la ecuacion generatriz completa. Por ejemplo, la confusion asociada al factor A es
d + EF
d + ABCE
\ + ABDF
\ + BCF
\ + BDE
\ + ACDEF
\ .
A + CD
Un dise
no saturado es aquel en el que se a
nade un factor sobre cada columna de
74
interacciones. Por ejemplo, en un dise
no 2
asociamos los factores D, E, F y G con
las interacciones AB, AC, BC y ABC, respectivamente.
Una observacion final: cuando se utiliza el metodo de la MEDA en un dise
no
fraccional, en el calculo de la mediana intervienen todos los efectos excepto el asociado
a la media.

Apuntes Est2gjh

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apuntes Est2gjh

Enviado por

Direitos autorais:

Formatos disponíveis

Tema 1

Diferencia de potencial (V)

La diferencia entre el valor yi de una variable (p.ej., peso) y su estimacion yi es

Si pretendemos ajustar una lnea recta a un conjunto de datos es fundamental

A menor linealidad, peor representacion mediante una recta de regresion.

La varianza de los errores es constante:

Las perturbaciones tienen esperanza nula: E(ui ) = 0, i = 1, . . . , n.

Las perturbaciones {ui }ni=1 son variables aleatorias independientes.

Los errores tienen una distribucion normal: ui N (0, 2 ). Es decir, se distribuyen

Buscamos los parametros 0 y 1 que mejor se adapten a nuestros datos.

Puesto que yi N (0 + 1 xi , 2 ), entonces su funcion de densidad es

y su funcion de maxima verosimilitud es

A continuacion derivamos parcialmente respecto de las variables 0 , 1 and 2 .

Las dos primeras ecuaciones se denominan ecuaciones normales de la regresion.

Igualando a cero obtenemos que los estimadores 0 , 1 y b2 deben satisfacer

Comenzamos trabajando la ecuacion (1.1):

Finalmente, sustituyendo 0 y 1 en (1.3), se obtiene que

La suma de los cuadrados de los residuos es

Al minimizar, obtenemos los mismos estimadores para los parametros que en el

Hemos visto que el estimador maximo verosmil es

Propiedades de los estimadores

Luego 0 y 1 son combinaciones lineales de variables normales e independientes.

As pues, 0 y 1 son estimadores insesgados.

La varianza de 1 mide el error que cometemos al estimar la pendiente de la

Inferencia respecto a los par

Despues de estimar los valores de los parametros es conveniente analizar el grado

Recordemos que si N (, 2 ), entonces un intervalo de confianza para a

Pero como 2 no es desconocida, la estimamos mediante SR2 . En consecuencia, los

Observacion: Si se tiene mas de 30 observaciones y se quiere un nivel de confianza

Un modo de comprobar si 1 es cero es comprobar si el cero es un valor admisible

De nuevo, si n > 30 y = 0.05, entonces podemos aceptar que 1 = 0 si

Muchos programas estadsticos lo que hacen es devolver el p-valor del contraste,

Si el p-valor es menor o igual que el nivel de confianza , entonces se rechaza la

El contraste de regresion estudia la posibilidad de que la recta teorica tenga

(yi y)2 y podemos descomponerla

Ahora se tiene que

VNE = variabilidad no explicada =

Grados de Varianza Test F

Tabla 1.1: Tabla ANOVA

El coeficiente de determinacion R2 describe en que medida la variable x describe

A mayor valor, mayor es la relacion entre las variables.

En un modelo de regresion hay dos objetivos fundamentales:

- utilizar el modelo ajustado para predecir el valor de la variable respuesta.

En el segundo obtendremos un intervalo mas amplio denominado intervalo de

Diagnosis mediante residuos

Despues de haber obtenido la recta de regresion, hay que comprobar si se cumplen

Esta hipotesis es muy importante. Aunque existen contrastes para comprobarla

Transformaciones de los datos

En ocasiones, no se satisfacen las hipotesis exigidas por el modelo y es necesario

1. Si Yi es una variable aleatoria con funcion de densidad f (yi |), donde es un

funcion de verosimilitud asociada a la observacion es

2. Varianza muestral de una variable X:

3. Covarianza muestral de dos variables X e Y :

5. Esperanza y varianza de combinaciones lineales de variables aleatorias.

ii) Si a1 , . . . , an R y X1 , . . . , Xn son variables aleatorias, entonces

iii) Si a1 , . . . , an R y X1 , . . . , Xn son variables aleatorias independientes,

Como las distribuciones normal y t de Student son simetricas respecto del

Hasta ahora hemos estudiado un modelo en el que hay una u

El modelo de regresion lineal m

Los datos deben satisfacer una relacion lineal

Si hay solo dos variables explicativas,

La varianza debe ser constante: V ar(ui ) = 2 , i = 1, . . . , n.

La perturbacion tiene esperanza nula: E(ui ) = 0, i = 1, . . . , n.