Você está na página 1de 17

Anlisis de datos y Estadstica Avanzada

Mster Interuniversitario de Astrofsica UCM+UAM


Tema 6: Introduccin a la estadstica multivariante

Javier Gorgas y Nicols Cardiel


Departamento de Astrofsica y Ciencias de la Atmsfera
Facultad de Ciencias Fsicas
Universidad Complutense de Madrid

Tema 6: Introduccin a la estadstica multivariante


Anlisis de
()
datos y Estadstica Avanzada

C
1 urso 2010/2011

1 / 43

C
2 urso 2010/2011

2 / 43

Esquema
1

Introduccin
Qu es el anlisis multivariante?
Por qu es necesario?
Casos tpicos
Tcnicas multivariantes

Trabajo con datos multivariantes


Tratamiento matricial de los datos multivariantes
El problema de la normalidad de los datos

Regresin lineal mltiple


Tipos de regresin lineal mltiple
Regresin lineal mltiple univariada

Tema 6: Introduccin a la estadstica multivariante


Anlisis de
()
datos y Estadstica Avanzada

Introduccin

Qu es el anlisis multivariante?

Qu es el anlisis multivariante?
Es una coleccin de mtodos que permiten tratar problemas muy
diversos en los que diferentes propiedades se miden en un
conjunto especfico de objetos.

objeto #1
objeto #2
...
...
...
objeto #n

propiedad #1
x11
x21
...
...
...
xn1

propiedad #2
x12
x22
...
...
...
xn2

...
...
...
...
...
...
...

...
...
...
...
...
...
...

propiedad #p
x1p
x2p
...
...
...
xnp

Nota: a las propiedades tambin las llamaremos muchas veces variables.


Para el trabajo dentro del rea del anlisis multivariante veremos que resulta extremadamente til utilizar lgebra matricial.
Tema 6: Introduccin a la estadstica multivariante
Anlisis de
()
datos y Estadstica Avanzada

Introduccin

C
3 urso 2010/2011

4 / 43

Por qu es necesario?

Necesidad del anlis multivariante


En astrofsica clsicamente el esfuerzo se focalizaba en estudiar
comportamientos bivariados entre pares de variables, imponiendo
sistemas subjetivos de clasificacin de objetos. Cuando el
nmero de objetos y propiedades no es muy grande (2 3) es
posible visualizar las relaciones entre las variables. Pero cuando
dicho nmero es mayor, esta tcnica es insuficiente. De forma
prctica hoy en da se llega a trabajar con valores de n y/o p como
100, 1000, o incluyo superiores.
En la prctica las variables analizadas estn correlacionadas (de
lo contrario no hay nada interesante que estudiar), de modo que
su anlisis individual o por parejas no es suficiente para tener un
conocimiento preciso de la informacin contenida en las medidas.
SOLUCIN: anlisis simultneo de todos los objetos y
propiedades.
Tema 6: Introduccin a la estadstica multivariante
Anlisis de
()
datos y Estadstica Avanzada

C
4 urso 2010/2011

6 / 43

Introduccin

Por qu es necesario?

Qu ocurren cuando no se hacen las cosas bien?


De manera ingenua uno puede
comenzar realizando contrastes de
hiptesis sobre las medias de las
diferentes variables. Sin embargo,
cuando las variables estn correlacionadas (que es lo realmente
interesante) las tcnicas univariantes fallan!
La alternativa es utilizar contrastes
de hiptesis multivariantes.
En el ejemplo de la figura, la utilizacin de los contrastes univariantes nos indica que el punto de color rojo se encuentra dentro
de los intervalos de confianza de cada variable individual, mientras que el punto verde est dentro del intervalo de confianza para
la variable y1 pero no para la y2 . Como las variables estn correlacionadas, es errneo deducir que el punto rojo est dentro del
intervalo de confianza de las medias de ambias variables de forma simultnea. Tambin es errneo dejar fuera de dicho intervalo
al punto verde.
El anlisis multivariante permite, adems, garantizar que estamos utilizando el mismo nivel de significacin (probabilidad de
equivocarnos al rechazar la hiptesis nula) en todas las variables.

Tema 6: Introduccin a la estadstica multivariante


Anlisis de
()
datos y Estadstica Avanzada

Introduccin

C
5 urso 2010/2011

7 / 43

Casos tpicos

Situaciones reales
Posibilidades (entre otras):
1

Estudiar una muestra nica con varias variables medidas en cada


objeto. Ejemplo: medidas fotomtricas (colores, radios efectivos,
elipticidades, coeficientes de asimetra, presencia de bandas de polvo,
emisin de gas,. . . ) de las galaxias elpticas del Cmulo de Coma.

Estudiar una muestra nica con dos conjuntos de variables. Ejemplo:


medidas fotomtricas, por un lado, y espectroscpicas, por otro
(caractersticas espectrales en absorcin o emisin), en las galaxias
elpticas de Coma. Qu relacin hay entre los dos conjuntos de
variables?

Estudiar dos o ms muestras con uno, dos o ms conjuntos de varias


variables. Ejemplo: dem con galaxias de Coma, Fornax y campo. En
qu se parecen/diferencian las galaxias en distintos entornos?

Veamos qu tcnicas multivariantes pueden utilizarse en cada caso.


Tema 6: Introduccin a la estadstica multivariante
Anlisis de
()
datos y Estadstica Avanzada

C
6 urso 2010/2011

9 / 43

Introduccin

Tcnicas multivariantes

Caso 1: Una muestra con varias propiedades


Qu hacer?
Testear la correlacin entre las variables. Tcnica: contrastes de
hiptesis sobre la matriz de covarianza.
Determinar agrupaciones entre los datos. Tcnica: anlisis de
agrupacin.
Buscar un conjunto reducido de combinaciones lineales de las
variables originales que resuman la variacin de los datos
(informacin contenida en las medidas). Tcnica: anlisis de
componentes principales. Es la nica forma de abordar un
conjunto grande de medidas multivariantes. Dificultad: interpretar
las componentes principales.
Expresar las variables originales como un conjunto de funciones
lineales de factores que expliquen la informacin de los datos y la
relacin entre las mismas. Tcnica: anlisis de factores.
Tema 6: Introduccin a la estadstica multivariante
Anlisis de
()
datos y Estadstica Avanzada

Introduccin

Curso
7
2010/2011

11 / 43

Tcnicas multivariantes

Reduciendo la dimensionalidad
Aunque el anlisis de componentes principales parece similar al
anlsis de factores, estas tcnicas difieren en varios aspectos:
1

En el anlisis de factores las variables se expresan como


combinaciones lineales de factores, mientras que las componentes
principales son combinaciones lineales de las variables.

El anlisis de componentes principales se focaliza en minimizar la


varianza de las variables. El anlisis de factores trata de explicar las
covarianzas (correlaciones) entre las variables.

Las componentes principales estn unvocamente definidas, mientras


que los factores estn sujetos a rotaciones arbitrarias (lo cual puede
permitir su interpretacin).

Si se cambia el nmero de factores, sus valores cambian! Las


componentes principales son las que son.
Si nuestro inters es meramente reducir la dimensionalidad (requisito para
otras tcnicas multivariantes) y no la interpretacin, la tcnica de las componentes principales suele ser preferible (veremos esta tcnica ms adelante).
4

Tema 6: Introduccin a la estadstica multivariante


Anlisis de
()
datos y Estadstica Avanzada

Curso
8
2010/2011

12 / 43

Introduccin

Tcnicas multivariantes

Caso 2: Una muestra con dos conjuntos de propiedades


Qu hacer?
Determinar el nmero, tamao, y naturaleza de las relaciones
entre los dos conjuntos de variables. Tcnica: correlacin
cannica (cuantificacin de la correlacin lineal).
Determinar un modelo que prediga un conjunto de propiedades a
partir de los valores del otro conjunto de propiedades. Tcnica:
regresin lineal mltiple multivariante.
Extensin a modelos de regresin multivariante no lineales.
Tcnica: redes neuronales.

Tema 6: Introduccin a la estadstica multivariante


Anlisis de
()
datos y Estadstica Avanzada

Introduccin

Curso
9
2010/2011

13 / 43

Tcnicas multivariantes

Caso 3: Dos o ms muestras con varias propiedades


Qu hacer?
Comparar las medias de las variables entre las muestras.
Tcnica: Hotellings T 2 -test, anlisis de varianza multivariante.
Encontrar la combinacin lineal de las variables que mejor
discrimine las diferentes muestras. Tcnica: anlisis
discriminante.
Encontrar una funcin de las variables que ubiquen
adecuadamente a nuevos objetos en los distintos grupos
definidos por observaciones previas. Tcnica: anlisis de
clasificacin. Esta tcnica difiere del anlisis de agrupacin
(discutida en el Caso 1) en que en esta ltima el nmero de
grupos no es conocido inicialmente, mientras que en el anlisis de
clasificacin dicho nmero est fijado (el nmero de muestras).

Tema 6: Introduccin a la estadstica multivariante


Anlisis de
()
datos y Estadstica Avanzada

Curso
10 2010/2011

14 / 43

Trabajo con datos multivariantes

Tratamiento matricial de los datos multivariantes

Para el trabajo dentro del rea del anlisis multivariante resulta extremadamente til
utilizar lgebra matricial.
objeto #1
objeto #2
..
.
objeto #i
..
.
objeto #n
medias

propiedad #1
y11
y21
..
.
yi1
..
.
yn1
y1

propiedad #2
y12
y22
..
.
yi2
..
.
yn2
y2

...
...
...
..
.
...
..
.
...
...

...
...
...
..
.
...
..
.
...
...

propiedad #p
y1p
y2p
..
.
yip
..
.
ynp
yp

Podemos definir y como un vector aleatorio con p variables (propiedades) medidas en


cada objeto. Si tenemos n objetos en la muestra, las observaciones pueden escribirse
como y1 , y2 ,. . . ,yn , donde
0
1
0 1 0
1
yi1
y1
y11 y12 . . . . . . y1p
B yi2 C
B y2 C B y21 y22 . . . . . . y2p C
B
C
B
C B
C
yi = B . C ,
Y=B . C=B .
C.
.
.
.
.
..
..
..
.. A
@ .. A
@ .. A @ ..
yip
yn
yn1 yn2 . . . . . . ynp
Tema 6: Introduccin a la estadstica multivariante
Anlisis de
()
datos y Estadstica Avanzada

Trabajo con datos multivariantes

Curso
11 2010/2011

16 / 43

Tratamiento matricial de los datos multivariantes

Podemos definir algunas matrices auxiliares (ejemplo para n = 3)


0
1
0
1
0
1
0
1 0 0
1 1 1
1
0
@
A
@
A
@
A
@
0
1
0
1
1
1
1
0
I=
,J=
,j=
,O=
0 0 1
1 1 1
1
0

0
0
0

1
0
1
0
0
0 A, 0 = @ 0 A
0
0

El trabajo se simplifica notablemente utilizando lgebra de matrices.


Vector media muestral:
y=

Vector media poblacional:


0

B
B
E(y) = E B
@

y1
y2
.
..
yp

E(y1 )
E(y2 )
.
.
.
E(yp )

n
B
1X
B
yi = B
@
n i=1

y1
y2
.
.
.
yp

C B
C B
C=B
A @

C
1
C
C = Y j.
A
n
0

C B
C B
C=B
A @

Por tanto, el vector y es un estimador insesgado del vector .

Tema 6: Introduccin a la estadstica multivariante


Anlisis de
()
datos y Estadstica Avanzada

1
2
..
.
p

C
C
C = .
A

Curso
12 2010/2011

17 / 43

Trabajo con datos multivariantes

Tratamiento matricial de los datos multivariantes

Matriz muestral de covarianzas (tamao p p):


0
1
s11 s12 . . . s1p

B s21 s22 . . . s2p C


1
1
1
1
B
C

S=B .
Y
Y

Y
J
Y
=
Y
I

J
Y.
=
..
.
. C
..
.. A
@ ..
n1
n
n1
n
.
sp1 sp2 . . . spp
donde

n
1 X
1
sjk =
(yij yj )(yik yk ) =
n 1 i=1
n1

n
X
i=1

yij yik nyj yk

con

j = 1, . . . , p
k = 1, . . . , p

Matriz poblacional de covarianzas (tamao p p):


0
1
11 12 . . . 1p
B 21 22 . . . 2p C
B
C

= cov(y) = B .
..
.
. C = E[(y )(y ) ] = E(yy ) .
.
.
.
@ .
.
.
. A
p1 p2 . . . pp

Como E(sjk ) = jk , j, k, la matriz muestral de covarianzas S es un estimador insesgado de


E(S) = .

Al igual que en el caso univariado, es el promedio de todos los posibles valores de S lo que es
igual a .
El problema de las covarianzas es que dependen de las unidades utilizadas para cuantificar las
propiedades. Solucin: las matrices de correlacin.
Tema 6: Introduccin a la estadstica multivariante
Anlisis de
()
datos y Estadstica Avanzada

Trabajo con datos multivariantes

18 / 43

Tratamiento matricial de los datos multivariantes

Matriz muestral de correlacin (tamao p p):


0
1
r12 . . .
B r21
1
...
B
R=B .
.
.
.
..
@ ..
.
rp1 rp2 . . .
donde

Curso
13 2010/2011

r1p
r2p
.
..
1

C
C
1
C = D1
s SDs ,
A

Ds = diag( s11 , s22 , . . . , spp ).

Matriz poblacional de correlacin (tamao p p):


0
1
12
B 21
1
B
P = B .
..
@ ..
.
p1 p2
donde

jk =

...
...
.
..
...

1p
2p
.
..
1

C
C
C,
A

jk
.
j k

Notar la similitud entre la expresin anterior (poblacional) y la frmula para el coeficiente de


correlacin lineal (muestral) que vimos en el Tema 4,
r=

Cov
.
sx sy

Tema 6: Introduccin a la estadstica multivariante


Anlisis de
()
datos y Estadstica Avanzada

Curso
14 2010/2011

19 / 43

Trabajo con datos multivariantes

Tratamiento matricial de los datos multivariantes

Ejemplo numrico (p = 3 propiedades, n = 10 objetos)

1
2
3
4
5
6
7
8
9
10

y1
35
35
40
10
6
20
35
35
35
30

y2
3.5
4.9
30.0
2.8
2.7
2.8
4.6
10.9
8.0
1.6

y3
2.80
2.70
4.38
3.21
2.73
2.81
2.88
2.90
3.28
3.20

1
Yj
n

Ds

1
R = D1
s SDs

y=

1
28.100
@ 7.180 A ,
3.089
1
0
140.54 49.68 1.94
@ 49.68 72.25 3.68 A ,
1.94
3.68 0.25
0
1
11.855
0.0
0.0
@ 0.0
8.500
0.0 A ,
0.0
0.0
0.500
1
0
1.000 0.493 0.327
@ 0.493 1.000 0.865 A .
0.327 0.865 1.000

Tema 6: Introduccin a la estadstica multivariante


Anlisis de
()
datos y Estadstica Avanzada

Trabajo con datos multivariantes

Curso
15 2010/2011

20 / 43

El problema de la normalidad de los datos

Problema
La mayor parte del tratamiento multivariante parte de la base de que los datos siguen
una distribucin normal multivariada. Esto se debe a que, al contrario de lo que
sucede en el caso univariado, no resulta trivial ordenar (poner rango) a observaciones multivariantes. Por ello no existen tantos procedimientos no paramtricos para
el tratamiento de datos multivariantes.
De ah la necesidad de establecer la normalidad de los datos antes de aplicar la mayor
parte de las tcnicas multivariantes.

Chequear distribuciones individuales no es suficiente, pero. . .


Cuando tenemos varias variables, chequear que de forma individual siguen una distribucin normal no es suficiente dado que:
1

Las variables suelen estar correlacionadas (de lo contario, qu aburrido!).

La normalidad individual de cada variable no garantiza la normalidad conjunta


de todas ellas.

Por otro lado, una distribucin normal multivariada garantiza la normalidad de las distribuciones individuales. Por tanto, si una sla variable no es normal, tampoco lo ser
la distribucin conjunta De ah que sea til chequearlo.
Tema 6: Introduccin a la estadstica multivariante
Anlisis de
()
datos y Estadstica Avanzada

Curso
16 2010/2011

22 / 43

Trabajo con datos multivariantes

El problema de la normalidad de los datos

Una forma muy sencilla en R de ver si unos datos siguen una distribucin normal es utilizar un
quantile-quantile plot. Generemos primero una secuencia de nmeros que sigan una
distribucin normal:
> x <- rnorm(1000,1.5,4.0)
1000 valores con = 1.5 y = 4.0
> hist(x)
dibujamos histograma
> qqnorm(x)
dibujamos quantile-quantile plot
> qqline(x,col="red")
dibujamos una lnea que pasa por el primer y tercer cuartil
> shapiro.test(x)
calculamos un test de normalidad
Shapiro-Wilk normality test

data: x
W = 0.999, p-value = 0.8486
Normal Q-Q Plot

Sample Quantiles

-5

100
0

-10

50

Frequency

150

10

Histogram of x

-15

-10

-5

10

15

-3

-2

-1

Theoretical Quantiles

Tema 6: Introduccin a la estadstica multivariante


()
Anlisis de
datos y Estadstica Avanzada

Trabajo con datos multivariantes

Curso
17 2010/2011

24 / 43

El problema de la normalidad de los datos

Ahora veamos qu ocurre cuando los datos no siguen una distribucin normal:
> x <- exp(rnorm(100,1.5,4.0))
100 valores
> hist(x)
dibujamos histograma
> qqnorm(x)
dibujamos quantile-quantile plot
> qqline(x,col="red")
dibujamos una lnea que pasa por el primer y tercer cuartil
> shapiro.test(x)
calculamos un test de normalidad
Shapiro-Wilk normality test
data: x
W = 0.0565, p-value = 2.2e-16
Normal Q-Q Plot

10000

Sample Quantiles

5000

40

20

Frequency

60

15000

80

20000

Histogram of x

5000

10000

15000

20000

Tema 6: Introduccin a la estadstica multivariante


Anlisis de
()
datos y Estadstica Avanzada

-2

-1

Theoretical Quantiles

Curso
18 2010/2011

26 / 43

Trabajo con datos multivariantes

El problema de la normalidad de los datos

Distribucin normal univariada


f (y) =

2
2
1
exp(y) /2
2 2

Se dice que y es N(, 2 ) esto es diferente a otras notaciones donde se usa N(, )

Distribucin normal multivariada


1

1
f (y) =
exp(y) (y)/2 ,
( 2)p ||1/2

donde y y son los vectores (columna) correspondientes a las variables y las medias,
p es el nmero de variables, y es la matriz (p p) de covarianzas
= E[(y )(y ) ].
|| es una varianza generalizada de la poblacin. Se dice entonces que y es Np (, ).
El trmino (y )2 / 2 = (y )( 2 )1 (y ) en el exponente de la normal univariada mide la
distancia cuadrtica entre y y en unidades de la desviacin estndar . De forma anloga, en la
expresin multivariante el trmino (y ) 1 (y ), mide la distancia cuadrtica generalizada
entre y y (o distancia de Mahalanobis).
Tema 6: Introduccin a la estadstica multivariante
Anlisis de
()
datos y Estadstica Avanzada

Trabajo con datos multivariantes

Curso
19 2010/2011

27 / 43

El problema de la normalidad de los datos

|| es una varianza generalizada de la poblacin

Tema 6: Introduccin a la estadstica multivariante


Anlisis de
()
datos y Estadstica Avanzada

Curso
20 2010/2011

28 / 43

Trabajo con datos multivariantes

El problema de la normalidad de los datos

Algunas propiedades importantes de la normal multivariada


1

Normalidad de la combinacin lineal de variables de y. Si a es un vector (columna) de


constantes, a y = a1 y1 + a2 y2 + . . . + ap yp es una normal univariada.
Si y es Np (, ), entonces a y es N(a y, a a).
Si A es una matriz (q p) de constantes y de rango q (con q p), entonces las q
combinaciones lineales en Ay siguen una distribucin normal multivariada.
Si y es Np (, ), entonces Ay es Nq (Ay, AA ).

Tipificacin de variables. Podemos obtener un vector tipificado utilizando

De esta forma

z = (1/2 )1 (y ).
si y es Np (, ), entonces z es Np (0, I),

donde I es la matriz identidad (ceros en todos los elementos salvo en la diagonal, donde
todos los elementos son 1).
3

Distribucin Chi-cuadrado. A partir de la propiedad anterior,


si y es Np (, ), entonces (y ) 1 (y ) es 2p .

Tema 6: Introduccin a la estadstica multivariante


Anlisis de
()
datos y Estadstica Avanzada

Trabajo con datos multivariantes

Curso
21 2010/2011

29 / 43

El problema de la normalidad de los datos

Algunas propiedades importantes de la normal multivariada


4

Normalidad de las distribuciones marginales. Si particionamos y, y

y1
1
11 12
y=
,
=
,
=
,
y2
2
21 22
donde y1 y 1 son (r 1) y 11 es (r r), podemos ver que

si y es Np (, ), entonces y1 es Nr (1 , 11 ).

Como caso particular tenemos que


si y es Np (, ), entonces yj es N(j , jj ).
En las siguientes propiedades asumiremos la particin en dos subvectores y y x, donde y es
(p 1) y x es (q 1) (o x es un conjunto nuevo de variables adicionales que deseamos comparar
con y), es decir

y
y
y
yy yx
E
=
=,
cov
=
.
x
x
xy xx
x
5

Independencia. Los subvectores y y x son independientes si yx = O.


Dos variables individuales yj y yk son independientes si jk = 0. Notar que esto no es
cierto para muchas variables aleatorias no normales.

Tema 6: Introduccin a la estadstica multivariante


Anlisis de
()
datos y Estadstica Avanzada

Curso
22 2010/2011

30 / 43

Trabajo con datos multivariantes

El problema de la normalidad de los datos

Algunas propiedades importantes de la normal multivariada


6

Suma y resta de vectores independientes. Si tanto y como x tienen el mismo tamao


(ambos p 1) y son independientes, entonces
y + x es Np (y + x , yy + xx ),
y x es Np (y x , yy + xx ).

Distribuciones condicionadas. Si y y x no son independientes, entonces yx = O y la


distribucin de y dado x, f (y|x), es una normal multivariada con
E(y|x) = y + yx 1
xx (x x ),
cov(y|x) = yy yx 1
xx xy .
En el caso particular de la normal bivariada, f (y|x) es normal univariada con
E(y|x) = y +

yx
(x x ),
x2

var(y|x) = y2

2
yx

x2

donde yx /x2 es lo que en el tema de regresin lineal simple llambamos coeficiente de


regresin de y sobre x. Por ello, en el caso multivariado, a la matriz yx 1
xx se la conoce
como matriz de los coeficientes de regresin (dado que relaciona E(y|x) con x).

Tema 6: Introduccin a la estadstica multivariante


Anlisis de
()
datos y Estadstica Avanzada

Regresin lineal mltiple

Curso
23 2010/2011

31 / 43

Tipos de regresin lineal mltiple

Tipos de regresin lineal


La regresin lineal busca relaciones entre una o ms variables y
(variables respuesta o dependientes) y una o ms variables x
(variables independientes o predictoras). En este sentido conviene
distinguir:
1

Regresin lineal simple: una y y una x (ver Tema 4).

Regresin lineal mltiple: una y y varias xs. Tambin suele


denominarse regresin mltiple univariada. Un caso muy sencillo
sera
y = 0 + 1 x1 + 2 x2 ,
que no es otra cosa que la ecuacin de un plano en un espacio
tridimensional eucldeo.

Regresin lineal mltiple multivariada: varias ys y varias xs.

En lo que queda de tema nos vamos a concentrar exclusivamente en


el caso 2.
Tema 6: Introduccin a la estadstica multivariante
Anlisis de
()
datos y Estadstica Avanzada

Curso
24 2010/2011

33 / 43

Regresin lineal mltiple

Regresin lineal mltiple univariada

Modelo lineal incluso para ajuste polinmico!


Cuando se habla de modelo de regresin lineal mltiple, tpicamente
uno imagina una relacin del tipo
Y|x1 ,x2 ,...,xq = 0 + 1 x1 + 2 x2 + . . . q xq .
Sin embargo, tambin estamos ante un caso de regresin lineal
mltiple cuando q = 1 pero buscamos un modelo de regresin
polinomial
Y|x = 0 + 1 x + 2 x2 + . . . r xr .
Los estadsticos se refieren a un modelo lineal como aqul en el cual
los parmetros aparecen linealmente, sin importar cmo entra la
variable (o variables) independientes en el modelo.

Tema 6: Introduccin a la estadstica multivariante


()
Anlisis de
datos y Estadstica Avanzada

Regresin lineal mltiple

Curso
25 2010/2011

35 / 43

Regresin lineal mltiple univariada

El modelo general, suponiendo n observaciones y q variables independientes, es


y1

0 + 1 x11 + 2 x12 + . . . + q x1q + 1

y2
..
.

=
..
.

0 + 1 x21 + 2 x22 + . . . + q x2q + 2

yn

0 + 1 xn1 + 2 xn2 + . . . + q xnq + n

donde 0 , 1 , . . . , q son los coeficientes de regresin (asumiendo n > q + 1), y i son


incertidumbres aleatorias.
Se hacen, adems una serie de hiptesis adicionales
1

E(i ) = 0, i = 1, 2, . . . , n. Es decir, el modelo es lineal y no hacen falta trminos


extra; cualquier variacin adicional de y es aleatoria e impredecible.

var(i ) = 2 , i = 1, 2, . . . , n.

cov(i , j ) = 0, i = j. Es decir, las incertidumbres no estn correlacionados.

Las hiptesis anteriores pueden entonces reescribirse como


1

E(yi ) = 0 + 1 xi1 + 2 xi2 + . . . + q xiq , i = 1, 2, . . . , n.

var(yi ) = 2 , i = 1, 2, . . . , n.

cov(yi , yj ) = 0, i = j.

Tema 6: Introduccin a la estadstica multivariante


Anlisis de
()
datos y Estadstica Avanzada

Curso
26 2010/2011

36 / 43

Regresin lineal mltiple

Utilizando ahora notacin matricial


0
1 0
y1
1 x11 x12
B y2 C B 1 x21 x22
B
C B
B . C=B .
..
..
@ .. A @ ..
.
.
yn
1 xn1 xn2

Regresin lineal mltiple univariada

...
...
...

x1q
x2q
..
.
xnq

o lo que es lo mismo, y = X + .

10
CB
CB
CB
A@

0
1
..
.
q

C B
C B
C+B
A @

1
2
..
.
n

1
C
C
C
A

Nuestro objetivo es estimar los coeficientes de regresin mediante b. Sabemos que


para cada observacin (xi1 , xi2 , . . . , xiq ; yi ) se verifica
yi = 0 + 1 xi1 + 2 xi2 + . . . + q xiq + i ,
o
yi = b0 + b1 xi1 + b2 xi2 + . . . + bq xiq + ei ,
donde i y ei son las incertidumbres aleatorias y residuales, respectivamente, asociadas con la respuesta yi .
La estimacin de b = (b0 b1 . . . bq ) se realiza por el mtodo de mnimos cuadrados,
minimizando la cantidad SEE (Sum of Squares of Errors)
n
n
X
X
2
SSE =
ei =
(yi b0 b1 xi1 b2 xi2 . . . bq xiq )2 .
i=1

i=1

Tema 6: Introduccin a la estadstica multivariante


()
Anlisis de
datos y Estadstica Avanzada

Regresin lineal mltiple

Curso
27 2010/2011

37 / 43

Regresin lineal mltiple univariada

P
P
Para minimizar SSE = ni=1 e2i = ni=1 (yi b0 b1 xi1 b2 xi2 . . . bq xiq )2 , uno puede
tomar derivadas respecto a bj e igualar a cero. Puede demostrarse que la solucin que
se obtiene es equivalente a
b = (X X)1 X y.
Se asume que X X no es singular, lo cual debe ser cierto en condiciones normales si
n > q + 1 y ninguna xj es una combinacin lineal de las dems xs.
Puede demostrarse que para la ecuacin de regresin lineal
y = X + ,
una estimacin insesgada de 2 viene dada por el cuadrado medio residual
s2 =

SSE
1
=
(y Xb) (y Xb).
nq1
nq1

Es posible realizar contrastes de hiptesis sobre el resultado de la regresin. Aunque


existen muchos tests, en lo que sigue mostraremos algunos casos en los que se
asumir que y sigue una distribucin normal multivariada Nn (X, 2 I).

Tema 6: Introduccin a la estadstica multivariante


Anlisis de
()
datos y Estadstica Avanzada

Curso
28 2010/2011

38 / 43

Regresin lineal mltiple

Regresin lineal mltiple univariada

Modelo corregido de medias


A veces resultar til realizar la regresin restando previamente los valores promedios a los datos,
es decir
yi = + 1 (xi1 x1 ) + 2 (xi2 x2 ) + . . . q (xiq xq ) + i ,
donde

= 0 + 1 x 1 + 2 x 2 + . . . + q x q .

Puede comprobarse, que para estimar


1 =
podemos utilizar la matriz
0

y estimar 1 como

B
B
Xc = B
@

x11 x1
x21 x1
..
.
xn1 x1

...

x12 x2
x22 x2
..
.
xn2 x2

...
...
...

x1q xq
x2q xq
.
..
xnq xq

C
C
C,
A

b1 = (Xc Xc )1 Xc y,

y 0 como
b0 = y


1
1
1

X y
X Xc
x.
n1 c
n1 c

Tema 6: Introduccin a la estadstica multivariante


Anlisis de
()
datos y Estadstica Avanzada

Regresin lineal mltiple

Curso
29 2010/2011

39 / 43

Regresin lineal mltiple univariada

Contraste para el ajuste global


H0 : 1 = 0 (excluimos 0 = 0 para no obligar al ajuste a pasar por el origen).
Se puede testear H0 por medio de
F=

SSR/q
,
SSE/(n q 1)

donde
SSR

SSE

(b X y ny2 ),
(y y b X y).

Puede mostrarse que F se distribuye segn una Fq,nq1 cuando H0 es cierta. Por
tanto, rechazamos H0 cuando F > F,q,nq1 .

Tema 6: Introduccin a la estadstica multivariante


Anlisis de
()
datos y Estadstica Avanzada

Curso
30 2010/2011

40 / 43

Regresin lineal mltiple

Regresin lineal mltiple univariada

El coeficiente de correlacin mltiple


Se define el coeficiente de determinacin mltiple como
R2 =

b Xy ny2
.
y y ny2

El coeficiente de correlacin mltiple R se define como la raz cuadrada positiva de R2 .


Si en el ajuste global planteamos H0 : 1 = 0, podemos llevar a cabo el contraste de
hiptesis utilizando el estadstico
F=

n q 1 R2
.
q
1 R2

Si en el ajuste parcial planteamos H0 : d = 0, podemos llevar a cabo el contraste de


hiptesis utilizando el estadstico
(R2 R2r )/h
F=
.
(1 R2 )/(n q 1)

Tema 6: Introduccin a la estadstica multivariante


Anlisis de
()
datos y Estadstica Avanzada

Regresin lineal mltiple

Curso
31 2010/2011

41 / 43

Regresin lineal mltiple univariada

Contraste para el ajuste parcial


Sea r el conjunto de coeficientes a ser retenidos (retained) y d el conjunto de coeficientes que sospechamos pueden ser eliminados (deleted).
Si definimos

r
=
,
d

de modo que nuestra hiptesis nula sea H0 : d = 0. Siempre podemos reordenadar


los coeficientes que sospechamos no son significativos para que aparezcan segregados de los coeficientes significativos.
Se puede testear H0 por medio de
F=

(b X y br Xr y)/h
,
(y y b X y)/(n q 1)

donde h es el nmero de parmetros en d (por tanto hay q + 1 h parmetros en r ).


Se realiza entonces el ajuste empleando todos los coeficientes en y el ajuste parcial
a slo los coeficientes en r .
Se puede demostrar que el estadstico anterior sigue una Fh,nq1 cuando H0 es cierta.
De modo que rechazaremos H0 cuando F > F,h,nq1 .

Tema 6: Introduccin a la estadstica multivariante


Anlisis de
()
datos y Estadstica Avanzada

Curso
32 2010/2011

42 / 43

Regresin lineal mltiple

Regresin lineal mltiple univariada

Referencias
Babu G.J., Feigelson E.D., Astrostatistics, 1996, Chapman & Hall,
London
Rencher A.C., Methods of multivariate analysis, 2nd edition, 2002,
John Wiley & Sons
Wall J.V., Jenkins C.R., Practical statistics for astronomers, 2003,
Cambridge University Press

Tema 6: Introduccin a la estadstica multivariante


Anlisis de
()
datos y Estadstica Avanzada

Curso
33 2010/2011

43 / 43

Você também pode gostar