Você está na página 1de 113

Faculdade de Economia da Universidade de Coimbra

Estatstica
Multivariada
Aplicada

Pedro Lopes Ferreira

2000
ii
Sumrio

1 Introduo estatstica multivariada ----------------------------------------------- 1


1.1 A organizao dos dados --------------------------------------------------- 1
1.2 Estatsticas descritivas ------------------------------------------------------ 2
1.3 Distncias ----------------------------------------------------------------------- 6

2 lgebra matricial e vectores aleatrios -------------------------------------------- 13


2.1 Alguns conceitos bsicos --------------------------------------------------- 13
2.2 Matrizes definidas positivas ------------------------------------------------ 17
2.3 Mdias e covarincias de combinaes lineares --------------------- 21

3 Geometria amostral e amostragem aleatria ------------------------------------ 23


3.1 Geometria da amostra ------------------------------------------------------- 23
3.2 Amostragem aleatria ------------------------------------------------------- 28
3.3 Varincia generalizada ------------------------------------------------------ 29

4 Distribuio normal multivariada ---------------------------------------------------- 37


4.1 A densidade normal multivariada ----------------------------------------- 37
4.2 Propriedades da distribuio normal ------------------------------------- 42
4.3 A forma amostral da distribuio normal multivariada --------------- 44

4.4 Distribuio amostral de X e S ------------------------------------------ 45

5 Inferncia acerca do vector mdia -------------------------------------------------- 47


5.1 T2 de Hotelling ---------------------------------------------------------------- 47
5.2 Regies de confiana -------------------------------------------------------- 50
5.3 Inferncias para grandes amostras -------------------------------------- 56

6 Comparao entre duas mdias multivariadas --------------------------------- 59


6.1 Comparaes emparelhadas ---------------------------------------------- 59
6.2 Comparaes em desenhos de medidas repetidas ------------------ 65
6.3 Comparaes entre duas populaes ----------------------------------- 70

iii
7 Anlise de componentes principais e anlise factorial --------------------- 75
7.1 Introduo ---------------------------------------------------------------------- 75
7.2 Componentes principais ---------------------------------------------------- 78
7.3 Anlise factorial --------------------------------------------------------------- 86

8 Anlise de agrupamentos (clusters) ----------------------------------------------- 99


8.1 Introduo ---------------------------------------------------------------------- 99
8.2 Medidas de semelhana ---------------------------------------------------- 99
8.2.1 Medidas de distncia ----------------------------------------------- 100
8.2.2 Medidas de associao -------------------------------------------- 102
8.3 Critrios de agregao e desagregao -------------------------------- 105
8.3.1 Critrio do vizinho mais prximo (single linkage) ----------- 106
8.3.2 Critrio do vizinho mais afastado (complete linkage) ------ 106
8.3.3 Critrio da mdia do grupo (average linkage) ---------------- 107
8.3.4 Critrio do centride ------------------------------------------------ 107
8.3.5 Critrio de Ward ----------------------------------------------------- 107

Referncias bibliogrficas ------------------------------------------------------------- 109

iv
1
Introduo anlise multivariada

1.1 A organizao dos dados

Sendo este um curso de estatstica multivariada, iremos analisar medies

feitas em vrias variveis ou caractersticas. Estas medies (dados) so

normalmente apresentadas quer graficamente, quer sob a forma matricial.

Assim, se considerarmos n medies em p variveis, xij representar a

medio da varivel j no item i. A sua representao matricial ser

x11 x12 x1 j x1 p
x x 22 x2 j x 2 p
21
. . . .
X =
x i1 xi 2 x ij x ip
. . . .

x n1 x n2 x nj x np

Esta matriz X contm os dados de todas as observaes em todas as variveis.

Exemplo 1.1: Pretende-se estudar as vendas dos livros de uma livraria e, para isso,

recolheu-se uma amostra de 4 recibos, indicando cada um deles o

nmero de livros vendidos e o total gasto (em centenas de escudos).

Numa forma tabular temos os seguintes dados:

Varivel Nome
1 Total 42 52 48 58
2 No. livros 4 5 4 3
Representando numa forma matricial obtemos a matriz X com duas linhas

(variveis) e quatro colunas (itens):

'
42 52 48 58
X =
4 5 4 3
o

1.2 Estatsticas descritivas

Se considerarmos x1j,x2j,,xij,,xnj como representando as n medies

feitas na varivel j (coluna j da matriz X), podemos denominar por x j a mdia amostral

da varivel j

x
1
xj = ij j = 1,2,,p
n i =1

Do mesmo modo, a medida de disperso varincia amostral da varivel i

dada por

2 n

(x
1
si = sii = ij xj ) 2 i = 1,2,,p
n i =1

A raiz quadrada da varincia amostral, s jj denominada desvio padro amostral.

Podemos tambm estar interessados em determinar o grau de associao

linear entre duas variveis j e k. Isto consegue-se atravs da covarincia amostral

representada pela mdia dos produtos dos desvios em relao s respectivas mdias

(x
1
sik = ski = ij xj ) ( x ik x k ) i = 1,2,,p ; k = 1,2,,p
n i =1

2
Se valores altos de uma varivel foram observados conjuntamente com valores

altos de outra varivel, e valores pequenos tambm ocorrerem conjuntamente, sjk

ser positiva. Se valores altos de uma varivel ocorrerem com valores pequenos de

outra varivel, sjk ser negativa. Caso no exista associao entre os valores de

ambas as varveis, sjk ser aproximadamente nula.

Finalmente, consideremos o coeficiente de correlao amostral de Pearson,

uma medida de associao linear entre duas variveis, independente das unidades de

medida e com valores entre -1 e +1.

s jk (x
i =1
ij x j ) ( x ik x k )
rjk = rkj = =
s jj s kk n n


i =1
( x ij x i ) 2 (x
i =1
ik xk )2

para i = 1,2,,p e k = 1,2,,p.

Esta ltima medida constitui, como facilmente se pode observar, uma verso

estandardizada da covarincia amostral.

De notar que, se substituirmos os valores originais xij e xik pelos

correspondentes valores estandardizados (xij - xj ) / s jj e (xik - xk ) / s kk , o

coeficiente de correlao amostral rjk pode ser visto como a covarincia amostral.

Aps a estandardizao, ambas as variveis podem ser comparadas, pois passam a

estar nas mesmas unidades.

Voltando, de novo, apresentao matricial, baseando-nos na matriz X com n

medies (linhas) em p variveis (colunas), as mdias amostrais so representadas

por

3
x1
x
x=
2


x p

as varincias e covarincias amostrais por

s11 s12 s1 p
s s 22 s 2 p
Sn =
21
. . .

s p1 s p2 s pp

e as correlaes amostrais por

1 r12 r1 p
r 1 r2 p
R =
21
. . .

r p1 rp2 1

Reparar que as matrizes Sn e R so matrizes simtricas de ordem p.

Exemplo 1.1 (cont):

Pegando de novo na matriz

'
42 52 48 58
X =
4 5 4 3

_
podemos determinar o vector x e as matrizes Sn e R. Assim,

_ 4

x
1 1
x1 = i1 = (42 + 52 + 48 + 58) = 50
4 i =1
4

4
_ 4

x
1 1
x2 = i2 = (4 + 5 + 4 + 3) = 4
4 i =1
4

_ x1 50
e ento, x = =
x 4 2

Do mesmo modo,

[ ]
4

(x
1 1
s11 = i1 x1 ) 2 = (42 50) 2 + (52 50) 2 + (48 50) 2 + (58 50) 2 = 34
4 i =1
4

[ ]
4

(x
1 1
s22 = i2 x2 )2 = (4 4) 2 + (5 4) 2 + (4 4) 2 + (3 4) 2 = .5
4 i =1
4

(x
1
s12 = i1 x1 ) ( xi 2 x 2 ) =
4 i =1

=
1
[(42 50)(4 4) + (52 50)(5 4) + (48 50)(4 4) + (58 50)(3 4)] = -1.5
4

34 1.5
Sn =
1.5 .5

Finalmente, a correlao amostral dada por

s12 1.5
r12 = r21 = = = -.36
s11 s 22 34 .5

1 .36
R =
.36 1

5
1.3 Distncias

A maioria das tcnicas multivariadas so baseadas no conceito simples de

distncia. Se considerarmos um plano e um ponto P = (x1,x2) nesse plano, a distncia

d(O,P) entre a origem e esse ponto dada por

x d(O,P) = x12 + x 22
2

Figura 1.1 Teorema de Pitgoras


O x
1

Num caso mais geral, se os pontos tiverem p coordenadas, ento P = (x1,x2,

,xp), O=(0,0,,0) e d(O,P) = x12 + x 22 + + x 2p

Desta ltima equao, e elevando ao quadrado ambos os termos, podemos

dizer que todos os pontos (x1,x2, ,xp) que estejam a uma mesma distncia

quadrada da origem, satisfazem a equao

2
d (O,P) = x 12 + x 22 + + x 2p

Se se tratar de um espao onde p=2 , esta equao no mais do que a

equao de uma circunferncia de centro (0,0) e raio d(0,P).

A distncia em linha recta entre dois pontos quaisquer P e Q com coordenadas

P=(x1,x2, ,xp) e Q=(y1,y2, ,yp) dada por

d(P,Q) = ( x1 y1 ) 2 + ( x2 y 2 ) 2 + + ( x p y p ) 2

6
Ora tambm aqui se faz sentir o eventual problema das vrias dimenses

terem unidades de medida distintas. Mais ainda, as medies das diversas

coordenadas podem estar sujeitas a variaes aleatrias com intensidades diferentes.

Por isso, uma distncia baseada numa linha recta, ou euclideana, no a mais

apropriada. Necessitamos ento de um outro tipo de medio de distncias e, porque

este novo tipo de distncia vai ter em conta as diferenas de variao, denomina-la-

emos distncia estatstica.

Para ilustrar o conceito de distncia estatstica, suponhamos que temos n

pares de medies em duas variveis independentes x1 e x2. Alm disso,

suponhamos tambm que a variao das medies da varivel x1 maior do que a

das medies em x2.

x2


x1

Figura 1.2 Diagrama de pontos

Neste caso, a soluo passa, de novo, pela estandardizao das coordenadas,

dividindo cada uma delas pelo respectivo desvio padro amostral. Assim, uma

distncia estatstica do ponto P=(x1,x2) origem O=(0,0) dada por

2 2
x x x12 x 22
d(O,P) = 1 + 2 = +
s s s11 s 22
11 22

Se compararmos esta equao com a anteriormente apresentada, podemos

concluir que a diferena reside na aplicao de pesos k1 = 1/s11 e k2 = 1/s22,

7
respectivamente, a x 12 e x 22 . Tambm aqui todos os pontos de coordenadas (x1,x2) a

uma distncia quadrada constante c2 da origem devem satisfazer a

x12 x2
+ 2 = c2
s11 s 22

Esta ltima equao no mais do que a equao de uma elipse centrada na

origem com os eixos principais a coincidirem com os eixos do sistema de

coordenadas.

x
c s 2
22 P

x
1
0
c s
11

Figura 1.3 Elipse centrada na origem

_
Exemplo 1.2: Suponhamos que temos duas variveis independentes com mdias x1

_
= x2 = 0 e com varincias s11 = 4 e s22 = 1.

x A distncia de um qualquer ponto


2
1 P=(x1,x2) origem O=(0,0) dada, neste

caso por
2 x
1
2 x2 x2
d (O,P) = 1 + 2
Figura 1.4 Elipse 4 1

8
Todos os pontos (x1,x2) que esto a uma distncia constante 1 da origem

satisfazem a equao

x12 x2
+ 2 = 1
4 1

correspondendo equao da elipse centrada em (0,0), com os eixos principais

segundo os eixos x1 e x2 e com meias distncias iguais a 4= 2 e 1 = 1,

respectivamente.

Generalizando para p variveis, podemos determinar a distncia estatstica

entre dois pontos P=(x1,x2, ,xp) e Q=(y1,y2, ,yp) atravs da equao

( x1 y1 ) 2 ( x 2 y 2 ) 2 (x p y p ) 2
d(P,Q) = + ++
s11 s 22 s pp

com s11, s22, , spp as varincias construdas a partir das n medies nas variveis

x1,x2, ,xp, respectivamente. Todos os pontos P a uma distncia quadrada de Q

esto colocados num hiperelipside centrado em Q com os eixos principais paralelos

aos eixos do sistema de coordenadas. Obviamente, se todas as varincias fossem

iguais, encontramos a distncia euclideana j atrs apresentada.

Temos at agora analisado a situao em que os eixos da elipse dos dados

coincidem com os eixos do sistema de coordenadas. Ora, h situaes onde isto no

acontece, isto , em que a varivel x1 no varia independentemente da varivel x2 e,

neste caso, o coeficiente de correlao amostral no nulo.

9
x
2 x~ Da figura ao lado vemos que basta
1
x~ rodarmos o sistema original de eixos de um
2
ngulo para termos uma situao

x semelhante s anteriores.
1

Figura 1.5 Elipse com ngulo

Isto corresponde a passarmos a usar as novas variveis

x~1 = x1 cos() + x2 sin() x~2 = - x1 sin() + x2 cos()

A distncia entre o ponto P=(x~1 ,x~2 ) e a origem O=(0,0) ento definida como

~
x12 ~x 22
d(O,P) = ~ + = a11 x12 + 2a12 x1 x 2 + a 22 x 22
s11 ~s 22

Nesta fase no vital sabermos como determinar os valores destes as. O que

importante vermos que existe um termo de produto cruzado indicador da

correlao r12 no nula. Mais ainda, quando olhamos para a equao correspondente

s duas variveis independentes, vemos que

1 1
a11 = a22 = a12 = 0
s11 s 22

De uma maneira geral, a distncia estatstica do ponto P=(x1,x2) ao ponto fixo

Q=(y1,y2) para variveis correlacionadas dada por

d(P,Q) = a11 ( x1 y1 ) 2 + 2a12 ( x1 y1 )( x 2 y 2 ) + a 22 ( x 2 y 2 ) 2

10
As coordenadas de todos os pontos P=(x1,x2) que estejam a uma distncia

quadrada constante c2 de Q, definem uma elipse centrada em Q. A generalizao das

frmulas anteriores para p dimenses imediata.

11
12
2
lgebra matricial e vectores aleatrios

2.1 Alguns conceitos bsicos

Vejamos alguns conceitos que nos iro ser teis mais tarde.

Sendo dado um vector x= [ x1, x2, , xn ] com n componentes, definimos

comprimento deste vector como sendo o valor dado por

Lx = x12 + x 22 + + x n2

Assim, pr-multiplicando x pelo inverso do seu comprimento, L x1 x , obtm-se o vector

unitrio (com comprimento 1) e com a mesma direco de x.

Um outro conceito tambm importante o de ngulo. Se tivermos dois vectores

num plano com um ngulo entre eles, podemos considerar que = 2 - 1, sendo 1

e 2 os ngulos que, respectivamente, x e y fazem com a primeira coordenada (ver

Figura 2.1).

Assim, sabendo que

x1 y1
cos (1) = cos (2) =
Lx Ly

13
x2 y2
sin (1) = sin (2) =
Lx Ly

e que cos () = cos (2 - 1) = cos (2) cos (1) + sin (2) sin (1)

y y
2

x x
2
1
2
y x Figura 2.1 Diferena entre ngulos
1

obtemos

y x y x x y + x2 y2
cos () = cos (1 - 2) = 1 1 + 2 2 = 1 1
L y L x L y L x Lx Ly

Como o produto interno de dois vectores dado por xy = x1y1 + x2y2

podemos re-escrever as equaes referentes a Lx e a cos () da seguinte maneira:

xy xy
Lx = xx e cos () = =
Lx Ly xx yy

Deste modo, dizemos que x e y so perpendiculares quando xy = 0.

Exemplo 2.1: Sendo dados os vectores x= [ 1, 3, 2 ] e y= [ -2, 1, -1 ] , determinar o

valor do comprimento de x e de y e o ngulo que eles fazem entre si.

14
Como xx = 12 + 32 + 22 = 14

yy = (-2)2 + 12 + (-1)2 = 6

xy = 1(-2) + 3(1) + 2(-1) = -1

ento Lx = xx = 14 = 3.74

Ly = yy = 6 = 2.45

xy -1
cos () = = (3.74) (2.45) = -.109 , donde, = 96.3
Lx Ly

Diz-se que um conjunto de vectores x1, x2, , xk linearmente dependente

se existirem as constantes c1, c2, , ck , no todas nulas, tal que

c1 x1 + c2 x2 + + ck xk = 0

Exemplo 2.2: Determinar a dependncia linear dos vectores x1= [ 1, 2, 1 ] , x2= [ 1,

0, -1 ] e x3= [ 1, -2, 1 ] .

A equao c1 x1 + c2 x2 + c3 x3 = 0 implica o sistema

c1 + c2 + c3 = 0
2c1 - 2c3 = 0
c1 - c2 + c3 = 0

que possui uma nica soluo c1 = c2 = c3 = 0.

15
Neste caso, dizemos que os vectores x1, x2 e x3 so linearmente independentes.

o
x


Figura 2.2 Projeco de x em y
y

A projeco (ou sombra) de um vector x num vector y dada por

xy xy 1
y = y
yy Ly Ly

tendo L y1 y , o comprimento unitrio. O comprimento desta projeco

| xy | xy
= Lx = Lx | cos() |
Ly Lx Ly

O ltimo conceito muito usado na estatstica multivariada o de valor prprio e

vector prprio. Uma matriz quadrada A tem um valor prprio com o correspondente

vector prprio x 0 se

A x = x

Isto , os valores prprios so as razes da equao caracterstica | A - I | = 0.

1 5
Exemplo 2.3: Determinar os valores e vectores prprios da matriz A =
5 1

1 5
|A-I|=0 B = 0 B (1 - )2 - 25 = 0 B 1=6 ou 2=-4
5 1

16
1 5 e11 e11
Para 1=6, A e = 1 e B = 6 e
5 1 e 21 21

1
e11 5e 21 = 6e11 e11 =
B 2

5e11 + e 21 = 6e 21 e 21 =
1
2

1
um vector prprio normalizado correspondente ao valor prprio
e1 = 2
1
2 1=6.

1

De modo idntico se encontra e2 = 2 como sendo o vector prprio
1
2

correspondente a 2 = -4.

2.2 Matrizes definidas positivas

Dois dos pilares fundamentais da estatstica multivariada so o conceito de

distncia e o pressuposto de que os dados esto distribudos segundo uma

distribuio normal multivariada. Os produtos de matrizes resultantes da combinao

destes conceitos so denominados formas quadrticas. Assim, neste captulo iremos

falar em particular sobre as formas quadrticas no negativas e as matrizes definidas

positivas associadas.

Muitas vezes, tambm, os resultados que envolvem formas quadrticas e

matrizes simtricas so consequncia directa do que se denomina decomposio

espectral definida numa matriz simtrica Akk definida como

17

A = 1 e1 e1 + 2 e2 e2 + + k ek ek

(kk) (k1) (1k) (k1)(1k) (k1)(1k)

onde 1, 2, , k so os valores prprios de A e e1, e2, , ek os


correspondentes vectores prprios normalizados, isto , ei ei = 1 (i = 1, 2, , k) e


ei ej = 0 (i j).

3 1
Exemplo 2.4: Sendo dada a matriz A = , obtm-se os valores prprios 1 = 4
1 3

e 2 = 2. O vector prprio correspondente ao primeiro valor prprio e1

1
=
1

Tornamo-lo nico, normalizando-o (comprimento igual unidade), isto , dividindo

cada elemento do vector por 2


e11 + e 21
2
= 12 + 1 2 = 2

1 1

Encontra-se e1 = 2 . Do mesmo modo se obtinha e = 2.
2
1 1
2 2


Reparar que e1 e 2 , isto , e1 e2 = 0.

Verificando a decomposio espectral,

1 1

3 1 2 1 1 2 1 1
1 3 = 4 1 2 + 2 1 =
2 2 2
2 2

18
1 1 1 1
2 + 2 2 2 = 2 2 + 1 1 = 3 1
= 4 2
1 1 1 1 2 2

1 1

1 3


2 2 2 2
o

Sempre que a matriz A (kk) simtrica seja tal que xA x seja sempre maior

ou igual a zero, qualquer que seja o vector x= [x1 x 2 x n ] [0 0 0 ],

denominamo-la definida no-negativa ou semi-definida positiva. A chamada definida

positiva se xA x > 0 para todo o vector x 0. componente xA x damos o nome

de forma quadrtica.

Para k = 2,

a11 a12 x1 a x + a x
xA x = [x1 x 2 ] = [x1 x 2 ] 11 1 12 2
a12 a 22 x 2 a12 x1 + a 22 x 2

= a11x 12 + a12x1x2 + a12x1x2 + a22x 22 = a11x 12 + 2a12x1x2 + a22x 22

= d2(0,x) = c2


Pela decomposio espectral; A = 1 e1 e1 + 2 e2 e2

e ento xA x = 1 (xe1)2 + 2 (xe2)2 .

Assim; c2 = 1 y 12 + 2 y 22 uma elipse em y1 = xe1 e y2 = xe2

Facilmente se verifica que x = c 11 / 2 e1 satisfaz xA x = 1 (c 11 / 2 e1e1)2 = c2

19
e x = c 21 / 2 e2 nos d a distncia na direco e2

Deste modo os pontos situados a uma distncia c fazem parte de uma elipse

cujos eixos so dados pelos vectores prprios de A com comprimentos proporcionais

aos inversos das razes quadradas dos valores prprios. A constante de

proporcionalidade c.

Esta concluso ilustrada na figura abaixo.


x
2 e
1
c
e
2 1
c
x
2 1 Figura 2.3 Elipse de distncia constante

Com p > 2, os pontos x= [x1 x 2 x p ] a uma distncia constante

c= xAx da origem encontram-se no elipside

c2 = 1 (xe1)2 + + p (xep)2

cujos eixos so dados pelos vectores prprios de A . A meia distncia na direco de

c
ei igual a , i = 1, 2, , p, onde 1, 2, , p, so os valores prprios de A.
i

20
2.3 Mdias e covarincias de combinaes lineares

Um vector aleatrio um vector cujos elementos so variveis aleatrias. Do

mesmo modo, uma matriz aleatria uma matriz cujos elementos so variveis

aleatrias.

A combinao linear cX = c1X1 + + cpXp tem

mdia E(cX) = c

e varincia Var(cX) = c c

[
onde = E(X) e = Cov(X) = E ( X ) ( X ) ' ]

'
2 3 1
Exemplo 2.5: Consideremos a matriz X =
2 5 0

2
A mdia desta matriz =
1

2 / 3 2/3
e a matriz das covarincias =
2 / 3 26 / 3

2 3 1
Assim, a combinao linear Y = 3 X1 + 2 X2 , isto , [3 2] ,
2 5 0

2
ter a mdia E(YX) = [3 2] = 8
1

2 / 3 2 / 3 3
e a varincia Var(YX) = [3 2] = 48.67
2 / 3 26 / 3 2

21
Alm dos resultados anteriores podemos tambm afirmar que, sendo dado

duas combinaes lineares aX e bX, a covarincia entre elas dada por

Cov(aX,bX) = a' b

22
3
Geometria amostral e amostragem aleatria

Neste captulo iremos analisar as interpretaes geomtricas das estatsticas

_
descritivas amostrais x , Sn e R. Ser tambm introduzido o conceito de varincia

generalizada para descrever a variabilidade.

3.1 Geometria da amostra

Tal como j atrs vimos, as n observaes em p variveis podem ser dispostas

numa matriz np

x11 x12 x1 p x1
x x 22 x 2 p x
21 2
. . . .
X = =
. . . .
. . . .

x n1 x n2 x np x n

onde cada linha representa uma observao multivariada (vector xi , i= 1, n).

Assim, a variabilidade ocorre em vrias direces e quantificada atravs da

matriz Sn das varincias. Um valor numrico desta variabilidade dado pelo

determinante de Sn.

23
_ '
4 1 3
Exemplo 3.1: Determinar o vector mdia x da matriz X = 1 3 5 ,

_
apresente os n = 3 pontos num espao a p = 2 dimenses e localize x .

4 1+ 3
_ 3 2
x = 1 + 3 + 5 =
3
3

O grfico de pontos correspondente ser,

5 X3
4

X2 3 x
2

1
X1

0
-2 -1 0 1 2 3 4 5 6
-1

-2

Figura 3.1 Representao dos pontos x1, x2, x3 e mdio


o

Em alternativa a esta interpretao geomtrica, podemos considerar os dados

como sendo p pontos num espao a n dimenses.

x11 x12 x1 p
x x 22 x 2 p
21
. . .
X = = [y1 y2 yp]
. . .
. . .

x n1 x n2 x np

24
Nesta nova interpretao, as coordenadas do i-simo ponto yi = [x1i , x2i , ,

xni] so as n medies da i-sima varivel.

Exemplo 3.2: Usando a mesma matriz do exemplo anterior, representar o

vectores y1 e y2.

y1 = [ 4 -1 3 ] y2 = [ 1 3 5 ]

O grfico de pontos correspondente ser,


3

4
y
2
3

1
y 2
1 1 2 3 4 5 6
1
2
3
4
5
6

Figura 3.2 Representao dos vectores y1 e y2


o

Tambm possvel dar-se uma interpretao geomtrica ao processo de

determinao da mdia amostral. Para isso comeamos por definir o vector n 1

1n = 1 = [ 1 1 1 ]

que, por definio, forma ngulos iguais com cada uma das n coordenadas.

25
1
Deste modo, 1 tem comprimento unitrio e direco do ngulo igualitrio.
n

A projeco de yi no vector unitrio dada por

1 1 x + x + + x in _
yi 1 1 = i1 i 2 1 = xi 1
n n n

_
isto , a mdia amostral xi = yi 1/ n corresponde ao mltiplo de 1 necessrio para

obter a projeco de yi na linha determinada por 1.

Alm disso, para cada yj podemos determinar o vector desvio dj , desvio entre yj e

x i 1.

x1i x i

y x 2i x i
2 dj = yj - xj 1 =

x ni x i

0 1 x1 Figura 3.3 Diferena entre vectores

Exemplo 3.3: Ainda com a mesma matriz X,

2 3
_ 2 _ 3
x1 1 = x2 1 =
2 3

Consequentemente,

4 2 2
_ 1 - 2 = 3
d1 = y1 - x1 1 =
3 2 1

1 3 2
_
d2 = y2 - x2 1 = 3 - 3 =

0

5 3 2

26
Figura 3.4 Vectores desvios
o
3

y
2
d2

x 1
2
d1 x 1
1
y 2
1

1
fcil ver que

n
L 2d i = di di = (x
i =1
ij x j )2

isto , o quadrado do comprimento do vector desvio igual soma dos quadrados

dos desvios.

Do mesmo modo,

n
di dk = (x
j =1
ij x i ) ( x kj x k ) = L d L d cos(ik)
i k

e ento,
s ik
rik = = cos(ik)
s ii s kk

O coseno do ngulo o coeficiente de correlao amostral. Assim, se dois

vectores tiverem aproximadamente a mesma orientao, a correlao amostral ser

prxima da unidade. Se estes dois vectores forem quase perpendiculares, a

27
correlao amostral quase nula. Se os dois vectores estiverem orientados

aproximadamente em direces opostas, a correlao amostral ser prxima de -1.

Exemplo 3.4: Com os resultados dos exemplos anteriores,

2

d1 d1 = [2 3 1] 3 = 14 = 3 s11
1

2

d2 d2 = [ 2 0 2] 0 = 8 = 3 s22
2

2

d1 d2 = [2 3 1] 0 = -2 = 3 s12
2

14 2
3
Sn = 3
2 8

3 3

2
s12 3
r12 = = = -.189
s11 s 22 14 8
3 3

1 .189
R =
.189 1

3.2 Amostragem aleatria

_
Para estudarmos a variabilidade amostral de x e Sn e para podermos inferir

os resultados para toda a populao, temos de estabelecer alguns pressupostos

relativamente s variveis que constituem o conjunto das observaes.

28
Dada a matriz

x11 x12 x1 p x1
x x 22 x 2 p x
21 2
. . . .
X = =
. . . .
. . . .

x n1 x n2 x np x n

dizemos que x1 , x2 , , xn formam uma amostra aleatria se constiturem

observaes independentes, possuindo uma distribuio conjunta f(x) = f(x1) f(x2)

f(xn).

Se e representarem, respectivamente, o vector mdia e a matriz de

_
varincias da amostra aleatria x1 , x2 , , xn , ento x um estimador no

_ n
enviesado de [E(x ) = ] e S = S um estimador no enviesado de , isto ,
n 1 n

n
E( S ) = .
n 1 n

A matriz amostral no enviesada das varincias

(x
n 1
S= Sn = j x ) ( x j x) '
n 1 n 1 j =1

3.3 Varincia generalizada

A varincia normalmente descrita pela matriz das varincias

29
x11 x12 x1 p
x x 22 x 2 p
21 n

. . 1
S =
.
= s jk = ( x ij x j ) ( x ik x k )
. . . n 1 i =1
. . .

x n1 x n2 x np

Um nico valor numrico que representa toda a variao expressa em S a

varincia amostral generalizada dada pelo determinante de S.

Varincia amostral generalizada = | S |

14808 14213
Exemplo 3.5: Consideremos a matriz S =
14213 15538

A varincia generalizada dada por

| S | = (14808) (15538) - (14213) (14213) = 28.08 106.

Vejamos de seguida uma interpretao geomtrica para |S|. Consideremos

_ _
ento a rea gerada pelos dois vectores desvio d1 = y1 - x1 1 e d2 = y2 - x2 1

d1
rea = [L d1
]
sin( ) L d
2
Ld1sin

= L d1 L d 2 1 cos 2
d2
= (n - 1) s11 s 22 (1 r122 )

Figura 3.5 rea gerada pelos desvios

30
Por outro lado,

s s s s11 s 22 r12
| S | = 11 12 = 11

12
s s 22 11 s 22 r12
s s 22

= s11 s22 - s11 s22 r 12


2
= s11 s22 (1 - r 12
2
)

Destes dois ltimos resultados, podemos concluir que

rea 2
|S| = = (n - 1)-2 rea2
(n 1) 2

Generalizando para um p-espao obtemos

Varincia amostral generalizada = | S | = (n - 1)-p (volume)2

isto , para um determinado conjunto de dados, a varincia amostral generalizada

proporcional ao quadrado do volume gerado pelos p vectores desvio.

As duas figuras abaixo representam, respectivamente, uma grande e uma

pequena varincia amostral generalizada para p = 3 no espao das observaes.

3 3

d1

d1 d2 d3
d3
d2 2 2

1 1

Figura 3.6 - Representao geomtrica da varincia generalizada

31
A varincia generalizada tem tambm interpretao no grfico de pontos num

_ _ _ _
p-espao. Consideremos, para isso, a mdia amostral x = [ x1 , x2 , , xp ].

As coordenadas x =[ x1 , x 2 ; , x p ] dos pontos a uma distncia constante c

_
de x satisfazem

_ _
(x - x ) S-1 (x - x ) = c2

_
que define uma elipse (p = 2) centrada em x .

Usando o clculo integral, podemos verificar que o volume do hiper-elipside

est relacionado com o valor de | S |

{ }
Volume de x : (x x)S 1 (x x) = c 2 = kp | S |1/2 cp

ou

(volume do elipside)2 = (constante) (varincia amostral generalizada)

Apesar da sua interpretao geomtrica, a varincia amostral generalizada

limitada como indicador descritivo de uma matriz amostral de varincias. Para ilustrar

isto vejamos o exemplo que se segue.

Exemplo 3.6: Consideremos as matrizes

5 4 5 4 3 0
S= S= S=
4 5 4 5
0 3

32
todas elas com a mesma varincia generalizada | S | = 9 mas com distintos

coeficientes de correlao, respectivamente, .8, -.8 e 0.

Ora, prova-se que o determinante de uma qualquer matriz A pp pode ser

p
escrito como o produto dos seus valores prprios 1, 1, , p, isto , | A | =
i =1
i .

Assim, os valores prprios podem dar-nos informao referente variabilidade em

todas as direces numa representao p-espacial e, por isso, til no s

analisarmos os valores individuais assim como o seu produto.

A varincia generalizada nula quando e apenas quando pelo menos um

vector desvio estiver no hiperplano formado por todas as combinaes lineares dos

outros, isto , quando as linhas de uma matriz de desvios forem linearmente

dependentes.

1 4 4
Exemplo 3.7: Dada a matriz X = 2 1 0 ,
5 6 4

2 1 1
_ _
a matriz das mdias x = [ 3 , 1 , 5 ] e ento X - x 1 = 1 0 1 .
0 1 1

2 1 0
Os desvios residuais so d1 = 1 , d = 0e d = 1.
2 3
1 1 1

Como d3 = d1 + 2 d2, h degenerescncia nas linhas e |S| = 0, pois o volume a

trs dimenses formado pelos trs vectores nulo.

33
|S| = 0 significa, em termos matemticos, que as medies em algumas

variveis podem ser retiradas do estudo. Por outro lado |S| tambm ser nulo se o

tamanho da amostra for menor ou igual ao nmero de variveis, isto , n p.

Se estivermos a trabalhar com variveis estandardizadas, podemos dizer que a

varincia amostral generalizada dada pelo determinante de R:

Varincia amostral generalizada = | R | = (n - 1)-p (volume)2


das variveis estandardizadas

Como |S| e |R| esto relacionadas por |S| = (s11 s22 spp) |R|, podemos

escrever

(n - 1)p | S | = (n - 1)p (s11 s22 spp) | R |

4 3 1
Exemplo 3.8: Sendo dada a matriz S = 3 9 2 , s11 = 4; s22 = 9 e s33 =
1 2 1

1.

1 1
1 2 2
1 2 7
Alm disso, R = 1 . Como | S | = 14 e | R | = , confirma-se que
2 3 18
1 2
2 1
3

7
14 = | S | = s11 s22 s33 | R | = (4) (9) (1) = 14
18

Conclumos esta discusso apresentando o conceito de varincia amostral

total cujo valor corresponde ao valor do trao da matriz S, isto , soma dos

elementos da sua diagonal.

34
Varincia amostral total = s11 + s22 + + spp

14808 14213
Exemplo 3.9: A varincia amostral total da matriz S =
14213 15538

s11 + s22 = 14808 + 15538 = 30346.

3
3 0
2
3 1
A varincia amostral total da matriz S = 1
2 2
1
0 2
1

s11 + s22 + s33 = 3 + 1 + 1 = 5. o

Geometricamente, a varincia amostral total corresponde soma dos

_
quadrados dos comprimentos dos p vectores residuais d1 = y1 - x1 1, , dp = yp -

_
xp 1 dividida por n - 1.

35
36
4
Distribuio normal multivariada

A generalizao da to conhecida curva normal para vrias dimenses

desempenha um papel fundamental na anlise multivariada.

4.1 A densidade normal multivariada

A densidade normal multivariada consiste numa generalizao, para p 2, da

densidade da curva normal

f(x) =
1
e - [( x ) / ]2 / 2 - < x <
2 2

x2
O termo = (x - ) (2)-1 (x - ) no expoente da funo densidade no

mais do que a distncia quadrada de x a em unidades estandardizadas de desvio.

Generalizando para um vector x de dimenso p1, podemos escrever

(x - ) -1 (x - )

onde o vector representa o valor esperado do vector aleatrio x e a matriz pp a

matriz da varincias.

37
A funo densidade normal p-dimensional Np(, ) para o vector aleatrio x

= [X1, X2, , Xp]

-1
e - (1/2) (x - ) (x - )
1
f(x) =
(2 ) p/2
|| 1/ 2

onde - < xi < , i = 1, 2, , p.

Exemplo 4.1: Consideremos o espao p = 2.

s s
Neste espao = 1 e = 11 12
2 s12 s 22

Calculando a inversa da matriz de varincias, obtemos

22 12
-1 =
1

11 22 12 12 11
2

Assim, a distncia quadrada (x - ) -1 (x - ) fica igual a

22 12 11 22 x1 1
= [x1 1 x1 1 ]
1

11 22 12 12 11 22 11 x 2 2
2

22 (x1 1 )2 + 11 (x 2 2 )2 2 12 11 22 (x1 1 )(x 2 2 )


=
11 22 (1 12
2
)

2

2

=
1 x1 1 + x 2 2 2 x1 1 x1 1
1 12
2 12

11 22 11 11

Deste modo,

38
1
f(x1,x2) =
2 11 22 (1 12
2
)

2

2

1
exp x1 1 + x 2 2 2 x1 1 x1 1


(
2 1 12
2
)
11

22


12



11

11

Olhando para esta ltima equao, podemos dizer que se 12 = 0 , a densidade

conjunta pode ser escrita como um produto de duas densidades normais

univariadas, isto , se X1 e X2 no esto correlacionadas, f(x1,x2) = f(x1) f(x2),

isto , X1 e X2 so independentes.

Do que atrs ficou dito, podemos concluir que a densidade normal multivariada

constante nas superfcies onde a distncia quadrada (x - ) -1 (x - ) for

constante. Os eixos de cada elipside de constante densidade tm a direco dos

vectores prprios de -1 e os comprimentos proporcionais aos inversos das razes

quadradas dos valores prprios de .

Uma vez que e = e -1 e = e , os valores prprios de -1 podem ser


1

determinados atravs dos valores prprios de .

Deste modo, podemos afirmar que os contornos de densidade constante da

distribuio normal p-dimensional constituem elipsides definidos por x tal que

(x - ) -1 (x - ) = c2. Estes elipsides so centrados em e possuem eixos

com comprimento c i ei , onde ei = iei , i=1, , p.

39
Exemplo 4.2: Consideremos o caso em que 11 = 22.

11 12
=0 =0
12 11

( - 11 - 12) ( - 11 + 12) = 0

f(x , x )
1 2
x
2

(a)
x
1

f(x , x )
1 2

x2

(b)
x
1

Figura 4.1 Duas distribuies normais bivariadas

(a) 11 = 22 e 12 = 0 (b) 11 = 22 e 12 = .75

40
Ento, os valores prprios so 1 = 11 + 12 e 2 = 11 - 12. O vector prprio

e1 correspondente ao valor prprio 1 dado por

s11 s12 e11 e11


s = (11 + 12)
12 s11 e 21 e
21

1
e11 2
e1 = e = 1
21
2

1
e12 2
De modo idntico e2 = =
e 22 1
2

x
2
c 11 +
12

c 11-
12

1 x
1
Figura 4.2 - Contorno de densidade constante para uma distribuio normal bivariada

com 11 = 22 e 12 > 0 (ou 12 > 0)

Quando 12 > 0, 1 = 11 + 12 o maior valor prprio e o correspondente

vector prprio e1' = 1 , 1 ] situa-se na recta a 45 que passa por = [1, 2].
2 2

Como os eixos das elipses de densidade constante so dados por c 1e1 e

41
c 2 e 2 , com cada vector prprio de comprimento unitrio, o maior eixo est

associado ao maior dos valores prprios.

A densidade normal p-variada

-1
e - (1/2) (x - ) (x - )
1
f(x) =
(2 ) p / 2 | |1 / 2

tem um valor mximo quando a distncia quadrada (x - ) -1 (x - ) for nula, isto

, quando x=. Deste modo, o ponto de densidade mxima, ou moda, ao mesmo

tempo que constitui o valor esperado de X, ou mdia.

4.2 Propriedades da distribuio normal

Vejamos, de seguida, algumas propriedades da distribuio normal. Assim, sendo

dado o vector aleatrio x com uma distribuio normal multivariada, x ~ Np(, ),

Combinaes lineares das componentes de X so normalmente distribudas.

a X = a1 X1 + a2 X2 + + ap Xp ~ N(a, aa)

a11 X 1 + ... + a1 p Xp
a X + ... + a 2 p Xp
A X
=
21 1
~ Nq(A, AA)
(q p) ( p 1) ...

a q1 X 1 + ... + a qp Xp

42
X d
+ ~ Np(, d)
( p 1) ( p 1)

Todos os subconjuntos das componentes de X seguem uma distribuio normal

multivariada. Se dividirmos X, e

X1 1
X (q 1) (q 1)
= =
( p 1) X2 ( p 1) 2
(( p q ) 1)
(( p q ) 1)

11 | 12

(q q) | (q ( p q))
=
( p p) 21 | 22

(( p q) q) | (( p q ) ( p q))

ento, por exemplo, X1 ~ Nq(1, 11).

Se X1 (q11) e X2 (q21) forem independentes, ento Cov(X1,X2) = 0, sendo 0

uma matriz (q1q2) de zeros.

As distribuies condicionais das componentes so normais multivariadas.

X1 1 11 | 12
Se X = ~ N (, ) com =
p
, = _ _ _
X
2 2 21 | 22

e |22| > 0, ento a distribuio condicional de X1 dado X2 = x2 normal com

a mdia = 1 + 12 221 (x2 - 2) e covarincia = 11 - 12 221 21.

Notar que a covarincia no depende do valor de x2 da varivel condicionante.

43
Se || > 0, ento (x - ) -1 (x - ) ~ 2p , uma distribuio de qui-quadrado

com p graus de liberdade.

A distribuio Np(,) atribui uma probabilidade 1- ao elipside

{x : (x ) 1
}
(x ) = 2p ( )

sendo 2p () o percentil de ordem (100) da distribuio 2p .

4.3 A forma amostral da distribuio normal multivariada

Sendo dado x1, x2, , xn uma amostra aleatria de uma populao normal

com mdia e covarincia , os estimadores de mxima verosimilhana para e

so dados, respectivamente, por


= X

n 1
n
= 1
n
(X j X)( X j X) = S
j =1
n

uma
Notar que o estimador X um vector aleatrio e que o estimador

matriz aleatria.

Estes estimadores de mxima verosimilhana possuem a propriedade da

invarincia. Isto significa, por exemplo, que o estimador de mxima verosimilhana de

1 1 e que o estimador de mxima verosimilhana de jj jj ,

44
n

(X
1
com jj = ij X j ) 2 como sendo o estimador de mxima verosimilhana de jj
n i =1

= Var(Xj).

Tratando-se de populaes normais, toda a informao amostral da matriz de


dados X est contida em X e S; qualquer que seja o tamanho n da amostra. Como

esta afirmao no necessariamente verdadeira para populaes no normais,

sempre conveniente testar os pressupostos da normal multivariada.


4.4 Distribuio amostral de X e S


No caso univariado (p = 1) sabemos que X segue uma distribuio normal

1 2
com mdia e varincia n . O resultado para o caso multivariado (p 2)

1
idntico. X segue uma distribuio normal com mdia e matriz de covarincia n


Ora, como desconhecida, a distribuio de X no pode ser usada

directamente para inferir acerca de . Contudo, S independente de fornece-nos


informao suficiente acerca de . medida que o tamanho da amostra cresce, X e

S so regidos por algumas propriedades independentemente das caractersticas da

populao-pai. O nico requisito que existe que esta populao-pai, qualquer que

seja a sua forma, tenha uma mdia e uma covarincia finita .

Pela Lei dos Grandes Nmeros e sempre que o tamanho da amostra seja


grande, existe uma grande probabilidade de que X se aproxime de e que S se

45
aproxime de . Precisando um pouco mais (Teorema do Limite Central), sejam X1,

X2, , Xn uma observao independente de uma qualquer populao com mdia e

covarincia finita . Ento, para amostras grandes (n deve ser grande relativamente a


p), n ( X - ) aproximadamente segue uma distribuio Np(0, ).

1
Quando X ~ Np(, n ) ou seja, quando n ( X - ) ~ Np(0; ), pode tambm


demonstrar-se que n ( X - ) -1 ( X - ) ~ 2p .

Reparar, finalmente, que, para n grande e muito maior do que p, substituir 1

por S -1 no afecta seriamente a aproximao.

46
5
Inferncia acerca do vector mdia

Nos captulos anteriores apresentaram-se os conceitos bsicos para uma

melhor compreenso da estatstica multivariada. Neste captulo iremos analisar a

inferncia (testes e regies de confiana) referentes ao vector mdia de uma

populao normal.

5.1 T2 de Hotelling

Uma generalizao natural da distncia quadrada

( X o ) 2
t2 = 2
= n ( X - o) (s2)-1 ( X - o)
s /n

a correspondente multivariada

-1
T2 = ( X - o) S ( X - o) = n ( X - o) S-1 ( X - o)
1
n

X
X 1
onde = j
( p 1) n j =1

10

(X )( )
S n
0
=
1 ' 20
= X Xj X
( p p) ( p 1) M
j
n 1 j =1
p 0

1
e n S representa a matriz estimada das covarincias de X .

47
A estatstica T2 denominada T2 de Hotelling em homenagem a Harold

Hotelling, pioneiro da estatstica multivariada. Se a distncia generalizada observada

_
T2 for grande, isto ; se x estiver muito longe de 0, a hiptese H0: = 0 ser

rejeitada. Ora, para podermos ter uma ideia da grandeza da distncia T2, utilizamos o

conhecimento que temos da sua distribuio. De facto,

(n 1) p
T2 ~ F
(n p ) p, n-p

onde Fp,n-p indica uma varivel aleatria com uma distribuio F com p e n-p graus

de liberdade.

Considerando ento a amostra aleatria X1, X2, , Xn de uma populao

Np(, ),

(n 1) p (n 1) p
= P T 2 > F p ,n p ( ) = n( X )S 1 ( X ) > F p ,n p ( )
( n p ) (n p)

quaisquer que sejam os valores verdadeiros de e , com Fp,n-p() a representar o

percentil de ordem (100) da distribuio Fp,n-p.

O que j foi dito suficiente para testar H0: = 0 contra H1: 0. A um

nvel de significncia , rejeitamos H0 em favor de H1 se

_ _ (n 1) p
T2 = n (x - 0) S-1 (x - 0) > F ()
(n p ) p,n-p

Exemplo 5.1: Analisou-se a transpirao de 20 mulheres saudveis, tendo

sido usadas as trs variveis X1 = taxa de transpirao, X2 = contedo de sdio e

48
X3 = contedo de potssio. Os valores encontrados levaram aos seguintes

resultados:

4.640 2.879 10.002 1.810 .586 .022 .258



X = 45.400 S = 10.002 199.798 5.627 e S-1 = .022 .006 .002
9.965 1.810 5.627 3.628 .258 .002 .402

Testar a hiptese H0: = [ 4 , 50, 10 ] contra H1: [ 4 , 50, 10 ] a um nvel de

confiana de = .10.


Ora T2 = n ( X - 0) S-1 ( X - 0)

.586 .022 .258 4.640 4



= 20 [4.640 - 4 ; 45.400 - 50 ; 9.965 - 10] .022 .006 .002 45.400 50
.258 .002 .402 9.965 10

.467
= 20 [.640 ; -4.600 ; -.035 ] .042 = 9,74
.160

Comparando o valor observado T2 com o valor crtico

(n 1) p 19(3)
Fp,n-p(.10) = F3,17(.10) = (3.353) (2.44) = 8,18
(n p ) 17

podemos concluir que T2 = 9.74 > 8.18 e, portanto, rejeitamos H0 ao nvel de

confiana de 90%.

49
5.2 Regies de confiana

Seja X = [X1 X2 Xn] a matriz de dados e um vector de parmetros

desconhecidos de uma populao. A regio R(X) chamada regio 100(1-)%

confiana se, antes da amostra ser seleccionada,

P[R(X) incluir o verdadeiro valor para ] = 1 -

Adaptando este conceito mdia , obtemos

(n 1) p
P n( X )S 1 ( X ) F p ,n p ( ) = 1 -
(n p)

(n 1) p
Por outras palavras, X estar a uma distncia F p ,n p ( ) de , com
(n p )

-1
1
probabilidade 1 - , desde que a distncia seja definida em termos de S .
n

Para se saber se um qualquer valor 0 pertence regio de confiana,

necessitamos de determinar o valor da distncia quadrada generalizada

_ _
n (x - o) S-1 (x - o)

(n 1) p
e compar-la com o valor de F (). Caso a distncia seja maior do que
(n p ) p,n-p

este ltimo valor, 0 no pertencer regio de confiana.

50
Os eixos do elipside de confiana e os seus respectivos comprimentos podem ser

determinados atravs dos prprios valores prprios i e dos vectores prprios ei de S.

_
Centrado em x , os eixos do elipside

_ _ (n 1) p
n (x - ) S-1 (x - ) c2 = Fp,n-p()
(n p )

(n 1) p
so i F p ,n p ( ) ei ; onde Sei = i ei , i = 1, 2, , p.
n( n p )

Exemplo 5.2: Num estudo de 42 aparelhos de microondas, foram medidas as

radiaes emitidas pelos aparelhos, respectivamente, com as portas fechadas (X1)

e com as portas abertas (X2). Para os 42 pares de observaes , encontrou-se

.564 .0144 .0117 203.018 163.391


X = S = e S-1 =
.603 .0117 .0146 163.391 200.228

Os pares de valores prprios e vectores prprios para S so

1 = .026 e1 = [ .704, .710 ]

2 = .002 e2 = [ -.710, .704 ]

A elipse a 95% de confiana para consiste em todos os valores (1 , 2) que

satisfazem a inequao

203.018 163.391 .564 1 2(41)


42 [.564 - 1 ; .603 - 2] F2,40(.05)
163.391 200.228 .603 2 40

Como F2,40(.05) = 3.23, obtm-se,

51
42(203.018)(.564-1)2 + 42(200.228)(.603-2)2 - 84(163.391)(.564-1)(.603-2) 6.62

Para determinar se = [ .562 , .589 ] pertence regio de confiana, calculamos

a expresso anterior para 1 = .562 e 2 = .589, encontrando-se o valor 1.30

6.62. Conclumos ento que se situa na regio de confiana.

.562
Do mesmo modo, um teste de H0: = no ser rejeitado em favor de H1 :
.589

.562
a um nvel de significncia = .05.
.589

.564
O elipside de confiana conjunta est centrado em X = .603 e,

respectivamente, com metades dos eixos maior e menor iguais a

(n 1) p 2(41)
1 F p ,n p ( ) = .026 (3.23) = .064
n( n p ) 42(40)

(n 1) p 2(41)
e 2 F p ,n p ( ) = .002 (3.23) = .018
n(n p ) 42(40)

Estes eixos encontram-se segundo e1 = [ .704, .710 ] e e2 = [ -.710, .704 ].

Pode-se facilmente ver que o eixo maior cerca de 3.6 vezes maior do que o eixo

menor.

Consideremos agora X ~ Np(, ) e a combinao linear Z = cX = c1 X1 + c2


2
X2 + + cp Xp . Ento, para c fixo e z desconhecido, um intervalo de confiana a

100(1 - )% para z = c dado por

c c c
cSc cSc
x - tn-1(/2) x + tn-1(/2)
n n

52
onde tn-1(/2) o percentil superior de ordem 100(/2) de uma distribuio t com n-1

graus de liberdade.

Esta desigualdade pode ser interpretada como uma afirmao em relao s

componentes do vector mdia . Por exemplo, com c= [ 1, 0, , 0 ], c = 1

torna-se no intervalo de confiana j por ns conhecido para a mdia de uma

populao normal, sendo cSc = s11.

Podemos deste modo construir vrios intervalos de confiana para os

componentes de , cada um deles associado a um coeficiente de confiana de 1-.

Basta para isso escolher os vectores c apropriados. Contudo, a confiana associada a

todos os intervalos quando tomados em conjunto no igual a 1-.

Sendo dada a amostra aleatria X1, X2, , Xn de uma populao Np(, ),

com definida positiva, para todos os c simultaneamente, o intervalo


cX p (n 1) F p ,n p ( )c' Sc ; cX +
p(n 1)
F p , n p ( )c' Sc
n( n p ) n( n p )

contm c com probabilidade 1-.

Estes intervalos simultneos so, por vezes, denominados, intervalos T2 pois a

probabilidade de cobertura determinada pela distribuio de T2. As escolhas c= [ 1,

0, , 0 ], c= [ 0, 1, , 0 ], , c= [ 0, 0, , 1 ] permitem-nos concluir que todos os

intervalos

p (n 1) s11 p (n 1) s11
x1 - F p ,n p ( ) 1 x1 + F p ,n p ( )
(n p) n (n p) n

53
p (n 1) s 22 p (n 1) s 22
x2 - F p , n p ( ) 2 x2 + F p ,n p ( )
(n p) n (n p) n

p (n 1) s pp p (n 1) s pp
xp - F p ,n p ( ) p xp + F p ,n p ( )
(n p) n (n p) n

se verificam com um coeficiente de confiana de 1-.

Reparar que, por exemplo, para se obter um intervalo de confiana para i - k

basta usar-se ci = ck = 1 no vector c= [ 0, , ci, 0, , -ck, , 0 ] a que corresponde

cSc = sii - 2sik + skk, obtendo-se o intervalo

p (n 1) s 2 s ik + s kk
xi - x k F p ,n p ( ) ii
(n p) n

Exemplo 5.3: 87 alunos de um liceu obtiveram classificaes em trs exames

especiais: X1 = cincias sociais, X2 = verbal e X3 = cincias exactas. Os

resultados obtidos foram:

527.74 5691.34 600.51 217.25



X = 54.69 e S = 600.51 126.05 23.37
25.13 217.25 23.37 23.11

Para encontrar os intervalos simultneos de confiana a 95% para 1, 2 e 3

necessitamos calcular o valor

p (n 1) 3(87 1) 3(86)
Fp,n-p() = F3,84(.05) = (2.7) = 8.29
(n p) (87 3) 84

obtendo assim os intervalos

54
5691.34 5691.34
527.74 - 8.29 1 527.74 + 8.29 504.45 1 551.03
87 87

126.05 126.05
54.69 - 8.29 2 54.69 + 8.29 51.22 2 58.16
87 87

23.11 23.11
25.13 - 8.29 3 25.13 + 8.29 23.65 3 26.61
87 87

Se o nmero m de mdias i ou de combinaes lineares c = c11 + c22 +

+ cpp for pequeno, os intervalos de confiana simultneos podem ser obtidos de

uma forma mais precisa. Tais intervalos de confiana, denominados de Bonferroni,

so baseados nos intervalos t individuais

_ s
x i tn-1 i ii i = 1, 2, , m
2 n

com i = /m. Assim, para um nvel de confiana global maior ou igual a 1 - ,

podemos obter m = p intervalos:

s11 s11
x 1 - tn-1 1 x 1 + tn-1
2p n 2p n

s 22 s 22
x 2 - tn-1 2 x 2 + tn-1
2p n 2p n

_ s pp _ s pp
x p - tn-1 p x p + tn-1
2p n 2p n

55
Exemplo 5.4: Voltando aos dados da transpirao, podemos obter os

intervalos de confiana de Bonferroni a 95% para 1, 2 e 3 correspondentes

escolha de i = .05/3, i=1, 2, 3.

Como n = 20 e t19(.05/2(3)) = t19(.0083) = 2.625, temos

_ s11 2.879
x 1 t19 (.0083) = 4.64 2.625 3.64 1 5.64
n 20

_ s 22 199.798
x 2 t19 (.0083) = 45.4 2.625 37.10 2 53.70
n 20

_ s 33 3.628
x 3 t19 (.0083) = 9.965 2.625 8.85 3 11.08
n 20

5.3 Inferncias para grandes amostras

Quando o tamanho da amostra grande, os testes de hipteses e as regies

de confiana para podem ser construdos sem o pressuposto da existncia de uma

populao normal, mesmo tratando-se de distribuies discretas. Todas as inferncias

de amostras grandes so baseadas na distribuio 2.

1
( X - ) S -1 ( X - ) = n ( X - ) S-1 ( X - ) aproximadamente 2
n

com p graus de liberdade e, ento,

[ ]
P n( X )S 1 ( X ) 2p ( ) = 1 -

56
onde 2p ( ) o percentil superior de ordem (100) da distribuio 2p .

Seja X1, X2, , Xn uma amostra aleatria de uma populao com mdia e

matriz de covarincia definida positiva . Quando n - p for grande,

a hiptese H0: = 0 rejeitada em favor de H1: 0, a um nvel de

significncia aproximadamente se

_ _
n (x - o) S-1 (x - o) > 2p ( )

cSc
c X 2p ( ) contm c, para todo c, com probabilidade aproximadamente
n

1-. Consequentemente, os intervalos de confiana simultneos a 100(1-)%

_ s11
x1 2p ( ) contm 1
n

_ s 22
x2 2p ( ) contm 2
n

_ s pp
xp 2p ( ) contm p
n

Alm disso, para todos os pares (i, k), i, k = 1, 2, , p, as elipses amostrais

centradas na mdia

_ _ -1
s s ik x _ i i
n [x i - i ; x k - k] ii x _ p ( ) contm (i, k)
2

s ik s kk k k

57
58
6
Comparao entre duas mdias multivariadas

Neste captulo iremos estender o conhecimento comparao entre dois

vectores mdia. Mais uma vez iremos partir de procedimentos univariados e

generalizaremos para o caso multivariado.

6.1 Comparaes emparelhadas

Por vezes, as medies so feitas em condies experimentais diversas, com

o objectivo de testar se as respostas diferem significativamente. o caso, por

exemplo, de um teste de eficcia de um novo medicamento que requer que haja

medies antes e aps um determinado tratamento. As respostas emparelhadas

podem ser comparadas analisando as respectivas diferenas.

No caso univariado, e considerando X1j e X2j, respectivamente, as medies

"antes" e "aps", os efeitos so representados pelas diferenas dj = x1j - x2j , j= 1, 2,

, n. Partindo do pressuposto de que as diferenas Dj representam observaes

independentes de uma distribuio N(, 2d ), a varivel

(D )
t = ;
sd / n

59
n n

(D
1 1
onde D = Dj e s 2d = j D) 2, segue uma distribuio t com n-1
n j =1
n 1 j =1

graus de liberdade.

Consequentemente, a um nvel , o teste H0: = 0 contra H0: 0 pode ser

conduzido comparando | t | com tn-1(/2). Do mesmo modo, um intervalo de

confiana a 100(1-)% para a diferena mdia = E(X1j - X2j) pode ser obtido pela

expresso

s s
d - tn-1(/2) d d + tn-1(/2) d
n n

Ao generalizar para o caso multivariado, vamos necessitar de distinguir entre p

respostas, 2 tratamentos e n unidades experimentais. Obtemos assim as p variveis

aleatrias de diferenas

D1j = X11j - X21j

D2j = X12j - X22j

Dpj = X1pj - X2pj

ou, em forma matricial,

X 111 X 112 X 11n X 211 X 212 X 21n D11 D12 D1n



. . . - . . . = . . .
X 1 p1 X 1 p 2 X 1 pn X 2 p1 X 2 p 2 X 2 pn D p1 D p 2 D pn

Considerando Dj = [D1 j D 2 j D pj ]

( j = 1,2, , n) ,

60
1

E(Dj) = = e cov(Dj)=d.
2
L

p

Se, alm disso, D1, D2, , Dn forem vectores aleatrios independentes Np(,

d), ento


T2 = n ( D - )S d1 (D )

n n

(D
1 1
onde D= Dj e Sd = j D)(D j D) distribudo como uma varivel
n j =1
n 1 j =1

(n 1) p
aleatria F .
(n p ) p,n-p

Se ambos n e n-p forem grandes, T2 aproximadamente distribuda como

2p , independentemente da forma da populao subjacente das diferenas.

Sendo observadas as diferenas dj = [d 1 j d 2 j d pj ] ( j = 1,2, , n) , rejeitamos H0:


= 0 contra H1: 0 a um nvel para uma populao Np(, d) se o valor

observado

-1 (n 1) p
T2 = n d S d > F ()
d (n p ) p,n-p

onde Fp;n-p() o valor do percentil de ordem 100 de uma distribuio F com p e n-

p graus de liberdade.

61
Uma regio de confiana a 100(1-)% para formado por todos os tal que

-1 (n 1) p
( d - ) S ( d - d) F ()
d n(n p) p,n-p

Os intervalos simultneos de confiana a (1-)% para i so dados por

(n 1) p s d2i
i: di F p , n p ( )
(n p) n

2
onde di o elemento de ordem i de d e sd o i-simo elemento da diagonal de
i

Sd.

(n 1) p
Para n-p grande; F () aproxima-se da distribuio 2p ( ) , e a
(n p ) p,n-p

normalidade no mais necessria.

Os intervalos de confiana simultneos de Bonferroni a 100(1-)% para as

mdias individuais de diferena, i , so

2
s di
i: di tn-p
2p n


onde tn-p o percentil de ordem 100(/2p) de uma distribuio t com n-p graus
2p

de liberdade.

62
Exemplo 6.1: Um conjunto de 11 amostras de gua foi enviado a dois

laboratrios para a anlise da necessidade oxignio bioqumico (NOB) e de slidos

suspensos (SS). Os dados so apresentados a seguir:

Laboratrio 1 Laboratrio 2
Amostra j x11j (NOB) x12j (SS) x21j (NOB) x22j (SS)
1 6 27 25 15
2 6 23 28 33
3 18 64 36 22
4 8 44 35 29
5 11 30 15 31
6 34 75 44 64
7 28 26 42 30
8 71 124 54 64
9 43 54 34 56
10 33 30 29 20
11 20 14 39 21

Ser que os resultados provenientes dos dois laboratrios coincidem? Se existir

diferena, de que tipo ?

A estatstica T2 para o teste H0: = [ 1 , 2 ] = [ 0 , 0 ] contra H0: 0

construda a partir das observaes de diferenas:

d1j = x11j - x21j -19 -22 -18 -27 -4 -10 -14 17 9 4 -19

d2j = x12j - x22j 12 10 42 15 -1 11 -4 60 -2 10 -7

63
Ento,

d 1 9.36 199.26 88.38


d = = ; Sd = e
d 1 13.27 88.38 418.61

.0055 .0012 9.36


T2 = 11 [-9.36; 13.27] = 13.6
.0012 .0026 13.27

(n 1) p 2 (10)
Com = .05; encontramos Fp;n-p(.05) = 9 F2;9(.05) = 9.47
(n p)

Como T2 = 13.6 > 9.47, rejeitamos H0 e conclumos que existe uma diferena

mdia no nula entre as medies dos dois laboratrios. Dos dados parece

evidente que o primeiro laboratrio tende a produzir medies mais baixas para

NOB e mais altas para SS do que o segundo laboratrio.

Os intervalos de confiana simultneos a 95% para as mdias das diferenas

1e2 so, respectivamente,

(n 1) p s d21 199.26
d1 F p ,n p ( ) = -9.36 9.47 ou (-22.46 ; 3.74)
(n p) n 11

(n 1) p s d21 418.61
d2 F p ,n p ( ) = 13.27 9.47 ou (-5.71 ; 32.25)
(n p) n 11

O intervalo de confiana simultneo a 95% inclui o valor zero e, no entanto, como

vimos, a hiptese H0: = 0 foi rejeitada.

De facto, o ponto = 0 encontra-se fora da regio de confiana a 95%, o que

consistente com o teste T2. Os intervalos de confiana simultneos dizem respeito

ao conjunto de todos o conjunto de intervalos que podem ser construdos a partir

das possveis combinaes c11 + c22, de que os intervalos calculados

64
correspondem s escolhas (c1 = 1, c2 = 0) e (c1 = 0, c2 = 1). Estes intervalos

contm o valor zero; no entanto, outras escolhas para c1e c2 produzem intervalos

simultneos que no contm zero. Sabemos, sim , que se a hiptese H0: = 0 no

tivesse sido rejeitada, todos os intervalos simultneos incluiriam zero. Os intervalos

de Bonferroni tambm cobrem o valor zero.

6.2 Comparaes em desenhos de medidas repetidas

Outra generalizao da estatstica t univariada consiste no caso de q

tratamentos serem comparados relativamente a uma nica varivel de resposta. Cada

indivduo ou unidade experimental recebe o tratamento uma vez em vrios perodos

de tempo. A observao de ordem j

X1j
X
2j
.
Xj = j = 1, 2, , n
.
.

X qj

onde Xij corresponde ao tratamento de ordem i no indivduo ou unidade experimental

j.

Representando por C a matriz de contraste onde as q-1 linhas so linearmente

independentes, podemos formular a hiptese de que no h diferenas nos

tratamentos (igualdade das mdias dos tratamentos) fazendo C = 0, qualquer que

seja a escolha da matriz de contraste C.

Considerando uma populao Np(, ), uma matriz de contraste C e um nvel

, a hiptese H0: C = 0 rejeitada em relao hiptese H1: C 0 se

65
_ _ (n 1)(q 1)
T2 = n (Cx ) (CSC)-1 Cx > F ()
(n q + 1) q-1,n-q+1

onde Fq-1,n-q+1() o percentil de ordem 100 de uma distribuio F, com q-1 e n-

q+1 graus de liberdade.

A regio de confiana para os contrastes C determinada pelo conjunto de

todos os C tal que

_ _ (n 1)(q 1)
n (Cx - C) (CSC)-1 (Cx - C) F ()
(n q + 1) q-1,n-q+1

Consequentemente, os intervalos simultneos de confiana a 100(1-)% para

um nico contraste c dado por

_ (n 1)(q 1) c ' Sc
c : cx Fq 1, n q +1 ( )
(n q + 1) n

Exemplo 6.2: Num teste de eficcia de um novo anestsico, foi escolhida uma

amostra de 19 ces aos quais foi administrado dixido de carbono (CO2) a dois

nveis de presso (alto e baixo), seguido da adio de halotano (H) e da repetio

de dixido de carbono.

Presente

Halotano

Ausente
Baixo Alto
CO
2

66
tratamento 1 = CO2 alto sem H tratamento 3 = CO2 alto com H

tratamento 2 = CO2 baixo sem H tratamento 4 = CO2 baixo com H

Os dados referentes aos milisegundos entre batidas do corao esto

apresentados a seguir:

Tratamento
Co 1 2 3 4
1 426 609 556 600
2 253 236 392 395
3 359 433 349 357
4 432 431 522 600
5 405 426 513 513
6 324 438 507 539
7 310 312 410 456
8 326 326 350 504
9 375 447 547 548
10 256 286 403 422
11 349 382 473 497
12 429 410 488 547
13 348 377 447 514
14 412 473 472 446
15 347 326 455 468
16 434 458 637 524
17 364 367 432 469
18 420 395 508 531
19 397 556 645 625

Com base neste desenho de medidas repetidas, vamos analisar os efeitos

anestsicos da presso de CO2 e do halotano. Representando por 1, 2, 3, e

4, respectivamente, as respostas mdias nos tratamentos 1, 2, 3 e 4, estamos

interessados nos seguintes trs contrastes de tratamento:

67
(3 + 4) - (1 + 2) contraste halotano, representando a diferena entre a

presena e a ausncia do halotano

(1 + 3) - (2 + 4) contraste CO2, representando a diferena entre as presses

baixa e alta de CO2

(1 + 4) - (2 + 3) contraste interaco, representando a influncia do halotano

nas diferenas de presso de CO2

1 1 1 1
Com = [1 2 3 4] , a matriz de contraste C = 1 1 1 1
1 1 1 1

368.21 2819.19 . . .
_ 404.63 .
Dos dados acima, x = e S = 3568.42 7963.14 .
479.26 2943.49 5303.98 6851.32 .

502.89 2295.35 4065.44 4499.63 4878.99

_ 209.31 9432.32 1098.92 927.62


Ento; Cx = 60.05 , CSC = 1098.92 5195.84
914.54
12.79 927.62 914.54 7557.44

_ _
e T2 = n (Cx ) (CSC)-1 (Cx ) = 19 (6.11) = 116.

(n 1)(q 1) 18(3) 18(3)


Com = .05, F () = F3;16(5) = (3.24) = 10.94.
(n q + 1) q-1;n-q+1 16 16

Como T2 = 116 > 10.94, rejeitamos H0: C = 0 (no h efeitos do tratamento).

Para detectarmos quais os contrastes responsveis pela rejeio de H0,

construmos os intervalos simultneos de confiana a 95% para estes contrastes.

Assim, a influncia de halotano estimada pelo intervalo

68

18 (3) c1Sc1
(x
3 + x4 ) - (x1 + x2 ) 16 F3,16(.05) 19

9432.32
= 209.31 10.94 = 209.31 73.70
19

Do mesmo modo, os contrastes restantes so estimados por

influncia da presso CO2 = (1 + 3) - (2 + 4):

5195.84
= -60.05 10.94 = -60.05 54.70
19

interaco H - CO2 = (1 + 4) - (2 + 34):

7557.44
= -12.79 10.94 = -12.79 65.97
19

Podemos ver, do primeiro intervalo, que existe um efeito do halotano. A presena

do halotano produz tempos mais longos entre batidas do corao, o que acontece

a ambos os nveis de presso de CO2 (pois o contraste de interaco no

significativamente diferente de zero). O segundo intervalo de confiana tambm

indica que h um efeito devido presso de CO2, provocando as baixas presses

maiores tempos entre batidas.

H, no entanto, que referir que estes resultados devem ser encarados com

algum cuidado, uma vez que as experincias com halotano tem necessariamente de

ser realizadas aps as experincias sem halotano. Assim, o efeito encontrado

derivado presena do halotano pode tambm ser derivado ao factor tempo.

69
6.3 Comparaes entre duas populaes

tambm possvel compararmos as respostas obtidas em duas populaes.

Consideremos uma amostra aleatria de tamanho n1 de uma populao 1 e uma

amostra de tamanho n2 de uma populao 2. As observaes em p variveis so tais

que:

Amostra Estatsticas

Populao 1 = 1
n1 n1

(x
1
x 1 x1 j S1 = 1j x 1 )(x1 j x 1 )
n1 n1 1
x11, x12, , x1n1 j =1 j =1

Populao 2 =
n2 n2

(x
1 1
x 2 x2 j S2 = 2j x 2 )(x 2 j x 2 )
n2 n2 1
x21, x22, , x2n2 j =1 j =1

Pretendemos inferir acerca da diferena entre os vectores mdia de ambas as

populaes (1 - 2). Ser que 1 = 2 (isto , 1 - 2 = 0)? E se 1 - 2 0, que

mdias so diferentes?

Para se responder a estas questes, h que se partir de alguns pressupostos. Assim,

A amostra X11, X12, , X1n1 aleatria de comprimento n1 de uma populao

p-variada com vector mdia 1 e matriz de covarincia 1.

A amostra X21, X22, , X2n2 aleatria de comprimento n2 de uma populao

p-variada com vector mdia 2 e matriz de covarincia 2.

X11, X12, , X1n1 so independentes de X21, X22, , X2n2.

70
Alm disto, quando n1 e n2 so pequenos,

Ambas as populaes so normais multivariadas.

Igual matriz de covarincia (1 = 2 = ).

Neste ltimo caso h, portanto necessidade de estimar a covarincia comum ,

fazendo

n1 n2


j =1
(x1 j x 1 )(x 1 j x1 ) + (x
j =1
2j x 2 )(x 2 j x 2 )
Scomum =
n1 + n 2 2

(n1 1)S 1 + (n 2 1)S 2


=
n1 + n 2 2

1 1
Como Scomum estima , podemos afirmar que + Scomum um estimador
n1 n 2


de Cov(X1 - X2 ).

Sendo dado o teste H0: 1 - 2 = 0 contra H1: 1 - 2 0; rejeitamos H0 se

-x - ) 1 1 -1 - ) > c2
T2 = (x 1 2 0 + S comum (x1 - x 2 0
1
n n 2

(n1 + n 2 2) p
onde c2 = F ().
(n1 + n 2 p 1) p,n1+n2-p-1

71
Exemplo 6.3: 50 barras de sabo so fabricadas de cada um de dois

processos e duas caractersticas X1 = espuma e X2 = suavidade so medidas.

Foram obtidas as seguintes estatsticas:

_ 8.3 2 1
x1= S1 =
4.1 1 6

_ 10.2 2 1
x2= S1 =
3.9 1 4

Obter uma regio de confiana a 95% para 1 - 2.

Como S1 e S2 so aproximadamente iguais, faz sentido encontrar-se uma matriz

comum de covarincias:

(50 1)S 1 + (50 1)S 2 2 1


Scomum = =
50 + 50 2 1 5

_ _ 1 .9
Como x 1 - x 2 = , a elipse de confiana est centrada em [-1.9; .2], sendo
.2

os valores e vectores prprios de Scomum obtidos atravs da equao

2 l 1 2
0 = S comum I =
= - 7 + 9.
1 5 l

Deste modo; 1 = 5.303 e1 = [ .290; .957 ]

2 = 1.697 e2 = [ .957; -.290 ]

1 1 2 1 1 (98)(2)
Alm disso; + c = + F2,97(.05) = .25
1
n n 2 50 50 (97)

72
1 1 2
A elipse de confiana estende-se i + c = i .25 unidades segundo o
n1 n 2

vector prprio ei; isto ; 1.15 unidades na direco de e1 e .65 unidades na

direco de e2. bvio que 1 - 2 = 0 no pertence elipse sendo, portanto,

possvel concluirmos que os dois mtodos de fabricao de sabo produzem

resultados diferentes. Parece que os dois tipos de sabo tm a mesma suavidade,

produzindo o segundo maior espuma.

73
74
7
Anlise de componentes principais e anlise factorial

7.1 Introduo

Os nomes que compem o ttulo deste captulo so frequentemente usados de

uma maneira menos precisa, chegando mesmo a acontecer que investigadores

afirmem que esto a levar a cabo uma anlise factorial quando, de facto, esto a

proceder a uma anlise de componentes principais.

Consideremos as variveis 'temperatura' e 'horas de sol' numa determinada

regio. O valor 0.9 de coeficiente de correlao entre ambas as variveis pode ser

representado pelo ngulo entre estas variveis, quando representadas vectorialmente.

A questo que a anlise factorial pretende responder a seguinte

Podem estes dois vectores ser substitudos por um nico vector de

referncia, denominado factor, de tal modo que retenha a maior parte da

informao respeitante correlao existente entre as variveis originais?

Intuitivamente parece que o melhor vector de referncia o que divide ao meio

o ngulo de 25 entre os dois vectores. Na Figura 7.1. a varivel 'temperatura'

representada por T, as 'horas de sol' por S e o vector de referncia por F1. Este

vector faz um ngulo de 12.5 com T e com S. O coseno de 12.5, igual a 0.976,

representa a correlao entre T e F1 e entre S e F1. Na linguagem da anlise

factorial, a correlao entre uma varivel e um factor denominada peso (loading) da

varivel no factor.

75
Tambm j vimos que o quadrado do
F1
coeficiente de correlao, R2, representa a T S
quantidade da varincia partilhada por ambas as

variveis. No nosso caso, a quantidade de varincia


a
b
partilhada por T e F1 (0.976)2 = 0.95, tambm

chamada varincia do factor comum.

A varincia explicada pelo factor F1 atravs de T e de Figura 7.1 Diagrama


vectorial representando o
S obtida pela soma dos quadrados dos pesos de T
primeiro vector de
e de S em F1, isto , (0.9762)2+(0.9762)2=1.9. ^ =
referncia F1 ( = b
12.5)

Como a varincia total de cada uma das variveis T e S 1, a varincia

mxima que pode ser extrada por F1 igual a 1 + 1 = 2 e, portanto, a percentagem

1.9
da varincia extrada por F1 2 x100 = 95. Isto j nos d 95% da representao da

relao entre ambas. No entanto, para obter a imagem completa, temos de desenhar

o outro vector F2, fazendo um ngulo recto (ou ortogonal) com F1.

F1
T S

b
a
F2

Figura 7.2 Diagrama vectorial representando dois vectores de referncia F1 e F2

76
^ = 77.5)
( = 102.5 ; b

Os ngulos formados por T e S com F2 so, respectivamente, 102.5 e 77.5,

correspondendo aos pesos cos(102.5) = -0.216 e cos(77.5) = 0.216. A varincia

extrada por F2 (-0.216)2 + (0.216)2 = 0.1 e a percentagem de varincia extrada

5%.

Estes resultados podem ser resumidos na seguinte tabela:

Variveis Factores Comunalidade

1 2

T 0.976 -0.216 1.0

S 0.976 0.216 1.0

Varincia extrada 1.9 0.1 2.0

Percentagem da varincia 95 5 100

A ltima coluna, a comunalidade, encontrada pela soma das varincias do

factor comum. Assim, por exemplo para T, temos (0.976)2 + (-0.216)2 = 1.0 que

corresponde quantidade de varincia que partilhada com as outras variveis.

7.2 Componentes principais

Com a anlise das componentes principais pretende-se explicar a estrutura

das varincias-covarincias atravs de algumas combinaes lineares das variveis

originais. Embora as p componentes sejam necessrias para reproduzir toda a

variabilidade do sistema, normalmente grande parte desta variabilidade pode ser

77
atribuda a um nmero menor k de componentes principais. Existir, assim, quase

tanta informao quanta a existente com as p variveis originais. As k componentes

principais podem substituir as p variveis e o conjunto inicial de dados, com n

medies em p variveis, pode ento ser reduzido num conjunto de n medies em k

variveis.

A anlise das componentes principais utilizada mais como um meio do que

como um fim, constituindo um passo intermdio para investigaes mais extensas,

como por exemplo, as baseadas em regresses ou anlises de agrupamentos

(clusters).

Algebricamente, as componentes principais so combinaes lineares das p

variveis aleatrias X1, X2, , Xp e correspondem geometricamente seleco de

um novo sistema de coordenadas. Sendo apenas dependentes da matriz de

covarincias (ou da matriz de correlaes) as componentes principais no

necessitam, para a sua construo, do pressuposto da normalidade multivariada.

Sendo dada a matriz de covarincias associada ao vector aleatrio X' = [ X1,

X2, , Xp ] e os pares de valores-vectores prprios (1, e1), (2, e2), , (p, ep),

onde 1 2 p so todos no nulos, a componente principal de ordem i

dada por

Yi = ei, ' X = e1i X1 + e2i X2 + + epi Xp i = 1, 2, , p

As componentes principais so no correlacionadas [ Cor(Yi, Yk) = e'i ek = 0 (i k)]

e tm varincias iguais aos valores prprios de [ Var(Yi) = e'i ei = i (i = 1, 2, ,

p) ].

78
' X , Y2 = e2
Alm disso, se Y1 = e1 ' X , , Yp = ep
' X forem as

componentes principais,

p p
11 + 22 + + pp =
j =1
Var ( X i ) = 1 + 2 + + p = Var (Y )
j =1
i

Varincia total da populao = 11 + 22 + + pp = 1 + 2 + + p

Proporo da varincia
total da populao

k
devida componente = , k = 1,2, , p
+ 2 + + p
principal de ordem k 1

Os coeficientes de correlao entre as componentes Yi e as variveis Xk (i, k = 1,

e ki i
2, , p) so dados por =
Yi, Xk kk

Exemplo 7.1: Suponhamos que as variveis X1, X2 e X3 possuem a seguinte

matriz de covarincias:

1 2 0
= 2 5 0
0 0 2

Pode ser verificado que os pares valores-vectores prprios so:

1 = 5.83 ' = [ .383; -.924; 0 ]


e1

2 = 2.00 ' = [ 0; 0; 1 ]
e2

3 = 0.17 ' = [ .924; .383; 0 ]


e3

79
As componentes principais so ento,

' X = .383 X1 - .924 X2


Y1 = e1

' X = X3
Y2 = e2

' X = .924 X1 - .383 X2


Y3 = e3

Facilmente se v, por exemplo, que

Var(Y1) = Var(.383 X1 - .924 X2)

= (.383)2 Var(X1) + (-.924)2 Var(X2) - 2(.383)(-.924) Cov(X1, X2)

= 5.83 = 1

Cov(Y1, Y2) = Cov(.383 X1 - .924 X2, X3)

= .383 Cov(X1, X3) - .924 Cov(X1, X3)

= 0

Verifica-se tambm que

11 + 22 + 33 = 1 + 5 + 2 = 1 + 2 + 3 = 5.83 + 2.00 + .17 = 8

A proporo da varincia total devida primeira componente principal

1 5.83
= = .73
1 + 2 + 3 8

80
5,83 + 2
e as primeiras duas componentes principais so responsveis por = 98% da
8

varincia da populao. Neste caso as componentes Y1 e Y2 podem substituir as

trs variveis originais com pouca perda de informao.

e11 l1 .383 5.83


Finalmente, como = = = .925
Y1, X1 11 1

e 21 l1 .924 5.83
= = = -.998
Y1, X2 22 5

podemos concluir que X1 e X2 so, cada um, igualmente importantes para a

primeira componente principal. Alm disto,

e32 l 2 2
= = 0 e = = = 1
Y2, X1 Y2, X2 Y2, X3 33 2

As restantes correlaes podem ser desprezadas uma vez que a terceira

componente no importante.

' x , y2 = e2
As componentes principais y1 = e1 ' x , , yp = ep
' x posicionam-se

nas direces dos eixos do elipside de densidade constante. Assim, qualquer ponto

no eixo de ordem i do elipside tem x coordenadas proporcionais a e'i x = [ e1i, e2i,

, epi ] e, necessariamente, coordenadas das componentes principais da forma [ 0,

, 0, yi, 0, , 0 ].

A Figura 7.3 uma elipse de densidade constante e as componentes principais para

um vector aleatrio normal bivariado com = 0 e = .75. Podemos ver que as

81
componentes principais so obtidas rodando o sistema inicial de coordenadas de um

ngulo at coincidir com os eixos da elipse de densidade constante. O mesmo

vlido para p > 2.

x
2

y
1
y
2

x
1

Figura 7.3 - Elipse de densidade constante e as componentes principais y1 e y2

Embora no necessariamente iguais s obtidas anteriormente, podemos

tambm encontrar as componentes principais para as variveis estandardizadas. A

componente principal de ordem i das variveis estandardizadas Z' = [ Z1, Z2, , Zp ]

com Cov (Z) = dada por

Yi = e'i Z = e'i (V1/2) -1 (X - ), i = 1, 2, , p

Alm disto, sendo (1, e1), (2, e2), , (p, ep) os pares valores-vectores

prprios de com 1 2 p 0,

p p
j =1
Var (Yi ) = Var (Z ) =
j =1
i p

= eki i (i, k = 1,2, , p )


Yi; Zk

82
Proporo da varincia total
da populao estandardizada
devida componente
k
= , k = 1,2, , p
principal de ordem k p

1 4
Exemplo 7.2: Consideremos a matriz de covarincias = e a
4 100

1 .4
correspondente matriz de correlaes =
.4 1

Os pares valores-vectores prprios de so 1 = 100.16 ' = [ .040; .999 ]


e1

2 = .84 ' = [ .999. -.040 ]


e2

e, para , 1 = 1 + = 1.4 ' = [ .707. .707 ]


e1

2 = 1 - = .6 ' = [ .707; -.707 ]


e2

As correspondentes componentes principais so ento, para :

Y1 = .040 X1 + .999 X2

Y2 = .999 X1 - .040 X2

e para :

X 1 1 X 2 2
Y1 = .707 Z1+.707 Z2 = .707 +.707 = .707 (X1 - 1) +.0707 (X2 - 2)
1 10

X 1 1 X 2 2
Y2 = .707 Z1 -.707 Z2 = .707 -.707 = .707 (X1 - 1) -.0707 (X2 - 2)
1 10

83
Devido sua maior varincia, X2 domina completamente a primeira componente

1
principal obtida a partir de . Esta primeira componente principal explica =
1 + 2

100.16
= .992 da varincia total da populao.
101

Contudo, quando as variveis X1 e X2 so estandardizadas, as variveis

resultantes contribuem de modo idntico para as componentes principais obtidas

de . Assim, como

= e11 1 = .707 1.4 = .837 e = e21 1 = .707 1.4 = .837


Y1, Z1 Y1, Z2

1 1.4
a primeira componente principal explica = = .7 da varincia total da
p 2

populao estandardizada.

Do exemplo anterior pode concluir-se que as componentes principais obtidas


de so diferentes das obtidas de . Alm disso, um conjunto de componentes
principais no uma funo simples do outro, dando, portanto valor
estandardizao.

Exemplo 7.3: Sejam x1, x2, x3, x4 e x5 observaes semanais das taxas de

retorno das aces de cinco empresas (Allied Chemical, DuPont, Union Carbide,

Exxon e Texaco). Aps 100 semanas consecutivas, obteve-se

_
x ' = [ .0054; .0048; .0057; .0063; .0037 ]

84
1.000 .577 .509 .387 .462
.577 1.000 .599 .389 .322

e R = .509 .599 1.000 .436 .426

.387 .389 .436 1.000 .523
.462 .322 .426 .523 1.000

Os valores prprios e os correspondentes vectores prprios normalizados de R so

1 = 2.857 ' = [ .464, .457, .470, .421, .421 ]


e1

2 = .809 ' = [ .240, .509, .260, -.526, -.582 ]


e2

3 = .540 ' = [ -.612, .178, .335, .541, -.435 ]


e3

4 = .452 ' = [ .387, .206, -.662, .472, -.382 ]


e4

5 = .343 ' = [ -.451, .676, -.400, -.176, .385 ]


e5

Usando as variveis estandardizadas, obtermos as primeiras duas componentes

principais

' z = .464 z1 + .457 z2 + .470 z3 + .421 z4 + .421 z5


y1 = e1

' z = .240 z1 + .509 z2 + .260 z3 - .526 z4 + .582 z5


Y2 = e2

1 + 2 2.857 + .809
Estas componentes, que explicam 100% = 100% = 73% tm
p 5

uma interpretao interessante. A primeira componente consiste num ndice das

cinco aces e pode ser chamada 'componente de mercado'. A segunda

componente representa um contraste entre as aces de empresas qumicas

(Allied Chemical, DuPont e Union Carbide) e as aces das empresas petrolferas

(Exxon e Texaco) podendo ser denominado componente industrial.

85
As restantes componentes, de difcil interpretao, representam no seu conjunto a

variao provavelmente especfica de cada aco.

7.3 Anlise factorial

O objectivo essencial da anlise factorial descrever, se possvel, as relaes

de covarincia entre as vrias variveis em termos de um nmero reduzido de

quantidades aleatrias subjacentes, mas no observveis, chamadas factores.

A anlise factorial pode ser vista como uma extenso da anlise das

componentes principais, uma vez que ambas podem ser encaradas como

aproximaes matriz das covarincias. Contudo, a aproximao feita pelo modelo da

anlise factorial mais elaborada e centra-se na anlise da consistncia dos dados

com uma estrutura pr-definida.

Considerando o vector aleatrio X de dados observados, com p componentes,

mdia e matriz de covarincias , o modelo factorial parte do conceito de que X

linearmente dependente de algumas variveis no observveis F1, F2, , Fm,

chamados factores comuns, e p fontes de variao 1, 2, , m, chamados erros ou

factores especficos.

Numa forma matricial, o modelo de anlise factorial

X L F
= +
( p 1) ( p m) (m 1) ( p 1)

ou seja,

X1 - 1 = l11 F1 + l12 F2 + + l1m Fm + 1

86
X2 - 2 = l21 F1 + l22 F2 + + l2m Fm + 2

Xp - p = lp1 F1 + lp2 F2 + + lpm Fm + p

onde i representa a mdia da varivel i, i o factor especfico de ordem i, Fi o

factor comum de ordem i e lij o peso (loadings) da varivel i no factor j.

Alm disso, as variveis aleatrias F1, F2, , Fm, assim como os erros 1, 2,

, m no so observveis, o que permite distinguir este modelo da representao

linear onde os X independentes podem ser observados.

Para este modelo partimos do pressuposto que

0
E(F) = ; Cov(F) = E[FF'] =
(m 1) ( m m)

1 0 0
0 2 0
0
E() = ; Cov() = E['] = =
( p 1) ( p p) . . .

0 0 p

0
F e so independentes; isto ; Cov(; F) = E( F') =
( p m)

Como j atrs vimos, comunalidade representa a parte da varincia da varivel i

devida aos m factores comuns. Deste modo, a varincia de Xi pode ser dada por

2
Var(Xi) = comunalidade hi + varincia especfica i

87
[
ii = l i1 2 + l i1 2 + + l i1 2 + i]

Exemplo 7.4: Consideremos a matriz de covarincias

19 30 2 12
30 57 5 23
=
2 5 38 47

12 23 47 68

A igualdade = L L' + , ou seja,

19 30 2 12 4 1 2 0 0 0
30 57 5 23 7 2 4 7 1 1 0 4 0 0
= +
2 5 38 47 1 6 1 2 6 8 0 0 1 0

12 23 47 68 1 8 0 0 0 3

pode ser verificada pela lgebra matricial. Deste modo, tem a estrutura produzida

por um modelo factorial ortogonal com m=2.

l 11 l 12 4 1 1 0 00 2 0 0 0
l 7 0 0 0
l 22 2 2 0 4 0 0
Sendo L = 21 = e = =
l 31 l 32 1 6 0 0 3 0 0 0 1 0

l 41 l 42 1 8 0 0 0 4 0 0 0 3

a comunalidade de X1

2 2 2 2 2
h1 = l 11 + l 12 = 4 + 1 = 17

e a varincia de X1 pode ser decomposta da seguinte maneira

2
11 = h1 + 1 = 17 + 2 = 19

As restantes variveis podem ser decompostas de maneira anloga.

88
Infelizmente, quando o nmero m de factores muito menor do que o nmero

p de variveis, a maioria das matrizes de covarincia no podem ser factorizadas da

forma L L' + . H, neste caso, necessidade de se utilizarem mtodos de estimao

apropriados para L e e se proceder previamente a algumas transformaes

ortogonais, sabendo ns de antemo que, quer os pesos, quer as comunalidades, no

so alterados por qualquer transformao ortogonal.

Comecemos pela estimao. A matriz de covarincia amostral S um

estimador da matriz de covarincia desconhecida da populao. Se os elementos

fora da diagonal de S so pequenos (ou os correspondentes valores em R

essencialmente nulos), as variveis no esto relacionadas e a anlise factorial no

se apresenta de muita utilidade, uma vez que, neste caso, os factores especficos

desempenham um papel fundamental, no fazendo sentido a construo dos factores

comuns.

Se se desvia significativamente de uma matriz diagonal, ento faz sentido

usar-se um modelo factorial, sendo primeiramente necessrio estimar-se os pesos l11

e as varincias especficas 1. De entre os mtodos existentes para a estimao

destes parmetros, usaremos, neste captulo, apenas o mtodo das componentes

principais, que passaremos a expor. As solues encontradas podero ento ser

rodadas (atravs de transformaes) com vista a uma melhor interpretao.

A anlise factorial de componentes principais da matriz amostral S de

covarincias, usando uma decomposio espectral, especificada em termos dos

89
seus pares de valores-vectores prprios estimados ( l 1, e 1); ( l 2, e 2), , ( l p, e p)

onde l 1 l 2 l p. Sendo m < p o nmero dos factores comuns; a matriz dos

~
pesos factoriais estimados { l ij} dada por

~ = l e | l e | | l e
L

m

1 1 2 2 m

As varincias especficas estimadas so fornecidas pelos elementos da

diagonal da matriz S - ~
L~L ';

~1
0
~2
0
m
= ~l 2ij
~ 0 0 ~ i = sii -
com
. . .
0 0 ~ p

j=1

e as comunalidades so estimadas da forma que se segue

~2 2 2 2
hi = ~l i1 + ~l i2 + + ~l im

H que notar que a anlise factorial das componentes principais da matriz

amostral de correlaes obtida de maneira idntica, comeando pela matriz R em

vez de S. Alm disso, os pesos factoriais estimados para um determinado factor no

so alterados quando o nmero de factores aumenta. A proporo da varincia

amostral total devida ao factor j dada por:

para uma anlise factorial de S:

Proporo da varincia amostral = j


total devida ao factor j s11 + s 22 + + s pp

90
para uma anlise factorial de R:

Proporo da varincia amostral = j


total devida ao factor j p

Exemplo 7.5: Voltando ao Exemplo 8.3 referente s n=100 observaes

semanais das taxas de retorno das aces de p=5 empresas qumicas e onde se

encontraram as primeiras duas componentes principais obtidas a partir de R, fcil

determinar as solues das componentes principais para o modelo ortogonal com

m=1 e m=2. Assim, para encontrar os pesos factoriais estimados basta multiplicar

os coeficientes das componentes principais amostrais (vectores prprios de R) pela

razes quadradas dos correspondentes valores prprios.

A seguir, so apresentados os pesos factoriais estimados F, as comunalidades, as

varincias especficas e a proporo da varincia total (estandardizada) amostral

explicada por cada factor, para as solues com m=1 e com m=2.

Soluo 1 factor Soluo 2 factores


Pesos factoriais Varincias Pesos factoriais Varincias
estimados especficas estimados especficas
~ ~ ~ ~
Varivel F1 i = 1 hi2 F1 F2 i = 1 hi 2

1. Allied Chemical .783 .39 .783 -.217 .34


2. DuPont .773 .40 .773 -.458 .19
3. Union Carbide .794 .37 .794 -.234 .31
4. Exxon .713 .49 .713 .472 .27
5. Texaco .712 .49 .712 .524 .22
Proporo da varincia total .571 .571 .733
(estandardizada) amostral
explicada

A matriz residual correspondente soluo para m=2 factores

91
0 .127 .164 .069 .017
.127 0 . 122 . 055 .012

~L
R-L ~'-
~ = .164 .122 0 .019 .017

.069 .055 .019 0 .232
.017 012 .017 .232 0

A proporo da varincia total explicada pela soluo com dois factores

apreciavelmente maior do que a correspondente soluo com apenas um factor.

Mais uma vez se v que o primeiro factor F1 representa condies econmicas

gerais e pode ser chamado factor de mercado, todas as aces tm um peso alto e

todos os pesos so mais ou menos iguais. O segundo factor, que permite a

separao das empresas qumicas com aces de petrleo das empresas qumicas

sem aces de petrleo, pode ser denominado factor de indstria.

Como j vimos anteriormente, todos os pesos factoriais obtidos pelos pesos

iniciais atravs de uma transformao ortogonal tm idntica capacidade de produzir a

matriz de covarincia (ou de correlao). Ora, pela lgebra matricial sabemos que

uma transformao ortogonal corresponde a uma rotao rgida dos eixos

coordenados. Por esta razo, a uma transformao ortogonal dos pesos factoriais

damos o nome de rotao factorial.

Se L uma matriz pm de pesos factoriais estimados obtidos por um qualquer

mtodo, ento L * = L T (onde TT' = T'T = I) a matriz pm de pesos aps rotao.

Como consequncia directa da rotao, a matriz residual mantm-se inalterada, assim

i e as comunalidades h2 . Isto significa que, sob o


como as varincias especficas i i

ponto de vista matemtico, imaterial usarmos L ou L *.

92
Exemplo 7.6: Consideremos a seguinte matriz de correlaes referentes s

notas em p=6 reas de n=220 alunos de uma escola:

Port Franc Hist Aritm lgeb Geomet

1.0 .439 .410 .288 .329 .248


1.0 .351 .354 .320 .329

1.0 .164 .190 .181
R=
1.0 .595 .470
1.0 .464

1.0

A soluo para m=2 factores comuns apresentada a seguir:

Factores rodados Comunalidades


F1 F2 hi2

1. Portugus .553 .429 .490


2. Francs .568 .288 .406
3. Histria .392 .450 .356
4. Aritmtica .740 -.273 .623
5. lgebra .724 -.211 .569
6. Geometria .595 -.132 .372

Todas as variveis tm pesos positivos no primeiro factor, factor geral de

inteligncia. No entanto, em relao ao segundo factor, h bipolarizao entre as


~ ~
disciplinas matemticas e as no-matemticas. Os pares ( li21 ; li22 ) de pesos

factorias esto apresentados na Figura 7.4.

93
F2
0.5
Histria
Portugus
0.4

0.3 Ingls
0.2

0.1

0 F1
0 0.2 0.4 0.6 0.8
-0.1
Geometria
-0.2 lgebra
Aritmtica
-0.3

Figura 7.4 Pesos factoriais

Rodando o sistema de eixos de = 20, fazemos com que o transformado do eixo

2 2
F1 passe pelo ponto (~l 41 ; ~l 42 ), como o representado na Figura 7.5.

*
F F
2 2
0.5
Histria Portugus
0.4

0.3 Ingls
0.2

0.1

0 F
1
-0.1
0 0.2 0.4 0.6 0.8
Geometria
-0.2 lgebra
Aritmtica
-0.3
*
F
1
Figura 7.5 Rotao factorial

94
Quando isto feito todos os pontos se encontram no primeiro quadrante (todos os

pesos factoriais so positivos) e os dois grupos de variveis so evidenciados. Isto

corresponde seguinte tabela de pesos estimados aps rotao.

Pesos factoriais estimados


aps rotao Comunalidades

Varivel F1* F2* 2 = h2


h* i i
1. Portugus .369 .594 .490
2. Francs .433 .467 .406
3. Histria .211 .558 .356

4. Aritmtica .789 .001 .623


5. lgebra .752 .054 .569
6. Geometria .604 .083 .372

Como se pode verificar; as comunalidades no se alteraram.

Ora, esta rotao pode ser conseguida analiticamente, por exemplo atravs do

*
l ij
critrio varimax. Considerando ~ *
l ij = , o procedimento varimax selecciona a
*
hi

transformao ortogonal T tal que maximiza

p ~*22
l ij
p 4 i=1
V = p ~
1 m
j=1
*
l ij -
i=1
p

importante salientar-se que as rotaes ortogonais so apropriadas para

modelos factoriais onde se pressupe que os factores so independentes. Caso isso

se no verifique existem rotaes oblquas (no ortogonais), mas que no se regem

pelo modelo atrs indicado.

95
For fim, falta ainda debruarmo-nos um pouco sobre um problema prtico

referente ao nmero de factores a escolher e a utilizar numa anlise especfica. Um

dos critrios mais vulgares reter apenas factores com valores prprios maiores do

que 1, quando usada a matriz de correlaes. Outra alternativa analisar o grfico

dos valores prprios e parar a anlise no ponto onde a linha deste grfico comea a

ser quase paralela com o eixo horizontal. Este ltima alternativa; denominada teste de

base de montanha (scree test) est ilustrada na Figura 7.6.

0
0 2 4 6 8 10 12

Factor

Figura 7.6 Exemplo de um teste de base de montanha

Segundo este grfico o investigador concluiria que no deveriam ser extrados mais

de cinco factores.

96
97
8
Anlise de agrupamentos (clusters)

8.1 Introduo

Uma outra tcnica exploratria de dados aquela que pesquisa a existncia

de grupos naturais de indivduos ou de variveis. A aplicao desta tcnica no

pressupe qualquer caracterstica da estrutura do agrupamento; apenas se baseia em

medidas de semelhana ou de distncia entre objectos e na escolha de critrios de

agregao.

De uma maneira geral, esta anlise passa pelas seguintes fases:

1. Seleco da amostra de indivduos a agrupar;

2. Definio de variveis para permitir o agrupamento dos indivduos;

3. Definio de uma medida de semelhana ou de distncia;

4. Escolha de um critrio de agregao ou desagregao

5. Validao dos resultados encontrados.

8.2 Medidas de semelhana

A escolha das medidas de semelhana envolve sempre uma grande

componente de subjectividade para alm das caractersticas das variveis e das

escalas usadas para a medio. Normalmente os indivduos so agrupados custa

98
de distncias. As variveis podem, por exemplo, ser agrupadas com base no

coeficiente de correlao.

8.2.1 Medidas de distncia

De entre as vrias medidas normalmente utilizadas para determinar a distncia

entre elementos de uma matriz de dados, destacam-se as seguintes:

1. Distncia Euclideana a distncia entre dois indivduos i e j a raiz quadrada do

somatrio dos quadrados das diferenas entre os valores de i e j para todas as

variveis:

p
d ij = .( x
k =1
ik x jk ) 2

2. Quadrado da distncia Euclideana a distncia entre dois indivduos i e j o

somatrio dos quadrados das diferenas entre os valores de i e j para todas as

variveis:

p
d ij2 = .( xik x jk ) 2
k =1

3. Distncia absoluta (city block) a distncia entre dois indivduos i e j o somatrio

dos valores absolutos das diferenas entre os valores de i e j para todas as

variveis:

p
d ij = xik x jk .
k =1

4. Distncia de Minkowski generalizao da distncia absoluta (para m=1) e da

distncia Euclideana (para m=2):

99
m 1m
p
d ij = xik x jk
k =1

5. Distncia generalizada (de Mahalanobis) medida que utiliza a matriz das

varincias:

d ij = (xi x j ) (x xj )
' 1
i

Para exemplificar a utilizao destas medidas consideremos a seguinte matriz

de 5 observaes em 3 variveis:

X1 X2 X3
1 1,06 9,2 151
2 1,10 9,2 245
3 1,34 13,0 168
4 1,43 15,4 113
5 1,16 11,7 104

As matrizes a seguir apresentam as medies das distncias para a matriz de

dados.

Distncia Euclideana 1 2 3 4
2 94,0
3 17,4 77,1
4 38,5 132,1 55,0
5 47,1 141,0 64,0 9,7

Quadrado da distncia Euclideana 1 2 3 4


2 8836,0
3 303,5 5943,5
4 1482,6 17462,5 3030,8
5 2215,3 19887,3 4097,7 94,8

Distncia absoluta (city block) 1 2 3 4


2 94,0
3 21,1 81,0
4 44,6 138,5 57,5

100
5 49,6 143,6 65,5 13,0

Distncia generalizada (de Mahalanobis) 1 2 3 4


2 36,6
3 21,4 34,0
4 40,0 35,5 19,0
5 21,2 33,8 40,0 18,8

Como se pode ver, principalmente quando a distncia generalizada

comparada com as outras, as variveis que apresentam variaes e unidades de

medidas elevadas tendem a anular o efeito das outras variveis.

8.2.2 Medidas de associao

Por outro lado, todas estas variveis so quantitativas. No entanto, tambm as

variveis qualitativas podem ser introduzidas neste tipo de anlise custa da sua

transformao em variveis binrias, com o valor 1 no casos da presena de uma

determinada caracterstica de interesse e 0 nos casos contrrios.

Considerando os indivduos i e j, medidos atravs de p variveis binrias,

constri-se a tabela seguinte

Indivduo j Totais
Indivduo i 1 0
1 a b a+b
0 c d c+d
Totais a+c b+d

onde a corresponde ao nmero de caractersticas existentes (valor 1) em ambos os

indivduos, d ao nmero de caractersticas ausentes (valor 0) em ambos os indivduos,

101
b ao nmero de caractersticas presentes em i e ausentes em j, e c ao nmero de

caractersticas ausentes em i e presentes em j.

Alguns dos coeficientes de emparelhamento e de semelhana so os

apresentados a seguir:
a+d
1 Igual peso s as presenas e as ausncias simultneas;
a+b+c+d
2(a + d )
2 Peso duplo s presenas e ausncias simultneas;
2(a + d ) + b + c
a+d
3 Peso duplo s situaes discordantes; incluso das
a + d + 2(b + c)
ausncias simultneas
2a
4 Peso duplo s presenas ausncias simultneas;
2a + b + c
excluso das ausncias simultneas.
a
5 Peso duplo as situaes discordantes; excluso das
a + 2(b + c)
ausncias simultneas.
a
6 Quociente entre presenas simultneas e situaes
b+c
discordantes; excluso das ausncias simultneas.

Suponhamos agora outros cinco indivduos com as seguintes caractersticas:

Indivduo Altura (cm) Peso (Kg) Olhos Cabelo Canhoto Sexo


1 173 64 Verdes Louros No Fem
2 185 84 Castanhos Castanhos No Masc
3 170 75 Azuis Louros No Masc
4 163 54 Castanhos Castanhos No Fem
5 193 95 Castanhos Castanhos Sim Masc

Definamos as seis variveis binrias X1, X2, X3, X4, X5, e X6 do seguinte modo:

1 altura 183 cm 1 cabelo louro


X1 = X4 =
0 altura < 183 cm 0 cabelo no louro

102
1 peso 68 Kg 1 no canhoto
X2 = X5 =
0 peso < 68 Kg 0 canhoto

1 cabelos cas tanh os 1 sexo fe min ino


X3 = X6 =
0 cabelos no cas tanh os 0 sexo masculino

As pontuaes para os indivduos 1 e 2 para as 6 variveis so

Indivduo X1 X2 X3 X4 X5 X6

1 0 0 0 1 1 1

2 1 1 1 0 1 0

E o nmero de coincidncias so indicadas pela tabela de duas entradas:

Indivduo 2 Totais
Indivduo 1 1 0
1 1 2 3
0 3 0 3
Totais 4 2 6

a+d 1+ 0 1
Utilizando o primeiro coeficiente de semelhana, obtemos = = e,
a+b+c+d 6 6

continuando, a seguinte matriz:

103
1 2 3 4 5

1 1
2 1 1
6
3 4 3 1
6 6
4 4 3 2 1
6 6 6
5 0 5 2 2 1
6 6 6

o que demonstra que os indivduos 2 e 5 so mais semelhantes entre si e que os

indivduos 1 e 5 so menos semelhantes entre si. Os dois subgrupos que se podiam

criar eram (1 3 5) e (2 5).

Todos estes coeficientes de semelhana sij podem variar entre 0 e 1 e a sua

relao com as distncias dij permite a sua construo atravs da frmula:

1
s ij =
1 + dij

8.3 Critrios de agregao e desagregao

No processo de agrupamento h necessidade de estimar as distncias entre

os grupos j formados e outros grupos ou indivduos. Tambm aqui no existe o

melhor mtodo de desagregao, tendo o investigador que utilizar vrios critrios e

comparar os resultados.

De entre os critrio de agregao mais utilizados podemos citar o critrio do

vizinho mais prximo (single linkage), o critrio do vizinho mais afastado (complete

linkage), o critrio da mdia dos grupos (average linkage), o critrio do centride e o

critrio de Ward

104
8.3.1 Critrio do vizinho mais prximo (single linkage)

Dados dois grupos (i,j) e (k), a distancia entre eles igual menor distncia

entre os elementos dos dois grupos, isto ,

d (i , j ) k = min{d ik ; d jk }

Com este critrio, cada indivduo ter mais tendncia para se agrupar a um grupo j

definido do que para formar o ncleo de um novo grupo. Isto constitui uma

desvantagem, principal responsvel pela fraca utilizao deste critrio.

8.3.2 Critrio do vizinho mais afastado (complete linkage)

Dados dois grupos (i,j) e (k), a distancia entre eles igual maior distncia

entre os elementos dos dois grupos, isto ,

d (i , j ) k = max{d ik ; d jk }

Com este critrio, cada grupo passa a ser definido como o conjunto dos indivduos em

que cada um mais semelhante a todos os outros do grupo do que a qualquer outro

elemento. Os grupos assim criados so mais compactos

105
8.3.3 Critrio da mdia dos grupos (average linkage)

Dados dois grupos (i,j) e (k), a distancia entre eles a mdia entre todos os

pares de indivduos constitudos por todos os elementos dos dois grupos.

Constitui-se como uma estratgia intermdia das restantes.

8.3.4 Critrio do centride

Dados dois grupos, a distancia entre eles a distncia entre os respectivos

centrides, mdia das variveis caracterizadoras dos indivduos de cada grupo.

8.3.5 Critrio de Ward

Este critrio baseia-se na comparao entre a aplicao da medida da soma

dos quadrados dos desvios das observaes em relao mdia dos grupos.

Primeiro so calculadas as mdias das variveis de cada grupo; em seguida,

calculado o quadrado da distncia Euclideana entre essas mdias e os valores das

variveis para cada indivduo. Por fim, somam-se as distncias para todos os

indivduos e optimiza-se a varincia mnima dentro dos grupos.

106
107
Referncias bibliogrficas

Aldenferfer MS, Blashfield RK. Cluster analysis. Sage university paper series on

quantitative applications in the social sciences, 07-044. Beverly Hills: Sage, 1984.

Alt M. Exploring hyperspace . A non-mathematical explanation of multivariate analysis.

London: McGraw-Hill, 1990.

Bryman A, Cramer D. Anlise de dados em cincias sociais: introduo s tcnicas

utilizando o SPSS. Oeiras: Celta Editora, 1992.

Dunteman GH. Principal componentes analysis. Sage university paper series on

quantitative applications in the social sciences, 07-069. Beverly Hills: Sage, 1989.

Hair JF, Anderson RE, Tatham RL, Black WC. Multivariate data analysis. Englewood

Clifs: Prentice-Hall, 1995.

Jobson JD. Applied multivariate analysis. Volume II: Categorical and multivariate

methods. New York: Springer-Verlag, 1992.

Johnson RA, Wichern D. applied multivariate analysis. Englewood Cliffs, NJ:

Prentice-Hall, 1988.

Kim J-O, Mueller C. Introduction to factor analysis. Sage university paper series on

quantitative applications in the social sciences, 07-013. Beverly Hills: Sage, 1978.

108
Kim J-O, Mueller C. Factor analysis. Statistical methods and practical issues. Sage

university paper series on quantitative applications in the social sciences, 07-014.

Beverly Hills: Sage, 1978.

109

Você também pode gostar