Você está na página 1de 15

Inferencias sobre o vetor de Media

(Johnson & Wichern, Cap. 5)


Considere o problema univariado no qual tem-
se uma amostra aleatoria de tamanho n da
distribuicao N(,
2
), em que ambos os para-
metros de media e variancia sao desconheci-
dos.
A estatstica dada por
t =

X
_
s
2
/n
tem distribuicao t-de-Student com n1 graus
de liberdade.

X =
1
n

n
i=1
X
i
, s
2
=
1
n1

n
i=1
(X
i


X)
2
e
X
1
, X
2
, ..., X
n
compoem a amostra aleatoria da
N(,
2
).
1
Tomando o quadrado da estatstica t, observe
que ela pode ser escrita na forma
t
2
=

n(

X )
T
_
s
2
_
1
n(

X ).
Esta ultima expressao nos sugere uma versao
multivariada desta estatstica, a saber,
T
2
= n(

X )
T
S
1
(

X ),

X =
1
n

n
i=1
X
i
,
S =
1
n1

n
i=1
(X
i

X)(X
i

X)
T
e X
1
, X
2
, ..., X
n
compoem uma amostra aleatoria da N
p
(, ).
A estatstica T
2
e chamada estatstica T
2
de
Hotelling em homenagem a Harold Hotelling,
pioneiro na Analise Multivariada e o primeiro a
obter a sua distribuicao amostral.
2
Proposicao 1: Sejam X
1
, X
2
, ..., X
n
uma amostra
aleatoria da distribuicao N
p
(, ) e
T
2
= n(

X )
T
S
1
(

X ).
Entao
n p
(n 1)p
T
2
F
p,np
.
Natureza da estatstica T
2
:

n(

X )
T
. .
N
p
(0,)
(
Wp(n1,)
n1
)
1
..
_
1
n 1
n

i=1
(X
i


X)(X
i


X)
T
_

n(

X )
. .
N
p
(0,)

n(

X ) e

n
i=1
(X
i


X)(X
i


X)
T
independentes.
3
Considere o problema de testar as hipoteses
H
0
: =
0
versus H
1
: =
0
quando se tem
uma amostra aleatoria da distribuicao normal
multivariada.
A estatstica de teste neste caso sera dada por
T
2
= n(

X
0
)
T
S
1
(

X
0
).
Sob H
0
, a estatstica T
2
tem distribuicao
(n1)p
np
F
p,np
de acordo com a proposicao 1.
Assim, ao nvel de signicancia , rejeitamos
H
0
se
T
2

(n1)p
np
F
p,np(1)
com F
p,np(1)
representando o quantil de
100(1 )% da distribuicao F
p,np
.
4
Exemplo: A transpiracao de 20 mulheres sau-
daveis foi analisada. As observacoes aqui sao
tri-variadas, a saber, X
1
- taxa de suor, X
2
-
conteudo de sodio e X
3
- conteudo de potassio.
Os dados estao disponveis no arquivo t5-1.dat
dos autores. Deseja-se testar, ao nvel de sig-
nicancia de 10%, as hipoteses
H
0
:
T
= (4, 50, 10) versus H
1
:
T
= (4, 50, 10).
Os dados foram salvos no arquivo suor.txt com
primeira linha informando os nomes das varia-
veis, a saber, suor, sodio e potassio, no di-
retorio www.im.ufrj.br/avia/mad484.
Lembrem-se antes de vericar a normalidade
dos dados!
5
dados=read.table(http://www.im.ufrj.br/avia/mad484/
suor.txt,header=T)
A normalidade univariada e simples e rapida de
ser vericada e a distribuicao normal univariada
e aceitavel para as tres medidas isoladamente.
Fa ca
xbarra=mean(dados), S=cov(dados),
IS=solve(S), m0=c(4,50,10),
n=20, p=3, a=0.1,
T2=n*(xbarra-m0)% *%IS% *%(xbarra-m0)
RC=(n-1)*p*qf(1-a,p,n-p)/(n-p)
Compare T2 com RC.
6
Obteve-se
T2 9.738773 9.74 e
RC 8.172573 8.17.
Logo, ao nvel de signicancia de 10%, rejeita-
mos a hipotese nula.
Qual e o p-valor deste teste?
Calcule T2*(n-p)/[p*(n-1)] e obtenha a cauda
superior da distribuicao F
p,np
associada a este
valor.
qpv=T2*(n-p)/((n-1)*p) 2.904546
p-valor=1 pf(qpv, p, n p) 0.06492834
6.5%.
Portanto, para qualquer nvel de signicancia
menor que 6,5%, H
0
nao seria rejeitada.
7
A estatstica T
2
e invariante sob transforma coes
de escala e posicao.
Dena Y = CX+d, com X p1, Y p1 vetores
aleatorios, d vetor de constantes xadas p 1
e C matriz p p nao-singular de constantes
xadas.
Entao,

Y = C

X +d e S
Y
= CS
X
C
T
.
Alem disso,

Y
= C
X
+d.
Assim,
T
2
Y
= n(

Y
Y
)
T
_
S
1
Y
_
(

Y
Y
) =
= n(C

X C
X
)
T
(CS
X
C
T
)
1
(C

X C
X
) =
= n(

X
X
)
T
C
T
(C
T
)
1
. .
I
p
S
1
X
C
1
C
. .
I
p
(

X
X
) =
= n(

X
X
)
T
S
1
X
(

X
X
) = T
2
X
8
A Estatstica T
2
e os Testes de Razao de Veros-
similhanca.
Uma metodologia muito usada na construcao
de testes de hipoteses e conhecida como teste
da razao de verossimilhancas (teste RV).
Em linhas gerais se temos uma amostra aleato-
ria de uma distribuicao que depende de um
parametro , que pode ser um escalar ou um
vetor, cuja densidade e f
n
(x|) e desejamos
testar
H
0
:
0
versus H
1
:
0
, a estatstica
do teste RV e dada por
(x) =
max

0
L(|x)
max

L(|x)
com L(|x) a funcao de verossimilhanca.
9
Observe que a estatstica (x) e um numero
entre 0 e 1.
Se o maximo sob H
0
for o maximo global, te-
remos (x) = 1.
Caso contrario, (x) < 1 e como (x) repre-
senta uma razao entre quantidades positivas,
segue que 0 < (x) 1.
Assim, e razoavel dizer que a hipotese nula sera
rejeitada para valores pequenos de (x) tal que
as regioes crticas nos testes RV sao da forma
(x) c.
Para obter o valor de c e necessario conhecer a
distribuicao amostral de (x). Esta distribuicao
nem sempre e facil de ser obtida e muitas vezes
sao necessarios metodos aproximados para ava-
liar o valor de c para um dado nvel de sig-
nicancia.
10
Distribuicao Assintotica da estatstica
2ln
a

2

0
em que e a dimensao do espaco de parametros
e
0
e a dimensao do sub-espaco correspon-
dente `a hipotese nula.
Vamos calcular a estatstica (x) no contexto
do teste das hipoteses
H
0
: =
0
versus H
1
: =
0
, quando se tem
uma amostra aleatoria da distribuicao normal
multivariada.
11
Ja vimos que o maximo global da funcao de
verossimilhanca e obtido quando =

X e

=
n1
n
S e e dado por
L( ,

) = (2)
np/2
|

|
n/2
e
np/2
.
Portanto, ja temos o denominador da estatstica
(x), neste caso.
Para obter o numerador, observe que sob H
0
ha apenas um valor possvel para dado por

0
. Neste caso, usando os resultados apre-
sentados na secao de estimacao de maxima-
verossimilhanca, e facil ver que a matriz que
maximiza a verossimilhanca sob H
0
e dada por

0
=
1
n

n
i=1
(X
i

0
)(X
i

0
)
T
.
12
Assim, o numerador de (x) e
L(
0
,

0
) = (2)
np/2
|

0
|
n/2
e
np/2
Logo,
=
_
|

|
|

0
|
_
n/2
=
_
|

n
i=1
(X
i


X)(X
i


X)
T
|
|

n
i=1
(X
i

0
)(X
i

0
)
T
|
_
n/2
A estatstica equivalente
2/n
= |

|/|

0
| e
chamada lambda de Wilks.

E facil, por meio de artifcios algebricos, mostrar


que as estatsticas T
2
e para o teste aqui
considerado satisfazem a relacao

2/n
=
_
1 +
T
2
n 1
_
1
e, usando esta relacao, chegamos a uma outra
expressao para o calculo da estatstica T
2
:
T
2
=
(n1)|

0
|
|

|
(n 1).
13
Calcule a estatstica do teste RV para os dados
da base suor.txt. Verique a relacao entre as
estatsticas T
2
e .
Aqui sera necessario corrigir os dados pela media

0
dada por (4, 50, 10).
dados.m0=matrix(0,20,3)
m0=matrix(0,1,3)
m0[1,1]=4, m0[1,2]=50, m0[1,3]=10
for (i in 1:n) for (j in 1:p) dados.m0[i,j]=dados[i,j]-m0[1,j]
S0=matrix(0,3,3)
for (i in 1:n) S0=S0+dados.m0[i,]%*%t(dados.m0[i,])
S0=S0/n, Shat=(n-1)*S/n
T2.b=(n-1)*(det(S0)/det(Shat)-1)
T2.b 9.738773 que e exatamente o mesmo valor, como
esperado, obtido anteriormente.
14
Conteudo do captulo 5 a ser cobrado na P1:
Secoes 5.1 a 5.3.
Exerccios sugeridos: 5.1 a 5.4.
15

Você também pode gostar