Escolar Documentos
Profissional Documentos
Cultura Documentos
Apontamentos de Aulas
Frederico Cavalcanti
1 Populações e Amostra
Para ilustrar a idéia acima, suponhamos que um pesquisador (veterinário) observou que
88 dentre 400 cães de uma determinada raça, apresentavam marcas no pelo,
diferentemente dos demais. O veterinário então concluiu que as marcas eram
hereditárias, e, reguladas por uma lei que estabelece em 25%, o número esperado de
cães, daquela raça, com a referida marca. Se ele supõe que a lei é hereditária, e se,
representarmos por X a variável aleatória que se identifica ao número de cães que
possuem a marca, dentre outros 400 cães da mesma raça, então de acordo com a teoria
das probabilidades a variável aleatória X tem distribuição Binomial de parâmetros 400 e
0,25, e
k 400 k
400 1 3
P X k , k=0,1,...,400 (1.1)
k 4 4
Se o pesquisador não tivesse formulado a hipótese de que 1/4 dos cães possuíam a
marca, ele poderia escolher a mesma distribuição com a probabilidade 1/4 substituída
pela frequência relativa 0,22. Através de (1.1) seria possível ao pesquisador fazer
predições acerca de futuros conjuntos de 400 cães da mesma raça.
Definição 1.1
População é uma coleção de objetos que possuem uma ou mais características de
interesse.
Definição 1.1-a
População consiste na totalidade das observações possíveis de um fenômeno em estudo.
001101011110101011100........001111001011
(1.2)
N dígitos
Num instante de tempo t, fixado, o percentual exato de cães com a marca, é a razão
entre o número de 1’s (ou a soma dos 10.000 dígitos) na seqüência, dividido por N.
Na prática, em geral, devido a impossibilidade de consulta à toda a população,
tomamos apenas n < N observações escolhidas aleatoriamente. A este conjunto de n
observações chamamos de amostra da população.
Definição 1.2
Amostra é um subconjunto de observações selecionadas de uma população.
Para que nossas conclusões sobre o fenômeno sejam válidas, a amostra deve ser
representativa da população. A escolha de conjuntos de observações “mais
convenientes”, frequentemente introduz tendenciosidade na amostra e, como resultado,
conclusões falsas sobre as características de interesse. Para evitar isto, é desejável que a
escolha das observações seja feita com base em algum mecanismo de chance. Uma
amostra obtida através de uma seleção aleatória é denominada amostra aleatória.
Em quaisquer dos casos, a seleção de uma amostra é uma experiência aleatória e cada
observação na amostra é um valor observado de uma variável aleatória X. O conjunto de
observações da população, conforme Definição 1.1-a, determina a distribuição de
probabilidades da variável aleatória X.
Exemplo 1.1
Em um grupo de 100 alunos, 68 têm 18 anos, 24 têm 17 anos, 7 têm 19 e 1 tem 16 anos.
Selecionar aleatoriamente um aluno desta população significa atribuir a cada um a
probabilidade 0,01 de seleção. A variável aleatória X de interesse é a idade e tem a
seguinte distribuição de probabilidades:
Idade 16 17 18 19
Probabilidade 0,01 0,24 0,68 0,07
Uma amostra pode ser obtida com reposição (1) ou sem reposição (2) e em quaisquer
dos casos todas as variáveis X1 , X 2 ,..., X n , tem distribuição comum igual à de X. Em
(1) é muito clara a afirmativa porque antes de cada seleção a população é restaurada à
sua condição original. No caso (2), a afirmativa não é tão clara mas também permanece.
Exemplo 1.2
Uma urna contem b bolas brancas e r bolas vermelhas. Cinco bolas são retiradas
sucessivamente, com reposição (sem reposição). Seja X1 , X 2 ,..., X 5 uma amostra de
tamanho n = 5, da variável X representativa da característica “cor da bola”.
X 2 1 X1 1, X 2 1 X1 0, X 2 1
A diferença básica entre as seleções (1) e (2) não é nas distribuições marginais, pois em
ambos os casos elas são idênticas, conforme se constatou no exemplo 1.2. No entanto,
no caso (1) o resultado de qualquer seleção não é afetado pelo resultado de quaisquer
outras, ou seja, as observações são fenômenos aleatórios independentes. No caso (2) as
observações não são independentes.
Esta descrição atende (1) mas não se refere necessariamente a uma “população”
tangível, da qual selecionamos objetos e os devolvemos em seguida. No entanto,
podemos imaginar uma população infinita de possíveis observações ou resultados.
Podemos selecionar aleatoriamente um resultado deste conjunto e, a seguir, realizar a
mesma seleção com o mesmo conjunto de resultados disponível da primeira vez.
Repetindo o experimento obteremos uma amostra aleatória que atende (1) e (3) e nos
dois casos as observações são independentes e identicamente distribuídas.
Definição 1.3
Uma amostra aleatória de tamanho n de uma variável aleatória X é um conjunto
X1 , X 2 ,..., X n , de variáveis aleatórias independentes, todas com a mesma distribuição
de X.
Uma amostra aleatória de tamanho n, considerada como um vetor X X1 , X 2 ,..., X n ,
define uma variável aleatória n-dimensional, com uma especificada função de
distribuição F x1 , x 2 ,...., x n , e, por serem independentes as variáveis componentes da
amostra, escrevemos F x1 , x 2 ,...., x n F x1 F x 2 ....F x n , onde as funções de
distribuição F x i , i= 1,2,3...,n são idênticas à função de distribuição de X.
À n-úpla x1 , x 2 ,..., x n R denominaremos realização da variável n-dimensional
n
*****
2 Estatística Descritiva
Assimilar e sintetizar as informações contidas em uma amostra, descrever e comparar
amostras e tomar decisões com base nas observações amostrais requer um mínimo de
organização e redução dos dados disponíveis. O termo estatística representa uma
medida descritiva, calculada a partir das observações da amostra, e portanto, o valor de
uma estatística depende dos valores obtidos na amostra.
Definição 2.1
Uma estatística é uma função das observações da amostra.
A mediana da amostra é definida pelo valor central (se existe um número ímpar de
observações) ou a média dos dois valores centrais (se existe um número par de
observações), na lista de observações ordenadas. Isto pode ser denotado por,
X n 1 se n é impar
2
X mediana (2.1)
1
X n X n se n é par
2 2 1
2
Sx S2x
(2.4)
dividido por n-1. Isto pode ser justificado pelo que desenvolveremos a seguir.
n
Como sabemos x
i 1
i x 0 , e por consequência, podemos obter quaisquer uma das
x1 f1 f1 x1 x1 x f1
2
x2 f2 f2 x 2 x2 x f2
2
. . .
. . .
xk fk fk x k xk x
2
fk
x i
n
x f i i x k x fk
2
1 k 1 k
x ifi x i x fi
2
x e sx
2
n i 1 n 1 i 1
1.5- Use uma tabela de dígitos aleatórios e a teoria da transformada integral (vide
Apêndice A.4) para gerar 50 valores de uma população X, exponencial de média 2.
a) construa uma tabela de freqüência por intervalos de classe.
b) faça o histograma correspondente.
c) obtenha a média e variância amostral.
d) calcule a probabilidade empírica do evento (X>3) e compare-a com a probabilidade
teórica.
1.6 - Em uma pequena e hipotética cidade do interior do Brasil existem 10.000 adultos
que eventualmente assistem futebol pela TV, um determinado número X de horas,
semanalmente. Assim, neste período de tempo, X assume os valores 0,1,2,...,9 e para
cada um desses níveis há 1000 adultos.
a) Faça uma representação gráfica da distribuição de X.
b) Use uma tabela de dígitos aleatórios para selecionar 100 adultos (cem valores de X).
c) Calcule a média da população.
d) Calcule a média amostral x . Ela está mais próxima à , do que a maioria das
observações?
e) Ilustre a análise em (d) através de uma equação.
1.7- Use uma tabela de dígitos aleatórios e a teoria da transformada integral para gerar
50 valores de uma população X, geométrica de média 3.
a) construa uma tabela de freqüência por intervalos de classe.
b) faça o histograma correspondente.
c) obtenha a média e variância amostral.
d) calcule a probabilidade empírica do evento (X>3) e compare-a com a probabilidade
teórica.
1.8 - Use uma tabela de dígitos aleatórios e a teoria da transformada integral para gerar
100 valores de um população normal de média 2 e desvio padrão 0,5.
a) construa uma tabela de freqüência por intervalos de classe.
b) faça o histograma correspondente.
c) obtenha a média e variância amostral.
d) calcule a probabilidade empírica do evento (X<1) e compare-a com a probabilidade
teórica.
3 Distribuições de Amostragem
Definição 3.1
Uma variável aleatória G n G X1 , X 2 ,..., X n definida como uma função das variáveis
aleatórias componentes de uma amostra é chamada Estatística.
Não há um critério geral estabelecido teoricamente que nos permite dizer se uma
amostra é grande ou não. Isto depende da estatística em análise. Uma amostra pode ser
considerada grande para uma estatística e insuficiente para outra estatística.
Definição 3.2
Se X1 , X 2 ,..., X n é uma amostra de uma variável aleatória X, chama-se média da
1 n
amostra, à estatística G n definida por X Xi
n i 1
Seja X uma variável aleatória com média e variância 2 . Definida uma amostra
aleatória de tamanho n de X, temos:
1 n 1 n 1
E X E X i E X i n
n i 1 n i 1 n
(3.1)
Obs: o fato da média da estatística X ser igual a média de X, não significa que a média
amostral x de uma particular amostra seja necessariamente igual a . A interpretação
correta é a seguinte: fixado um valor de n, se realizarmos todas as amostras possíveis de
tamanho n da variável aleatória X, a média dos x ’s encontrados é igual a .
Exercício proposto:
Considere a população constituída pelo conjunto 2,5, 6, 7 . Defina todas as amostras
4
possíveis de tamanho 3, num total de 4 . Calcule os valores de x k , k 1, 2,3, 4
3
e verifique a observação comentada.
1 n 1 n
1 2
VAR X VAR X i 2 VAR X i 2 n
2
(3.2)
n i 1 n i 1 n n
Obs: Convém registrar que a variância da média da amostra, para n > 1, é sempre menor
que variância de X.
Teorema 3.1
Seja X a média da amostra X1 , X 2 ,..., X n de uma variável aleatória com média e
desvio padrão . Nestas condições X converge em probabilidade para a média de X.
2
O teorema é facilmente comprovado, pois lim VAR X lim 0 , e, aplicando-se a
n n n
Encontrar a distribuição exata de uma estatística pode em alguns casos ser muito
complicado. Contudo há métodos que freqüentemente são usados para resolver este tipo
de problema. Vamos usar propriedades das funções características, para determinar a
distribuição de X quando X tem distribuição normal de parâmetros e .
Gráfico 3.2.1.
Gráfico 3.2.2
As regiões hachuradas nos gráficos correspondem às probabilidades de X e X
assumirem valores no intervalo (1,3) e mostram claramente a maior concentração de X
em torno da média 2, comparativamente à distribuição de X.
Vale lembrar, a título de revisão, que o TLC, impõe apenas que as variáveis
X i , i=1,2,...,n sejam independentes e identicamente distribuídas (i.i.d.), com mesma
média e variância. Como as variáveis aleatórias componentes de amostra aleatória
satisfazem esta condição, a aplicação do Teorema quando n é suficientemente grande,
resolve assintoticamente o problema de determinar a distribuição da estatística X ,
independentemente da origem populacional..
Exemplo 3.2
Se a variável aleatória X tem distribuição exponencial (), então sua função
1
it 1 n
característica é X t 1 . Sendo X X i , sua função característica é
n i 1
n
it
n
X t X t , e por conseqüência, X t 1 , de forma que X tem
n n
distribuição Gama de parâmetros n e n. A título de ilustração e revisão, verificamos
n 1
que E X que é a média de X exponencial ().
n
Exemplo 3.3
Sejam X j , j=1,2,...,n variáveis aleatórias independentes com distribuição de Poisson
(). Para encontrar a distribuição exata de X , recordemos que a função característica de
X j , para todo j , é igual a X t exp ei t 1 , de forma que a função
i nt
característica de X é igual a X t exp n e 1 . Ora, esta é a função
característica de uma variável aleatória de Poisson Modificada, de parâmetros n e . A
variável aleatória X assume determinações de X, divididas por n, isto é, X assume
1 2 3
valores j 0, , , ,... e sua média é igual .
n n n
n
n k
k e
PX , k=0,1,2,....
n k!
Definição 3.3
Se X1 , X 2 ,..., X n é uma amostra de uma variável aleatória X, chama-se variância da
1 n
Xi X
2
amostra, à estatística G n definida por S
2
n 1 i 1
Dada uma amostra X1 , X 2 ,..., X n de uma variável aleatória X com média e desvio
padrão , as variáveis Xi , i = 1,2,...,n são identicamente distribuídas, com mesma
distribuição de X, e, por conseqüência, elas tem os mesmos momentos de X. Assim,
E X i2 E X 2 VAR X E 2 X , para todo i = 1,2,..,n , ou seja,
E X i2 E X 2 2 2 .
Por outro lado, como X tem média e desvio padrão n , também podemos
2 2
escrever que E X 2 + .
n
n 2 1 n 2
E X i X n 1 2 E Xi X 2 (3.3)
i 1 n 1 i 1
Definição 3.4
Se X1 , X 2 ,..., X n é uma amostra de uma variável aleatória X, chama-se desvio padrão
da amostra, à estatística G n definida por
1 n
Xi X
2
S S2
n 1 i 1
i 1 i 1 i 1
Recordemos que Z
i 1
2
i e Y1 tem distribuições qui-quadrado com n e 1
1 n Xi X
Z
n i 1
e Z Z X X
i
i
X X
2
X n n
n 1 S2
Z Z
2
i) Z é independente de i
i 1
i
i 1 2 2
ii)
n 1 S2
é uma variável qui-quadrado com (n-1) graus de liberdade.
2
(1) Use propriedades de funções características para provar a afirmação, Apêndice A1.1
(2) Vide caso geral no Apêndice A2.2
Teorema 3.2
Se X1 , X 2 ,..., X n é uma amostra aleatória de uma variável X com
distribuição normal de média e desvio padrão , então
- as estatísticas X e S2 são independentes.
-
n 1 S2 tem distribuição qui-quadrado com (n-1) graus de
2
liberdade
Definição 3.5
Sejam X, X1 , X 2 ,..., X n variáveis aleatórias independentes, todas com
distribuição N(0, 2 ). Dizemos que T tem distribuição de Student com n
graus de liberdade se
X
T
1 n 2 .
Xi
n i 1
A variável T pode ser apresentada alternativamente como segue: sabemos
X X
que Z e Zi i tem distribuição normal padrão, isto é N(0,1), para
todo i = 1,2,...,n . Substituindo-se esses valores em T, obtemos:
Z Z
T e T=
1 n 1 n 2 (3.6)
Zi Zi
2
n i 1 n i1
Z
Tn
2n , onde Z é N(0,1) (3.7)
n
Gráfico 2
.
Gráfico 3
Teorema 3.3
A seqüência Fn t de funções de distribuição de Student com n graus de
1
t
t2
liberdade satisfaz, para todo t, a relação lim Fn t 2 dt .
exp
n 2
Obs:
Vide na tabela da função de distribuição de Student , à página 230,
que para n “igual” a os pontos desta distribuição coincidem com os
da distribuição normal normal padrão com referência aos valores da
FZ z mais freqüentemente usados.
Gráfico 4
1 n 1 m
X i X e Sy Yi Y
2 2
S
2
x
2
(3.10)
n 1 i 1 m 1 i 1
2 2
Conforme estabelecido no Teorema 3.2 as variáveis Sx e Sy são tais que
n 1 S2x m-1 S2y
e tem distribuição qui-quadrado com (n-1) e (m-1)
2 2
graus de liberdade.
S2
Nessas condições, definimos uma variável aleatória Fn 1,m 1 S2 , com
x
n m 2 n m n
1 mn
n 2 m 2 y 2 m ny 2
f Fn ,m (y) y > 0 (3.11)
n 2 m 2
A tabela no Apêndice A3.4, fornece os pontos f n,m,k da distribuição Fn,m ,
para os quais P 0 Fn ,m f n ,m,k k , k=0.50, 0.75, 0.90, 0.95 e 0.99.
2n n 2m m 1
Recordemos que Fn ,m Fm,n , e desta forma Fn ,m F , o
m m
2
n n
2
m,n
1 1 1 1
P Fn ,m f n ,m,k k P k P 1 k
Fn ,m f n ,m,k Fn ,m f n ,m,k
1 1
P Fm,n 1 k f m,n,1-k
f n ,m,k f n,m,k
1 n 1 m
Yi Y .
2 2
S2x X i X e S2
y
n 1 i 1 m 1 i 1
E X Y E X E Y 0
2 2 nm
VAR X Y VAR X VAR Y 2
n m nm
X Y
X Y é
N 0; n m nm e
n m é N(0,1) (3.12)
nm
Sendo um parâmetro desconhecido, devemos substituí-lo por uma
estatística da amostra que é a média ponderada das variâncias das
amostras, ou seja
S2p
n 1 S2X m 1 S2Y (3.13)
nm2
Notemos que
n m 2 S2p n 1 S2X m 1 S2Y
Exercício proposto:
Estudar a distribuição da Diferença entre as Médias de duas amostras
independentes das variáveis X e Y, com distribuição
N X , e N Y , .
2 2
Exercícios Propostos 3.
3.1 - Seja X uma variável aleatória não negativa, do tipo contínuo, tal que
FX q 0,75 0, 75 . Consideremos uma amostra aleatória de tamanho n de X.
a) qual a probabilidade de que todos os valores Xi , i = 1,2,...,n sejam
maiores do que q 0,75 ?
b) Se X 1 e X n são as estatísticas de ordem mínimo e máximo da amostra,
respectivamente, calcule P X 1 q 0,75 X n .
c) para um valor de n suficientemente grande explique o significado das
probabilidades calculadas em (a) e (b).
n i 1
momento central de segunda ordem da amostra . Mostre que M2 e X
são variáveis aleatórias independentes e determine a distribuição de M2 .
2 16 i 1
3.10- Suponha que X1 , X 2 ,..., X10 seja uma amostra de uma variável
aleatória N(0, ) . Determine o valor de c de tal forma que a variável
1/ 2
10 2
aleatória 1 2 X i tenha distribuição de Student. Quantos graus
c X X /
i 3
de liberdade tem T?
4. Estimação Pontual.
Ele assim o fez, por ter encontrado 88 cães com aquela característica, o
que corresponde a 0,22 de n. Os valores 0,25 e 0,22 são o que
chamaremos de estimativas da proporção p de cães que possuem a tal
marca no pelo.
Definição 4.1
Uma estimativa pontual de algum parâmetro populacional é um valor
numérico ̂ de uma estatística ̂ .
- a média de um população.
- a variância (ou desvio padrão ) de uma população.
- a proporção p de itens de uma população que possuem um
determinado atributo.
- a diferença das médias de duas populações.
Definição 4.2
Se X1 , X 2 ,..., X n é uma amostra de uma variável aleatória X, chama-se
1 n
Xi
s
momento (ordinário) de ordem s da amostra, à estatística M s
n i 1
s= 1,2,3....
Exemplo 4.1
Suponha que X1 , X 2 ,..., X n seja uma amostra aleatória de uma variável
aleatória X com distribuição exponencial de parâmetro . Sabemos que o
1
primeiro momento de X é igual a E X 1 X e o primeiro momento
1 n
da amostra é M1 Xi . O método dos momentos consiste em resolver a
n i 1
equação
1 1
M1
ou X=
1 n
n
De forma que
Xi . Se uma amostra de tamanho n = 6 da
X
i 1
variável X apresenta os valores 45.7 , 38.6 , 58.8 , 21.3 , 39.0 e 45.2 então
248, 60 1
x 41, 43 e a estimativa para é igual a 0, 024 .
6 41, 43
Exemplo 4.2
Se X é uma variável aleatória cuja função de densidade depende de sua
média de sua variância 2 , então obtemos os estimadores dos
parâmetros obtidos pelo método dos momentos conforme segue,
1 X
2 X 2 2
Daí, resolvemos a sistema
X
2 M 2 X 2
ou
1 n
Xi
n i 1
2
1 n 1 n 1 n
X i2 X i 2 X i X
2 2
n i 1 n i 1 n i 1
Exemplo 4.3
Suponha X uniformemente distribuída no intervalo ; . Como E(X) =
0, ou seja, independente de , calcularemos o segundo momento de X e o
igualaremos ao momento de segunda ordem da amostra:
x2 2
2 X 2 dx
3
Assim, o estimador de pelo método dos momentos é
2
3M
M2 2
3
Exercícios Propostos 4.1
4.1.1 - O número de clientes que demandam a um posto do INSS durante o
intervalo de tempo de 10 minutos é supostamente regulado por uma Lei de
Poisson de parâmetro . Em um certo período de 10 minutos (por exemplo
de 10hs às 10hs e 10min) durante 10 dias consecutivos foram feitas as
seguintes observações: 10,8,12,13,7,11,13,6,8 e 9. Defina um estimador
pelo método dos momentos para e obtenha a estimativa correspondente.
Exemplo 4.4
O Diretor de uma Escola, no início de um certo dia, inquiriu sua bibliotecária sobre o
número médio de retiradas de publicações para consulta, por dia. Alertou-a que
precisava da informação no início do dia seguinte. Não dispondo de dados históricos,
ela resolveu registrar o valor observado naquele dia, e a partir desta única observação,
inferir o número desejado pelo Diretor. Ao final do dia a bibliotecária registrou x = 5
“retiradas para consulta”, e, com base em sua experiência, decidiu informar este próprio
valor como sendo o número médio desejado.
Suponhamos que o número de retiradas X, tenha distribuição de Poisson (), cuja
e k
função de probabilidade é P(X k) , k = 0,1,2,.... .
k!
Recordemos que E(X) = , isto é, o próprio parâmetro de P(X k) .
k\ 1 2 3 4 5 6 7 8 9 10
P(X=5) 0.0031 0.0361 .1008 .1563 .1755 .1606 .1277 .0916 .0607 .0378
A solução proposta pela bibliotecária, embora rápida, simples e baseada numa única
observação do fenômeno, tem seu valor, na medida que o valor k = 5 é mais provável de
ocorrer se o parâmetro da população é igual a = 5.
Exemplo 4.5
Suponha que uma urna contenha bolas brancas e pretas na proporção de 3 para 1, mas a
cor mais freqüente é desconhecida. Sendo assim a probabilidade de seleção aleatória de
uma bola preta é igual a 0.25 ou 0.75. Se n bolas são extraídas aleatoriamente da urna,
com reposição, a distribuição de X, número de bolas pretas observadas, é Binomial
(n,¼) ou Binomial (n,¾), ou seja
n
P(X k) p k q n k k = 0,1,2,...,n e p = 1/4 , 3/4
k
Suponha que n = 3 bolas sejam extraídas, com reposição, e a partir do valor observado
de X tentaremos estimar p. O problema de estimação neste caso é muito simples pois
temos somente duas escolhas: 1/4 , 3/4. Os possíves resultados da amostra e suas
respectivas probabilidades são mostradas abaixo:
k 0 1 2 3
P(k,1/4) 27/64 27/64 9/64 1/64
P(k,3/4) 1/64 9/64 27/64 27/64
No presente exemplo, se k = 0 em uma amostra de n = 3, a estimativa p̂ = 0,25 seria
preferível, porque uma amostra com k = 0 é mais provável de aparecer a partir de uma
população com p = 1/4, em vez de p=3/4. Em geral, o estimador em questão seria
definido como segue,
0.25 k 0,1
p̂ k
0, 75 k 2,3
Os dois exemplos apresentados são apenas introdutórios, pois que foram baseados
numa única observação da variável aleatória X.
Definição 4.3
Consideremos uma variável aleatória X com função de distribuição FX (x, ) , onde é
o único parâmetro desconhecido. Seja x1 , x 2 ,..., x n uma particular observação da
amostra aleatória X1 , X 2 ,..., X n da variável X. Chama-se função de verossimilhança
da amostra à função
L X f x1 , f x 2 , ... f x n , se X é
contínua
Definição 4.4
Seja L x1 , x 2 ,..., x n , a função de verossimilhança de uma
amostra da variável
aleatória X, com função de densidade (ou probabilidade) f (x, ) . Se ̂ = g
x1 , x 2 ,..., x n é o valor de que maximiza L x1 , x 2 ,..., x n , , então
ˆ G X , X ,..., X é o estimador de máxima verossimilhança (EMV) do parâmetro
1 2 n
.
n
L X f x1 , f x 2 , ... f x n , ou L X f x i ,
i 1
dL x1 , x 2 ,..., x n
0
d
Por outro lado, L() e ln L têm seu máximo no mesmo valor de , e, muitas
vezes é mais fácil encontrar a n-úpla que maximiza o logaritmo de L .
n
L 1 , 2 ,..., k f x i , 1 , 2 ,..., k .
i 1
maximizam L 1 , 2 ,..., k .
Exemplo 4.6
Uma amostra aleatória de tamanho n = 2 de uma variável aleatória de Poisson (),
resultou nas seguintes observações: k1 1 e k 2 2 . Calcule a estimativa de máxima
verossimilhança para o parâmetro .
Solução:
A função de probabilidade de Poisson é aquela do exemplo 4.4 e a função de
verossimilhança da amostra é
2
e k e k e 2 3
L P ki , L 1, 2,
1 2
i 1 k1 ! k 2 ! 1!2!
Daí, calculamos o ln de L() e sua derivada
Exemplo 4.7
Generalizemos o exemplo anterior para obter o EMV do parâmetro da variável
aleatória X com distribuição de Poisson. Considerando uma amostra de tamanho n,
temos
n
Xi
n
e Xi i1
L L =e -n n
xi !
i 1
x !
i 1
i
n n
ln L n ln x i ln x i !
i 1 i 1
d ln L 1 n 1 n 1 n
n x i n x i 0 x i
d i 1 i 1 n i 1
Exemplo 4.8
Suponha que uma amostra de tamanho n seja obtida a partir de uma variável aleatória de
Bernoulli de parâmetro p, ou seja
A função de verossimilhança é
n n
xi n xi
L p p i1 (1 p) i1
n
Façamos y x i ln L p y ln p (n y) ln(1 p)
i 1
d ln L(p) y n y
dp p 1 p
y ny
0 y yp np yp y np
p 1 p
De forma que a estimativa de máxima verossimilhança de p é
1 n
p̂ xi
n i 1
1 n
Conclui-se daí que o EMV de p é a média da amostra X Xi
n i 1
Exemplo 4.9
Seja X1 , X 2 ,..., X n uma amostra aleatória de uma variável normalmente distribuída
com parâmetros e 2 . A função de verossimilhança da amostra é dada por
n
1 x i 2
L ,
2
exp
i 1 2 2 2
n 2
1
xi
= exp i 1
22 2
n 2 2
n 1 n
ln L , 2 ln 22 2 x i
2
2 2 i 1
Daí, temos
d ln L , 2 1 n
d
2
x
i 1
i 0
d ln L , 2
n 1 n
4 i
x 0
2
d 2
2 2 i 1
2
As soluções das equações acima fornecem os EMV dos parâmetros, quais sejam:
1 n 1 n
Xi Xi X
2
ˆ X e ˆ 2
n i 1 n i 1
Exemplo 4.10
Obter o EMV do parâmetro p da variável aleatória Geométrica e a seguir da função
g p =1-p=q .
Solução:
Se X é geométrica(p) P(x) pq x 1 x=1,2,3,.... e a função de verossimilhança é
n
xi n n
ln L(p) n ln p n x i ln(1 p)
L(p) p n q i1
i 1
Derivando-se em relação a p , temos
d ln L(p) n 1 n
dp
p 1 p n
i 1
xi
n
1 1
n np np p x i p p=
ˆ
i 1 X x
Consideremos agora a função g p 1 p e façamos p g 1 em L(p),
1
isto é .
n
n i
x n
L x, g 1 () 1 i1
n
ln L x, g 1 () n ln(1 ) x i n ln
i 1
Derivando-se em relação a , temos
n
d ln L x, g 1 () n x
i n
i 1
0
d 1
n n n
n 1 x i n n x i n n x i
i 1 i 1 i 1
n n
1
x i x i n 1
i 1 i 1 x
Definição 4.5
ˆ é estimador
Se ̂ é estimador de máxima verossimilhança do parâmetro , então G
de máxima verossimilhança de g().
Exemplo 4.11
Obter o EMV da função g() P(X 0), onde X tem distribuição de Poisson ().
Conforme exemplo 4.7,
n n
ln L n ln x i ln (x i !)
i 1 i 1
, e g ln .
1
Se substituirmos em ln L , obtemos
n n
ln L g 1 n ln ln ln x i ln (x i !)
i 1 i 1
d
i
ln i 1
x 0 n ln
i 1
xi
Finalmente,
n
x i
ln i 1
ln x = e -x
n
Assim, o estimador do parâmetro é
ˆ g ˆ e ˆ
ˆ e X
4.2.2 - Seja X uma variável aleatória com distribuição exponencial (). Dada uma
amostra aleatória de tamanho n, de X, encontre o EMV para o parâmetro da
distribuição. Obtenha ainda o EMV para a função de definida por P(X 1) .
1 n
O valor x 0, 22 foi resultado da aplicação do estimador X Xi , onde Xi é uma
n i 1
variável aleatória de Bernoulli. O estimador usado, média da amostra, é o estimador
obtido tanto pelo método dos momentos quanto pelo de máxima verossimilhança.
Imaginemos que ̂1 tenha uma certa distribuição de probabilidades tal que
k ˆ k
P 1 0,90 , enquanto que ̂ 2 , embora com a mesma distribuição de
2 2
k ˆ k
̂1 , seja tal que P 2 0,90 , para k inteiro positivo.
4 4
Definição 4.7
Se ̂ é um estimador tendencioso de , então E
ˆ B
ˆ ˆ
, onde B é
ˆ =0, o estimador é não tendencioso,
chamada tendenciosidade do estimador ̂ . Se B
ˆ 0.
isto é, E
Exemplo 4.12
Se X é uma variável aleatória com função de densidade dependendo de um parâmetro ,
tal que E X , então a média da amostra originária de X é um estimador não
tendencioso do parâmetro.
1 n
n
1
E X E i 1 X i E
n
n
X
i 1 i
1 n
E(X i )
n i 1
1 n 1
E X i 1 n
n n
(4.3)
Exemplo 4.13
Dada uma amostra aleatória de uma população X com média e variância 2 chama-se
momento central de segunda ordem da amostra (vide exercício 3.2) à estatística
1 n
definida por M2 X i X .
2
n i 1
Teorema 4.1
Se X1 , X 2 ,..., X n é uma amostra aleatória de uma variável X com média e variância
1 n
Xi X é um estimador não viciado do parâmetro
2 2
2 então a estatística S
n 1 i 1
2 .
Prova:
A demonstração do teorema é imediata levando em conta o resultado do exemplo
anterior,
1 n 2 n 1 2
E M '2 E X i X
n i 1 n
n 1 n 2
E Xi X 2
n 1 n i 1
n 1 n 2
E Xi X 2
n 1 n i 1
1 n
2
E X i X 2
n 1 i 1
De forma que E S
2 2
(4.5)
Exercício Proposto:
Verificar se S é um estimador não tendencioso do parâmetro , desvio padrão de X,
N , , origem de uma amostra aleatória de tamanho n. Se S é tendencioso, qual a
sua tendenciosidade?
Teorema 4.2
Seja X1 , X 2 ,..., X n uma amostra aleatória de uma variável aleatória X.
Em geral, se existe o momento ordinário - centrado em torno de zero - de ordem s de
X, s X E X , s = 0,1,2..., então o momento de ordem s da amostra, definido pela
s
1 n
X i é um estimador não tendencioso de s X .
s
estatística M S
n i 1
Prova:
1 n s 1 n 1 n
E(M S ) E X i E X i s X s X
s
n i 1 n i 1 n i 1
(4.6)
ˆ
b)
1 10
X E ˆ E 1 10 X
10
10 i 1
i 10 10 i 1 i
Desta maneira, no formato média, temos 2 n 1 estimadores não tendenciosos para o
parâmetro , e em conseqüência, necessitamos portanto, estabelecer um critério para
escolher qual estimador preferível em cada caso.
Se 2 é a variância da população, temos que as variâncias de dois dentre os estimadores
citados acima são:
ˆ ) Var 1 X 1 10 2
10 2
b.1) Var(10 10 i
i 1 100 10
1 15 1 2
b.2) Var(15 ) Var X i
ˆ 15
2
15 i 1 225 15
Segundo análise já feita anteriormente, é óbvio que escolheremos ̂15 , se apenas as
duas opções são viáveis, pois que Var( ˆ ) Var(
ˆ ).
15 10
Exemplo 4.14
Suponhamos que X tenha distribuição de Poisson (). Além das 2 n 1 médias possíveis
que definem estimadores não tendenciosos para , outras opções são disponíveis. Por
exemplo, como E(X) = VAR(X) = , então S2 é também um estimador não tendencioso
para o parâmetro . Ainda mais: as estatísticas X i X i X j , i j = 1,2,3,...,n são
também estimadores não tendenciosos de , conforme constatamos abaixo,
E X i X i X j E X i2 X i X j E X i2 E X i E X j
Var X i 2 2
Exercício proposto:
Seja X uma variável aleatória de Poisson de parâmetro . Mostre que para 0 < < 1, a
variável X 1 S é um estimador não tendencioso do parâmetro .
2
Definição 4.8
Se considerarmos todos os estimadores não tendenciosos de um parâmetro , aquele
com a menor variância é chamado estimador não tendencioso de variância mínima
(MVUE (1) de ).
Definição 4.9
2
ˆ E
O erro médio quadrático de um estimador ̂ é definido por MSE ˆ .
O erro médio quadrático pode ser escrito da seguinte forma:
2
ˆ E
MSE ˆ E ˆ
ˆ E
E ˆ E
ˆ E ˆ
2
E ˆ E
ˆ E ˆ E ˆ
2 2
ˆ E
2 ˆ
De forma que
E ˆ
2 2
ˆ E
MSE ˆ E
ˆ
ˆ ) B
MSE
ˆ Var(
2
ˆ
(4.7)
Isto é, o erro médio quadrático de um estimador é igual à sua variância mais o quadrado
de sua tendenciosidade. Se ̂ é um estimador não viciado de , então seu erro médio
quadrático é igual à VAR ̂ .
(1) MVUE - Minimum Variance Unbiased Estimator
(2) MSE - Mean Square Error
ˆ e
O MSE é um valioso critério para a comparação de dois estimadores. Se ˆ são
1 2
ˆ
ˆ
dois estimadores quaisquer de um parâmetro , e se MSE 1 e MSE 2 são os
seus respectivos erros médios quadráticos, chama-se eficiência relativa entre os
estimadores à razão
ˆ
MSE 1
.
ˆ
MSE 2
Se esta razão for menor do que 1 concluímos que ̂1 é um estimador mais eficiente de
do que ̂ 2 , no sentido de que ele tem menor erro médio quadrático.
Embora já discutido anteriormente, vale a pena recordar que: dada uma amostra de uma
variável aleatória X, tanto X quanto qualquer das Xi , são estimadores não viciados de
E X , pois para i=1,2,...,n E X E X i .
, e, portanto,
MSE
ˆ Var X 2
2 i n
para amostras de tamanho n 2 , concluímos que X é um estimador mais eficiente que
Xi na estimação de , pois a eficiência relativa de Xi para X , é menor do que 1.
Algumas vezes poderemos preferir estimadores viciados a não viciados se eles têm
menor erro médio quadrático. Isto é possível quando pudermos reduzir
consideravelmente o MSE, com a introdução de uma pequena tendenciosidade. Uma
aplicação de estimação tendenciosa poderá ser estudada em [6] sec. 7.2 (pag. 374) e [9]
sec. 10-13 (pag. 613).
Definição 4.10
Seja X uma variável aleatória com função de distribuição FX x, . Dizemos que ̂ é
um estimador consistente(1) do parâmetro se lim
n
P
ˆ 0 para todo >
0, arbitrário.
Exemplo 4.15
Segundo o teorema 3.2 a variável n 1 S tem distribuição qui-quadrado com (n-
2 2
lim P S 2
2 0 S 2
é um estimador consistente de 2 .
n
Exemplo 4.16
Seja X1 , X 2 ,..., X n uma amostra aleatória de uma variável aleatória X com média e
desvio padrão . Então X é um estimador consistente do parâmetro .
2
n
Prova: lim P X lim n n 2
0 X é consistente
Conforme vimos, o MSE de um estimador é uma ferramenta que nos permite comparar
dois estimadores de um mesmo parâmetro com o objetivo de selecionar o mais eficiente
dentre eles. O Teorema que segue nos fornece um limite inferior para o MSE de
qualquer estimador ̂ de um parâmetro , de uma distribuição de probabilidades que
satisfaça as seguintes condições:
1a.) o domínio de f(x) - ou P(x) - deve ser independente de .
2a.) a derivada de f(x) - ou P(x) - em relação a deve ser uma função contínua e
diferenciável de .
Teorema 4.3
Seja X1 , X 2 ,..., X n uma amostra de uma variável aleatória X cuja função de densidade
f (x) - ou probabilidade P(x) - depende de um parâmetro , que satisfaz as condições
citadas após a Definição 4.4. Seja ˆ G X , X ,..., X um estimador tendencioso de
n 1 2 n
. Nestas condições
1 B ˆ
2
ˆ
MSE ln f X X
2 ˆ
onde B
ˆ
dB
nE d
ˆ 0 e a desigualdade de
Se ̂ é um estimador não tendencioso de , então B
Cramér-Rao se expressa por
Var
ˆ 1
ln f X, .
2
nE
(4.9)
Exemplo 4.17
Se X é uma variável aleatória de Bernoulli (p), então X é um estimador não
tendencioso de p. Verifique se X é eficiente.
pq
Recordemos que E X =p e Var X e que a função de probabilidade de X é
n
P X x p x 1 p , x = 0,1 .
1 x
ln P(X) X ln p (1 X) ln(1 p)
ln P X X 1 X X Xp p Xp X p
p p 1 p pq pq
Calculemos agora o denominador da variância mínima, conforme Cramér-Rao,
2
Xp n n n
nE 2 2 Var X 2 2 pq
pq pq pq pq
Aplicando-se a desigualdade, obtemos
Var
ˆ 1 pq
n n
pq
Exemplo 4.18
Obtenha a variância mínima de um estimador ̂ , não tendencioso, do parâmetro da
variável aleatória X, N(, ) .
1 x 2
f x exp
2 2 2
X
2
ln f X ln( 2 )
2 2
ln f X 1 2 X X
2 2 2
Calculemos o denominador da variância mínima:
X 2
1 n
nE n Var X
4 4 2
Aplicando-se a desigualdade de Cramér-Rao,
ˆ 1
2
Var
n 2 n
2
Logo X é um estimador eficiente de , pois Var X é igual à variância mínima
n
dada por Cramér-Rao.
Definição 4.12
Seja X uma variável aleatória cuja distribuição de probabilidades depende de um
parâmetro . Se ̂ é um estimador não tendencioso de , define-se eficiência de ̂ , e
Varmin ˆ
ˆ
representa-se por e à razão e ˆ onde Varmin
ˆ é a variância
Var ˆ
mínima dada por Cramér-Rao.
ˆ Var X .
2
no segundo Varmin
n
Exemplo 4.19
Se X é uma variável aleatória N(,1) então X é um estimador eficiente de .
1
E X X é um estimador não tendencioso de e Var X .
n
1 X 2
Se X é N(,1) f X exp e
2 2
ln f X ln f X
2
nE X n
2
X nE
Temos então que Varmin
ˆ 1 Var X , logo e X 1.
n
Teorema 4.4
Uma condição necessária e suficiente para que um estimador ̂ seja eficiente na
estimação de um parâmetro de uma variável aleatória X, é que a função de
verossimilhança de amostra aleatória de X, possa ser escrita da forma
L L1 exp 0 1 2
ˆ de forma que L e
1
ˆ não dependem de , enquanto que
0
1 e 2 podem depender de .
Exemplo 4.20
Consideremos uma amostra aleatória de uma variável aleatória X normalmente
distribuída com média desconhecida e variância 0 conhecida.
2
Verificamos que,
n n
xi x i2 2nx n 2
2
i 1 i 1
De forma que,
1 1 n 2 2
L
0n 2
exp x i 2nx n
20 i 1
n 2 2
1 n
exp 2 x i2
20 i 1 n n 2
L exp 2 x exp 2
0n 2 0 20
n 2
Façamos,
1 n
exp 2 x i2
L1 20 i 1 , n ,
ˆ x e 2
n 2
0n 2
1 0
n 2
02 202
Finalmente podemos afirmar que X é um estimador eficiente de , pois escrevemos
L como segue,
ˆ .
L L exp 1 0 1 2
O teorema abaixo, que não será demonstrado, estabelece uma distribuição assintótica
para estimadores de MV, quando o tamanho da amostra é suficientemente grande.
Teorema 4.5
Se X1 , X 2 ,..., X n é uma amostra de uma variável aleatória X com função de densidade
f(x) - ou função de probabilidade PX (x) - dependendo de um único parâmetro , então a
distribuição de probabilidades do estimador de máxima verossimilhança ̂ é
assintoticamente normal de parâmetros
E
ˆ ,e
ˆ
Var
1
ln f X (X, )
2
ˆ
ou Var 1
2
ln PX (X, ) ,respectivamente.
nE nE
Exemplo 4.21
Como vimos no exemplo 4.7, o EMV do parâmetro de uma distribuição de Poisson é
X e E X e Var X .
n
Calculemos a variância mínima de um estimador não tendencioso para , dada pela
desigualdade de Cramér-Rao:
ln P(X) X ln ln(X!)
ln P X X
1
2
X ˆ
nE
n
2 E X
2 n
Var
n
De forma que X é um estimador eficiente de , e, para n suficientemente grande, X é
assintoticamente N(; n) , de acordo com o Teorema 4.5.
Exemplo 4.22
O estimador de máxima verossimilhança do parâmetro de uma população X com
ˆ 1 (vide exercício 4.2.2).
distribuição exponencial é X
n
fX y y>0
n
De maneira que a média de ˆ 1 é calculada como segue,
X
ˆ n
n
E
n 0 y
1 n 1 ny
y e dy
ˆ n n 1 E
n
E ˆ n
n n n 1
n 1
Calculemos agora o segundo momento de ̂ :
n 1 n 1 ny
n
ˆ
E
2
n 0 y 2
y e dy
ˆ 2 n n 2 E
n
n 2 2
E
n n n 2
ˆ2
n 1 n 2
De forma que a variância de ̂ é dada por:
n 2 2 n 22 n2
Var
ˆ
n 1 n 2 n 1
ˆ
2
Var
n 1 n 2
2 2
n
lim Var
ˆ 2 lim 1
2
1 1 n 2
n n
n
2
2
Var ˆ ˆ
ou Var =
n2 n
2
De forma que ̂ tem distribuição assintótica de média e variância .
n
Apliquemos agora, o Teorema 4.3, ao exemplo em questão,
ln f X (X) ln X
ln f X X 1
X
ln f X X
2 2
1 n
nE nE X 2
De acordo com o teorema citado, podemos dizer que ̂ é assintoticamente normal com
2
média e variância .
n
Exercícios Propostos 5.
5.1 - Em cada um dos itens abaixo, suponha que X1 , X 2 ,..., X n seja uma amostra
aleatória da distribuição especificada no item. Verifique se as estatísticas S definidas
são suficientes. Se o parâmetro é conhecido, está indicado por 0
n
a) X, Geométrica (p), 0<p<1, S Xi
i 1
n
b) X, Pascal r0 , p , 0<p<1, S Xi
i 1
n
c) X, Normal 0 , , S (X i 0 )
2 2
i 1
n
d) X, Gama 0 , , 0 , S Xi
i 1
e) X, Gama , 0 , 0 , S X n
n
f) X, Beta , 0 , 0 , S Xi
i 1
g) X, Uniforme a 0 , b , a 0 b, Sn max
1i n
Xi
h) X, Uniforme a, b0 , a b0 , Sn min
1i n
Xi
5.2 - Seja X1 , X 2 ,..., X n uma amostra de uma variável aleatória X com distribuição de
Bernoulli (p). Mostre que X1 não é um estimador suficiente na estimação de p.
5.3 - Seja X1 , X 2 ,..., X n uma amostra de uma variável aleatória X com distribuição de
Bernoulli (p). Mostre que as variáveis Xi , i = 1,2,...,n, (n>1), são conjuntamente
suficientes, isto é, a própria amostra define estatísticas conjuntamente suficientes.
Sugestão: Mostre inicialmente para o caso n = 2, e a seguir prove por indução finita.
5.5 - Suponha X1 , X 2 ,..., X n seja uma amostra de uma população X com distribuição
uniforme no intervalo [a,b]. Use o critério da fatoração para mostrar que
Y1 min X i e Y 2 max X i são conjuntamente suficientes.
1 i n 1i n
suficiente para .
5.7 - Suponha X1 , X 2 ,..., X n uma amostra de uma variável aleatória Beta com
4
1 n 1
parâmetros 0 (conhecido) e , (>0). Mostre que a estatística T ln é
n i 1 1 Xi
uma estatística suficiente para .
5.8 - Mostre que cada uma das distribuições abaixo - o índice subscrito em um
parâmetro indica que ele é conhecido - pertence à família exponencial .
a) Bernoulli (p). f) Gama , 0 .
c) Pascal r0 , p . h) Beta , 0 .
d) N , 0 . i) Beta 0 ,
e) N 0 , .
5.9 - Suponha X1 , X 2 ,..., X n uma amostra aleatória de uma variável aleatória X com
distribuição normal de média 0,5 e variância 2 desconhecida. Pesquise um estimador
suficiente para 2 .
5.10 - Suponha X1 , X 2 ,..., X n uma amostra aleatória de uma variável aleatória X com
distribuição normal de média desconhecida e variância 2 =4. Pesquise um
estimador suficiente para .
5.11 - Suponha X1 , X 2 ,..., X n uma amostra aleatória de uma variável aleatória X com
distribuição Normal com ambos os parâmetros e , desconhecidos. Mostre que:
a) X não é suficiente para .
b) S2 não é suficiente para 2 .
Se esta condição ocorre para todo valor do parâmetro pertencente ao espaço paramétrico
, o estimador é denominado uniformemente não tendencioso com variância
mínima.
Definição 6.1
Seja X1 , X 2 ,..., X n uma amostra de uma variável aleatória X com função de densidade
f x, - ou probabilidade P x, . Seja uma função do parâmetro e seja
U u X1 , X 2 ,..., X n um estimador de . Dizemos que U é um estimador
uniformemente não tendencioso de variância mínima - UMVUE(1) - do parâmetro
se e somente se
- U é não tendencioso, isto é E U
- Var U Var U , para qualquer outro estimador U u X1 , X 2 ,..., X n
tal que E U
Teorema 6.1
Seja U u X1 , X 2 ,..., X n um estimador não tendencioso de . Sob certas
condições de regularidade,
2
Var U
ln f X, 2
nE
que se torna uma igualdade, se e somente se, para k , n constante,
n
ln f x i , k , n u x1 , x 2 ,..., x n
i 1
Definição 6.2
Se U u X1 , X 2 ,..., X n é um estimador não tendencioso de e se
n
ln f x i , k , n u x1 , x 2 ,..., x n , então U é um estimador
i 1
uniformemente não tendencioso com variância mínima de , ou simplesmente, U
é um UMVUE de .
n 2
E t X1 , X 2 ,..., X n E ln f X i , .
2 2
i 1
n
ln f x i , k , n u x1 , x 2 ,..., x n
i 1
n xi n
e n
x
ln
x i ln ln x i ! 1 i
i 1 x i ! i 1 i 1
n
e
n xi xi nx n n
ln n i 1
x
i 1 x i !
Assim,
n
k , n , u x1 , x 2 ,..., x n x e
Portanto
U X1 , X 2 ,..., X n X é um UMVUE de .
Exemplo 6.2
n
n 1 n
Se X é N ,1 então ln f x i , u ln 2 x i , de forma que
2
i 1 2 2 i 1
n n n
ln f x i , u x i x i nu n x , e, portanto X é um UMVUE de
i 1 i 1 i 1
.
Exemplo 6.3
Se X tem distribuição de Bernoulli(p), então
n
n n
ln P x i , u x i ln p 1 x i ln 1 p
i 1 i 1 i 1
n n
ˆ 2 n2
(ii) Var
(n 1) (n 2)
2
ˆ
2
ˆ é um estimador não tendencioso do parâmetro , então Var
Se n . Embora
o estimador ̂ seja assintoticamente normal com média e variância n (conforme
2
1
Consideremos agora a função
, do parâmetro e apliquemos as Definições
6.1 e 6.2.
1
Seja U um estimador não tendencioso de
.
1 1
2 Var U 2
n
n
n 1 1
ln e i i 1 ln x i i 1 x i n x
x n
i 1
1
Assim, X é um UMVUE de .
Exemplo 6.5
Seja X uma variável aleatória com densidade Gama (, r0 ) , r0 conhecido, e seja a
função h r0 . Suponhamos que T seja um estimador não tendencioso de h( ).
1
2
r0
r
Var T 0 2
4
nr0 n
2
Por outro lado,
n n
ln f x, nr0 ln n ln r0 r0 1 ln x i 1 x i
n
i 1 i 1
n
nr r
ln f x, 0 i 1 x i n x 0
n
i 1
r
Concluímos então que, X é um UMVUE de h 0 .
Exemplo 6.6
Consideremos mais uma vez o Exemplo 6.1 agora com objetivo de encontrar um
UMVUE para a função do parâmetro , definida por e P X 0
e 2
. Para obter um estimador não tendencioso para e , consideremos a
n
seguinte variável aleatória:
1 se Xi 0 e se k=1
Yi P Yi k
0 se Xi 0
1 e se k=0
Notemos que
E Yi e
Var Yi 1 e e 0 e 1 e 1 e e , i = 1,2,..,n
2 2
1 n
Notemos também que T Yi E T e , e , portanto T é um estimador não
n i 1
Var T
1 e e
e 2
Varmin T
n n
Por outro lado, prova-se também que existe uma única função (e então qualquer função
linear desta função) do parâmetro para qual existe um estimador não tendencioso cuja
variância coincide com a variância mínima dada pela desigualdade citada.
- U é função de S s X1 , X 2 ,..., X n e,
- U é um estimador não tendencioso de com variância
menor ou igual à variância de U.
Prova:
A distribuição condicional de U dado S1 ,S2 ,...,Sk independe de pois S1 ,S2 ,...,Sk
é um conjunto de estatísticas suficientes. Por conseqüência U E U / S1 ,S2, ...,Sk
independe de , sendo no entanto uma função de S1 ,S2 ,...,Sk .
E U E E U / S1 ,S2, ...,Sk E U
e
Var U E U E U E U E U
2 2
Var U E U U U E U E U U U E U
2 2
Var U E U U E U E U 2E U U U E U
2 2
E U U U E U E E U U U E U / S1 ,S2 ,...,Sk
E U U U E U u s1 ,s 2 ,...,s k E U E U U / S1 ,S2 ,...,Sk
u s1 ,s 2 ,...,s k E U E U / S1 ,S2 ,...,Sk E U / S1 ,S2 ,...,Sk
Exemplo 6.7
de ser suficiente.
n
De acordo com o Teorema 6.2, existe um estimador U E X1 / X i , não
i 1
tendencioso de p, tal que Var U Var X1 , e, neste caso, obviamente
i 1
n
P X1 x 1 X i s x1
;
n
P X1 x1 / X i s i2
n
i 1
P Xi s
i 1
n
As variáveis aleatórias X1 e X
i 2
i têm distribuições de Bernoulli (p) e Binomial
[(n-1),p], respectivamente, e, assim
n 1 s x1 n 1 s x i
p xi 1 p p 1 p
1 x i
s x1
n
P X1 x1 / X i s
n s
p 1 p
i 1 n s
s
n
P X1 x1 / X i s
n s !s! x1 0,1
i 1 n s x1 ! n s 1 x1
Definição 6.3
Seja X uma variável aleatória com densidade f (x; ) - ou função de probabilidade
P(x; ) -. Seja G(X) uma função da variável aleatória X. Dizemos que a família C =
f x; ; é completa, se
E G X 0 P G X 0 =1
Esta função é uma variável aleatória quase certamente igual a uma constante 0.
Exemplo 6.8
Seja X1 , X 2 ,..., X n uma amostra aleatória de uma variável aleatória de Bernoulli (p).
n
Conforme visto no Exemplo 5.4, a estatística Sn Xi é suficiente. Sn X1 , X 2 ,..., X n
i 1
n
n
E G Sn g s n ps 1 p =0
n s
0<p<1
s 0 s
s
n
n p
E G Sn 1 p g s n
n
=0 0<p<1
s 0 s 1 p
p
A expressão da média em questão, é um polinômio em , que é igual a 0 (zero),
1 p
s
p
se somente se, cada coeficiente de for igual a 0 para todo s = 0,1,2,..,n. Isto
1 p
n n
significa que g s n 0 para todo s = 0,1,2...,n. Como 0 , então g s n 0
s s
para todo s = 0,1,...,n.
Exemplo 6.9
A família N 0, ; 0 não é completa pois para g(X)=X, E(X) = 0 e X não é
identicamente nula com probabilidade 1. Por outro lado T X X é completa,
2
1 1
Se g X X então g(X) 1 g X é Gama 2 , . De forma que
2 2 2
2 2
t
1
E g T
12 2
g t dt 0
2
t e
0 2 2
t
E g T
12 2
g t t dt 0 t>0
2
e
0
1
transformada, g t t 2
0 para todo t > 0, e, portanto g(t) = 0, para todo t.
Exemplo 6.10
A família de densidades uniformes em 0, é completa. Para mostrar tal proposição
fazemos
1
E G X g(x) dx 0 g(x)dx 0 >0
0
0
Logo , g x 0 >0
Teorema 6.3
Seja X1 , X 2 ,..., X n uma amostra aleatória de uma variável aleatória X, com função de
densidade f x; - ou probabilidade P(x; ) -, , onde é um intervalo
(possivelmente infinito). Se f x; pertence à família exponencial , ou seja ,
n
f x; exp S x B C D x , então a estatística S x i é uma estatística
i 1
suficiente completa.
Teorema 6.4
Seja X1 , X 2 ,..., X n uma amostra aleatória de uma variável aleatória X, com função de
densidade f x; 1 , 2 ,...., k , . 1 , 2 ,..., k . Se f x; 1 , 2 ,...., k pertence à
família exponencial , isto é
k
f x; 1 , 2 ,...., k exp B j 1 , 2 ,...., k S j x C 1 , 2 ,...., k D x ,
j i
para todo x real, onde D x e S j x funções definidas em R , k < n, e, se o domínio
n
S1 x i ,
i 1
S2 x i ,....., Sk x i são estatísticas suficientes completas.
i 1 i 1
um UMVUE.
Nota: Em resumo, o Teorema 6.5 estabelece que: se uma estatística suficiente completa
S existe, e, se há um estimador não tendencioso para , então existe um UMVUE
para e este é o único estimador não tendencioso de que é função de S.
Exemplo 6.11
No Exemplo 6.6 não conseguimos construir um UMVUE para o parâmetro e de uma
população X com distribuição de Poisson ( ). Naquele exercício definimos a variável
Y1 P X1 0 e registramos que Y1 é não tendencioso para e .
n
Então, de acordo com o Teorema 6.5, E Y1 / X i define um UMVUE para e .
i 1
1 se Xi 0 e se k=1
Yi P Yi k
0 se Xi 0
1 e se k=0
Então,
P X1 0; i 1 X i s P X1 0 P i 2 X i s
n n
P Y1 1/ i 1 Xi s
n
P i 1 Xi s
n
P i1 Xi s
n
e e n 1 n 1 s!
s
P Y1 1/ i 1 X i s
n
e n n s!
s
n 1
xi
P Y1 1/ i 1 X i s
n i1
n
Xi
Assim U n 1 i1 é um UMVUE de e , cuja variância é menor dentre todos os
n
estimadores daquele parâmetro. Calculemos então a Var[U] e comparemos com a
Var[T] obtida no Exemplo 6.6.
Primeiramente calculemos a média, a título de ilustração, pois sabemos que E U e .
n 1 e n
n s s
E U e n e e
n 1
s 0 n s!
s
n 1 2
n
n 1 e n
n 2s s
n
E U
2
e
n
n s0 s! s0 s!
n 12 2
2
E U e
2 n
e n
e n
Var U e n
e 2 Var U e 2 e n 1
Podemos verificar com facilidade que Var[U] < Var[T].
Exercícios Propostos 6.
6.1 - Seja X uma variável aleatória com distribuição Geométrica (p). Verifique a
existência de um UMVUE para a média de X. Considere as duas versões de X. Use a
Definição 6.2.
6.2 - Seja X1 , X 2 ,..., X n uma amostra aleatória de uma variável aleatória X com
n
distribuição N ,1 . Sendo X1 um estimador não tendencioso de e sendo X
i 1
i uma
6.6 - Use o Teorema 6.5 para mostrar que X é um UMVUE de , média de uma
variável aleatória de Poisson.
digamos , cuja variância coincide com a variância mínima dada pela desigualdade
P 1 X 3 P 20 Z 20 1
P 1.5 X 2.5 P 10 Z 10 1
P 1.8 X 2.2 P 4 Z 4 1 , onde Z é N(0,1)
Gráfico 7.1
Definição 7.1
Seja X1 , X 2 ,..., X n uma amostra aleatória de uma variável aleatória X com função de
densidade f x, - ou probabilidade P(x, ). Seja uma função do parâmetro ,
para todo .
Nota 1:
O intervalo formado pelos valores observados das variáveis aleatórias L1 e L 2 , isto é,
l1 , l2 é também chamado intervalo de confiança. Mais precisamente, L1 , L2 e
l1 , l2 podem ser interpretados como estimador e estimativa do intervalo de confiança
para . Os valores L1 e L 2 ou l1 e l 2 são chamados limite inferior e superior do
intervalo, respectivamente. Esta modalidade de intervalo é comumente chamado de
bilateral.
k
P 2 n
X n k1 n 1
k k
ou P 2 n Z 1 n 1 onde Z é N(0,1).
Existem infinitos pares k1 , k 2 que satisfazem a condição acima, mas, sendo par a
função de densidade de Z, uma escolha razoável seria fazer k1 k 2 k , de forma que
k k k
P 2 n Z 1 n 1 P Z n 1
k
Se z p é tal que P Z z p P(Z z p ) p , então n z , e então, k z .
2 2 n
Finalmente, P X z X z 1 , e então o intervalo de
2 n 2 n
confiança de 100 1 % para o parâmetro é:
L1 X z e L2 X z (7.1)
2 n 2 n
Exemplo 7.2
Uma indústria produz pistões para motores de carros, com diâmetro normalmente
distribuído com média e desvio padrão 2 mm. Uma amostra de 25 pistões resultou
em x = 74,036 mm. Vamos construir intervalos de confiança de 90%, 95% e 99% para o
diâmetro médio do pistão.
Solução:
(i) 1 0,90 0,10 / 2 0, 05 Z0,05 1, 65
2 2
l1 74, 036 1, 65 e l 2 74, 036 1, 65
25 25
IC de 0,90 para l1 73,376 e l 2 74, 696
1 z 2 l1 l2 l 2 l1
0,90 1,65 73,376 74,696 1,320
0,95 1,96 73,252 74,820 1,568
0,99 2,58 73,004 75,068 2,064
Exemplo 7.3
Suponha que desejamos construir um intervalo de confiança de 90% para a média das
alturas dos estudantes de uma Universidade, com base numa amostra de tamanho 10.
Suponha ainda que as alturas sejam normais com desvio padrão 3, 24. Realizada a
Definição 7.2
Seja X1 , X 2 ,..., X n uma amostra aleatória de uma variável aleatória X com função de
densidade f x, - ou probabilidade P(x, ).
Exemplo 7.4
A vida em horas de lâmpadas de 100 watts tem distribuição normal com desvio padrão
25 . Uma amostra aleatória de tamanho n = 20 registrou uma média igual a
x 1014 horas.
P X k 1 P X k 1 P X k 1
X n k n k n
P 1 P Z z 1 z k z
n
u x z u 1023, 22 .
n
P X k1 X k 2 1
ou P k 2 X k1 1
k
P 2 n
X n n k1 1
S S S
k k
ou P 2 n Tn 1 n 1 1 onde Tn 1 é Student (n-1).
S S
k k k
P 2 n Tn 1 n 1 1 P Tn 1 n 1
S S S
k
Se t n 1,p é tal que P Tn 1 t n 1,p P(Tn 1 t n 1,p ) p , então n t , e então,
S n1, 2
S
k t n 1, .
2 n
Finalmente,
S S
P X t n 1, X t n 1, 1
2 n 2 n
e portanto, o intervalo de confiança de 1 % para o parâmetro é:
S S
L1 X t n 1, e L 2 X t n 1, 2 (7.2)
2 n n
Exemplo 7.5
Em uma Universidade deseja-se estimar a média da nota final do conjunto de 300
alunos. Uma amostra de 4 notas resultou em: 64, 66, 89 e 77. Conforme a tabela
abaixo, temos: x 74 e s 2 132, 7 .
xi xi x (x i x) 2
64 -10 100
66 -8 64
89 15 225
77 3 9
132, 7
l1 74 3,182 l1 55, 67
4
132, 7
l 2 74 3,182 l 2 92,32
4
Temos então que t 29;0,025 2, 045 , e o intervalo de confiança de 95% para seria:
132, 7
l1 74 2, 045 l1 69, 69
30
132, 7
l2 74 2, 045 l2 78,30
30
De fato,
P X z X z 1
2 n 2 n
ou P X z 1
2 n
Definição 7.3
Seja X uma v.a. N , . Se X é o estimador de , o erro na estimativa x , não
excederá um especificado valor , com 100(1-)% de confiança, quando o tamanho da
amostra n satisfizer
2
n z 2
(7.3)
Exemplo 7.6
Suponha que X tenha distribuição normal com média e desvio padrão = 0,4. Qual
deve ser o tamanho da amostra de tal forma que o erro da estimativa seja no máximo
igual a 0,1 com um coeficiente de confiança de 95%?
Solução:
2 2
0, 4
n z 2 n 1,96 n 61,46 n=62
0,1
Nota 2:
Se L1 , L 2 é um intervalo de confiança de 100(1-)% para o parâmetro , e se é
uma função monótona de , então um intervalo de 100(1-)% para a função está
perfeitamente determinado.
Exemplo 7.7
Suponha que L1 , L 2 seja um intervalo de confiança de 100(1-)% de e seja
a b, a 0.
P L1 L 2 1
P 2,(n 1)
n 1 S2
1 2,(n 1) 1
2
1 2 1
P 1
1 2,(n 1) n 1 S 2,(n 1)
2
n 1 S2 n 1 S2 1
P 2
1 2,(n 1) 2,(n 1)
Assim, um intervalo de confiança de 100(1-)% para a variância da distribuição normal
é:
n 1 S2 e L n 1 S2
L1 , onde P p,n p,n p (7.4)
2
2
1 2,(n 1) 2,(n 1)
Exemplo 7.8
Vamos obter um IC de 95% para a variância da distribuição da nota final dos 300 alunos
da Universidade conforme Exemplo 7.5. Supondo n=30 e S2 132, 7 .
Consultando a tabela da qui-quadrado com 29 graus de liberdade, obtemos:
De forma que,
29 132, 7 29 132, 7
l1 84, 207 e l2 240,51
45, 7 16, 0
Seja X1 , X 2 ,..., X n uma amostra aleatória de uma variável aleatória X com densidade
f x, e x x>0 . A variável aleatória Y i 1 X i tem distribuição Gama de
n
n
it
parâmetros e n e sua função característica é Y t 1 .
W t 1 2it
n
1
1
2
Escrevemos então,
P / 2,2n W 1 / 2,2n 1
P / 2,2n 2 i 1 X i 1 / 2,2n 1
n
P /n2,2n 1n/ 2,2n 1
2 X i 2 i 1 X i
i 1
Exemplo 7.9
A duração da vida de uma lâmpada de 25 watts é regulada por uma distribuição
exponencial de parâmetro . Quinze lâmpadas foram testadas e o total da vida das
lâmpadas resultou em i 1 x i 7559, 25 horas. Vamos determinar:
15
16,8
Logo, l1 0, 0011 e l2 0, 0031
15118,50
1
A duração média da vida das lâmpadas é a função , que é uma função
monótona decrescente de , e o intervalo de confiança de 90% para 1/ é igual a
1 1
, , ou seja (344,82 ; 833,33)
l 2 l1
50,9
2 i 1 Xi
n
0,99
50,9
Então u 0, 0033 , e, assim, o IC unilateral superior de 99% para é
15118,5
(-, 0,0033).
7.5 - Intervalo de confiança para o parâmetro de uma variável aleatória
uniforme no intervalo 0, .
Seja X1 , X 2 ,..., X n
uma amostra aleatória de uma variável aleatória uniforme em
0, . O estimador de máxima verossimilhança de é a estatística X n max Xi cuja 1i n
função de distribuição é:
1 n
F y y 0 y<
n
P 1 X n 2 1 , sendo
P X n 1 e P X n 2
2 2
X n X n
P X n 1
n n 1 P 1
1 .
2 2 1
1 2 n 2 n
Xn Xn
L1 1
e L2 1 (7.6)
1 2 n
2 n
Exemplo 7.10
Vinte observações de uma variável aleatória uniforme no intervalo 0, foram
realizadas e o maior valor registrado foi x n 0,92. Obtenha intervalos de confiança
para : a) com 90% de confiança; b) com 95% de confiança.
Solução:
a) 1 0,90 0,10 / 2 0, 05
0,92 0,92
l1 1
0,922
(0,95) 20 0,9974
0,92 0,92
l2 1
1, 068
(0, 05) 20 0,8608
b) 1 0,95 0, 05 / 2 0, 025
0,92 0,92
l1 1
0,921
(0,975) 20 0,9987
0,92 0,92
l2 1
1,106
(0, 025) 20 0,8315
ˆ ˆ 1
E e Var 2
nE ln f X,
ˆ
Daí segue que Z
ˆ é aproximadamente N(0,1).
Var
(X p)2
O valores L1 e L 2 , funções de X , são as soluções da equação z 2 / 2 .
p(1 p) / n
n n
z2 1
X
2n 2
z2
1
n
4Xz 2 z 4 4X 2 z 2
4X 2 2 4X 2
n n n
2 4
4z z
X 1 X 2
n n
z 2 1 4z 2 z2
X
2n 2 n
X 1 X
4n
L X
z2
1
n
z2 X 1 X z 2
X z 2
L X 2n n 4n
onde z = z / 2 .
z 2
1
n
zero e desta forma os limites do intervalo de confiança para p, usados para grandes
amostras, são simplificados como abaixo,
X 1 X X 1 X *
L1 X z e L2 X z
2 n 2 n
(7.7)
(*) vide [13] V.K. Rohatgi, Cap XI, Example 5, pág. 475
[12] Pessoa, Djalma G.C.,Seção 4, Exemplo 1.6
Exemplo 7.11
Em uma pesquisa eleitoral realizada entre 200 eleitores, 140 deles se declararam
votantes do candidato da oposição. Estimar o IC de 95% da proporção de eventuais
eleitores do candidato em questão.
Solução:
1
200
x x 0, 70
i 1 i
200
Temos então,
0, 70 0,30
l1 0, 70 1,96 l1 0, 63
200
0, 70 0,30
l2 0, 70 1,96 l2 0, 76
200
Exemplo 8.1
Por exemplo, podemos supor que a duração de vida de uma lâmpada da marca A, é uma
variável aleatória X com distribuição exponencial de parâmetro X . Podemos supor
também que a duração da vida de uma lâmpada similar, da marca B, é uma variável
aleatória Y com distribuição exponencial de parâmetro Y . Se desejamos comparar os
dois tipos de produto, seria relevante estimar o valor esperado da diferença das vidas,
ou seja, estimar o parâmetro E X E Y .
Exemplo 8.2
A reação de um paciente ao medicamento A, pode ser , em alguns casos, uma variável
aleatória X com uma especificada distribuição de probabilidades, com média X e
variância 2X . Por outro lado, a reação do mesmo paciente ao medicamento B, pode ser
uma variável aleatória Y com possivelmente, a mesma distribuição de probabilidades,
mas com média Y e variância 2Y .
n m
L XY (x, y, 1 , 2 ) L X (x, 1 )L y, 2 f x i , 1 f y j , 2
i 1 j1
Se ˆ 1 e ˆ 2 são as estimativas de máxima verossimilhança de 1 e 2 , maximizam as
funções L X (x, 1 ) e L Y y, 2 respectivamente. Desta forma, o valor máximo da
função de verossimilhança das duas amostras é L x, y, ˆ 1 , ˆ 2 .
Se g 1 , 2 é uma função dos parâmetros 1 e 2 , então o estimador de máxima
verossimilhança de g é dado por g ˆ ,
ˆ . 1 2
Exemplo 8.3
Dez mulheres experimentaram uma dieta 1, por t meses, e perderam em média, x 8
kg. Outras 8 mulheres se propuseram a uma dieta 2, por t meses, e perderam em média,
y 11 kg.
Exemplo 8.4
A vida de um equipamento eletrônico quando usado em condições normais de
temperatura é uma variável aleatória X, com distribuição exponencial de parâmetro .
Se usado em condições de alta temperatura, a vida é uma v.a. Y exponencial de
parâmetro 4 .
X1 , X 2 ,..., X n e Y1 , Y2 ,..., Ym
Determinaremos um estimador de máxima verossimilhança para o parâmetro a partir
das duas amostras disponíveis.
n m
L XY x, y, 4 m n m exp x i 4 y j x i , y j 0, 0
i 1 j1
i = 1,2,...,n
j = 1,2,...,m
nm
ˆ
é uma estimativa MV para .
n m
Assim,
x
i 1
i 4 y j
i 1
1
Obs: A estimativa de MV da média , é obtida através do conceito de invariância
dos estimadores de MV para funções de um parâmetro, isto é
n m
x i 4 y j
ˆ
1
ˆ = i 1 i 1 ˆ = nX 4mY
ˆ nm n+m
E X X , E Y Y , Var X 2 , Var Y 2
2 2 n m 2
ii) Var X Y Var X VarY
n m nm
Z
X Y X Y
Desta forma a variável 2 (n m) tem distribuição N(0,1).
nm
Podemos verificar facilmente que a estimativa de MV do parâmetro 2 é dada por
1 n m
2
ˆ 2 i
n m i 1
x x
2
y j y e que um estimador não tendencioso para 2 ,
j1
é a variância ponderada das duas amostras conforme visto no estudo da teoria das
distribuições de amostragem, ou seja
1 n m
2
Xi X Yj Y
2
S2p
n m 2 i 1 j1
2 n m2 2
Recordemos que Sp é independente de Z e que Sp tem distribuição qui-
2
quadrado com (n+m-2) graus de liberdade, de forma que
X Y X Y nm
Tn m 2
Sp n m
Se definirmos P Tn m 2 t p P Tn m 2 t p p ,
P t 2
X Y X Y nm t 1
2
Sp nm
ou
S nm S n m
P X Y t 2 p X Y X Y t 2 p 1
nm nm
Sp n m Sp n m
L1 X Y t 2 e L2 X Y t 2 (8.2)
nm nm
Exemplo 8.5
Em uma Universidade foram realizadas duas amostras independentes dos salários anuais
(em 1000 reais) de seus professores e os resultados estão no quadro abaixo.
Calculamos então
5
80
x x 86
2
x 16 i
5 i=1
5
55
y y 40
2
y 11 j
5 j=1
1
s 2p 86 40 s p 15, 75 3,968
8
n 1 S2X m 1 S2Y
Anteriormente vimos que e têm distribuição qui-quadrado
2X 2Y
com (n-1) e (m-1) graus de liberdade.
Se P Fd1 ,d2 ,p f d1 ,d2 ,p p , então um IC de 100(1-)% para a razão entre as duas
variâncias será construído como segue
2 S2
P f n 1,m 1, / 2 Y2 X2 f n1,m1,1 / 2 1
X SY
S2 2 S2
P Y2 f n 1,m 1, / 2 Y2 Y2 f n1,m1,1 / 2 1
SX X SX
Assim, finalmente
S2Y S2Y
L1 2 f n1,m1, / 2 e L 2 2 f n1,m1,1 / 2 (8.3)
SX SX
Exemplo 8.6
Em uma industria de lapidação de diamantes há duas alternativas de processamento:
lapidação manual e semi-manual. Em ambos os processos existe uma perda média de
matéria prima (em carat), e suas correspondentes variâncias. Esses parâmetros sempre
variam, em função do quadro de pessoal que sofre mutações, devido a dispensas e
contratações.
Assim, temos
1 1
s 2X 12 2, 4 e s Y2 14 2,80
5 5
Então um IC de 90% para a razão entre as duas variâncias dos processos de lapidação é
1
f5,5;0,95 5, 05 f5,5;0,05 = =0,198
f 5,5;0,95
s 2Y
L1 2 f 5,5;0,05 l1 1,166 0,198 0, 2309
sX
s 2Y
L2 f 5,5;0,95 l2 1,166 5, 05 5,888
s 2X
X
Assim, um intervalo de confiança de 100 1 % para a razão , ou para a razão
Y
Y
entre as médias de Y e X, ,é
X
Y Y
L1 f 2n ,2m, / 2 e L2 f (8.4)
X X 2n ,2m,1 / 2
Exemplo 8.7
Em geral, o tempo necessário para um caixa de Banco atender um cliente é uma
variável aleatória exponencial de parâmetro . Os tempos de atendimento (em minutos)
requeridos para atender 6 clientes, por cada um de dois caixas de um Banco, num
determinado dia, foram registrados:
1 1
f12,12;0,05 0,372
f12,12;0,95 2, 687
Y
Finalmente, um IC de 95% para a razão , dos tempos médios é encontrado
X
l1 0,865 0,372 0,321 e l2 0,865 2, 687 2,32
E X Y p1 p 2
p1 1 p1 p2 1 p2
e Var X Y Var X Var Y
n m
Como vimos anteriormente, esta variância pode ser estimada por
X 1 X Y 1 Y
n m
E daí temos que
Z
X Y p p
1 2
X 1 X Y 1 Y assintoticamente N(0,1)
n m
Se P Z z p P Z z p p então,
P z / 2
X Y p1 p 2 z 1
/ 2
X 1 X Y 1 Y
n m
e
X 1 X Y 1 Y
P (X Y) z / 2 p1 p 2 ....
n m
X 1 X Y 1 Y
.... (X Y) z / 2 1
n m
Assim, um intervalo de 100(1 )% para a diferença entre os parâmetros de duas v.as.
de Bernoulli é dado por
X 1 X Y 1 Y
L1 (X Y) z / 2
n m
(8.5)
X 1 X Y 1 Y
L 2 (X Y) z / 2
n m
Exemplo 8.8
Um estudo foi conduzido para determinar a eficácia de uma nova vacina contra a gripe.
A nova vacina foi administrada a 300 pessoas aleatóriamente escolhidas e deste grupo
30 pessoas contraíram a doença. Um grupo de 250 pessoas também escolhidas
aleatoriamente não foram vacinadas, e, portanto, serviu como grupo de controle, tendo
havido neste grupo 17 casos.
Assim, temos
n = 300 m = 250
30 17
x 0,1 y 0, 068
300 250
x y 0, 032
Exercícios Propostos 7/ 8.
8.1 - Uma máquina produz varas de metal para serem usadas em sistemas de suspensão
de automóveis. Uma amostra de 15 varas foi selecionada e os diâmetros das peças foram
medidos. Os resultados obtidos são mostrados abaixo. Supondo que os diâmetros sejam
normalmente distribuídos , construa um IC bilateral de 95% para o diâmetro médio.
8,24 8,23 8,20 8,21 8,20 8,28 8,23 8,26 8,24 8,25 8,19 8,25 8,26 8,23
8,24
8.3 - A pintura de sinalização de uma estrada é feita nas cores branca e amarela. O
tempo de secagem desta pintura é de grande interesse. Suspeita-se que o amarelo tenha
um tempo de secagem mais rápido que o branco. Suponha que os tempos são
normalmente distribuídos, com a mesma variância. Abaixo temos amostras dos seus
tempos de secagem de ambos os tipos de pintura. Construa um IC de 95% para a
diferença entre as médias populacionais.
Branco: 120 132 123 122 140 110 120 e 107
Amarelo: 126 124 116 125 109 130 125 117 129 e 120
8.5 - Uma indústria fabrica discos de freio para automóveis. Dois processos P1 e P2 são
usados, e, ambos produzem discos com diâmetros médios idênticos. Amostras de n =
12 e m = 15 unidades fabricadas pelos dois processos resultaram em
s1 5,1 e s 2 4, 7 micro-polegadas. Determine um IC de 90% para a razão entre as
variâncias dos dois processos, supondo normalidade dos dados.
8.6 - Uma pesquisa foi realizada em 1954 com o objetivo de verificar a eficácia da
vacina Salk no combate à paralisia infantil. Dois grupos de pessoas:
n1 201.299 e n 2 200.745 participaram da pesquisa. A vacina foi aplicada as
pessoas do segundo grupo, enquanto que as pessoas do primeiro receberam um placebo
(visualmente idêntica à vacina, mas sem produzir nenhum efeito). Por razões éticas e
por suspeita de que o conhecimento da administração ou não da vacina poderia influir
em futuros diagnósticos, nem as pessoas, nem os administradores da vacina, tomaram
conhecimento de quem recebeu a vacina e quem recebeu o placebo. Os casos de polio
observados foram 110 e 33, respectivamente aos grupos. Estabeleça um procedimento
para analisar eficácia da vacina. Use um nível de confiança de 95%.
9. Testes de Hipóteses Paramétricos.
Por exemplo, suponhamos que a duração média da vida de uma especial placa de
micro-computador seja igual a 800 horas. Um novo processo de fabricação é proposto,
e, deseja-se estabelecer um procedimento de decisão para julgar se o novo processo é
melhor do que o processo atual. Em outras palavras, desejamos testar se a duração
média das placas produzidas pelo novo processo é maior ou menor que a duração média
atual.
Neste exemplo, formularemos a hipótese de que o novo processo não é melhor do que o
atual. Em geral, esperamos que a hipótese seja rejeitada. Para testar a hipótese, 100
placas produzidas pelo processo proposto são observadas e suas vidas registradas.
Suponha que a média das vidas obtida seja igual a x 950 .
Uma primeira comparação nos levar a admitir que o novo processo é melhor. No
ˆ
entanto, suponhamos que a estimativa do desvio padrão de X seja igual a 150 .
10
ˆ
Se no entanto 50 , o intervalo de confiança de 95% seria (859 ; 1050) e com algum
10
risco podemos rejeitar a hipótese formulada e declarar com um certo grau de
confiança que o novo processo é melhor que o atual.
Observamos que a teoria dos testes estatísticos está fortemente relacionada com a teoria
da estimação (pontual e intervalar).
Definição 9.1
Chama-se hipótese estatística H, a qualquer declaração ou afirmativa a respeito da
distribuição de uma ou mais variáveis aleatórias. Se a hipótese estatística especifica
completamente a distribuição, então ela é dita simples, e, em caso contrário composta.
Nota: Seja X1 , X 2 ,..., X n uma amostra de uma variável aleatória X com distribuição
N ; 2 64 . Seja a hipótese H: 25 . O procedimento: “Rejeitar H se e somente se
x 25 8 / n ” é um teste estatístico.
Através desta seção, vamos supor que sabemos a forma da distribuição do modelo, mas
desconhecemos o valor do parâmetro do qual depende àquela distribuição. Por este
motivo, os testes estatísticos que estudaremos são chamados testes paramétricos.
Por exemplo, suponhamos que se deseja testar a hipótese de que uma distribuição de
Poisson tem média igual 1 contra uma hipótese alternativa de que a média seja 3. Assim,
as hipóteses nula e alternativa são:
H 0 : =1
H1 : =3
A decisão será tomada com base em uma amostra aleatória da variável aleatória de
Poisson, e a estatística de teste a ser usada é a média da amostra. O procedimento de
teste, consiste na partição do espaço amostra constituído por todos os valores possíveis
de X , em duas regiões que denominaremos por A e R, chamadas regiões de aceitação e
rejeição (ou crítica), respectivamente.
_______________ ________________
Região A c Região R
Gráfico 9.1
2, 7 1
P X 2, 7 / H 0 P X 2, 7 / 1 P Z P Z 1, 7 0, 0446
1
2, 7 5
P X 2, 7 / H1 P X 2, 7 / 5 P Z P Z 2,3 0, 0107
1
Exemplo 9.1
Seja X1 , X 2 ,..., X9 uma amostra de uma variável aleatória N(,1) e consideremos o
teste das hipóteses seguintes:
H 0 : =4
H1 :=5
se x c aceita-se H 0
se x>c rejeita-se H 0
X-5 c 5 c-5 c 5
=P =P Z FZ
1/3 1/ 3 1/3 1/ 3
c
0,03 4,62 0,1271
0,05 4,55 0,0885
0,07 4,49 0,0630
0,10 4,42 0,0409
Como rejeitar H 0 quando verdadeira é um fato mais grave do que aceitá-la sendo
falsa, então devemos minimizar a probabilidade do erro do 1o. Tipo, ou seja . Escolher
qual das probabilidades deve ser minimizada envolve diretamente a formulação das
hipóteses, conforme o exemplo que segue e nota subsequente.
Exemplo 9.2 (*)
Em um tribunal o juiz deve decidir entre a hipótese H 0 : o acusado é inocente e H1 : o
acusado é culpado. Se o acusado for condenado sendo H 0 verdadeira comete-se um erro
do 1o. Tipo, cuja probabilidade é . Se ele for absolvido sendo H1 verdadeira, ocorre
um erro do 2o. Tipo, cuja probabilidade é .
Nota:
Se as formulações das hipóteses fossem trocadas, isto é, se H 0 : o acusado é culpado e
H1 : o acusado é inocente, o erro mais grave seria condenar um inocente, e, neste caso,
é probabilidade a ser minimizada. Em geral as hipóteses H 0 e H1 são estabelecidas
de forma que a probabilidade do erro do 1o. Tipo seja aquela a ser minimizada.
Exemplo 9.3
Seja X1 , X 2 ,..., X16 uma amostra de uma variável aleatória N(,1) e consideremos o
teste das hipóteses seguintes:
H 0 : =4
H1 :=5
Adotando o mesmo critério de teste do Exemplo 9.1, teríamos para os mesmos valores
lá fixados a seguinte tabela
c
0,03 4,47 0,0170
0,05 4,41 0,0091
0,07 4,37 0,0059
0,10 4,32 0,0033
Facilmente verificamos uma redução drástica das probabilidades comparativamente
àquelas do Exemplo 9.1. Isto se deve exclusivamente ao fato de que o tamanho da
amostra passou de 9 para 16.
Exemplo 9.4
Suponha que um processo de fabricação de circuitos elétricos para TV gere produtos
com duração de vida distribuída normalmente com média igual a = 1200 horas e
desvio padrão de = 300 horas. Um novo processo de fabricação está em análise e o
engenheiro responsável pelo controle estatístico da qualidade deseja testar a hipótese de
que o novo processo não é melhor do que o atual. Para isso estabeleceu uma hipótese
nula da forma H 0 :0 =1200 e definiu o seguinte critério de teste: observar 100 produtos
fabricados pelo novo processo e, rejeitar H 0 se o tempo médio de vida dos circuitos
testados for superior a 1249.
Na verdade o engenheiro calculou esse valor definindo inicialmente a probabilidade do
erro do 1o. Tipo que ele admite cometer, isto é:
Suponhamos que inicialmente o engenheiro tenha fixado H1 :1 1240 , de forma que
1249 1240
P X 1249 / H1 P Z P Z 0,30 0, 62
30
Façamos então,
i) H1 :1 =1280
1249 1280
P X 1249 / H1 P Z P Z 1, 03 0,15
30
Quando 1 se aproxima de 1200, o poder tende a 0,05, o valor de . Por outro lado
quando 1 se afasta de 0 , o poder de detectar a falsidade de H 0 tende para 1. Isto quer
dizer que: quanto mais 1 se distancia de 0 , mais fácil se torna discriminar entre as
duas hipóteses.
Definição 9.3
Seja um teste estatístico da hipótese nula H 0 :=0 . Chama-se função poder de ,
denotada por 1 , à probabilidade de rejeição da hipótese nula para todo
pertencente ao espaço paramétrico da distribuição da qual a amostra foi gerada, ou seja:
P rejeitar H0 /
Nota:
A função poder (ou função potência) pode ser denotada por P rejeitar H 0 onde
é o verdadeiro valor do parâmetro. Assim, P T X1 , X 2 ,..., X n R onde
T X1 , X 2 ,..., X n e R são respectivamente a estatística de teste e a região de rejeição.
Exemplo 9.5
Seja X1 , X 2 ,..., X n uma
amostra aleatória de X com distribuição N(
,5).Consideremos a hipótese nula H 0 : 17 e o seguinte teste:
: “rejeitar H 0 se e somente se x 17 5 / n ”
17 5 / n
A função poder é então, P X 17 5 / n P Z .
5/ n
Para n = 25, teremos, P X 18 P Z 18 1 FZ 18 .
Definição 9.4
Nota:
No Exemplo 9.5, o nível do teste é dado por
Suponha que X1 , X 2 ,..., X n seja uma amostra aleatória gerada por uma das duas
distribuições seguintes: f(x, 0 ) ou g(x, 1 ). Consideremos as hipóteses
H 0 : X f x,0
H1 : X g x,1
Definição 9.5
Teste da Razão de Verossimilhança Simples
Seja X1 , X 2 ,..., X n uma amostra aleatória de uma variável aleatória X com densidade
f x, 0 ou f x, 1 . O teste de H 0 :X f x,0 contra H1 :X f x, 1 é
chamado teste da razão de verossimilhança se
L x1 , x 2 ,..., x n , 0
Rejeitamos H 0 se: k
L x1 , x 2 ,..., x n , 1
L x1 , x 2 ,..., x n , 0
Aceitamos H 0 se: k
L x1 , x 2 ,..., x n , 1
onde k é uma constante arbitrária, não negativa e L x1 , x 2 ,..., x n , j é a função de
verossimilhança da amostra da população f(x, j ), j=0,1.
Definição 9.6
Um teste de H 0 :=0 contra H1 :=1 é chamado teste mais poderoso de nível , se
e somente se
- 0
- 1 1 para qualquer outro teste tal que
0
H 0 :=0
H1 :=1
definiremos as regiões de aceitação e rejeição como segue, onde x x1 , x 2 ,..., x n
A x / aceitamos H 0
R x / rejeitamos H 0
Vamos supor que X, origem da amostra seja do tipo discreto, e neste caso, a função de
verossimilhança nos fornece a probabilidade de ocorrer o valor observado na amostra
designado por x x1 , x 2 ,..., x n .
L x1 , x 2 ,..., x n , 0 e L x1 , x 2 ,..., x n , 1
tais que:
L x , x ,..., x
xS
1 2 n , 0 1
L x , x ,..., x
xS
1 2 n , 1 1
L L L (1 ) 1
xS
0
xA
0
xR
0
e L L L 1 1
xS
1
xA
1
xR
1
Assim, as probabilidades dos erros de 1o. Tipo e 2o. Tipo são obtidas somando-se as
funções de verossimilhança em convenientes regiões, de acordo com as definições, isto
é,
L 0 e = L 1
xR xA
A x / L 0 kL 1
R x / L 0 kL 1
consideremos um outro teste qualquer, para as mesmas hipóteses, mas com partição
A , R , embora com a mesma probabilidade de erro do 1o. Tipo, ou seja
L .
0
xR
e
L L L L 0
0 0 0 0
R A R R A R R R
L L
0 0
R A A R
Se para todo x R L 0 kL 1 e como R A R , então
L k L
0 1 ou L k L
0 1 (I)
R A R A R A R A
Se para todo x A L 0 kL 1 e como A R A , então
L k L
0 1
A R A R
(II)
0k L k L
1 1
A R R A
ou
L L
1 1
A R R A
L L L L
1 1 1 1
A R A A R A A A
L L
1
1 ou
xA xA
nível de significância .
R x1 , x 2 ,..., x n / L 0 kL 1
é aquele que tem o menor valor possível de , dentre todos os possíveis testes com o
mesmo nível de significância , sendo k uma constante não negativa.
Exemplo 9.6
Recordemos o Exemplo 9.1, quando definimos X1 , X 2 ,..., X 9 de uma variável
aleatória X com distribuição N( ,1), para testar as hipóteses
1 n 2
L x, 4 1/ 2 exp x i 4
n 2
2 i 1
1 n 2
L x,5 1/ 2 exp x i 5
n 2
2 i 1
1 n 2 1 n 2
R x / 1/ 2 exp x i 4 k 1/ 2 exp x i 5
n 2 n 2
2 i 1 2 i 1
1 n 1 n
x i 5
2 2
x i 4 ln k
2 i 1 2 i 1
n n
x
i 1
2
i 8x i 16 2 ln k x i2 10x i 25
i 1
n
2 x i 2 ln k 25n 16n
i 1
n
9n 1 9
x
i 1
i ln k
2
R= x/x - ln k
n 2
Exemplo 9.7
Um amostra de tamanho n = 10 de uma variável aleatória Normal com variância
conhecida 2 9 , produziu a estimativa x 25, 65 . Teste a um nível de significância
=0,05 a hipótese H 0 : 24 contra as hipótese alternativas:
a) H1 : 24 b) H1 : 24 c) H1 : 24
Solução:
Item a: Formulação das hipóteses:
H 0 : 24
H1 : 24
0, 05
9
Estatística de teste: X é N , X é N ;0,95
10
Região de rejeição: R x / X c
c 24
P X c / H 0 P Z 0, 05
0,95
c 24
1, 65 c 24 1,568 c 25,568
0,95
9
Estatística de teste: X é N , X é N ;0,95
10
Região de rejeição: R x / X c
c 24
P X c / H 0 P Z 0, 05
0,95
c 24
1, 65 c 24 1,568 c 22, 432
0,95
9
Estatística de teste: X é N , X é N ;0,95
10
Região de rejeição:
R x / X c1 X c 2
Região de Aceitação: A x / c1 X c 2
c 24 c 24
P c1 X c 2 / H 0 1 P 1 Z 2 0,95
0,95 0,95
c1 24
1,96 c1 24 1,862 c1 22,138
0,95
c 2 24
1,96 c 2 24 1,862 c 2 25,862
0,95
Exemplo 9.8
Suponha que desejamos testar a hipótese H 0 : =2 contra H1 : =4 , sendo o
parâmetro de uma população X, com distribuição exponencial, e que dispomos de uma
amostra aleatória de tamanho n = 15 de X.
As duas funções de verossimilhança são,
15 15
L 2 2 exp 2 x i e L 4 4 exp 4 x i
15 15
i 1 i 1
15 15
R x / 215 exp 2 x i k415 exp 4 x i
i 1 i 1
ln k 1
R x / x ln 2 o que é equivalente a R x / x c .
30 2
n
Sabemos que 2 X i é 2n e se H 0 é verdadeira, 2 , e sendo n = 15, a variável
2
i 1
Se fixarmos = 0,10.
De forma que R x / x 0,34 é o teste que tem o menor possível dentre todos os
testes com = 0,1.
O teorema de Neyman e Pearson permanece válido para o caso de variáveis aleatórias
do tipo discreto. Podemos então construir teste para hipóteses simples sobre parâmetros
de leis de probabilidades discretas. A estatística de teste é , em geral, também uma
variável aleatória discreta, e, por isso os valores disponíveis de também formarão um
conjunto discreto. Em muitos casos porém é possível obter aproximações razoáveis para
efeito de comparações teóricas como veremos no exemplo a seguir.
Exemplo 9.9
Suponha X uma variável aleatória de Bernoulli (p) e seja X1 , X 2 ,..., X n uma amostra
aleatória de X. Vamos definir com base em Neyman-Pearson um teste para as hipótese
simples H 0 : p = 0,2 contra a hipótese alternativa H1 : p = 0,4 .
As funções de verossimilhança são
n n
xi n xi
L 0, 2 (0, 2) i 1
(0,8) i 1
n n
x n x
L 0, 4 (0, 4)
i i
i 1
(0, 6) i 1
n n n n
x i n x i x i n x i
(0, 2) i 1
(0,8) i 1
k(0, 4) i 1
(0, 6) i 1
n n
xi n xi
(1/ 2) i1
(4 / 3) i 1
k
n
n
x ln(1/ 2) n x ln(4 / 3) ln k
i 1
i
i 1
i
n n
0, 6931 x i 0, 2877 x i ln k 0, 2877n
i 1 i 1
Assim, um teste para um fixado valor para , com o menor possível é dado por
n
R x / x i c
i 1
10
a) Se n = 10, a variável X10 X i , sob a hipótese H 0 , tem distribuição Binomial
i 1
20
b) Se n = 20, a variável X 20 X i , sob a hipótese H 0 , tem distribuição Binomial
i 1
Além disso, P X10 8 / p 0, 4 0, 4158 (*) o que implica que o poder do teste
para p = 0,4 é 0, 4 1 0,5842 .
Teorema 9.1.a
Seja X1 , X 2 ,..., X n uma amostra de uma variável aleatória N , , sendo 2
2
H0 H1 R
0 0 x 0 z
n
0 0 x 0 z
n
0 0 x 0
z
/ n 2
Exemplo 9.10
Seja X uma v.a. N(, 4) e suponha que desejamos testar a hipótese H 0 :=0
contra H1 :=1 , onde 0 1 . Já vimos anteriormente que a região crítica segundo
Neyman-Pearson é R x / X c .
Fixados os valores de e , e sabendo-se que X é N(,4/ n ) , temos então que:
c 0 c 0 0 c
P X c / H0 P Z 1 FZ FZ
4/ n 4/ n 4/ n
c 1 c 1
P X c / H1 P Z FZ
4/ n 4/ n
Se P Z z p P Z z p p , então temos as duas equações abaixo:
0 c c 1
z e z
4/ n 4/ n
4 4
ou 0 c z e c 1 z
n n
Finalmente temos,
16 z z
2
0 z 1z
c e n
z z 0 1
2
2 z z
2
Exemplo 9.11
Seja X uma variável aleatória N(, 4) . Determinaremos o valor de n , para testar a
hipótese H 0 : = 3 contra H1 : = 6 , usando o melhor teste com 0, 05 e =0,10 .
16 1, 28 1, 64
2
136, 42
n n n 15,15 15
6 3
2
9
c
1, 64 6 1, 28 3
= 4,68
1, 64 1, 28
Conferindo a teoria desenvolvida, obtemos
4, 68 3
P X 4, 68 / 3 P Z 1 FZ 1, 6254 1 0,9463 0, 05
1, 0336
4, 68 6
P X 4, 68 / 6 P Z P Z 1, 2771 0,10
1, 0336
Recordemos que o melhor teste para as hipótese H 0 :=0 contra a hipótese H1 :=1 ,
é aquele cuja região crítica é dada por
R x / L x, 0 kL x, 1
que é equivalente a:
i) R t x1 , x 2 ,..., x n c se 1 0
ii) R t x1 , x 2 ,..., x n c se 1 0
Exemplo 9.12
Seja X1 , X 2 ,..., X n uma amostra aleatória de uma variável aleatória exponencial de
parâmetro . Para testar as hipóteses
H 0 : 0
H1 : 0
L x, 0 kL x, 1
n
n
ou 0n exp 0 x i k1n exp 1 x i
i 1 i 1
n n
que é equivalente n ln 0 0 x i ln k n ln 1 1 x i
i 1 i 1
n
ou 1 0 x i ln k n ln 1 n ln 0
i 1
1. p, da Bernouli (p).
2. , da Poisson ( ).
3. , da Normal com conhecido.
4. , da Normal com conhecido.
5. p, da Geométrica(p).
Suponhamos que se deseja testar uma hipótese H 0 que especifica valores ou intervalos
para um ou mais parâmetros de uma lei de probabilidade contra a hipótese alternativa
H1 , que simplesmente estabelece que H 0 é falsa. As hipóteses podem ser estabelecidas
da forma
H 0 : W
H1 : W, W
A função de verossimilhança da amostra é por definição L x, , e, esta função assume
o seu valor máximo quando os componentes do vetor são as estimativas de máxima
ˆ
verossimilhança dos respectivos parâmetros, ou seja ˆ 1 , ˆ 2 ,..., ˆ k .
ˆ
Representemos por L x, W
ˆ
o máximo valor de L x, para W , e seja L x, o
máximo valor de L x, , para .
l
ˆ
L x, W
1
ˆ
L x,
ˆ
L x, W
A razão l
ˆ é chamada razão de verossimilhança generalizada.
L x,
É claro que se H 0 : W é verdadeira, o numerador da razão é próximo do
denominador e consequentemente a razão se aproxima de 1. Se, ao contrário, H 0 é
falsa, esperamos o numerador consideravelmente menor do que o denominador, e assim,
o critério do chamado teste da razão de verossimilhança generalizada é dado por
R x / l
ˆ
L x, W
k
ˆ
L x,
onde k < 1 é escolhido, de forma que o nível de significância do teste seja igual a .
Prova-se que este teste é equivalente ao “melhor teste” obtido quando aplicamos o
Teorema de Neyman-Pearson, para o caso em que temos H 0 e H1 como hipóteses
simples.
Exemplo 9.13
Suponhamos que a duração da vida de um equipamento eletrônico tem distribuição N
(, ) , e, a partir de uma amostra aleatória de tamanho n, desejamos testar as hipóteses:
H 0 :=750 horas
H1 : 750 horas
O espaço paramétrico completo do vetor (, ) é o espaço
, / , 0 , enquanto que o espaço paramétrico correspondente à
hipótese nula é: W , / 750; 0 .
n
1 2 1 n
2
L x, , 2 2
exp 2 x i .
2 2 i 1
1 n
x i x , então o denominador da razão de verossimilhança generalizada é
2
ˆ 2
n i 1
n
2
n
n
L x, ˆ , ˆ 2 e 2
n
2 2
xi x
i 1
n n
1 2 1 2 1 n
2
L x, 750, 2 2 exp 2 x i 750
2 2 i 1
n
x 750
2
i
n n 1
ln L x, 750, 2 ln(2) ln 2 i 1
2
2 2 2
n
n
x i 750
2
ln L x, 750, 2
2 i 1
0
2 2 2 2
2
x 750
2
i
n 1 n
x i 750
2
i 1
ˆ 2
2 2 2 4 n i 1
n
2
n
ˆ
n
Logo, L x, W e 2 n
2 2
x i 750
i 1
L x, W x i x
ˆ
l ni 1
ˆ
L x, x i 750 2
i 1
n n 2
i 1
n
x i x n x 750
2 2
i 1
2
(x i x) 2
1
l n
i 1
n
n(x 750) 2
(x i x) 2 n(x 750) 2 1 n
i 1
(x
i 1
i x) 2
n(x 750)2
n
Observa-se facilmente que l é pequeno quando é grande, e, assim, a região
i 1
x)2 (x i
de rejeição do teste da RVG é definida para valores de x tais que
i 1
x 750 n
d(n 1) t n-1 c
1 n
n 1 i 1
(x i x) 2
x 750 n
t (n 1), / 2
S
O exemplo discutido até então, é um caso particular do teorema abaixo cuja
demonstração pode ser feita como exercício
Teorema 9.2
Seja X1 , X 2 ,..., X n uma amostra de uma variável aleatória N , , sendo ambos os
2
H0 H1 R
0 0 x 0 t n 1, s
n
0 0 x 0 t n 1, s
n
0 0 x 0
t n 1, / 2
s/ n
Um fabricante de réguas de cálculo afirma que o desvio padrão das medidas produzidas
por sua máquina não excede não excede 0,02. Supondo que as medidas são
normalmente distribuídas, construa um teste de razão de verossimilhança generalizada
para testar
H 0 : 0,02
H1 :>0,02
Solução:
A função de verossimilhança da amostra é
n
1 2 1 n
2
L x, , 2 2
exp 2 x i
2 2 i 1
Devemos maximizar L x, , no sub-espaço W de , definido por
2
W , / ;0 2 0, 02
2
.
Sabemos que em relação ao parâmetro , o valor que maximiza L x, , é x .
2
Com relação a 2 , o valor que maximiza L x, , é
2
x x
2
i
0, 02
2
i) ˆ 2 se ˆ 2 i 1
n
n
x x
2
i
ii) 0, 02 se ˆ 2 i 1
(0, 02) 2
n
ˆ
Assim, obtemos L x, W ;
n
2 x x
n 2
n n
0, 02
2
e 2 i 1 i
se
i 1 i
n 2
2 x x n
ˆ
L x, W
n
n x i x 2 x x
n
1 2 2
0, 02
2
exp i 1 se i
2
i 1
2 0, 02 2 0, 02
2
n
x x
n 2
0, 02
2
1 se i 1 i
n
l n
i 1 i
n n x i x 2 x x
n 2 2 n 2
x x
0, 02
2
exp i 1 se i 1 i
2 2
n 0, 02 2 2 0, 02 n
x x
n 2
i 1 i
Observemos o gráfico de l em função de b =
n 0, 02
2
x x
n 2
i
Nota-se que lk i 1
c . Dessa forma rejeitaremos H 0 quando
n 0, 02
2
l
ˆ
L x, W
ˆ for pequeno, e assim a região crítica do teste de RVG será
L x,
n x i x 2
R x / i 1 nc c
0, 02
2
Recordando que
n 1 S2 é uma variável aleatória 2n 1 , então a probabilidade do erro
2
do 1o. Tipo é
n X X 2
i
P i 1 c
2
0, 02
H 0 : 0,02
H1 :>0,02
com um nível de significância de 0,1, então 9 14, 7 , e rejeitaremos a hipótese nula se
2
x x >14,7 0, 02 0, 00588 ,
10 2 2
i 1 i
Teorema 9.3
Seja X1 , X 2 ,..., X n uma amostra aleatória de uma variável aleatória normal de média
desconhecida. A região crítica (rejeição) do teste da razão de verossimilhança
generalizada a um nível de significância , para o parâmetro 2 é
H0 H1 R
x i x 02 12
2 2 2 2 n 2
0 0
i 1
2 20 2 20 x i x 022
n 2
i 1
2 20 2 20 x i x 02 2 / 2
n 2
i 1
ou
x i x 02 12 / 2
n 2
i 1
Exemplo 9.15
O crescimento de uma certa planta, durante o período de um ano é supostamente uma
variável aleatória N , . Deseja-se testar as hipóteses
2
H 0 :2 1/ 4
H1 : 2 <1/4
Com um nível de significância de 0,05 e baseado numa amostra aleatória de n = 5
observações seguintes: 1.9 , 1.1 , 2.7 , 1.6 e 2 , com x 1,86
xi 1.9 1.1 2.7 1.6 2 9,3
xi x 0,04 -0,76 0,84 -0,26 0,14
n
R x / x i x 02 n2 1, .
2
Para n = 5 e 0, 05 4;0,05 0, 711
2
i 1
n
s s
x t n 1, / 2 e x t n 1, / 2
n n
Para evitar tais problemas a técnica do p-valor tem sido largamente aplicada na prática.
O p-valor é a probabilidade de que a estatística de teste assuma um valor que é tão ou
mais extremo que o valor observado da estatística de teste, quando a hipótese nula é
verdadeira. O p-valor exprime muita informação sobre o peso das evidências obtidas na
amostra, contra a hipótese H 0 .
A decisão sobre a hipótese H 0 , com base no p-valor deve levar em conta o erro
admissível. Grandes valores de p-valor sugerem H 0 verdadeira, enquanto que
pequenos valores de p-valor sugerem H1 verdadeira. Se o nível for predefinido,
rejeitaremos H 0 quando p-valor for menor que .
Gráfico 9.1
Definição 9.7
O p-valor de um teste estatístico é o menor nível de significância que nos levaria à
rejeição da hipótese nula H 0
Exemplo 9.15
Três pesquisadores A, B e C, estão diante de um teste estatístico e divergem entre si
quanto ao erro do 1o. Tipo que admitem cometer: A 0, 01 , B 0, 05 e C 0,10 .
Alheio à divergência entre A, B e C, um quarto pesquisador, encarregado de realizar o
teste informa-os que o p-valor obtido no teste foi 0,08. Nestas condições o teste é não
significante para os pesquisadores A e B, que certamente aceitarão a hipótese nula,
enquanto que C rejeitará H 0 , visto que p-valor=0,08 < C 0,10 .
Exemplo 9.16
Suponha X uma variável aleatória N(u,1). Se uma amostra de tamanho n = 10, resultou
em x = 2,5 , teste a hipótese H 0 : 2 contra H1 :>2 , usando o teste de significância.
Solução:
2,5 2
p-valor P X 2,5 / 2 P Z
1/10
p-valor = P Z 1,58 0, 0571 0, 05
Rejeitamos a hipótese nula pois o teste é significante para qualquer 0, 0571 , por
exemplo 0,06 , 0,07, ....., 0,10, ..., 0,15 , ......
Suponha que para o mesmo teste acima, tenham sido fixados, por três pesquisadores A,
B e C, os níveis: A 0,10 , B 0, 025 e C 0, 01.
c2
1. Se A 0,10 P X c / H 0 P Z c 2, 404 ,
0,316
e como x 2,5 c H 0 é rejeitada.
c2
2. Se B 0, 025 P X c / H 0 P Z c 2, 619 ,
0,316
e como x 2,5 c H 0 não é rejeitada.
c2
3. Se C 0, 01 P X c / H 0 P Z c 2, 736 ,
0, 316
e como x 2,5 c H 0 não é rejeitada.
Exemplo 9.17
Uma amostra de tamanho n = 5 de uma variável aleatória N , resultou em
s 2 0,343 . Teste a hipótese H 0 :2 1/ 4 contra H1 : 2 1/ 4 .
Solução:
Segundo o teste da razão de verossimilhança, a região de rejeição de H0 é
R x / s 2 c , e , consequentemente o p-valor é
4 S2
p-valor P S 0,343 P 16 0,343
2
14
p-valor P 4 5, 488 0, 75
2
Suponha, por exemplo, que o número de acidentes em uma rodovia, por dia, seja uma
variável aleatória X, com distribuição de Poisson de parâmetro 1 , quando a velocidade
máxima permitida é de 80 km por hora. Se o limite de velocidade é alterado para 60 km
por hora, podemos assumir que o número de acidentes é uma variável aleatória Y, com
distribuição de Poisson de parâmetro 2 . O julgamento sobre a influência da velocidade
máxima
,
permitida na rodovia, na incidência de acidentes, pode ser subsidiado pelo teste da
hipótese H 0 :1 2 contra a alternativa H1 :1 2 . Estas hipóteses são equivalentes
às hipótese H 0 :1 2 0 contra H 0 :1 2 0 .
H 0 :1 2 H 0 :1 2 0
ou
H1 :1 2 H1 :1 2 0
1 , 2 , 2 / 1 , 2 , 2 0 .
Se a hipótese H 0 é verdade, o espaço W restrito a H 0 , é
W 1 , 2 , 2 / , 2 0
A função de verossimilhança das duas amostras é:
i 1 x i 1 j1 y j 2
n m
n 2 m 2
1
L x, 1 , 2 .L y, 2 , 2
2
2
exp
2 2 2
x i 1 j1 y j 2
2
n 2 m
e ln L x, nm
y, 1 , 2 ,
2
ln 2 ln
2 i 1
2 2 2 2 2
Daí, temos
x 1
n 2
ln L i
i 1
1 2
y 2
m 2
ln L j
i 1
2 2
n m i 1 x i 1 j1 y j 2
n 2 m 2
ln L
2 2 2 2 2
2
ˆ 2
nm
1
n
i 1
x i x j1 y j y
2 m 2
Substituindo-se esses valores em L x, y, 1 , 2 , , obtemos o seu máximo, ou seja
2
nm
2
ˆ
nm
nm
L x, y, e 2
2 n
i 1
x i x j1 y j y
2 m 2
i 1 x i j1 y j
nm
n 2 m 2
1
L x, , 2
2
2
exp
2 22
x i j1 y j
n m
i 1 nx my
ˆ
nm nm
ˆ 2
1
nm
n
i 1
x i ˆ
2
j1 y j ˆ
m 2
Substituindo-se esses valores em L x, , ,
2
nm
2
nm
nm
L x, y, ˆ , ˆ
2
e 2
n 2 m
2 i 1 x i ˆ j1 y j ˆ
2
Sendo assim, a razão entre as duas funções de verossimilhança é
nm
l
ˆ
L x, y, W
in1
n x x 2 m y y 2
i j1 j
2
i 1 x i ˆ j1 y j ˆ
ˆ 2 m 2
L x, y,
nx my
Lembrando que ˆ , podemos escrever,
nm
x ˆ j1 y j ˆ i 1 x i x x ˆ j1 y j y y ˆ
n 2 m 2 n 2 m 2
i 1 i
n m
x i x y j y n x ˆ m y ˆ
2 2 2 2
i 1 j1
nm x y
2
n m
xi x yj y
2 2
i 1 j1 nm
Dividindo-se o numerador e o denominador de l pelo numerador, temos
1
l n m ,
1 a 2
nm x y
2
onde nm t2
a n
i1 x i x j1 y j y n m 2
2 m 2
Recordemos que
x x j1 y j y
n 2 m 2
t
x y nm i 1 i
nm nm2
é uma observação de uma variável aleatória de Student com n+m-2 graus de liberdade,
se H 0 :1 2 0 é verdadeira.
l
L Wˆ
ˆ k
L
1
l nm
t2
Como t 2 2 , então l k eqüivale a a c , ou c,
1 nm2
nm2
Finalmente, podemos escrever que, para termos uma probabilidade de erro do 1 o. tipo
igual a , rejeitaremos H 0 se
x x j1 y j y
n 2 m 2
x y nm
t n m 2 , / 2 ,
i 1 i
nm nm2
onde P Tn t n ,p P Tn t n ,p p .
Teorema 9.4
Sejam X1 , X 2 ,..., X n e Y1 , Y2 ,..., Ym amostras aleatórias de variáveis aleatórias X,
N 1 , 2 e Y, N 2 , 2 , independentes.
Seja Sp
2 1
nm2
n
i 1
X i X j1 Yj Y
2 m 2
eT n m 2 X Y
nm
nm
Sp .
H0 H1 R
1 2 1 2 t t (n m 2), / 2
1 2 1 2 t t (n m 2),
1 2 1 2 t t (n m 2),
Exemplo 9.18
Oito válvulas da marca G funcionaram durante 686, 784, 769, 848, 728, 739, 757 e 743
horas, enquanto que 10 válvulas similares mas da marca H funcionaram durante 762,
783, 763, 749, 806, 783, 831, 784, 790 e 750 horas. Supondo que as duas amostras são
independentes, de origem normal e variância comum, vamos testar as hipóteses
H 0 :1 2 contra a hipótese alternativa H1 :1 2 a um nível de significância
=0,05.
Solução:
X X j1 Yj Y
n 2 m 2
X Y nm i 1 i
Tn m 2
nm nm2
c) Região de rejeição:
Conforme Teorema 9.4,
R x / t t (n m 2), / 2
R x / t t16;0,025 R x / t 2,12
x x 15.555,5
2
x 756, 75 i
i 1
10
y y 5.884,9
2
y 780,10 j
j1
15.555,5 5.884,9
s 2p 1.340, 025
16
756, 75 780,1 8018
t 1,345
1.340, 025
e) Decisão
Como t 1,345 1,345 2,120 t16:0,025 não rejeitamos H 0 .
9.15 - Teste para a razão entre duas variâncias de duas variáveis normais
independentes.
S2Y S2Y
L1 2 f n 1,m 1, / 2 e L 2 2 f n 1,m 1,1 / 2
SX SX
S2 2 S2
P Y2 f n 1,m 1, / 2 Y2 Y2 f n 1,m 1,1 / 2 1
SX X SX
será constituída pelo conjunto de valores x, y que geram valores observados da
S2Y
estatística fora do intervalo L1 , L2 . Se a hipótese nula é verdadeira, então
S2X
2X
1 e então rejeitaremos H 0 , se L1 , L2 não incluir o valor 1, isto é:
2Y
S2Y S2Y
f n 1,m 1, / 2 >1 ou f n 1,m 1,1 / 2 1
S2X S2X
S2X S2X
<f n 1,m 1, / 2 ou f n 1,m 1,1 / 2 .
S2Y S2Y
Teorema 9.5
Sejam X1 , X 2 ,..., X n e Y1 , Y2 ,..., Ym amostras aleatórias de variáveis
independentes X, N X , X e Y, N Y , Y . Sendo
2 2
1 n 1 m
Xi X Yi Y
2 2
S2X e SY2
n 1 i 1 m 1 j1
H0 H1 R
2X 2Y 2X 2Y s 2X
f n 1,m 1,1
s 2Y
2X 2Y 2X 2Y s 2X
f n 1,m 1,
s 2Y
2X 2Y 2X 2Y s 2X s 2X
f n 1,m 1, / 2 ou f n 1,m 1,1 / 2
s 2Y s 2Y
Exemplo 9.19
No exemplo 9.18 testamos a igualdade das vidas médias médias das válvulas das marcas
G e H, na suposição de que a variâncias eram iguais. Vamos agora testar, usando os
dados daquele exemplo, a hipótese H 0 :X Y contra H1 :X2 Y2 ., a um nível de
2 2
significância 0, 02.
Solução:
a) Formulação das hipóteses:
H 0 :2X 2Y
H1 :X2 Y2
1 1
0, 02 f 7,9;0,99 5, 613 f 7;9;0,01 0,1488
f 9;7;0,99 6, 719
b) Estatística de teste:
S2X
S2Y
c) Região de rejeição:
s2
s Y 2
R x, y / X2 ( ;f n 1,m 1, ) f n 1, m 1,1 ;
2
d) Cálculo do valor observado da estatística de teste
s 2X 1 1
3,39 , f 7;9;0,99 5, 613 e f 7;9;0,01 0,1488
s 2Y f9;7;0,99 6, 719
e a região de rejeição de H 0 é portanto,
s2
R x, y / X2 0;0,1488 5, 613;
sY
e) Decisão:
s 2X
Como 3,39 R aceitamos H 0 .
s 2Y
Embora haja uma razoável diferença entre as estimativas, isto não é suficiente
para rejeitar a igualdade a um nível de significância de 0, 02.
Y
Um teste aproximado, proposto por Welch é comumente usado neste caso, mas, não
existe ainda, unanimidade sobre o melhor teste a ser adotado.
Temos então que
E X Y 1 2
2X 2Y
Var X Y
n m
Sejam S2X 2
e SY os estimadores não tendenciosos para as duas variâncias.
XY
W
A variável aleatória S2X S2Y é uma estatística de certa forma adequada para
n m
O número de graus de liberdade d deve ser obtido por interpolação, visto que, quase
certamente não é um inteiro. A hipótese H 0 :1 2 0 será rejeitada a um nível de
significância , quando w t / 2 .
Exemplo 9.20
No Exemplo 9.19, a hipótese H 0 :X Y foi aceita a um nível de significância de
2 2
O valor observado de w é
w
756, 75 780,1 1, 26
2.222, 21 653.88
8 10
2.222, 21 653,88
2
2.222, 212 653,88 2
d 10, 24
8 10 64 7 100 9
Em algumas aplicações podemos nos defrontar com duas amostras dependentes. Esta
dependência muitas vezes ocorre intencionalmente. Suponha que se deseja testar o
efeito que a ingestão de bebidas alcóolicas possa provocar em n motoristas.
A hipótese nula a ser testada é “o tempo de reação das pessoas é o mesmo, em quaisquer
condições” , ou simplesmente E X Y 0.
Observemos que
E X i Yi E Di d X Y
Var X i Yi Var D i 2D 2X 2Y 2 X, Y X Y
i) D 0 X Y
ii) D 0 X Y
iii) D 0 X Y
Teorema 9.6
Seja X i , Yi , i = 1,2,3...,n uma amostra aleatória bidimensional de uma variável
1 n
aleatória normal de parâmetros X , Y , X , Y e X,Y , e sejam D
2 2
Di
n i 1
e
1 n
Di D os estimadores de D e 2D respectivamente.
2
S2D
n 1 i 1
Então a estatística Tn 1
D D n
tem distribuição de Student com n-1 graus de
SD
liberdade e pode ser aplicada para testar as hipótese abaixo indicadas a um nível de
significância .
H0 H1 R
X Y X Y sD
d t n 1,
n
X Y X Y s
d t n 1, D
n
X Y X Y sD
d t n 1, / 2
n
Exemplo 9.21
Quinze homens adultos com idade entre 35 e 50 anos participaram de um estudo para
avaliar o efeito de dieta alimentar e exercício físico nos níveis de colesterol. O total de
colesterol foi registrado em cada um deles antes e após três meses de participação em
um programa de dieta e de exercícios. Os dados são mostrados na Tabela abaixo. Teste
a hipótese de que a dieta e os exercícios são valiosos na redução dos níveis de
colesterol, usando o nível de significância de 0, 05 .
Solução:
a) Formulação das hipóteses:
H0 : D 0 H0 : X Y 0
ou
H1 : D 0 H1 : X Y 0
b) Estatística de teste:
Tn 1
D D n
SD
n
1 1 n
Di D
2
onde D
2
D i e S D
n i 1 n 1 i 1
c) Região de rejeição:
s
R x , y / d t n 1, D
n
d) Cálculo do valor observado de T.
H 0 : X Y
H1 : X Y
19, 033
R d / d 1, 761 8, 654
15
como d 26,867 8, 654 aceitamos a hipótese nula, ou seja, a média do nível de
colesterol após o “tratamento” é menor do que a média do mesmo nível antes do
tratamento.
X
O intervalo de confiança para a razão Y , ou seja, a razão entre os parâmetros de
duas variáveis aleatórias com distribuição exponencial, é igual a
Y Y
L1 f 2n,2m, / 2 e L2 f 2n,2m,1 / 2
X X
Estes limites foram obtidos a partir da análise da probabilidade
Y Y
P f 2n ,2m, / 2 X f 2n ,2m,1 / 2 1
X Y X
X X
f 2n ,2m,1 / 2 ou f 2n,2m, / 2
Y Y
Teorema 9.7
Sejam X1 , X 2 ,..., X n e Y1 , Y2 ,..., Ym amostras aleatórias das variáveis aleatórias
independentes X, exponencial X e Y, exponencial Y . Os testes da razão de
verossimilhança generalizada, para testar a razão entre os parâmetros das exponenciais
acima, a um nível de significância são
H0 H1 R
X Y X Y x f 2n ,2m,
y
X Y X Y x f 2n,2m,1
y
X Y X Y x f 2n ,2m, / 2 ou x f 2n ,2m,1 / 2
y y
Exemplo 9.22
Vamos então realizar este teste a um nível de significância de 0,10 . A Tabela que
segue mostra o resultado da geração de ambas as variáveis:
x
De forma que a região crítica é R x, y / 0;0,543 1,841; .
y
x 0,1767
Como 0, 7455 R , então aceitamos a hipótese nula de que o processador
y 0, 2370
de números aleatórios do Excel gerou eficientemente duas distribuições exponenciais
com igual média., a um nível de significância 0,10 .
Sejam as estatísticas
1 n p 1 p X
X
n i 1
Xi N pX ; X
n
1 m p 1 pY
Y= Yj N p Y ; Y
m ji m
E X Y p X p Y
p X 1 p X p Y 1 p Y
Var X Y
n m
E X Y 0
1 1 n m p 1 p
Var X Y p 1 p
n m nm
X Y
i 1
i
j1
j
nX mY
pˆ pˆ
nm nm
Podemos então escrever, supondo a hipótese nula verdadeira, que (vide Teorema 4.6)
XY
Z
n m nX mY nX mY é assintoticamente normal padrão.
1
nm n m n m
Rejeitaremos H 0 :p X p Y quando Z z / 2 .
Exemplo 9.23
Duas classes A e B de uma Universidade, participaram de uma pesquisa sobre a
escolha: aulas aos sábados ou aulas a partir do mês de fevereiro, no próximo ano letivo.
Numa amostra da classe A, com n = 100 alunos, 40 optaram pela antecipação do
calendário, ou seja: aulas em fevereiro. Numa amostra da classe B, com m = 80 alunos,
56 preferiram aulas aos sábados. Teste a hipótese H 0 de que a proporção dos alunos
que preferem aulas em fevereiro é igual em ambas as classes, a um nível de
significância de 0,10 .
Solução:
Desejamos testar as hipóteses,
H0 : pA pB
H1 : p A p B
0, 4 0,3 0,1
z 1,39
De forma que 100 80 40 24 40 24 0, 00516
1
100 80 180 180
Exercícios 9.
9.2 - Uma simples observação de uma variável aleatória geométrica (q) é usada para
testar as hipótese nula H 0 : 0 contra H1 : 1 0 . Se a hipótese nula é rejeitada
se e somente se o valor observado de X é menor ou igual a uma constante k, positiva,
encontre as expressões das probabilidades dos erros do primeiro e segundo tipo.
9.3 - Uma simples observação de uma variável aleatória X com distribuição exponencial
é usada para testar a hipótese nula de que a média da distribuição é 2 contra 5 .
Se a hipótese nula é aceita se e somente se o valor observado de X é menor que 3,
encontre as probabilidades dos erros do primeiro e segundo tipo.
9.6 - Suponha que X é uma v.a. de Bernoulli com parâmetro p. Toma-se uma amostra de
tamanho 4 de X para se testar H0: p = 0,25 contra H1: p=0,75. Rejeita-se H0 se, e
somente se, a amostra apresentar 4 sucessos. Levando-se em consideração este
procedimento, calcule e .
9.7 - Seja X1,..., Xn uma amostra aleatória de uma distribuição uniforme no intervalo
(0;), e deseja-se testar a hipótese H0: 2 contra a alternativa H1: < 2. Seja a
estatística de teste T X n . O procedimento do teste é tal que a região crítica contém
todos os resultados que satisfazem t < 1,5.
(a) Determine a função poder () desse teste.
(b) Determine o nível de significância desse teste.
9.9 - Assuma que X é uma v.a. de Poisson de parâmetro . Construa uma região crítica
do melhor teste para as hipóteses H0: = 2 e H1: = 1, se baseando numa amostra
aleatória de tamanho n.
9.10 - Seja X uma variável aleatória Beta (;1). Com base numa amostra aleatória de
tamanho n, construa o teste da razão de verossimilhança para testar H0: = 0 contra
H1: = 1, sabendo que 0 < 1.
9.11 - Uma variável aleatória X tem distribuição Normal (5;2). Com base numa
amostra aleatória de tamanho n, qual a melhor região de rejeição e a estatística de teste
associada para se testar H0: 2 = 10 contra H1: 2 = 20? Que mudança ocorre na região
crítica caso a hipótese alternativa fosse H1: 2 = 5?
9.12 - Assuma que cada uma das n = 13 mulheres seguiram a mesma dieta por um
período de 2 meses. A quantidade de quilos perdidos foram:
3,9 4,3 5,6 5,6 4,1 6,5 3,7 5,9 4,3 3,7 4,4 5,9 5,0
(a) Assumindo que estes resultados tem origem normal, você aceitaria H0: 4,5
(contra H1: < 4,5) com = 0,10?
(b) Utilizando agora = 0,05, você aceitaria H0: 2 0,8 (contra H1: 2 > 0,8)?
9.13 - Seja uma amostra aleatória de tamanho n = 9 de uma v.a. Normal com parâmetros
desconhecidos. Sabe-se que a realização dessa amostra gerou uma média de 22 e uma
variância s2 = 72.
(a) Teste a hipótese H0: 20 contra H1: > 20, com um nível de significância 0,05.
(b) Teste a hipótese H0: = 20 contra H1: 20, com um nível de significância 0,05.
(c) Construa um intervalo de confiança bi-lateral para com um coeficiente de
confiança de 95%.
A partir do resultado, teste a hipótese nula do item (b). A decisão tomada foi igual à do
item (b)? Por quê?
(d) Calcule o p-valor dos itens (a) e (b). Aplique um teste de significância para as
hipóteses nulas de cada item, com base nos resultados obtidos? As decisões desse item
são as mesmas que os outros? Por quê?
9.17 - É assumido que o número de dias entre a ocorrência de terremotos é uma v.a.
exponencialmente distribuída com taxa de ocorrência . Numa região A, os números de
dias entre os 9 mais recentes terremotos foram:
2,036 0,753 0,480 5,816 6,067 1,449 1,448 1,604
Na região B, os números de dias entre os 12 mais recentes terremotos foram:
1,972 4,054 2,801 2,227 3,826 2,984 1,193 1,996 0,982 2,325 3,404
Você aceitaria, com base nos dados obtidos, que as ocorrências de terremotos se dão
com a mesma taxa nas duas regiões , a um nível de significância à sua escolha?.
Calcule o p-valor do teste e faça os comentários que julgar convenientes.
9.18 - Uma pesquisa sobre aceitação das privatizações de companhias telefônicas foi
realizada no Rio e em São Paulo. Dentre 400 cariocas, 90 se declararam favoráveis,
enquanto que, dentre 220 paulistas, 64 se declararam contrários. Teste a hipótese de que
a aceitação popular sobre as privatizações nas duas cidades é o mesmo, com base apenas
no p-valor obtido, sem fixar qualquer nível de significância.
9.21 - Amostras de duas qualidades de aço temperado foram realizadas para comparar
a resistência a tensão (medidas em unidades de 1000 quilos por polegada quadrada) do
produto. As amostras resultaram em: s 2X 19, 2 para n=13 e s2Y 16 para m=16 .
Supondo que as medidas constituem amostras de variáveis aleatórias independentes com
distribuição normal, teste a hipótese de igualdade das variâncias das duas populações.
Use 0, 02 .
9.22 - Considere o exercício 9.18 e teste a hipótese H 0 : X Y contra a hipótese
H1 : X Y , a um nível de significância de 0, 05 .
9.23 - Dois catalisadores estão sendo analisados para determinar o quanto eles influem
na produção média de um processo químico. O catalisador 1 está em uso, mas o
catalisador 2, por ser mais barato, poderia vir a ser adotado desde que não altere o
processo em questão.
Duas amostras de produção assistidas pelos catalisadores 1 e 2 seguem abaixo. Supondo
que as amostras tem origem normal com variâncias iguais, teste a hipótese de igualdade
das médias dos dois processos, a um nível de significância de 0, 05.
Uma peça manufaturada pode ter defeito grave, defeito não grave ou ser não defeituosa.
3
Neste caso temos p
i 1
i 1.
Suponha agora que uma prova multinomial seja repetida n vezes, cada uma delas com
os mesmos k resultados possíveis, e sejam p1 , p 2 ,..., p k , suas respectivas probabilidades
associadas.
X1 X2 X3 X4 Y1 Y2 Y3
1 1 1 1 4 0 0
3 3 2 2 0 2 2
1 1 1 3 3 0 1
2 2 2 2 0 4 0
3 2 3 1 1 1 2
4!
destes pontos em S.
1!1!2!
Logo,
4!
P Y1 1, Y2 1, Y3 2 0, 2 0,5 0,3
1 1 2
1!1!2!
3
y j 0,1, 2,3, 4 p1 p 2 p3 1 j1
yj 4
Se n = 10 elementos são selecionados do grupo, o modelo seria.
10!
P Y1 y1 , Y2 y 2 , Y3 y3 0, 2 0,5 0,3
y 1 y y 2 3
y1 !y 2 !y3 !
3
y j 0,1, 2,...,10 p1 p 2 p3 1 j1
y j 10
Definição 10.1
Sejam n provas multinomiais com k resultados possíveis e respectivas probabilidades
p j , j = 1,2,...,k. Se Yj se identifica ao número de vezes que o resultado j ocorre nas n
provas, j = 1,2,...,k, então a função de probabilidade do vetor Y1 , Y2 ,..., Yk é
n!
P Y1 y1 , Y2 y 2 ,..., Yk y k p1 p 2 .... p k
y y 1 y 2 k
y1 !y 2 !...y k !
k
y j 0,1, 2,...., n p1 p 2 ... p k 1 j1
yj n
e nestas condições a vetor Y1 , Y2 ,..., Yk é denominado variável aleatória multinomial
de parâmetros n, p1 , p 2 ,..., p k .
y1 ! n y1 !
2
y j 0,1, 2,...., n p1 p 2 1 j1
yj n
y1 ! n y1 ! y1
y1 0,1, 2,...., n
Teorema 10.1
Seja Y1 , Y2 ,..., Yk uma variável aleatória multinomial com parâmetros n, p1 , p 2 ,..., p k .
Y np
2
k
Para n suficientemente grande a variável aleatória Q k 1
j j
tem
np j j1
Y np
2
j j
assintoticamente N(0,1), e em conseqüência Z 2
tem distribuição
np 1 p j j
Q1 1 1
np1 1 p1 np1 n 1 p1
Y np
2
Y np1 Y np2
2 2
2
j j
Q1 1 2
np1 np 2 j1 np j
tem distribuição qui-quadrado com 1 grau de liberdade.
Consideremos Y1 , Y2 ,..., Yk uma variável aleatória com distribuição multinomial,
conforme Definição 10.1. Se Yk n Y1 , Y2 ,..., Yk 1 e p k 1 p1 p 2 ... p k 1 ,
Y np
2
k
prova-se em um nível mais avançado que o deste texto que Q k 1
j j
tem
np j j1
A maioria dos autores alerta para o fato de que tal aproximação pode ser utilizada, com
um n suficientemente grande, mas de tal forma que np j 5 .
Seja a hipótese nula H 0 :p1 p1,0 ,p 2 p 2,0 ,...,p k-1 p k 1,0 , contra a hipótese
alternativa de que , simplesmente H 0 é falsa.
Y np
2
k
Se a hipótese nula é verdadeira a variável aleatória Qk 1
j j,0
tem
np j,0 j1
Exemplo 10.1
Um dos primeiros seis números inteiros é escolhido ao acaso. Assim, A j x / x j , j
= 1,2,..,6. Na realidade esta experiência coincide com a do lançamento de um dado com
o objetivo de se verificar o ponto obtido. Seja =0,05 e vamos testar a hipótese de que a
seleção aleatória é eficiente, ou seja, que o dado é perfeito. A hipótese nula é
equivalente a
1
H 0 :P(A j ) p j,0 , j = 1,2,...,6
6
Suponha agora que as freqüências empíricas dos eventos A j , j = 1,2,...,6 tenham sido
Y 10
6 2
j
13, 19, 11, 8, 5 e 4, respectivamente. O valor observado de Q j1 é
5
10
então
Q5 15, 6
10 10 10 10 10 10
significância de 5%.
H0 .
Exemplo 10.2
Um ponto X é selecionado aleatoriamente no intervalo (0,1). Consideremos os eventos
A1 x / 0 x 1/ 4
A 2 x /1/ 4 x 1/ 2
A 3 x /1/ 2 x 3 / 4
A 4 x / 3 / 4 x 1
1
4
1 3 5 7
p1,0 2xdx 16 ;
0
p 2,0
16
; p 3,0
16
e p 4,0
16
Assim,
12 10 24 30 50 50 74 70
2 2 2 2
Q3 1,82857
10 30 50 70
Exemplo 10.3
O exemplo anterior pode ser resolvido de uma maneira diferente, mas que em geral
proporciona um teste com maior poder. Os 160 valores da distribuição do exemplo
anterior foram gerados pelo software Excel. Vamos agora definir os eventos A j , tais
que P A j 0, 25 j=1,2,3,4. Desta forma os eventos em questão são:
A1 x / 0 x 0,50
A 2 x / 0,50 x 0, 70711
A 3 x / 0, 70711 x 0,86603
A 4 x / 0,86603 x 1
As freqüências dos eventos A j , j = 1,2,3,4 nestes intervalos foram 36, 39, 36 e 49 e
assim,
36 40 39 40 36 40 49 40
2 2 2 2
Q3 2,85
40 40 40 40
Definição 10.2
Seja X1 , X 2 ,..., X n
uma amostra aleatória de uma variável aleatória X cuja
distribuição é completamente especificada e definida em R. Se A j , j = 1,2,3...,k é
uma qualquer partição de R e Yj , j = 1,2,...,k é o número de valores X is que
pertencem a A j , então Y1 , Y2 ,..., Yk é uma variável aleatória multinomial com
parâmetros n, p1 , p 2 ,.., p k , onde p j P X A j , para j = 1,2,...,k.
Nós podemos então usar o Teorema 10.2 para testar se uma amostra X1 , X 2 ,..., X n
tem origem em uma especificada distribuição de probabilidades. Os exemplos 10.1 a
10.3 são aplicações desta teoria.
Exemplo 10.4
Os 30 valores abaixo foram gerados pelo Excell sob a hipótese de normalidade, com
média 7 e desvio padrão 1.5.
Vamos a seguir testar a hipótese de que realmente os dados tem origem X, N(7;1.5), o
que eqüivale testar a hipótese que o processador é eficiente na geração de distribuição
de probabilidades normais.
(x 7)
A tabela seguinte mostra os valores y que, segundo H 0 tem distribuição
1,5
N(0,1).
Q5 1, 2
5 5 5 5 5 5
=0,05.
O Teorema 10.1 é de utilidade quando desejamos testar se uma amostra tem origem
completamente especificada, ou seja, quando conhecemos a forma e os parâmetros da
distribuição de X. Em muitas aplicações no entanto vamos testar uma hipótese, por
exemplo, de que a distribuição é normal, mas sem especificar os valores paramétricos
correspondentes. A solução consiste em estimar tais parâmetros e usar o teorema que
segue, que constitui uma variação do Teorema 10.1.
Teorema 10.2
Seja X1 , X 2 ,..., X n uma amostra de uma variável aleatória X, cuja função de
distribuição FX x , definida em R, depende de s parâmetros desconhecidos.
Seja A j , j=1,2,..,k uma partição de R e seja Y1 , Y2 ,..., Yk
a variável aleatória
multinomial de parâmetros n, p1 , p 2 ,.., p k , associada à partição. Se Pˆ1 , Pˆ 2 ,.., Pˆ k são os
estimadores de máxima verossimilhança de p1 , p 2 ,.., p k , obtidos a partir de
Y nPˆ
2
k
Y1 , Y2 ,..., Yk , então a distribuição de Q converge em distribuição
j j
nPˆ j j1
Exemplo 10.5
A indústria Yakemaha produz um tipo de circuito eletrônico para diversos tipos de
equipamentos. A empresa pretende testar a hipótese de que a vida média desse produto
tem distribuição exponencial de parâmetro 0,01, e, para isto ofereceu substituição grátis
a 200 clientes compradores do circuito. Este procedimento lhe proporcionou obter 200
valores observados da variável aleatória “tempo de vida do circuito”. O quadro abaixo
dispõe os dados em uma tabela de distribuição de freqüências.
FX (L2) 3 0,30 1 e
0,01 L 2 3
0,30 (L2) 3 100 ln(0, 70) 35, 66
Para obter a vida total dos 200 produtos foram definidos os pontos médios das classes e
estes, multiplicados pelas freqüências observadas compõem a última coluna do quadro,
cujo total dividido por 200 produziu a estimativa desejada da duração média de vida dos
circuitos e a correspondente estimativa do parâmetro da variável exponencial, de
acordo com a hipótese a ser testada.
19.220,81
x 96,10405 ˆ =1/96,10405=0,01041
200
P X x / X a P(X x a)
P X x / X a P(X x a)
f X / X a x e x a x>a
a
Como (200-21) durações foram menores do que 230,25 então este valor pode ser usado
200 21 179
como estimativa do percentil de ordem 0,895 .
200 200
230,25
0
ex dx 0,895 =0,00979 1/ =102,14
E X / X a
x a
Logo, xe
a
dx 230, 25 102,14 332,39
O quadro que segue mostra o cálculo de Q10 11 Q8 . Observe que s = 1 parâmetro foi
estimado.
L1 L2 yj p̂ j n p̂ j y npˆ j npˆ j
2
j
A um nível =0,05, Q8;0,95 15,5 , e assim, decidimos aceitar a hipótese nula já que
Q8;observ. 4, 6304 15,5 . O p-valor é igual a P 82 4, 6304 =0,2037 , confirmando a
decisão.
Exemplo 10.6
Testar a hipótese que os dados da primeira e segunda coluna da tabela abaixo, tem
origem numa distribuição de Poisson. Use = 0,05.
Solução:
Para determinar o correspondente conjunto de freqüências esperadas, primeiramente
1.341
estimaremos a média da amostra e obtemos ˆ 3, 05 ou aproximadamente
440
ˆ 3 . Assim, a terceira coluna contém a distribuição teórica de Poisson de parâmetro
3 . A quarta coluna é o produto da terceira coluna pela freqüência total n = 440.
Observamos no entanto que np8 = 3,564 e np9 = 1,188 são ambas menores do que 5 e
desta forma, devemos reunir a duas freqüências, em uma única para atender a condição
np j 5 . Como a soma destas duas freqüências é igual a 4,752 < 5, então, a solução é
reunir as freqüências de x = 7, 8 e 9.
Suponha que uma amostra de uma população tenha por objetivo o registro de duas
características de cada elemento da população. Representemos estas características
(variáveis aleatórias) por X e Y. Freqüentemente, um dos objetivos da análise estatística
é avaliar a relação entre X e Y. Dado um valor de X podemos estimar um valor de Y?
Se Y depende de X, podemos de alguma forma relacionar X e Y e obter uma estimativa
de Y dado X, e nesse caso diremos que X e Y são dependentes. Se um valor de X não
proporciona nenhuma informação sobre o valor de Y, dizemos que X e Y são variáveis
aleatórias independentes.
Suponha que desejamos estimar a renda média de uma família moradora numa
determinada cidade. Se temos informação sobre a classe social desta família, poderemos
estimar com maior precisão essa renda, pois sabemos que existe uma certa dependência
entre as variáveis renda e classe social.
Exemplo 10.7
Duzentos estudantes de Economia e Administração de uma Universidade, foram
classificados segundo o sexo, e os dados compõem a tabela abaixo:
Exemplo 10.8
Consideremos agora um exemplo similar mas envolvendo alunos de Física e Ciências
Sociais. O quadro abaixo reune as freqüências das variáveis sexo e disciplina para
análise.
O que se observa claramente é que existe uma maior concentração do sexo masculino
(71%) no curso de Física e do sexo feminino (67%) no curso de Ciências Sociais. Isto
quer dizer que se selecionarmos aleatoriamente um aluno do sexo masculino é grande a
chance dele cursar Física, enquanto que se o aluno é do sexo feminino é mais provável
que o curso que freqüenta é Ciências Sociais.
3
pi. p ij P(elemento do nível i, critério 1)
j1
3
p. j p ij P(elemento do nível j, critério 2)
i 1
Y Y
Pˆij i. 2 . j Pˆi.Pˆ. j
n
e, desta forma, o estimador para o valor esperado de Yij é
Y Y
E ij nPˆij i. . j
n
Exemplo 10.9
Um estudo desenvolvido em 1956 no Canadá, classificou 1469 idosos entre 60 e 64
anos segundo dois critérios: mortalidade e hábito de fumar. Duas classes foram
consideradas quanto ao hábito de fumar (fumantes e não fumantes) , enquanto que com
respeito a mortalidade: idosos ainda vivos e idosos que morreram no período de 6 anos
após o início da experiência. A tabela de contingência construída foi a seguinte:
Hábito de fumar
Mortalidade Não Fumantes Fumantes Total
Vivos 117 54 171
Mortos 950 348 1298
Total 1067 402 1469
Assim, temos
117 124, 20 54 46, 79 950 942, 79 348 355, 20
2 2 2 2
Q1
124, 20 46, 79 942, 79 355, 20
Q1 0, 41739 1,111 0, 05513 0,14594
Q1 1, 72946
Como Q1;observ 1, 72946 Q1;0,95 3,84 então não podemos rejeitar a hipótese nula de
que as variáveis são independentes.
Exemplo 10.10
Um companhia deve escolher entre três planos de pensão. A direção deseja saber se a
preferência pelos planos de pensão é independente do vínculo do empregado com a
empresa. Há duas classificações quanto ao vínculo empregatício: assalariados e
horistas. As opiniões de 500 empregados estão resumidas na tabela de contingência
abaixo e o nível de significância desejado é de =0,05.
Planos de Pensão
Trabalho 1 2 3 Totais
Assalariado 160 140 40 340
Horista 40 60 60 160
Totais 200 200 100 500
Planos de Pensão
Trabalho 1 2 3 Totais
Assalariado 136 136 68 340
Horista 64 64 32 160
Totais 200 200 100 500
Q 49, 63
136 136 68 64 64 32
Exemplo 10.11
O Sindicato dos Donos de Restaurantes encomendou uma pesquisa para verificar se a
política de propaganda de cada restaurante e seu padrão de atendimento (serviço e
qualidade da refeição), são independentes. Os dados abaixo mostram os resultados da
investigação de 440 associados do Sindicato. Teste a hipótese a um nível = 0,05.
Padrão de Atendimento
Política Baixo Médio Alto Total
Agressiva 24 52 58 134
Neutra 15 72 86 173
Não Agressiva 17 80 36 133
Total 56 204 180 440
Calculando Q, obtemos
Q = 2,9022+2,2059+0,0013+1,5863+0,8057+5,5581+0,2003+3,3062+6,1898=22,7558
n
i 1
i
Na amostra i, o vetor Yi1 , Yi2 ,..., Yik define uma variável aleatória multinomial de
parâmetros n i , p i1 , p i2 ,..., p ik , i = 1,2,...,m.
Os parâmetros das variáveis Yi1 , Yi2 ,..., Yik são visualizados na tabela abaixo, para
maior compreensão:
H 0 : "as proporções em cada uma das categorias são as mesmas para as m populações"
p11 p 21 ... p m1
p12 p 22 ... =p m2
p13 p 23 ... p m3
____________
____________
p1k p 2k ... p mk
Y ir
Y.r
P̂r i 1
m
m
n
i 1
i n
i 1
i
e um estimador para o valor esperado de Yir , denotado por E Yir é dado por
Y
E ir n i m .r n i pˆ r
.
ni i 1
Yir n i pˆ r
2
k
Segundo o Teorema 10.1, para um fixado i, Qi é aproximadamente
n i pˆ i r 1
uma variável aleatória qui quadrado com k-1 graus de liberdade, e , sendo as amostras
Yir n i pˆ r
2
m k
independentes, Q é aproximadamente uma variável aleatória com
i 1 r 1 n i pˆ r
distribuição qui quadrado com m(k-1) graus de liberdade.
Yir E ir
2
m k
Q
i 1 r 1 E ir
Exemplo 10.12
Um grande anunciante da imprensa escrita encomendou uma pesquisa para verificar se
existe algum tipo de comparação entre preferência pela leitura de um determinado
jornal e classe social do leitor. Uma amostra de 100 leitores de cada um de três dos
maiores jornais, apresentou os seguintes resultados.
Como Q6,observ 20, 607 Q6;0,95 12, 6 , rejeitamos a hipótese nula de homogeneidade,
ou seja, rejeitamos a hipótese de que as amostras tem origem de uma mesma população.
Exemplo 10.13
Consideremos os dados do exemplo 9.24 dispostos na tabela de contingência seguinte:
Q1
65 52 35 28
Q1 0,3846 0,3076 0, 7142 0,5714 1,9778
Como Q1;observ 1,9778 Q1;0,95 3,84 então aceitamos a hipótese nula de que as
amostras tem origem única.
10.3 - Os dados abaixo indicam que na população consultada, a preferência por uma
marca de carro independe do sexo?
10.4 - Determine, com base nos dados contidos na tabela abaixo, se a proporção
verdadeira dos compradores que preferem o detergente A ao detergente B é a mesma
nas três cidades.
Compradores Rio S.Paulo B.Horizonte Total
A 232 260 197 689
B 168 240 203 611
Total 400 500 400 1300
10.5 - O número de erros tipográficos em um livro é em geral regulado por uma lei de
Poisson. O número de erros contidos em 100 páginas de uma recente novela foram
registrados na tabela abaixo.
N0 de Erros N0 de Páginas
0 65
1 25
2 8
3 2
Total 100
Teste a um nível de significância de 0,10 a hipótese de que o número de erros se
distribui conforme uma lei de Poisson de parâmetro 0, 4 .
10.6 - Teste a hipótese que no lançamento de uma moeda, cara e coroa são igualmente
prováveis, usando uma amostra de 27 caras e 23 coroas. Use 0, 05 .
10.9 - Em uma empresa 100 funcionários foram classificados segundo o sexo e estado
civil, resultado na tabela de contingência 3 x 2 seguinte:
10.10 - A 34 de 77 pacientes com uma determinada doença foi aplicado um soro. Eles
foram tratados da mesma forma que os outros 43 pacientes que não receberam o soro.
Usando os dados da tabela abaixo teste a hipótese (use 0, 05 ) de que o soro não
ajudou a cura da doença.
APÊNDICE
Apêndice A1.1
1 - Definição:
Chama-se função caraterística de uma v.a. real X à expectância da função complexa de
variável real t, definida por X t E e , i 1 .
itX
2 - Principais propriedades:
- dada uma v.a. X, X t existe sempre.
- X t 1
- X t X (t)
- jX t E costX isentX E costX iE sentX
j t
s
- Se existe s X , s = 0,1,2,... então a S X t 0
is
n n itX
X t E exp it X j E e . j
j1 j1
- Se no caso anterior, as variáveis aleatórias são independentes, temos que
n n itX n
n
X t E exp it X j E e E e X j t .
j itX j
Apêndice A1.2
Teorema:
Seja X X1 , X 2 ,..., X n uma variável aleatória normal multi-dimensional tal que
2 i j
E Xi 0 e E Xi X j i,j = 1,2,...,n. Se Y CX , onde C é uma matriz
0 i j
ortogonal, então Y é N 0, n , onde n 2 n .
Prova:
Se X é N 0, n as variáveis Xi são não correlacionadas, pois
E X i X j 0 E X i 0 X j 0 Cov(X i X j ) , e independentes, porque normais,
(vide A1.6).
A função característica de X é , por definição,
X t E exp it1X1 it 2 X 2 .... it n X n
1
jX t E exp it X exp t Lt onde t t1 , t 2 ,..., t n R n .
2
1
Seja Y CX , onde CC I n CC C C , isto é, C é uma matriz ortogonal.
A função característica de Y é
Y t E exp it Y E exp it CX
Fazendo-se r t C r=C t , temos
1
Y t E exp ir X X r exp r r
2
1 1
Y t E exp ir X X r exp r r
2 2
1 1 1
Y t exp t C 2 C t exp t 2 CC t exp t 2 I n t
2 2 2
e, finalmente, encontramos que Y tem a mesma função caraterística de X , isto é
1
Y t exp t t
2
De forma que Y tem distribuição N(0, 2 I n ) .
Apêndice A1.3
Densidade da variável aleatória de Student.
Definição:
Sejam X, X1 , X 2 ,..., X n variáveis aleatórias independentes com distribuição N(0,1) .
Dizemos que Tn tem distribuição de Student com n graus de liberdade se
X
T
1 n 2
Xi
n i 1
nX V
T
Observemos que n U , sendo V e U independentes tais que V é N(0, )
X
i 1
2
i
1 n
e U é tem distribuição Gama , .
2 2
As densidades de V e U são,
1 v2
fV v exp , v R
2n 2
e
0 u0
n 2
f U u 2 12 n 1 u2
u exp u 0
n
2 2
A densidade da bidimensional (V,U) é o produto das densidades, isto é
o u 0 e vR
n 2
1
f V,U v, u 2
2 nu 2 v2
u n 1 exp u 0 e vR
n
2
2n 2n
A densidade da marginal T é
+ n t 2 y 2
f T t =c y exp
n
dy t R
o 2n
De maneira que,
n 1 n 1
c w
exp n t 2 2 dw
1
fT t w 2
tR
2 0 2n
n 2
1 n 1
2 n 1
1 2 2
n 1
fT t . nt
2 2
t R
2 n
2
2n 1 2
2n
Finalmente,
n 1
1 t2 2
f t 1 tR
n 1 n
n ,
2 2
Apêndice A1.4
Teorema:
A seqüência Fn (t) de distribuições de Student com n graus de liberdade é
assintoticamente normal de parâmetros 0 e 1, isto é
2
t t
1
lim Fn (t)
n 2 dt
2
e
Prova:
A variável aleatória Tn de Student com n graus de liberdade é uma transformada do tipo
Z
2n sendo Z um v.a. N(0,1) .
n
Calculemos a média e a variância do radicando do denominador,
2 1 1
E n E 2n n 1
n n n
2n 1 1 2
Var 2 Var 2n 2 2n
n n n n
Aplicando-se a desigualdade de Chebyshev,
2 2
lim P n lim 2 0
n
n 1 n n
2n
De forma que a seqüência converge em probabilidade para a constante 1, e
n
2
decorrente disto ( vide [3] pag. 351), a seqüência n é também estocasticamente
n
Z
convergente para 1. De acordo com [14], sec. 20-6, a razão 2n converge em
n
distribuição para a variável aleatória N(0,1) .
Apêndice A1.5
Densidade da variável aleatória F, de Snedecor.
Definição.
Se X e Y são variáveis aleatórias independentes com distribuições qui-quadrado com r
X/r
e s graus liberdade, respectivamente, então a variável W tem distribuição F de
Y/s
Snedecor com r e s graus de liberdade que será representada por Fr,s .
Prova:
Consideremos a transformada
X
W x=wv v w
Y J= v
V Y y=v 0 1
r s
1 2
r s
w 1 v
f x, y 2 1 2 1
v wv v exp x,y>0
2
r s 2
2 2
r s
1 2
r r s
(w 1)v
f x, y
2 1 1
w 2 v 2 exp dv v,w>0
r s 2
0
2 2
r s
1 2 r+s
r
f x, y
2 1
2 1+w r+s
r s 2
w2 w>0
r s
1 2
2 2
2
r
1 1 r+s
f x, y w 2 1+w 2
w>0
r s
,
2 2
s r rx
Por outro lado, Fr,s W f F x f W
r s s r ,s
Logo,
r r s
rx 2 1 rx
1
r 1 2
fF x x>0
s r s 2r 1 s
, s
2 2
r r s
1 r 2r 1 rx 2 2
fF x x 1 x>0
r s 2r s
, s
2 2
r s r r s
1 1
fF x r 2 s 2 x 2 1 rx 2
x>0
E finalmente, r s
,
2 2
Apêndice A1.6
Definição:
Chama-se distribuição normal bivariada à variável aleatória cuja função de densidade é
dada por:
e 2
f x, y , x,y R 2
2 x y 1 2
1 x- x y- y x x y y
2 2
= 2
1-2 2x 2y xy
A função de densidade da normal bivariada é uma superfície sobre todo o plano (x,y),
e tem um valor máximo único no ponto x , y . Os três gráficos que seguem ilustram
a esta densidade para os parâmetros X Y 0 , X Y 1 e =-0,75 , 0 e 0,75.
Gráfico 1
Parâmetros: X Y 0 , X Y 1 e =-0,75
Gráfico 2
Parâmetros: X Y 0 , X Y 1 e =0
Gráfico 3:
Parâmetros: X Y 0 , X Y 1 e =0,75
= 2
1-2 2x 2y xy
y
2
y
Não alteramos se somarmos e subtrairmos o termo :
2y
1 x- x y- y x x y y y y y y
2 2 2 2
= 2
1-2 2x 2y xy 2y 2y
= 2
1-2 2x 2y 2y x y 2y
1 x- x y- y x x y y y y
2 2 2 2
= 2
1-2 2x 2y xy 2y
2 2x y- y x x x y y y y
2 2
1 x- x
2
= 2 2
x 1-2 2y y 2y
e finalmente,
x y y y y
2 2
1
= 2 x-
x 1-2
x
y 2y
x y y
2
x x
y 2
1 y
I
y
exp exp dxdy
2
x y 1 2
2 2
x 1 2
2 2
y
x y y
2
x x
1 y 2
1 y
I dx.
y
exp exp dy
x 1 2
2 2 2
x 1 2
y 2
2 2
y
Como se pode observar, as duas funções integradas em I são densidades de variáveis
aleatórias unidimensionais:
x y y
N x
y
; x 1
2
e N y ; y
x y y
2
x x
y y
2
1
fY y
y
exp exp dx
2 x y 1
2
2 2x 1 2 22y
y 2
1
fY y
y
exp , yR
y 2 2 2
y
Observamos portanto que a v.a. normal bivariada é tal que suas distribuições marginais
tem densidades N x , x e N y , y , mas f x, y f x f y .
x x 2 y 2
1
f x, y , x,y R 2
y
exp exp
2 x y 2x
2
2 y
2
ou
y y
x x 2 1 2
1
f x, y exp exp , x,y R 2
x 2 2 2
x
y 2 2 2
y
“se X e Y são variáveis aleatórias normais e não correlacionadas então elas são
independentes”
“se duas variáveis aleatórias X e Y são independentes, elas são não correlacionadas,
isto é E XY E X E Y Cov(X, Y) 0 , não sendo a recíproca verdadeira, a
menos que X e Y tenham distribuição normal”
3. Distribuições condicionais.
Para se obter a densidade da variável (Y/X=x) devemos calcular:
f x, y
f (y / x)
f x
1 x x y y x x y y x x 2
2 2
1
exp 2 exp
y 2 1 2 2 1 2
2
x 2
y x y
2 x2
Notemos que:
x x x x 2 x x
2 2 2
2 2x 2 1 2 2x 2 1 2 2x
Portanto, escrevemos:
1 y y x x y y 2 x x 2
2
1
f y / x exp 2
y 2 1 2 2 1 2
2
y x y 2x
2 y x x y y 22y x x
2
1 1
2
f y / x y y
2
exp
y 2 1 2
2 1 2
y
x 2
x
F
Finalmente obtemos a densidade de (Y/X),
1 1 y x x
2
2
f y / x exp y y
2 1 y x
2
y 2 1 2
Teorema:
Se (X,Y) é uma variável aleatória normal bivariada com parâmetros x , y , x , y e
e x,y então:
a) X é N x , x e Y é N y , y
b) X e Y são independentes se e somente se = 0
y
c) (Y/X=x) é N y x x ; 2y 1 2
x
(X/Y=y) é N x x y y ; x 1
2 2
y
Apêndice A2.1
n n
Sejam as transformadas U a i X i e V= bi Xi , onde a i e bi são constantes
i 1 i=1
Prova:
De acordo com as propriedades dos momentos de variáveis aleatórias,
n n n n
U a i ui 2U a i2 i2 V bi i 2V bi2 i2
i 1 i 1 i 1 i 1
Assim,
n n
n n
Cov(U, V) E a i X i a i i b i X i b i i
i 1 i 1 i 1 i 1
n n
Cov(U, V) E a i X i i bi X i i
i 1 i 1
n
Cov U, V a i bi E X i i 2 a i b jE X i i X j j
2
i 1
i j
n
Finalmente, Cov(U, V) a i b i i
2
i 1
X1 X 2 X
X ... n
n n n
Apêndice A2.2
Lema de Fisher
Seja X1 , X 2 ,..., X n uma amostra aleatória de uma variável aleatória X com
distribuição N(0, ) e sejam Yk , k = 1,2,...,p (p < n) tais que:
Y1 c11X1 c12 X 2 ...c1n X n
Y2 c 21X1 c 22 X 2 ...c 2n X n
........................................
Yp c p1X1 c p2 X 2 ...c pn X n
Onde os coeficientes cij , i = 1,2,...,p e j = 1,2,...,n satisfazem as condições de
ortogonalidade, isto é
n
1 i k
c c
ij kj
j1 0 i k
i,k = 1,2,...,p
n
j1
Q
Y1 , Y2 ,...., Yp e tem distribuição qui-quadrado com (n-p) graus de liberdade.
2
Prova:
Consideremos as (n-p) equações abaixo
de tal forma que a matriz C nn seja ortogonal. Assim, Y CX e por conseqüência,
segundo Apêndice A1.2 , Y é N(0; 2 I n ) .
iY 2
Y Y X CCX X X iX e que Q Yj2 Y12 Y22 ..... Yp2 , ou seja
j1
i 1 i 1
n
Q Y
i p 1
i , e, portanto, independente de Yi , i = 1 ,2, ... ,p.
Y
Finalmente, reduzindo-se as variáveis aleatórias Yi , i = 1,2,...,n temos que 2i são
2
N(0,1) e 2 2i
n
Q Y
é n p .
2
i p 1
i 1 i 1
n
n 1 S2 Zi2 nZ2
i 1
Seja Y1 nZ
Z Z Z
Y1 n 1 1 .... n
n n n
2
n n
Observamos que 1 , e portanto, podemos aplicar o Lema de Fisher, para
i 1 n
n 1 S2 Zi2
n
n-1 S2 n
Z
2
i é 2n-1
i 2 2 i 2
Apêndice A2.3
ˆ L x , x ,..., x , dx dx ...dx B
ˆ
...
o 1 2 n 1 2 n
onde ̂0 é a determinação genérica de ̂ .
ˆ
B
Se existem as derivadas L x 1 , x 2 ,..., x n ,
L x,
e B ˆ , então
L x,
...
dx1dx 2 ...dx n 0
(1)
L x,
... o dx1dx 2 ...dx n 1 B ˆ
ˆ (2)
Desigualdade de Cramér-Rao
2
1 B
ˆ
ˆ
Var
ˆ
B
2
ln L X, , onde B
ˆ
E
n
n
L x1 , x 2 ,..., x n , f x i , ln L x, ln f x i ,
i 1 i 1
Logo,
ln L x, n ln f x i ,
i 1
ln L x, n ln f x i ,
2 2
i 1
ln L x, ln f x i , ln f x i , ln f x j ,
2 2
n n
i 1 i j 1
ln f X i , ln f X j ,
2
ln L X, ln f Xi ,
n
2
n
E E 2 E E
i 1 i j 1
Mas,
f x i ,
ln f x i ,
f xi , dxi 1 dxi 0 f x i , dx i 0
de forma que:
ln f Xi ,
E 0
Logo,
2
ln L X, n
ln f X,
2
ln f X,
2
E E nE
i 1
2
ˆ
1 B
ˆ
Var
ln f X,
2
nE
Entretanto,
2 2 2
ˆ E
Var ˆ E ˆ E ˆ
ˆ B ˆ ˆ
E B
2
ˆ E
Var ˆ B2 ˆ ˆ ˆ
2B E
ˆ MSE
Var
ˆ B2 ˆ ˆ ˆ
2B E
Var
ˆ MSE
ˆ B2 ˆ
ˆ B2
MSE ˆ
ln f X,
2
nE
ˆ 0 , escrevemos finalmente que
Sendo B
2
2
ˆ
1 B
ˆ
MSE
ln f X,
2 ˆ
onde B
ˆ
dB
nE d
Apêndice A2.4
E
ˆ e Var
ˆ
ln f X,
1
2
nE
1
1 2
ln L X,
ˆ; =1
ˆ E ln f X,
e 2
nVar
ln L X,
ˆ;
De forma que 1 , e, assim sendo, conforme a teoria de regressão
ˆ ;
ln X,
linear, todos os pontos 0
estão na reta, inclusive seus valores médios.
ln L X, 0 1
ˆ g g c
2
Fazendo-se 1 g1 , 2 g 2 e L1 e , escrevemos,
c
ˆ .
L X, L`1 exp 0 1 2
Em resumo, uma condição necessária e suficiente para que ̂ seja um estimador
eficiente na estimação de um parâmetro , é a possibilidade da função de
ˆ não dependem de
verossimilhança da amostra ser escrita da forma acima, onde L1 e
, enquanto que 1 e 2 podem depender de .
ou
E XY E X 2 E Y 2
2
implica em P cX Y 1 .
Apêndice A2.6
(i) ln f x, existe para todo x R e
n
n
(ii)
i 1
... i f x ; dx 1 ...dx n
...
i 1
f x i ; dx1 ...dx n
n
(iii)
... t x 1 , x 2 ,..., x n i 1
f x i , dx1...dx n =
n
1 2 n
... t x , x ,..., x
i 1
f x i , dx1...dx n
2
(iv) 0 E ln f X;
Var T
2
nE ln f X;
onde T t X1 , X 2 ,..., X n é um estimador não tendencioso de , observando que a
igualdade prevalece se e somente se existe uma função k( ,n) tal que
n
i 1
ln f x i ; k , n t x1 , x 2 ,..., x n
Prova:
Se E[T X1 , X 2 ,..., X n ] = , então
n
... t x1 , x 2 ,..., x n f x i ; dx1...dx n
i 1
n
... t x1 , x 2 ,..., x n f x i ; dx1...dx n
i 1
n
Por outro lado, ... f x i ; dx1...dx n 1 0
i 1
Podemos escrever então,
n n
... t x1 , x 2 ,..., x n f x i ; dx1...dx n ... f x i ; dx1...dx n
i 1 i 1
f x ;
i 1
i
e portanto,
n
n n
ln i
i 1
f x ;
i 1
f x i ; f xi ;
i 1
E T X1 , X 2 ,..., X n
2
2
n
E ln f X;
i 1
ou
2
VAR T 2
n
E ln f X;
i 1
ou
2
VAR T 2
nE ln f X;
No Apêndice A2.5, já citado, podemos verificar que a igualdade prevalece se existe uma
proporcionalidade entre as funções
n
ln f x i ; e t x1 , x 2 ,..., x n
i 1
sendo a constante de proporcionalidade igual a k( ,n).
1. Definição
Admitamos que Y seja uma variável aleatória real com função de densidade ou função
de probabilidade, f(y;), conforme seja ela do tipo contínuo ou discreto
respectivamente. Suponhamos ainda que sua distribuição dependa de um simples
parâmetro de interesse .
Nota: Se a(y) = y dizemos que (1) está na forma canônica e b() é chamado de
parâmetro natural da distribuição.
d d log f Y; d 1 df Y;
d d d f Y; d
d d log f y; d 1 df y; d2
1 0
d y d y f y; d
f y; dy f y; dy
d d2
A expressão ao lado esquerdo é a derivada em relação a do produto de duas funções
de , quais sejam:
d log f y;
e f y;
d
d 2 log f y; d log f y; df y;
y d2 f y; dy y d d
dy 0
df y; d log f y;
De U tiramos que f y; e substituindo devidamente na
d d
expressão anterior obtemos:
d 2 log f y; d log f y;
2
y d2 f y; dy y d f y; dy 0
d 2 log f y; d log f y;
2
y 1 f y; dy y d f y; dy
d2
VAR U E U 2 E U.
RESPOSTAS DE ALGUNS EXERCÍCIOS
Exercícios Propostos 3
3.1 (a) (0,25) n (b) 1 - (0,75) n - (0,25) n
3.2 M ’ 2 ~ Gama (n/22 ; (n-1)/2)
3.3 f.d.p. da Gama((n-1)/22 ; (n-1)/2)
3.4 (a) W ~ N(0 ; 2(m+n)/(nm)) (b) 0,3085
3.5 pelo menos 40
3.6 pelo menos 255
3.7 Qui-quadrado com 1 grau de liberdade
3.8 F1; n-1
3.9 (a) 0,939 (b)0,917
3.10 (a) c = 2 (b) 8 graus de liberdade
4.1.3 r X / M 2 X X e p=X/ M 2 X 2
2
4.1.4 10,07
4.1.5 9,21
4.1.6 5,483 e 4,703
4.2.1 X (n)
4.2.2 1 / X
4.2.3 - n / ln ( Xi) - 1
4.2.4 X
4.2.7 - n / ln ( Xi)
4.2.8 (a) (1 / n) (Xi - )
4.2.10 n / Xi r
Exercícios Propostos 4.3
Exercícios Propostos 5:
Exercícios Propostos 9.
Exercícios Propostos 10
10.1 - Rejeita-se H0
10.2 - Rejeita-se H0
10.3 - Aceita-se H0
10.4 - Rejeita-se H0
10.5 - Aceita-se H0
10.6 - Aceita-se H0
10.7 - Aceita-se H0
10.8 - Rejeita-se H0
10.9 - Aceita-se H0
10.10 - Aceita-se H0
10.11 - Rejeita-se H0
Referências Bibliográficas: