Apostila - Inferencia - Ence

ESCOLA NACIONAL DE CIÊNCIAS ESTATÍSTICAS - IBGE
Apontamentos de Aulas
INTRODUÇÃO Á INFERÊNCIA ESTATÍSTICA

2007 Prof: Frederico Cavalcanti
O presente trabalho é o resultado da nossa experiência na aplicação do curso de
Inferência Estatística na Escola Nacional de Ciências Estatísticas, durante os últimos
seis anos. Denominado “Apontamentos de Aulas” foi inicialmente um produto da
preparação de aulas no pacote Word.
O objetivo principal foi o de estimular o estudo da Inferência Estatística através

de um texto em Português, considerando principalmente a dificuldade de nossos alunos
em leitura de textos na língua inglesa. Entretanto, ao longo dos cursos ministrados os
alunos são incentivados a desenvolverem o hábito da leitura das referências
bibliográficas do curso, na sua maioria editados em Inglês, exercício fundamental para
o sucesso na vida profissional.
Um segundo objetivo foi o de reunir os tópicos apresentados na bibliografia da

cadeira e apresentá-los conforme o programa oficial da ENCE. Neste sentido se fez
presente a oportunidade de buscar conceitos, definições, exemplos e exercícios de
interesse, em diversos outros textos complementares. Na página 242 apresentamos a
bibliografia básica e complementar na qual nos baseamos.
No futuro pretendemos incluir neste trabalho as seções 11 e 12 destinadas a

contemplar Estimação por Mínimos Quadrados e Métodos Bayesianos, respectivamente.
De acordo com minha experiência didática, acredito que o referido texto é adequado
perfeitamente para um período correspondente a um semestre letivo.
.
Registramos os nossos agradecimentos aos colegas professores da Ence que,
com suas críticas e sugestões colaboraram no aperfeiçoamento deste trabalho.
Frederico Cavalcanti
1 Populações e Amostra
A Inferência Estatística consiste na utilização de métodos empíricos e teóricos da

Ciência Estatística, para se tomar decisões ou tirar conclusões acerca de um fenômeno
não determinístico. Para aplicarmos estes métodos é necessária a obtenção de dados ou
observações do fenômeno em questão. Sob esta condição é imprescindível na maioria
dos casos, que tal fenômeno seja repetidamente observado. Se o fenômeno é
probabilístico, cada observação obtida, é na verdade, a realização de uma variável
aleatória X, cuja distribuição de probabilidades é o objetivo principal da inferência.
Para ilustrar a idéia acima, suponhamos que um pesquisador (veterinário) observou que
88 dentre 400 cães de uma determinada raça, apresentavam marcas no pelo,
diferentemente dos demais. O veterinário então concluiu que as marcas eram
hereditárias, e, reguladas por uma lei que estabelece em 25%, o número esperado de
cães, daquela raça, com a referida marca. Se ele supõe que a lei é hereditária, e se,
representarmos por X a variável aleatória que se identifica ao número de cães que
possuem a marca, dentre outros 400 cães da mesma raça, então de acordo com a teoria
das probabilidades a variável aleatória X tem distribuição Binomial de parâmetros 400 e
0,25, e
k 400  k
 400   1   3 
P X  k       , k=0,1,...,400 (1.1)
 k  4   4 
Se o pesquisador não tivesse formulado a hipótese de que 1/4 dos cães possuíam a
marca, ele poderia escolher a mesma distribuição com a probabilidade 1/4 substituída
pela frequência relativa 0,22. Através de (1.1) seria possível ao pesquisador fazer
predições acerca de futuros conjuntos de 400 cães da mesma raça.
Imaginemos que a população total de cães em estudo seja igual a N = 10.000. Na

maioria dos problemas estatísticos é impossível ou impraticável observar todos os
valores possíveis da população e para resolver tal problema toma-se o que se chama
amostra da população.
Definição 1.1
População é uma coleção de objetos que possuem uma ou mais características de
interesse.
No exemplo estudado anteriormente a população definida é o conjunto de N = 10.000

cães e a característica de interesse é a marca.
Definição 1.1-a
População consiste na totalidade das observações possíveis de um fenômeno em estudo.
A última definição de população despreza o objeto (cão) em si e considera

simplesmente a característica de interesse, isto é, a marca. Se associarmos a cada cão
com a marca o número 1, e, a cada cão sem a marca o número 0, então a população
neste caso seria a sequência constituída por 10.000 dígitos do tipo 0 ou 1.
Simbolicamente, representaríamos a população por
001101011110101011100........001111001011
(1.2)

N dígitos

Num instante de tempo t, fixado, o percentual exato de cães com a marca, é a razão
entre o número de 1’s (ou a soma dos 10.000 dígitos) na seqüência, dividido por N.
Na prática, em geral, devido a impossibilidade de consulta à toda a população,
tomamos apenas n < N observações escolhidas aleatoriamente. A este conjunto de n
observações chamamos de amostra da população.
Definição 1.2
Amostra é um subconjunto de observações selecionadas de uma população.
Para que nossas conclusões sobre o fenômeno sejam válidas, a amostra deve ser
representativa da população. A escolha de conjuntos de observações “mais
convenientes”, frequentemente introduz tendenciosidade na amostra e, como resultado,
conclusões falsas sobre as características de interesse. Para evitar isto, é desejável que a
escolha das observações seja feita com base em algum mecanismo de chance. Uma
amostra obtida através de uma seleção aleatória é denominada amostra aleatória.
Uma amostra aleatória pode ser obtida,
(1) Com reposição.

Consiste em selecionar aleatoriamente um objeto populacional, registrar a sua
característica de interesse, e , a seguir, devolver o objeto à população, antes de
selecionar um próximo objeto.
(2) Sem reposição.

Os objetos são selecionados sucessivamente, sem reposição de cada objeto selecionado
à população.
Em quaisquer dos casos, a seleção de uma amostra é uma experiência aleatória e cada
observação na amostra é um valor observado de uma variável aleatória X. O conjunto de
observações da população, conforme Definição 1.1-a, determina a distribuição de
probabilidades da variável aleatória X.
Exemplo 1.1
Em um grupo de 100 alunos, 68 têm 18 anos, 24 têm 17 anos, 7 têm 19 e 1 tem 16 anos.
Selecionar aleatoriamente um aluno desta população significa atribuir a cada um a
probabilidade 0,01 de seleção. A variável aleatória X de interesse é a idade e tem a
seguinte distribuição de probabilidades:
Idade 16 17 18 19
Probabilidade 0,01 0,24 0,68 0,07
A eqüiprobabilidade de seleção de cada elemento da população é que define o adjetivo

aleatória. Se desejamos estudar a característica idade dos alunos (exemplo 1.1), sem
consultar toda a população, definiremos uma amostra de tamanho n < 100, e, com base
neste modelo, podemos estimar características populacionais da idade, como média,
mediana, amplitude, etc...., bem com realizar testes sobre hipóteses estatísticas tais
como: a média de idade é de 17,5 anos, a distribuição das idades é normal, etc...
Ao selecionarmos o primeiro elemento da população e registrarmos a sua característica,

estamos na verdade realizando uma variável aleatória que representaremos por X1 , cuja
distribuição de probabilidade é a mesma de X, isto é, X1 representa a característica X do
primeiro elemento populacional selecionado.
Desta forma X 2 representa a característica X do segundo elemento, e assim
sucessivamente, uma amostra aleatória de tamanho n de uma variável X é representada
pelo vetor  X1 , X 2 ,...., X n  .
Uma amostra pode ser obtida com reposição (1) ou sem reposição (2) e em quaisquer
dos casos todas as variáveis X1 , X 2 ,..., X n , tem distribuição comum igual à de X. Em
(1) é muito clara a afirmativa porque antes de cada seleção a população é restaurada à
sua condição original. No caso (2), a afirmativa não é tão clara mas também permanece.
O exemplo a seguir ilustra as duas situações em questão:
Exemplo 1.2
Uma urna contem b bolas brancas e r bolas vermelhas. Cinco bolas são retiradas
sucessivamente, com reposição (sem reposição). Seja X1 , X 2 ,..., X 5 uma amostra de
tamanho n = 5, da variável X representativa da característica “cor da bola”.
1) esquema com reposição.
Claramente as variáveis X i , i = 1,2,3,4,5 são identicamente distribuídas com

distribuição igual a de X, como segue:
 r
 b  r se k  0
P X  k  
 b se k  1
 b  r
onde (X=1) é equivalente ao evento “uma bola branca ser selecionada"
2) esquema sem reposição.
Determinaremos a distribuição de X 2 , e o mesmo procedimento pode ser adotado para

as demais variáveis.
O evento  X 2  1 pode ser decomposto sob a forma:
 X 2  1   X1  1, X 2  1   X1  0, X 2  1
Calculando a probabilidade temos,

P  X 2  1  P(X1  1, X 2  1)  P  X1  0, X 2  1
P  X 2  1  P  X1  1 P  X 2  1/ X1  1  P  X1  0  P  X 2  1/ X1  0 
b b 1 r b
P  X 2  1  
b  r b  r 1 b  r b  r 1
b  b 1 r  b
P  X 2  1    
b  r  b  r 1 b  r 1  b  r
A diferença básica entre as seleções (1) e (2) não é nas distribuições marginais, pois em
ambos os casos elas são idênticas, conforme se constatou no exemplo 1.2. No entanto,
no caso (1) o resultado de qualquer seleção não é afetado pelo resultado de quaisquer
outras, ou seja, as observações são fenômenos aleatórios independentes. No caso (2) as
observações não são independentes.
Existe um outro tipo de situação que ocorre comumente - cujo procedimento é

mecanicamente diferente de (1) e de (2) - no qual os resultados são matematicamente
iguais aos obtidos em (1), ou seja, seleção aleatória com reposição:
(3) os resultados (observações amostrais) são obtidos a partir de repetidas realizações

independentes de um experimento, sempre sob as mesmas condições, com respeito ao
menos àqueles fatores que podem ser controlados.
Esta descrição atende (1) mas não se refere necessariamente a uma “população”
tangível, da qual selecionamos objetos e os devolvemos em seguida. No entanto,
podemos imaginar uma população infinita de possíveis observações ou resultados.
Podemos selecionar aleatoriamente um resultado deste conjunto e, a seguir, realizar a
mesma seleção com o mesmo conjunto de resultados disponível da primeira vez.
Repetindo o experimento obteremos uma amostra aleatória que atende (1) e (3) e nos
dois casos as observações são independentes e identicamente distribuídas.
Uma amostra aleatória com reposição é muito mais simples de se tratar

matematicamente do que uma amostra obtida sem reposição, de uma população finita.
Daí, para seguimento do texto, adotaremos a seguinte definição de amostra aleatória,
Definição 1.3
Uma amostra aleatória de tamanho n de uma variável aleatória X é um conjunto
X1 , X 2 ,..., X n , de variáveis aleatórias independentes, todas com a mesma distribuição
de X.

Uma amostra aleatória de tamanho n, considerada como um vetor X   X1 , X 2 ,..., X n  ,
define uma variável aleatória n-dimensional, com uma especificada função de
distribuição F  x1 , x 2 ,...., x n  , e, por serem independentes as variáveis componentes da
amostra, escrevemos F  x1 , x 2 ,...., x n   F  x1  F  x 2  ....F  x n  , onde as funções de
distribuição F  x i  , i= 1,2,3...,n são idênticas à função de distribuição de X.
À n-úpla  x1 , x 2 ,..., x n   R denominaremos realização da variável n-dimensional
n
 X1 , X 2 ,..., X n  , ou simplesmente “realização da amostra”.

Exemplo 1.3
O tempo de vida de uma especial placa de micro computador tem distribuição
exponencial com média igual a 1000 horas. Logo a função de densidade a vida de uma
particular placa é
f  t   0, 001exp  0, 001t  , t>0 (1.4)
Se n placas são colocadas em operação, independentemente uma das outras, a função de

densidade das vidas  X1 , X 2 ,..., X n  é
 n

f  t1 , t 2 ,..., t n    0, 001 exp  0, 001 t i 
n
t i  0, i  1, 2,..., n
 i 1 
*****
2 Estatística Descritiva
Assimilar e sintetizar as informações contidas em uma amostra, descrever e comparar
amostras e tomar decisões com base nas observações amostrais requer um mínimo de
organização e redução dos dados disponíveis. O termo estatística representa uma
medida descritiva, calculada a partir das observações da amostra, e portanto, o valor de
uma estatística depende dos valores obtidos na amostra.
Definição 2.1
Uma estatística é uma função das observações da amostra.
O termo estatística também se aplica convenientemente, à uma função das variáveis

aleatórias componentes da amostra.
O cálculo de uma estatística, a partir de um conjunto de observações constitui uma

redução dos dados a um único valor, ou a um vetor de valores.
Frequentemente é importante tomar os valores observados em ordem crescente de

magnitude. Se uma amostra é representada pelo vetor  X1 , X 2 ,..., X n  , representaremos
 
a amostra ordenada pelo vetor X1 , X  2  ,..., X  n  . Para exemplificar, suponhamos que
uma amostra de tamanho n = 5 de uma v.a. X resultou nos valores: 31, 28, 27, 32 e 36.
Assim, x1  31, x 2  28, x 3  27, x 4  32 e x 5  36 , enquanto que x 1  27, x  2   28 ,

x  3  31, x  4   32 e x  5  36 .
O vetor  X  , X  ,..., X   , que representa as observações ordenadas é chamado de

1 2 n
estatística de ordem, e constitui-se numa função do tipo R n  R n .
Vários outros exemplos de estatísticas de ordem são importantes. As variáveis

X 1 e X  n  , por exemplo, são por definição, o mínimo e máximo valor obtido na
amostra, respectivamente, e podem ser representados alternativamente pela seguinte
notação:
X1  min  X1 , X 2 ,..., X n  e X n   max  X1 , X 2 ,..., X n 
1 i  n 1i n
Em ambos os casos, a transformação é do tipo R n  R .
Uma outra estatística de ordem de grande utilidade é a chamada amplitude da amostra,

definida por R  X  n  - X 1 . No exemplo numérico apresentado, os valores destas
estatísticas de ordem foram: X 1 = 27 , X  n   36 e R=9
A mediana da amostra é definida pelo valor central (se existe um número ímpar de
observações) ou a média dos dois valores centrais (se existe um número par de
observações), na lista de observações ordenadas. Isto pode ser denotado por,
 X  n 1  se n é impar
  
 2 

X  mediana     (2.1)
1
  X n   X n   se n é par
 2   2   1 
2 
A toda amostra, associamos a função de distribuição amostral, calculada por

1
Fn  x     número de observações que não excedem a x 
n
Esta função proporciona uma natural estimativa da função de distribuição da população

e tem as propriedades de uma função de distribuição de probabilidades de uma variável
aleatória do tipo discreto. Por exemplo , Fn  x  , possui momentos, e pelo menos os dois
primeiros serão muito úteis no decorrer do texto. O primeiro momento é chamado de
média amostral, representado por x , e calculado por
1 n
x   xi
n i 1
A média amostral é uma observação da estatística “média da amostra”, função das

variáveis aleatórias componentes da amostra, e, definida por
1 n
X   Xi (2.2)
n i 1
O segundo momento centrado em x , é chamado de variância amostral, representado
por s 2x , e calculado por
1 n
  xi  x 
2
s 2x 
n  1 i 1
A variância amostral é uma observação da estatística “variância da amostra”, função das
variáveis aleatórias componentes da amostra, e, definida por
1 n
  Xi  X 
2
S2x 
n  1 i 1
(2.3)
A raiz quadrada positiva da variância amostral, é chamado desvio padrão amostral,
representado por s x , e calculado por
Sx  S2x
(2.4)
No cálculo da variância , n quadrados do tipo  x i  x  foram somados e o resultado

2
dividido por n-1. Isto pode ser justificado pelo que desenvolveremos a seguir.
n
Como sabemos x
i 1
i  x   0 , e por consequência, podemos obter quaisquer uma das
n diferenças, conhecidas as outras (n-1) diferenças.
Por exemplo, a diferença  x1  x  é perfeitamente determinada, uma vez conhecidas as

diferenças  x i  x  , i-2,3,...,n. Assim, somente estas (n-1) últimas quantidades estão
livres para variar. Posteriormente, uma justificativa teórica mais relevante será estudada
a respeito do assunto.
Em grandes amostras é muitas vezes conveniente apresentar as observações através de

uma tabela de frequências. Nesta tabela as medidas ou observações originais são
agrupadas da seguinte forma: distintos valores na amostra são ordenados, e, a cada
valor, associa-se o número chamado frequência, correspondente ao número de vezes que
ele ocorreu nas n observações.
Supondo que dentre n valores, k sejam distintos, a tabela abaixo mostra o tipo de
apresentação de dados em tabela de frequência comumente usado
xi fi fi  x i  x i  x  fi
2
x1 f1 f1  x1  x1  x  f1
2
x2 f2 f2  x 2  x2  x  f2
2
. . .
. . .
xk fk fk  x k  xk  x 
2
fk
x i
n
x f i i x k  x  fk
2
Neste caso, a média e variância amostral são, respectivamente
1 k 1 k
 x ifi   x i  x  fi
2
x e sx 
2
n i 1 n  1 i 1
Os dados podem também ser agrupados em intervalos de classe , abrangendo a

amplitude total da amostra. As observações em cada classe são representadas em geral
pelo ponto médio, da respectiva classe.
Obs: Aconselhamos a leitura , a título de complementação e revisão, de textos sobre

Estatística Descritiva. Sugestão: Estatística Básica de Bussab, W.O. e Morettin, P.A.
Exercícios Propostos 1/2:
1.1 - A tabela abaixo apresenta o número de multas de trânsito, aplicadas em um

determinado mês, em 80 regiões da cidade do Rio de Janeiro.
105 221 183 186 121 181 180 143

97 154 153 174 120 168 167 141
245 228 174 199 181 158 176 110
163 131 154 115 160 208 158 133
207 180 190 193 194 133 156 123
134 178 76 167 184 135 229 146
218 157 101 171 165 172 158 169
199 151 142 163 145 171 148 158
160 175 149 87 160 237 150 135
196 201 200 176 150 170 118 149
Seja X o número de multas, por região, no mes:

a) calcule a média, a variância e o desvio padrão de X.
b) determine a moda e a mediana de X.
c) construa um ramo e folhas para os dados.
d) calcule o 10 , 20 e 30 quartil.
e) construa o Box Plot dos dados.
f) construa uma distribuição de freqüência por intervalo de classe.
g) construa um histograma representativo dos dados.
1.2 - Estabeleça um critério de seleção aleatória e obtenha uma amostra de tamanho n =

15 da população descrita no exercício 1.1. Calcule as características da amostra
correspondentes às características populacionais. Compare e comente os resultados.
1.3 - Sejam  x1 , x 2 ,...., x n  os valores observados de uma amostra aleatória da variável
n
X. Mostre que x
i 1
i  x  0 .
1.4 - Sejam  x1 , x 2 ,...., x n  os valores observados de uma amostra aleatória da variável

xi  x
X. Mostre que se zi  , então
s
1 n 1 n 2
z  i
n i 1
z  0 e s 2
z   zi  1 .
n  1 i 1
1.5- Use uma tabela de dígitos aleatórios e a teoria da transformada integral (vide
Apêndice A.4) para gerar 50 valores de uma população X, exponencial de média 2.
a) construa uma tabela de freqüência por intervalos de classe.
b) faça o histograma correspondente.
c) obtenha a média e variância amostral.
d) calcule a probabilidade empírica do evento (X>3) e compare-a com a probabilidade
teórica.
1.6 - Em uma pequena e hipotética cidade do interior do Brasil existem 10.000 adultos
que eventualmente assistem futebol pela TV, um determinado número X de horas,
semanalmente. Assim, neste período de tempo, X assume os valores 0,1,2,...,9 e para
cada um desses níveis há 1000 adultos.
a) Faça uma representação gráfica da distribuição de X.
b) Use uma tabela de dígitos aleatórios para selecionar 100 adultos (cem valores de X).
c) Calcule a média  da população.
d) Calcule a média amostral x . Ela está mais próxima à , do que a maioria das
observações?
e) Ilustre a análise em (d) através de uma equação.
1.7- Use uma tabela de dígitos aleatórios e a teoria da transformada integral para gerar
50 valores de uma população X, geométrica de média 3.
d) calcule a probabilidade empírica do evento (X>3) e compare-a com a probabilidade
teórica.
1.8 - Use uma tabela de dígitos aleatórios e a teoria da transformada integral para gerar
100 valores de um população normal de média 2 e desvio padrão 0,5.
d) calcule a probabilidade empírica do evento (X<1) e compare-a com a probabilidade
teórica.
1.9 - Suponha que o número de pousos observados no aeroporto Santos Dumont,

durante o intervalo de tempo de 12 horas a 12h e 30 minutos tenha uma certa
distribuição com média igual a 8 pousos.
a) Descreva um planejamento para coletar empiricamente 100 observações do
fenômeno em questão.
b) supondo que o número X de pousos seja regulado por uma lei de Poisson, gere 100
valores desta distribuição, calcule a média amostral e compare as probabilidades
empírica e teórica do evento (X < 4).
3 Distribuições de Amostragem
Consideremos uma população de objetos dos quais estamos interessados em estudar

uma determinada característica. Quando dizemos que a população tem distribuição
FX  x  , queremos dizer que estamos investigando uma característica X dos elementos
desta população e que esta característica X é uma variável aleatória com função de
distribuição FX  x  .
Seja  X1 , X 2 ,..., X n  uma amostra aleatória da variável aleatória X.
Definição 3.1
Uma variável aleatória G n  G  X1 , X 2 ,..., X n  definida como uma função das variáveis
aleatórias componentes de uma amostra é chamada Estatística.
Uma preocupação básica na estatística matemática é a determinação da distribuição das

estatísticas definidas a partir de uma amostra  X1 , X 2 ,..., X n  de uma variável X.
Em um primeiro tipo de problema devemos buscar para todo n, a função de distribuição

de G n . Tal distribuição é chamada distribuição exata da estatística G n , e seu
conhecimento é de vital importância na solução de problemas estatísticos, quando o
número de observações é pequeno. Neste caso estamos tratando de pequenas amostras.
Num segundo tipo de problema não estaremos interessados em investigar a distribuição

exata de G n para um determinado n, e sim sua distribuição limite quando n   , e
neste caso estamos lidando com grandes amostras.
Não há um critério geral estabelecido teoricamente que nos permite dizer se uma
amostra é grande ou não. Isto depende da estatística em análise. Uma amostra pode ser
considerada grande para uma estatística e insuficiente para outra estatística.
Definição 3.2
Se  X1 , X 2 ,..., X n  é uma amostra de uma variável aleatória X, chama-se média da
1 n
amostra, à estatística G n definida por X   Xi
n i 1
3.1 - Distribuição de Amostragem da Média da Amostra.
Seja X uma variável aleatória com média  e variância  2 . Definida uma amostra
aleatória de tamanho n de X, temos:
3.1.1 - Média da Média da Amostra.
1 n  1 n 1
E  X   E   X i    E  X i   n  
 n i 1  n i 1 n
(3.1)
Obs: o fato da média da estatística X ser igual a média de X, não significa que a média
amostral x de uma particular amostra seja necessariamente igual a  . A interpretação
correta é a seguinte: fixado um valor de n, se realizarmos todas as amostras possíveis de
tamanho n da variável aleatória X, a média dos x ’s encontrados é igual a  .
Exercício proposto:
Considere a população constituída pelo conjunto 2,5, 6, 7 . Defina todas as amostras
 4
possíveis de tamanho 3, num total de    4 . Calcule os valores de x k ,  k  1, 2,3, 4 
 3
e verifique a observação comentada.
3.1.2 - Variância da Média da Amostra.
1 n  1 n
1 2
VAR  X   VAR   X i   2  VAR  X i   2 n 
2
(3.2)
 n i 1  n i 1 n n
Obs: Convém registrar que a variância da média da amostra, para n > 1, é sempre menor
que variância de X.
Teorema 3.1
Seja X a média da amostra  X1 , X 2 ,..., X n  de uma variável aleatória com média  e
desvio padrão . Nestas condições X converge em probabilidade para a média  de X.
2
O teorema é facilmente comprovado, pois lim VAR  X   lim  0 , e, aplicando-se a
n  n  n
desigualdade de Chebyshev o resultado é imediato.
3.2 - Distribuição da média da amostra quando X é Normal (,).
Encontrar a distribuição exata de uma estatística pode em alguns casos ser muito
complicado. Contudo há métodos que freqüentemente são usados para resolver este tipo
de problema. Vamos usar propriedades das funções características, para determinar a
distribuição de X quando X tem distribuição normal de parâmetros  e .
Se X é N(,) então sua função característica é dada por

 2 t 2 
X  t   exp it   (3.3)
 2 
De acordo com propriedades das funções características, teremos então que
n
  t   2 t 2 
X  t   X    , e consequentemente, X  t   exp it   . Ora a função
  n   2n 
característica encontrada corresponde a de uma variável aleatória normal de parâmetros

 e .
n
Exemplo 3.1
Seja  X1 , X 2 ,..., X10  uma amostra aleatória de uma variável aleatória N(2;2). Como
2
vimos em (3.1) a distribuição de X é normal de parâmetros  = 2 e   10
 0, 63 .
A probabilidade de X pertencer ao intervalo (1,3) é
P 1  X  3  P  0,5  Z  0,5   0,38
A probabilidade de X pertencer ao intervalo (1,3) é
P 1  X  3  P  1,58  Z  1,58   0,88
Na prática, podemos interpretar os resultados da seguinte maneira: se selecionarmos

diversas amostras de tamanho n = 10 de uma variável X com distribuição N(2,2), em
aproximadamente 88 a cada 100 amostras, encontraremos o valor observado de X no
intervalo (1,3).
Por outro lado, se selecionarmos um elemento da população, um grande número de

vezes, obteremos somente 38 a cada 100 vezes, valores observados de X, naquele
intervalo.
Isto ocorre, evidentemente, porque a distribuição de X está mais concentrada em
torno de  = 2, do que a distribuição de X. Os gráficos 3.2.1 e 3.2.2, mostram as
densidades das variáveis aleatórias N(2,2) e N(2;0,63), respectivamente.
Gráfico 3.2.1.
Gráfico 3.2.2
As regiões hachuradas nos gráficos correspondem às probabilidades de X e X
assumirem valores no intervalo (1,3) e mostram claramente a maior concentração de X
em torno da média 2, comparativamente à distribuição de X.
Ainda a respeito da comparação em questão, o gráfico 3.2.3 apresenta as duas

distribuições plotadas, ambas nos mesmos eixos. Sob esta ótica uma interpretação
conveniente do gráfico consiste na comparação das áreas não hachuradas.
Gráfico 3.2.3
3.2 - Distribuição Assintótica da Média da Amostra de X.
Se X é a média de uma amostra aleatória  X1 , X 2 ,..., X n  , de uma variável X, então,

para n suficientemente grande, de acordo com o Teorema do Limite Central (TLC),
devido a Lindeberg-Lévy, X é assintoticamente normal de média  e desvio padrão

n . Decorrente disto, variável reduzida de X - a qual representaremos por Z - tem
distribuição assintoticamente normal padrão, isto é Z 

 X    n é  N  0,1

Vale lembrar, a título de revisão, que o TLC, impõe apenas que as variáveis
X i , i=1,2,...,n sejam independentes e identicamente distribuídas (i.i.d.), com mesma
média e variância. Como as variáveis aleatórias componentes de amostra aleatória
satisfazem esta condição, a aplicação do Teorema quando n é suficientemente grande,
resolve assintoticamente o problema de determinar a distribuição da estatística X ,
independentemente da origem populacional..
3.3 - Distribuição de Amostragem de X quando X não é Normal.
Se X não tem distribuição normal , e, se n não é grande, o estabelecimento da

distribuição exata de X é fundamental. O problema consiste em buscar a solução na
teoria de transformadas de variáveis aleatórias - no caso trata-se de uma transformada do
tipo R n  R - , e na maioria dos casos, a aplicação das propriedades da função
característica de uma função linear de variáveis aleatórias independentes é usada.
Exemplo 3.2
Se a variável aleatória X tem distribuição exponencial (), então sua função
1
 it  1 n
característica é X  t    1   . Sendo X   X i , sua função característica é
  n i 1
n
   it 
n
X  t   X t  , e por conseqüência, X  t    1   , de forma que X tem
 n   n 
distribuição Gama de parâmetros n e n. A título de ilustração e revisão, verificamos
n 1
que E  X    que é a média de X exponencial ().
n 
Exemplo 3.3
Sejam X j , j=1,2,...,n variáveis aleatórias independentes com distribuição de Poisson
(). Para encontrar a distribuição exata de X , recordemos que a função característica de
 
X j , para todo j , é igual a X  t   exp   ei t  1 , de forma que a função
  i nt  
característica de X é igual a X  t   exp n  e  1  . Ora, esta é a função
   
característica de uma variável aleatória de Poisson Modificada, de parâmetros n e . A
variável aleatória X assume determinações de X, divididas por n, isto é, X assume
1 2 3
valores j  0, , , ,... e sua média é igual .
n n n
 n 
 n k
 k e
PX    , k=0,1,2,....
 n k!
Definição 3.3
Se  X1 , X 2 ,..., X n  é uma amostra de uma variável aleatória X, chama-se variância da
1 n
  Xi  X 
2
amostra, à estatística G n definida por S 
2
n  1 i 1
Como comentado anteriormente (no Capítulo 2), a justificativa do divisor (n-1) na

definição da estatística em questão, deve-se a motivos relevantes como discutiremos a
seguir.
Dada uma amostra  X1 , X 2 ,..., X n  de uma variável aleatória X com média  e desvio
padrão , as variáveis Xi , i = 1,2,...,n são identicamente distribuídas, com mesma
distribuição de X, e, por conseqüência, elas tem os mesmos momentos de X. Assim,
E  X i2   E  X 2   VAR  X   E 2  X  , para todo i = 1,2,..,n , ou seja,
E  X i2   E  X 2   2   2 .

Por outro lado, como X tem média  e desvio padrão n , também podemos
2 2
escrever que E  X 2   + .
n
Podemos escrever então que

2  n  1 
2
E  Xi2   E  X 2    2   para todo i = 1,2,..,n

n n
Sabemos também que
 n 2  n 
E    X i  X    E    X i2  2XX i  X 2 
 i 1   i 1 
 n

 E   X i2  2nX 2  nX 2 
 i 1 
 n

 E   Xi2  nX 2 
 i 1 
n
  E  X i2   nE  X 2 
i 1
Como as variáveis X e Xi , i=1,2,...,n são identicamente distribuídas, escrevemos

 n 2
E    Xi  X    nE  X 2   nE  X 2 
 i 1 
Finalmente,
 n 2  1 n 2
E    X i  X     n  1 2  E   Xi  X    2 (3.3)
 i 1   n  1 i 1 
De modo que, convenientemente, definimos a estatística variância da amostra por

1 n
  Xi  X  , de tal forma que E  S2    2 .
2
S2 
n  1 i 1
Registremos que este resultado é de grande valor no estudo da Teoria da Estimação,

assunto que veremos em breve.
Definição 3.4
Se  X1 , X 2 ,..., X n  é uma amostra de uma variável aleatória X, chama-se desvio padrão
da amostra, à estatística G n definida por
1 n
  Xi  X 
2
S   S2  
n  1 i 1
3.4 - Distribuição conjunta da média e variância da amostra de X,

N(,).
Seja  X1 , X 2 ,..., X n  uma amostra aleatória de uma variável X com

1 n
distribuição N(, ) . Consideremos as variáveis Z   Zi e as variáveis
n i 1
Xi  
reduzidas correspondentes, Zi  , i= 1,2,3,...n.

Como sabemos, as variáveis Zi , i = 1,2,3...,n tem distribuição N(0,1) e a

 
variável Z é N  0; 1 n  , e por conseqüência, nZ tem igualmente
 
distribuição normal padrão.
Por serem as variáveis Xi independentes, também o são as variáveis Zi ,

pois trata-se , para todo i = 1,2,...,n , de transformadas lineares de variáveis
normais(1).
Por outro lado, prova-se (Apêndice A2.1) que as variáveis Z e  Zi  Z  são
não correlacionadas e ainda independentes, visto que cada  Z  Z
i é
também uma transformada linear de normais e  Z,  Zi  Z   tem distribuição
normal bivariada.
n
Y1  nZ2 e Y2 =   Zi  Z 
2
Por outro lado prova-se também que são
i=1
variáveis aleatórias independentes.
A variável Y2 pode ser escrita como segue

n n n
Y2    Zi  Z    Zi2  nZ2   Zi2  Y2  Y1
2
i 1 i 1 i 1
Recordemos que Z
i 1
2
i e Y1 tem distribuições qui-quadrado com n e 1
graus de liberdade respectivamente, e que Y1 e Y2 são variáveis aleatórias

independentes.
Usando propriedades das funções características podemos escrever

n 1 n 1
1  2it   Y2  t   1  2it   Y2  t  = 1-2it 
  
2 2 2
Concluímos portanto que Y2 tem distribuição qui-quadrado com n-1 graus

de liberdade.
Por outro lado, podemos escrever
1 n  Xi     X   
Z 
n i 1 


e  Z  Z   X  X
i
i
Resumindo, podemos afirmar(2) que
X  X
2
X  n n
 n  1 S2
  Z  Z  
2
i) Z  é independente de i

 i 1
i
i 1 2 2
ii)
 n  1 S2
é uma variável qui-quadrado com (n-1) graus de liberdade.
 2
(1) Use propriedades de funções características para provar a afirmação, Apêndice A1.1
(2) Vide caso geral no Apêndice A2.2
Teorema 3.2
Se  X1 , X 2 ,..., X n  é uma amostra aleatória de uma variável X com
distribuição normal de média  e desvio padrão , então
- as estatísticas X e S2 são independentes.
-
 n  1 S2 tem distribuição qui-quadrado com (n-1) graus de
 2
liberdade
3.5 - Distribuição da Estatística de Student com n graus de liberdade

1 n
Anteriormente estabelecemos que a média da amostra X   Xi de uma
n i 1
 
população X com distribuição N(,) tem distribuição N  ;  n  . Se
 
conhecemos o valor de , mas desconhecemos o valor de , então a
distribuição de X na verdade é uma família de distribuições dependendo
de um parâmetro , pertencente a um conjunto paramétrico   0 .
Obviamente não podemos substituir  (desvio padrão da população) por s

(desvio padrão amostral), pois S   S2 é uma variável aleatória e pode
assumir diferentes valores em diferentes amostras.
Se desejamos deduzir alguma coisa sobre , sem o conhecimento de ,

devemos buscar uma estatística que seja função de , mas com distribuição
independente de . Este problema foi resolvido por Gosset (pseudônimo:
Student) que definiu chamada Estatística T de Student.
Definição 3.5
Sejam X, X1 , X 2 ,..., X n variáveis aleatórias independentes, todas com
distribuição N(0,  2 ). Dizemos que T tem distribuição de Student com n
graus de liberdade se
X
T
1 n 2 .
 Xi
n i 1
A variável T pode ser apresentada alternativamente como segue: sabemos
X X
que Z  e Zi  i tem distribuição normal padrão, isto é N(0,1), para
 
todo i = 1,2,...,n . Substituindo-se esses valores em T, obtemos:
Z Z
T e T=
1 n 1 n 2 (3.6)
  Zi   Zi
2
n i 1 n i1
Observemos que Z é uma variável aleatória N(0,1) e Z

i 1
2
i é uma variável
aleatória qui-quadrado com n graus de liberdade.
Face a importância da distribuição T na Teoria de Inferência Estatística,

vale a pena estabelecer uma fórmula simbólica para tal variável, qual seja
Z
Tn 
 2n , onde Z é N(0,1) (3.7)
n
A leitura desta fórmula é:
“a variável aleatória T de Student com n graus de liberdade, é a razão

entre uma variável aleatória N(0,1), e a raiz quadrada de uma
variável aleatória qui-quadrado com n graus de liberdade, esta
dividida pelo seu parâmetro n, sendo ambas as variáveis
independentes”
No Apêndice A1.3 é apresentado o desenvolvimento do cálculo para a

determinação da função de densidade de Tn , cuja expressão é
n 1

1  t2  2
f t  1   , -  t  
n 1 n (3.8)
n  , 
 2 2 
A densidade de Tn é uma função par, tem média 0 e só tem momentos de

ordem s  n .
Se n = 1, por exemplo, a v.a. T1 é um caso particular e se chama v.a. de

Cauchy cujos momentos não existem(1).
Os gráficos 1,2 e 3 que seguem, ilustram as densidades de T3 , T30 e T100 .

Gráfico 1
Gráfico 2
.
Gráfico 3
(1) Vide [3] Sec. 9.6
Aparentemente os três gráficos são idênticos. No entanto, podemos com

alguma boa vontade visual, verificar que o máximo valor de f(t),
observado no ponto t = 0 é levemente diferente nos três gráficos, ou seja, é
pouco sensível a variação de f(0) quando n = 3, 30 e 100.
Quanto ao eixo dos t’ s verifica-se, também visualmente, a concentração

das três densidades no intervalo real (-4.4). A justificativa teórica para
estes fatos é o objeto do seguinte teorema, cuja demonstração é
apresentada no Apêndice A1.4.
Teorema 3.3
A seqüência Fn  t  de funções de distribuição de Student com n graus de
1
t
 t2 
liberdade satisfaz, para todo t, a relação lim Fn  t     2 dt .
exp
n  2 
Obs:
Vide na tabela da função de distribuição de Student , à página 230,
que para n “igual” a  os pontos desta distribuição coincidem com os
da distribuição normal normal padrão com referência aos valores da
FZ  z  mais freqüentemente usados.
Para ilustrar a convergência estocástica estabelecida pelo Teorema 3.3,

apresentamos a seguir o gráfico 4 da densidade da v.a. Student com 300
g.l., que visualmente, e sem esforço, se apresenta praticamente a mesma
que a de T100 , Student com 100 g.l.
Gráfico 4
A seguir veremos uma das principais aplicações variável aleatória de

Student, que é sustentada pelo seguinte Teorema
Teorema 3.4 - Razão de Student

Seja  X1 , X 2 ,..., X n  uma amostra aleatória de uma variável X com
distribuição normal de média  e desvio padrão . Se X e S2 são
respectivamente a média e variância da amostra, então
X   n
tem
S
distribuição de Student com (n-1) graus de liberdade.
De fato sabemos que X é N  ,
    X-  n
é N(0,1) , enquanto que
 e 
 n
 n  1 S2 tem distribuição qui-quadrado com (n-1) graus de liberdade. Se
 2
usarmos a fórmula (3.6.1) obteremos

Tn 1 
 X   n

 n  1  Tn-1 
X   n
  n  1 S2 S (3.9)
 2
Observamos que na Definição 3.5 a v.a. Tn foi construída a partir de (n +

1) variáveis aleatórias independentes, uma delas compondo o numerador
da razão e as demais o denominador.
No Teorema 3.4 temos n variáveis definidas gerando uma v.a. de Student

com (n-1) graus de liberdade, como era esperado. Resta comentar que
neste caso, as variáveis que compõem o denominador são  Xi  X  , i =
1,2,...,n que, como já visto, são não correlacionadas com X , e ainda
independentes, por terem origem normal.
A tabela constante do Apêndice A3.2 fornece os valores t k da distribuição

Tn , para os quais P(Tn  t k )  k .
3.6 - Distribuição da Razão entre as variâncias de duas amostras

independentes das variáveis X e Y, ambas com distribuição N  0,   .
2
Sejam X1 , X 2 ,..., X n e Y1 , Y2 ,..., Ym variáveis aleatórias independentes com

distribuição N  0,   . Temos então definidas duas amostras aleatórias
2
independentes, cujas variâncias são respectivamente
1 n 1 m
  X i  X  e Sy    Yi  Y 
2 2
S 
2
x
2
(3.10)
n  1 i 1 m  1 i 1
2 2
Conforme estabelecido no Teorema 3.2 as variáveis Sx e Sy são tais que
 n  1 S2x  m-1 S2y
e tem distribuição qui-quadrado com (n-1) e (m-1)
2 2
graus de liberdade.
S2
Nessas condições, definimos uma variável aleatória Fn 1,m 1  S2 , com
x
distribuição de Snedecor com n-1 e m-1 graus de liberdade. No Apêndice

A1.5 é apresentado o desenvolvimento matemático para obtenção da
função de densidade da variável aleatória Fn,m , Snedecor com n e m graus
de liberdade, abaixo descrita:
  n  m 2 n m n
1 mn
n 2 m 2 y 2  m  ny  2

f Fn ,m (y)  y > 0 (3.11)
  n 2   m 2
A tabela no Apêndice A3.4, fornece os pontos f n,m,k da distribuição Fn,m ,
para os quais P  0  Fn ,m  f n ,m,k   k , k=0.50, 0.75, 0.90, 0.95 e 0.99.
 2n n  2m m 1
Recordemos que Fn ,m   Fm,n  , e desta forma Fn ,m  F , o
m m
2
n n
2
m,n
que nos permite obter f n,m,1k , como segue
 1 1   1 1 
P  Fn ,m  f n ,m,k   k  P     k  P     1  k
 Fn ,m f n ,m,k   Fn ,m f n ,m,k 
 1  1
P  Fm,n    1  k  f m,n,1-k 
 f n ,m,k  f n,m,k
A distribuição de Snedecor é de importância fundamental na Teoria da

Inferência Estatística como veremos adiante nos próximos capítulos.
3.7 - Distribuição da Diferença entre as Médias de duas amostras

independentes das variáveis X e Y, ambas com distribuição N(,).
Sejam X1 , X 2 ,..., X n , Y1 , Y2 ,..., Ym variáveis aleatórias independentes com

distribuição N  ,   . Temos então definidas duas amostras aleatórias
2
independentes com médias X e Y , respectivamente. As variâncias das

duas amostras são respectivamente
1 n 1 m
     Yi  Y  .
2 2
S2x  X i  X e S2
y 
n  1 i 1 m  1 i 1
Consideremos agora estatística  X  Y  , diferença entre as duas médias em

questão, e calculemos sua média e variância,
E X  Y  E X  E Y      0
2 2 nm
VAR  X  Y   VAR  X   VAR  Y     2  
n m  nm 
Por ser uma combinação de variáveis aleatórias normais, escrevemos então

que
X  Y
X  Y é

N 0;  n  m nm  e
 n  m  é N(0,1) (3.12)
  
 nm 
Sendo  um parâmetro desconhecido, devemos substituí-lo por uma
estatística da amostra que é a média ponderada das variâncias das
amostras, ou seja
S2p 
 n  1 S2X   m  1 S2Y (3.13)
nm2
Notemos que
 n  m  2  S2p   n  1 S2X   m  1 S2Y
Dividindo-se ambos os membros da igualdade por  2 , temos:
 n  m  2  S2p  n  1 S2X  m  1 S2Y

  (3.14)
2 2 2
Como as amostras são independentes, as variáveis  2n 1 e  m2 1 são

independentes e sua soma define uma variável qui-quadrado com (m + n -
2) graus de liberdade.
Assim, se  2 é desconhecida, construímos uma v.a. de Student com n +
m -2 graus de liberdade, como segue
X  Y
nm

Tn  m  2  nm  Tn  m 2 
 X  Y  nm
(n  m  2)  S2p Sp n  m
2  m  n  2 
que nos permitirá estudar intervalo de confiança e realizar testes de

hipótese sobre a diferença entre as médias de duas populações.
Estudar a distribuição da Diferença entre as Médias de duas amostras
independentes das variáveis X e Y, com distribuição
N  X ,   e N  Y ,   .
2 2
Exercícios Propostos 3.
3.1 - Seja X uma variável aleatória não negativa, do tipo contínuo, tal que
FX  q 0,75   0, 75 . Consideremos uma amostra aleatória de tamanho n de X.
a) qual a probabilidade de que todos os valores Xi , i = 1,2,...,n sejam
maiores do que q 0,75 ?
b) Se X 1 e X  n  são as estatísticas de ordem mínimo e máximo da amostra,
respectivamente, calcule P  X 1  q 0,75  X n  .
c) para um valor de n suficientemente grande explique o significado das
probabilidades calculadas em (a) e (b).
3.2 - Seja  X1 , X 2 ,..., X n  uma amostra aleatória de uma variável aleatória X

1 n
  X i  X  a estatística chamada
2
com distribuição N(0,  2 ). Seja M 2 
'
n i 1
momento central de segunda ordem da amostra . Mostre que M2 e X
são variáveis aleatórias independentes e determine a distribuição de M2 .
3.3 - Seja X uma variável aleatória N(, ) e seja  X1 , X 2 ,..., X n  um amostra

aleatória de X. Obtenha a função de densidade da estatística S2 .
3.4 - Sejam  X1 , X 2 ,..., X n  e  Y1 , Y2 ,..., Ym  duas amostras aleatórias

independentes e originárias de uma variável aleatória N ,   2  . Qual a
2
distribuição de W  X  Y ? Qual a probabilidade do evento  W  0,1

quando m  n  100 ?
3.5 - Considere uma variável aleatória N(, 2) . Seja  X1 , X 2 ,..., X n  uma

 2
amostra aleatória de X. Qual deve ser n de forma que E X n    0,1 , para 
todo valor possível de  ?
3.6 - Em condições idênticas às do exercício (3.5), qual deve ser n de

forma que E  X n     0,1 , para todo valor possível de  ?
3.7 - Suponha que  X1 , X 2 ,..., X n  seja uma amostra aleatória de uma

variável aleatória X com distribuição N(, ) . Qual a distribuição da
estatística n  X    2 ?
2
3.8 - Suponha que  X1 , X 2 ,..., X n  seja uma amostra aleatória de uma

variável aleatória X com distribuição N(, ) . Qual a distribuição da
estatística n  X    S2 ?
2
3.9 - Suponha que  X1 , X 2 ,..., X16  seja uma amostra de um distribuição

N(, ) . Determine as seguintes probabilidades:
 1 2 1 16 2
a)      X i     2 
2
P
2 16 i 1 
1 2 1 16
2
b) P      X i  X   2 
2
2 16 i 1 
3.10- Suponha que  X1 , X 2 ,..., X10  seja uma amostra de uma variável
aleatória N(0, ) . Determine o valor de c de tal forma que a variável
1/ 2
 10 2 
aleatória  1 2    X i  tenha distribuição de Student. Quantos graus
c X  X /
 i 3 
de liberdade tem T?
3.11- Suponha que X tenha distribuição de Student com n graus de

liberdade (n > 2). Determine E(X) e mostre que VAR(X)=n/(n-2).
Sugestão:
Para calcular E(X 2 ) use a seguinte transformada y  (x 2 / n) 1  (x 2 / n) .
4. Estimação Pontual.
Recordemos o exemplo inicia apresentado na Seção 1, referente à pesquisa

desenvolvida pelo veterinário. Naquele modelo, através de uma amostra de
n = 400 cães, ele concluiu que 25% dos cães da raça em questão,
possuíam uma certa característica relacionada à marcas no pelo.
Estabeleceu também que um modelo próprio para representar o fenômeno
seria binomial.
Ele assim o fez, por ter encontrado 88 cães com aquela característica, o
que corresponde a 0,22 de n. Os valores 0,25 e 0,22 são o que
chamaremos de estimativas da proporção p de cães que possuem a tal
marca no pelo.
Conforme vimos, supondo que o total da população de cães daquela raça

seja de
N= 10.0000, e considerando a população representada por (1.2), o
verdadeiro valor de p é o somatório dos 10.000 dígitos dividido por N.
Qual das duas estimativas de p é a melhor? Esta pergunta e sua resposta,

quando existe, é o assunto principal a ser estudado nas seções 4 e 5.
Em geral, quando realizamos uma amostra de uma população X, o objetivo

é buscar informações sobre os parâmetros da distribuição de
probabilidades de X.
No que se segue, representaremos um simples parâmetro de X, pela letra

grega . Se a característica populacional X é contínua, representaremos o
modelo por f  x, 1 , 2 ,..., k  , e, se discreta, por P  x, 1 , 2 ,...k  , se a
distribuição de X depende de k parâmetros.
Um procedimento geral adotado para estimar um parâmetro , de uma
população X, consiste em definir uma função da amostra  X1 , X 2 ,...., X n  da
variável aleatória X.
Esta função é uma estatística G n  G  X1 , X 2 ,..., X n  , que denominaremos
estimador do parâmetro  e representaremos por ̂ .
Observemos que ̂ é uma variável aleatória pois é função de variáveis

aleatórias. Ao valor observado de ̂ , uma vez realizada a amostra,
denominaremos estimativa do parâmetro , a qual representaremos por
̂ .
Definição 4.1
Uma estimativa pontual de algum parâmetro populacional  é um valor
numérico ̂ de uma estatística ̂ .
É fundamental distinguir a diferença entre , ˆ e ˆ . O valor observado de

um estimador ̂ (a estimativa ̂ ), não é necessariamente igual ao
verdadeiro valor do parâmetro . A notação usada para representar estas
entidades varia de acordo com a referência bibliográfica.
Como exemplo, suponha que uma variável aleatória X seja normalmente

distribuída com média , desconhecida, e variância  2 , conhecida . A
média da amostra é um estimador do parâmetro  .
Assim, temos
parâmetro  
estimador  X  ou ˆ 
estimativa  x
Assimilados estes conceitos, eventualmente não faremos distinção, em

termos de notação, entre o estimador e a estimativa. Por exemplo, em
alguns casos usaremos ˆ  X e ˆ  x para nos referir ao estimador e
estimativa do parâmetro, respectivamente.
Freqüentemente necessitaremos estimar:
- a média de um população.
- a variância (ou desvio padrão ) de uma população.
- a proporção p de itens de uma população que possuem um
determinado atributo.
- a diferença das médias de duas populações.
Em geral estaremos diante de diferentes escolhas para o estimador pontual

de um parâmetro  . Por exemplo, se desejamos estimar a média de uma
população, podemos adotar a média da amostra, a mediana da amostra , ou
mesmo a média entre o máximo e o mínimo da amostra.
De forma a decidir qual o melhor estimador a ser usado para estimar um

parâmetro de uma especificada distribuição de probabilidades, precisamos
estudar as suas propriedades estatísticas e estabelecer algum critério para
comparar estimadores. Isto é o que faremos a seguir, nas seções 4 e 5.
4.1 - Estimação pelo Método dos Momentos.
Definição 4.2
Se  X1 , X 2 ,..., X n  é uma amostra de uma variável aleatória X, chama-se
1 n
  Xi 
s
momento (ordinário) de ordem s da amostra, à estatística M s 
n i 1
s= 1,2,3....
Um dos métodos de estimação mais simples é o chamado Método dos

Momentos (MM), objeto de estudo desta seção. Este método consiste em
igualar os momentos de X, os quais representaremos por  s  X  , aos
momentos M s , s = 1,2,... , conforme Definição 4.2, e resolver a(s)
equação(ões), obtendo o parâmetro  em função das variáveis Xi ,
i=1,2,..,n.
Um parâmetro  de uma distribuição de probabilidades é, em geral, uma

função conhecida de um número finito de momentos.
Como exemplo citamos a distribuição Gama de parâmetros a e p. A média

p e p
e a variância desta distribuição são respectivamente a a2
respectivamente. Representando por 1  X  e  2  x  o primeiro e segundo
momento ordinário de X, respectivamente, verificamos que os parâmetros
a e p são funções destes momentos, isto é
p p
 1  x  e   2  X   12  X 
a a2
Se a distribuição de uma variável aleatória X possui apenas um parâmetro
 , em geral, fazemos
n
  G  X , X ,..., X   M  1  X
 (4.1)
n 1 2 n 1 i
n i 1
e resolvemos a equação em ̂ .
Exemplo 4.1
Suponha que  X1 , X 2 ,..., X n  seja uma amostra aleatória de uma variável
aleatória X com distribuição exponencial de parâmetro . Sabemos que o
1
primeiro momento de X é igual a E  X   1  X   e o primeiro momento

1 n
da amostra é M1   Xi . O método dos momentos consiste em resolver a
n i 1
equação
1 1
M1 
ou X=
 
  1  n
 n
De forma que
 Xi . Se uma amostra de tamanho n = 6 da
X
i 1
variável X apresenta os valores 45.7 , 38.6 , 58.8 , 21.3 , 39.0 e 45.2 então
248, 60 1
x  41, 43 e a estimativa para  é igual a    0, 024 .
6 41, 43
Exemplo 4.2
Se X é uma variável aleatória cuja função de densidade depende de sua
média  de sua variância  2 , então obtemos os estimadores dos
parâmetros obtidos pelo método dos momentos conforme segue,
1  X   
 2  X   2   2
Daí, resolvemos a sistema
  X
 2  M 2  X 2
ou
1 n
   Xi
n i 1
2
1 n 1 n  1 n
   X i2    X i   2    X i  X 
2 2
n i 1  n i 1  n i 1
Obs: Se o s-ésimo momento de X independe do parâmetro , toma-se o

momento de ordem imediatamente superior, para estabelecer o
estimador correspondente. O exemplo 4.3 que segue, esclarece esta
questão.
Exemplo 4.3
Suponha X uniformemente distribuída no intervalo  ;   . Como E(X) =
0, ou seja, independente de , calcularemos o segundo momento de X e o
igualaremos ao momento de segunda ordem da amostra:

x2 2
2  X    2 dx 

3
Assim, o estimador de  pelo método dos momentos é
2
   3M
 M2   2
3
Exercícios Propostos 4.1
4.1.1 - O número de clientes que demandam a um posto do INSS durante o
intervalo de tempo de 10 minutos é supostamente regulado por uma Lei de
Poisson de parâmetro . Em um certo período de 10 minutos (por exemplo
de 10hs às 10hs e 10min) durante 10 dias consecutivos foram feitas as
seguintes observações: 10,8,12,13,7,11,13,6,8 e 9. Defina um estimador
pelo método dos momentos para  e obtenha a estimativa correspondente.
4.1.2 - Em um município com 10.000 habitantes foi realizada uma amostra

de tamanho n = 100 com objetivo de estimar o número de pessoas que
votariam a favor de uma discutível obra, proposta pelo prefeito. Sessenta e
sete pessoas responderam “sim”. Defina o modelo probabilístico em
questão e use o método dos momentos para estimar o parâmetro da
população.
4.1.3 - Seja X a variável aleatória que assume o número de insucessos

observados até ocorrência r-ésimo sucesso, pela primeira vez, em um
seqüência de provas independentes de Bernoulli. Se  X1 , X 2 ,..., X n  é uma
amostra aleatória de X, obtenha pelo método dos momentos os estimadores
dos parâmetros populacionais.
4.1.4 - Fixado um número , foram selecionados 10 números reais no

intervalo (0,) e o resultado foi o seguinte: 4.51, 2.12, 7.81, 4.61, 6.01,
3.78, 6.99, 5.01, 3.01, 6.50. Faça as suposições adequadas. Use o método
dos momentos para definir  , e obtenha a seguir, uma estimativa de .
4.1.5 - Considere o exercício anterior. Refaça-o considerando o intervalo

 ,   e os dados seguintes: -4.51, 2.12, -7.81, 4.61, -6.01, 3.78, -6.99,
5.01, -3.01, 6.50.
4.1.6 - O tempo X de vida de um dispositivo eletrônico é normalmente

distribuído. Dez desses dispositivos foram testados e ao final da
experiência (quando todos os dispositivos deixaram de funcionar) foram
registrados os seguintes tempos de vidas (em 100 horas).
1.5, 3.7, 8.1, 2.5, 5.4, 8.1, 5.6, 6.7, 7.43, 5.8
Defina os estimadores pelo método dos momentos para os parâmetros da
população e obtenha suas estimativas.
4.2 Estimação pelo Método de Máxima Verossimilhança.

O método de estimação chamado de Máxima Verossimilhança, introduzido por R.A.
Fisher em 1912, é largamente aplicado em variados problemas estatísticos e, quase
sempre, resulta em um razoável estimador para o parâmetro  de uma variável aleatória
X. Através dos exemplos que seguem, apresentaremos uma breve exposição sobre os
fundamentos básicos do método.
Exemplo 4.4
O Diretor de uma Escola, no início de um certo dia, inquiriu sua bibliotecária sobre o
número médio de retiradas de publicações para consulta, por dia. Alertou-a que
precisava da informação no início do dia seguinte. Não dispondo de dados históricos,
ela resolveu registrar o valor observado naquele dia, e a partir desta única observação,
inferir o número desejado pelo Diretor. Ao final do dia a bibliotecária registrou x = 5
“retiradas para consulta”, e, com base em sua experiência, decidiu informar este próprio
valor como sendo o número médio desejado.
Suponhamos que o número de retiradas X, tenha distribuição de Poisson (), cuja
e   k
função de probabilidade é P(X  k)  , k = 0,1,2,.... .
k!
Recordemos que E(X) = , isto é, o próprio parâmetro de P(X  k) .
Segue abaixo um extrato da tabela de Probabilidades da Poisson, contida no Apêndice

A3.6.
k\ 1 2 3 4 5 6 7 8 9 10
P(X=5) 0.0031 0.0361 .1008 .1563 .1755 .1606 .1277 .0916 .0607 .0378
O quadro mostra na realidade, uma função f (5, ) , do parâmetro , assumindo valores

no intervalo (0,1). Esta função assume seu valor máximo no ponto  = 5.
A solução proposta pela bibliotecária, embora rápida, simples e baseada numa única
observação do fenômeno, tem seu valor, na medida que o valor k = 5 é mais provável de
ocorrer se o parâmetro da população é igual a  = 5.
Exemplo 4.5
Suponha que uma urna contenha bolas brancas e pretas na proporção de 3 para 1, mas a
cor mais freqüente é desconhecida. Sendo assim a probabilidade de seleção aleatória de
uma bola preta é igual a 0.25 ou 0.75. Se n bolas são extraídas aleatoriamente da urna,
com reposição, a distribuição de X, número de bolas pretas observadas, é Binomial
(n,¼) ou Binomial (n,¾), ou seja
n
P(X  k)    p k q n  k k = 0,1,2,...,n e p = 1/4 , 3/4
k
Suponha que n = 3 bolas sejam extraídas, com reposição, e a partir do valor observado
de X tentaremos estimar p. O problema de estimação neste caso é muito simples pois
temos somente duas escolhas: 1/4 , 3/4. Os possíves resultados da amostra e suas
respectivas probabilidades são mostradas abaixo:
k 0 1 2 3
P(k,1/4) 27/64 27/64 9/64 1/64
P(k,3/4) 1/64 9/64 27/64 27/64
No presente exemplo, se k = 0 em uma amostra de n = 3, a estimativa p̂ = 0,25 seria
preferível, porque uma amostra com k = 0 é mais provável de aparecer a partir de uma
população com p = 1/4, em vez de p=3/4. Em geral, o estimador em questão seria
definido como segue,
 0.25 k  0,1
p̂  k   
0, 75 k  2,3
Os dois exemplos apresentados são apenas introdutórios, pois que foram baseados
numa única observação da variável aleatória X.
Definição 4.3
Consideremos uma variável aleatória X com função de distribuição FX (x, ) , onde  é
o único parâmetro desconhecido. Seja  x1 , x 2 ,..., x n  uma particular observação da
amostra aleatória  X1 , X 2 ,..., X n  da variável X. Chama-se função de verossimilhança
da amostra à função
L X     f  x1 ,   f  x 2 ,   ... f  x n ,   se X é
contínua
L X     P(X1  x1 ; )P(X 2  x 2 ; ) ... P(X n  x n ; ) se X é

discreta
A função de verossimilhança, muitas vezes representada por L  x1 , x 2 ,..., x n ,   nos dá a

relativa probabilidade das variáveis X1 , X 2 ,..., X n , componentes da amostra,
assumirem os valores x1 , x 2 ,..., x n .
Imaginemos por um momento, que o parâmetro  seja conhecido, e representemos seu

valor por 0 . Os valores amostrais mais prováveis de ocorrer formam a n-úpla

 x1 , x 2 ,..., xn  que maximiza a função L  x, 0  .
Como o parâmetro  assume diferentes valores em um conjunto , a função de

verossimilhança L  x1 , x 2 ,..., x n ,   na realidade define uma família F de funções de
densidades (ou probabilidades). Uma vez conhecido  a distribuição de X, origem da
amostra, é completamente especificada.
Obtidos os valores amostrais  x1 , x 2 ,..., x n  , desejamos saber qual a densidade de F

com a maior “chance” de ter gerado  x1 , x 2 ,..., xn  . Em outras palavras desejamos
encontrar o valor de    , o qual representaremos por ̂ , que maximiza
L  x1 , x 2 ,..., x n ,   .
Este valor, em geral, é uma função de  x1 , x 2 ,..., x n  , isto é , ˆ  g  x1 , x 2 ,..., x n  e,

como já vimos, é a estimativa MV do parâmetro , realização da variável aleatória
ˆ  G  X , X ,..., X  .
1 2 n
Definição 4.4
Seja L  x1 , x 2 ,..., x n ,   a função de verossimilhança de uma
amostra da variável
aleatória X, com função de densidade (ou probabilidade) f (x, ) . Se ̂ = g
 x1 , x 2 ,..., x n  é o valor de  que maximiza L  x1 , x 2 ,..., x n ,   , então
ˆ  G  X , X ,..., X  é o estimador de máxima verossimilhança (EMV) do parâmetro
1 2 n
.
Se X é do tipo contínuo - o que segue vale para o caso discreto - a função de

verossimilhança pode ser escrita
n
L X     f  x1 ,   f  x 2 ,   ... f  x n ,   ou L X      f  x i ,  
i 1
Em geral, as funções de verossimilhança satisfazem condições de regularidade tais que

o estimador de máxima verossimilhança é a solução da equação
dL  x1 , x 2 ,..., x n 
0
d
Por outro lado, L() e ln L     têm seu máximo no mesmo valor de , e, muitas
vezes é mais fácil encontrar a n-úpla que maximiza o logaritmo de L    .
Se a distribuição da variável aleatória X depende de vários parâmetros, isto é ,

f  x, 1 , 2 ,..., k  ,sua função de verossimilhança toma a forma
n
L  1 , 2 ,..., k    f  x i , 1 , 2 ,..., k  .
i 1
Neste caso os estimadores de máxima verossimilhança dos parâmetros 1 ,  2 ,...,  k , são

ˆ  G  X , X ,..., X  , i = 1,2,...,k, cujas realizações ˆ  g  x , x ,..., x 
as estatísticas  i 1 2 n i 1 2 n
maximizam L  1 , 2 ,..., k  .
Se certas condições de regularidade são satisfeitas, o ponto em R k que maximiza a

função de verossimilhança é a solução das k equações abaixo:
L  1 , 2 ,..., k  L  1 , 2 ,..., k  L  1 , 2 ,..., k 

 0,  0 , ... , 0 (4.2)
1 2 k
A seguir apresentaremos alguns exemplos tradicionais de obtenção deestimadores de

máxima verossimilhança. O exemplo inicial, mais uma vez, para fixar a teoria, consiste
num caso numérico extremamente simples.
Exemplo 4.6
Uma amostra aleatória de tamanho n = 2 de uma variável aleatória de Poisson (),
resultou nas seguintes observações: k1  1 e k 2  2 . Calcule a estimativa de máxima
verossimilhança para o parâmetro .
Solução:
A função de probabilidade de Poisson é aquela do exemplo 4.4 e a função de
verossimilhança da amostra é
2
e   k e   k e 2  3
L      P  ki ,     L 1, 2,   
1 2
i 1 k1 ! k 2 ! 1!2!
Daí, calculamos o ln de L() e sua derivada
ln  L 1, 2,     2  3ln   ln 2

d ln  L 1, 2,  
 2  3  2  3  0
d  
Finalmente, resolvendo a equação em  , obtemos a estimativa de máxima

verossimilhança do parâmetro , ou seja , ˆ  1,5 que é a média dos valores amostrais.
Exemplo 4.7
Generalizemos o exemplo anterior para obter o EMV do parâmetro  da variável
aleatória X com distribuição de Poisson. Considerando uma amostra de tamanho n,
temos
n
 Xi
n
e   Xi  i1
L      L    =e -n n
xi !
i 1
  x !
i 1
i
n n
ln L      n  ln   x i  ln   x i  !
i 1 i 1
d ln L    1 n 1 n 1 n
 n   x i   n   x i  0     x i
d  i 1  i 1 n i 1
De forma que o EMV do parâmetro , de uma distribuição de Poisson, é a média da

1 n
amostra X   Xi
n i 1
Exemplo 4.8
Suponha que uma amostra de tamanho n seja obtida a partir de uma variável aleatória de
Bernoulli de parâmetro p, ou seja
P(X  x)  p x q1 x , x = 0,1 0  p 1
A função de verossimilhança é
n n
 xi n  xi
L  p   p i1 (1  p) i1
n
Façamos y   x i  ln  L  p    y ln p  (n  y) ln(1  p)
i 1
d ln L(p) y n  y
 
dp p 1 p
y ny
  0  y  yp  np  yp  y  np
p 1 p
De forma que a estimativa de máxima verossimilhança de p é
1 n
p̂   xi
n i 1
1 n
Conclui-se daí que o EMV de p é a média da amostra X   Xi
n i 1
Exemplo 4.9
Seja  X1 , X 2 ,..., X n  uma amostra aleatória de uma variável normalmente distribuída
com parâmetros  e 2 . A função de verossimilhança da amostra é dada por
n
1   x i   2 
L  ,    
2
exp  
i 1  2  2 2 
 n 2
1 

  xi    

= exp  i 1 
 22  2
n 2 2
 
 
n 1 n
ln  L  , 2     ln  22   2   x i   
2
2 2 i 1
Daí, temos
d ln L  , 2  1 n
d

2
x
i 1
i    0
d ln L  , 2 
n 1 n
4  i
x    0
2
 
d 2
2 2 i 1
2
As soluções das equações acima fornecem os EMV dos parâmetros, quais sejam:
1 n 1 n
 Xi   Xi  X 
2
ˆ  X  e ˆ 2 
n i 1 n i 1
O método de estimação por máxima verossimilhança permanece válido para

funções do parâmetro, ou seja os EMV’s são invariantes em relação a
transformações do parâmetro. Suponha que ̂ seja o EMV de um parâmetro  e
seja uma função   g    . Nós podemos escrever L() em função de  fazendo-se
  g 1    em L(). A estimativa de MV do parâmetro  será obtida substituindo-
se  por ˆ , na função, isto é ˆ =g ˆ . 
Exemplo 4.10
Obter o EMV do parâmetro p da variável aleatória Geométrica e a seguir da função
  g  p  =1-p=q .
Solução:
Se X é geométrica(p)  P(x)  pq x 1 x=1,2,3,.... e a função de verossimilhança é
n
 xi n  n

 ln L(p)  n ln p   n   x i  ln(1  p)
L(p)  p n q i1
 i 1 
Derivando-se em relação a p , temos
d ln L(p) n 1  n

dp
 
p 1 p   n  
i 1
xi 

n
1 1
n  np  np  p x i  p   p=
ˆ
i 1 X x
Consideremos agora a função   g  p   1  p e façamos p  g     1   em L(p),
1
isto é .
n
n  i
x n

L  x, g 1 ()   1     i1
  n 
ln L  x, g 1 ()   n ln(1  )    x i  n  ln 
 i 1 
Derivando-se em relação a  , temos
n

d ln L  x, g 1 ()  n x
i n
  i 1
0
d 1  
 n  n n
n  1      x i  n   n   x i  n  n   x i
 i 1  i 1 i 1
n n
1
 x i   x i  n   1 
i 1 i 1 x
De forma que o estimador de máxima verossimilhança do parâmetro  pode ser obtido

substituindo-se o parâmetro p, na função g(p), por seu EMV, p̂ , isto é
1
ˆ  g  pˆ   1  pˆ  ˆ  1  .
X
Definição 4.5
ˆ é estimador
Se ̂ é estimador de máxima verossimilhança do parâmetro , então G   
de máxima verossimilhança de g().
Exemplo 4.11
Obter o EMV da função   g()  P(X  0), onde X tem distribuição de Poisson ().
Conforme exemplo 4.7,
n n
ln L     n  ln   x i  ln  (x i !)
i 1 i 1
Verificamos que   P(X  0)   = g     e , isto é,  é uma função do parâmetro


, e   g      ln  .
1
Se substituirmos em ln L    , obtemos
n n
ln L  g 1      n ln   ln   ln    x i  ln  (x i !)
i 1 i 1
Derivando-se em relação a , obtemos

d ln L  g 1     n 1 n n
d
   i
  ln  i 1
x  0  n ln    
i 1
xi
Finalmente,
n
x i
ln    i 1
 ln   x   = e -x
n
Assim, o estimador do parâmetro  é   
ˆ  g ˆ  e ˆ  
ˆ  e X
4.2.1 - Obtenha o EMV do parâmetro b, de uma variável aleatória uniforme no

intervalo (0,b), com base numa amostra de tamanho n.
4.2.2 - Seja X uma variável aleatória com distribuição exponencial (). Dada uma
amostra aleatória de tamanho n, de X, encontre o EMV para o parâmetro  da
distribuição. Obtenha ainda o EMV para a função de  definida por P(X  1) .
4.2.3 - Seja X uma variável aleatória com a seguinte função de densidade:

   1 x  0  x  1
f (x)  
 0 c.c.
Encontre o EMV de , baseado numa amostra aleatória de tamanho n.
4.2.4 - Seja  X1 , X 2 ,..., X n  uma amostra de origem N , 0  . Sendo  0 conhecida,

2 2
obtenha o EMV do parâmetro .
4.2.5 - Considere a distribuição de Weibull de parâmetros  e , com densidade

   x 1   x  
 exp     x0
f  x            

 0 caso contrário
a) Determine a função de verossimilhança L  ,   , de uma amostra de tamanho n e seu
logaritmo.
b) Mostre que ln L  ,   é maximizada através das soluções das equacões
1
 n  n

n
  x ln x  ln x i 
  i
 i i
x
e    i 1 n  i 1 
 i 1
 n 
 

n xi
i 1

c) Quais as complicações envolvidas na solução do sistema em (b)?
4.2.6 - Seja  X1 , X 2 ,..., X n  uma amostra de origem Gama com parâmetros  e r.

a) Calcule L  , r  e seu logaritmo.
b) Encontre as equações que determinam os EMV’s de  e r. Elas podem ser resolvidas
explicitamente?
4.2.7 - Determine o EMV do parâmetro  da distribuição da variável aleatória X, cuja
densidade é dada por
x 1 0  x 1
f (x)   >0
 0 caso contrário
4.2.8 - Seja  X1 , X 2 ,..., X n  uma amostra aleatória originária da seguinte função de

densidade:
1
1   x  
f  x, ,    e  ,x>,>0e R

Para um fixado ,
a) Determine o EMV de .
b) Determine o EMV de P , (X1  1)
4.2.9 - Suponha que  X1 , Y1  ,  X 2 ,Y2  ,...,  X n , Yn  , formam uma amostra de uma

variável aleatória normal bivariada cujos 5 parâmetros são conhecidos. Mostre que os
EMV destes parâmetros são os seguintes:
ˆ x  X n e ˆ y  Yn
1 n 1 n
  Xi  X n    Yi  Yn 
2 2
ˆ 2x  e ˆ 2y 
n i 1 n i 1
  X  X  Y  Y 
n
i n i n
ˆ = i 1
2 1/ 2 2 1/ 2


 X  X     Y  Y 
n
i 1 i n
n
i 1 i n


4.2.10 - Seja  X1 , X 2 ,..., X n  uma amostra aleatória de origem X, cuja função de

dada por f  x    r  x r 1e x  , x> 0 , sendo r um parâmetro conhecido.
r
densidade é
Obtenha o EMV de .
4.2.11 - O espaço paramétrico de uma variável aleatória X com distribuição binomial é

 
   n, p  / n  2, 3 ; p= 1 , 1 . Use os fundamentos básicos do método de estimação
2 3
de máxima verossimilhança para estimar n e p, considerando que apenas uma
observação de X esteja disponível.
4.3 - Propriedades dos Estimadores.
Estudamos dois métodos para se estimar parâmetros desconhecidos de uma

distribuição de probabilidades: o método dos momentos (MM) e o de máxima
verossimilhança (MMV). Outros métodos propostos e de aplicação a específicos
modelos serão estudados adiante: estimadores bayesianos e estimadores de mínimos
quadrados.
Em muitos casos os métodos MM e MMV produzem o mesmo estimador, mas em

outros importantes problemas isto não é verdade.
Recordemos o exemplo inicial discutido no capítulo 1. Naquele modelo, o veterinário
embora tenha estimado em 0,22 a proporção de cães com o atributo em estudo, adotou
como estimativa o valor 0,25.
1 n
O valor x  0, 22 foi resultado da aplicação do estimador X   Xi , onde Xi é uma
n i 1
variável aleatória de Bernoulli. O estimador usado, média da amostra, é o estimador
obtido tanto pelo método dos momentos quanto pelo de máxima verossimilhança.
O valor x  0, 25 foi “obtido” através de um método de estimação, digamos sensitivo,

escolhido em função da experiência profissional do veterinário. Este último método não
tem justificativa teórica na Estatística, mas a sua adoção pode ser respaldada por um
teste estatístico paramétrico como veremos no capítulo 10.
Aliás, através do valor x  0, 22 , resultado da aplicação dos métodos MM e MMV, é

que poderemos aceitar ou rejeitar a “estimativa sensitiva” adotada pelo veterinário.
Freqüentemente estaremos diante de dois ou mais estimadores para o mesmo parâmetro

de uma distribuição e, por isso, torna-se necessário definir regras e critérios para
compará-los. Se pudermos estabelecer alguma escala de “qualidade” para estimadores,
então seremos capazes de escolher o melhor estimador para um dado problema.
Como vimos, o estimador ̂ de um parâmetro  é uma variável aleatória, função das

variáveis da amostra. Assim sendo, o valor ̂ (estimativa de  ) varia de uma amostra
para outra. Quase certamente ̂ difere de  , a menos que n = N, e, neste caso a teoria
estatística é dispensada.
Suponhamos que  ˆ e  ˆ sejam estimadores comuns do parâmetro  . Através da

1 2
distribuição da amostra podemos construir as leis de probabilidade de ambos os
estimadores, e, o problema de escolher o melhor estimador se reduziria à comparação
das duas distribuições de probabilidade.
Imaginemos que ̂1 tenha uma certa distribuição de probabilidades tal que
 k ˆ k
P   1     0,90 , enquanto que ̂ 2 , embora com a mesma distribuição de
 2 2
 k ˆ k
̂1 , seja tal que P      2     0,90 , para k inteiro positivo.
 4 4
Obviamente que escolheremos ̂ 2 como estimador de  , e adotaremos ̂ como sua

estimativa obtida a partir de uma particular amostra, porque com igual probabilidade,
̂ 2 diferirá de  menos do que ̂1 .
Infelizmente, na maioria dos casos, as distribuições de probabilidades de diferentes

estimadores são também diferentes, e, neste caso a comparação de estimadores por este
critério se torna inviável, e, por isto, uma alternativa viável é fundamentada pelas
propriedades destes estimadores.
4.3.1 - Estimador Não Tendencioso (não viciado).
Se  é um parâmetro da distribuição de probabilidades de X e ̂ o seu estimador, o

mínimo que desejamos é que a variável aleatória ̂ assuma valores em torno de 
com alta probabilidade, ou mais simplesmente, desejamos que E ˆ  .  
Definição 4.6
Seja X uma variável aleatória cuja distribuição de probabilidades depende de um
parâmetro  . Dizemos que ̂ é um estimador não tendencioso (ou não viciado) para o
parâmetro  , se E   
ˆ .
Definição 4.7
Se ̂ é um estimador tendencioso de  , então E   
ˆ    B 
ˆ ˆ
  , onde B   é
ˆ  =0, o estimador é não tendencioso,
chamada tendenciosidade do estimador ̂ . Se B  
 
ˆ  0.
isto é, E 
Exemplo 4.12
Se X é uma variável aleatória com função de densidade dependendo de um parâmetro ,
tal que E  X    , então a média da amostra originária de X é um estimador não
tendencioso do parâmetro.
1 n
n
 1
E  X   E   i 1 X i   E
 n
 n

X 
i 1 i
1 n
 E(X i )
n i 1
1 n 1
E  X    i 1   n   
n n
(4.3)
O desenvolvimento acima não leva em conta o tipo de distribuição de X, e por isto, a

média da amostra é um estimador não tendencioso dos parâmetros  da distribuição
N(, ) , do parâmetro p da distribuição de Bernoulli (p), do parâmetro  da distribuição
de Poisson (), etc...
Exemplo 4.13
Dada uma amostra aleatória de uma população X com média  e variância  2 chama-se
momento central de segunda ordem da amostra (vide exercício 3.2) à estatística
1 n
definida por M2    X i  X  .
2
n i 1
Calculemos a média da estatística M2 :

1 n 2 1  n 
E(M2 )  E    X i  X    E   X i2  2nX 2  nX 2 
 n i 1  n  i1 
1 n  1 n
E(M2 )  E  X i2  nX 2    E  X i2   E  X 2 
n  i 1  n i 1
E(M2 )  E  X i2   E  X 2 
Recordemos que,
2
E  X i2   2   2 e E  X2    2
n
De forma que,
 2 
E  M2   2   2     2 
 n 
(4.4)
 n 1  2 2
E  M2        2

 n  n
Registramos portanto que o momento central de segunda ordem da amostra é um

estimador viciado da variância  2 da população, com tendenciosidade (vício) igual
2
BM2    .

n
Teorema 4.1
Se  X1 , X 2 ,..., X n  é uma amostra aleatória de uma variável X com média  e variância
1 n
  Xi  X  é um estimador não viciado do parâmetro
2 2
 2 então a estatística S 
n  1 i 1
2 .
Prova:
A demonstração do teorema é imediata levando em conta o resultado do exemplo
anterior,
1 n 2  n 1  2
E  M '2   E    X i  X     
 n i 1   n 
 n  1 n 2
   E    Xi  X    2
 n 1   n i 1 
 n 1 n 2
E    Xi  X    2
 n  1 n i 1 
 1 n
2
E   X i  X    2
 n  1 i 1 
De forma que E  S   
2 2
(4.5)
Segue imediatamente, conforme Definição 4.5, que S =  S2 é o estimador de máxima

verossimilhança do desvio padrão da população.
Exercício Proposto:
Verificar se S é um estimador não tendencioso do parâmetro , desvio padrão de X,
N  ,   , origem de uma amostra aleatória de tamanho n. Se S é tendencioso, qual a
sua tendenciosidade?
Teorema 4.2
Seja  X1 , X 2 ,..., X n  uma amostra aleatória de uma variável aleatória X.
Em geral, se existe o momento ordinário - centrado em torno de zero - de ordem s de
X,  s  X   E  X  , s = 0,1,2..., então o momento de ordem s da amostra, definido pela
s
1 n
  X i  é um estimador não tendencioso de s  X  .
s
estatística M S 
n i 1
Prova:
1 n s 1 n 1 n
E(M S )  E    X i     E  X i     s  X    s  X 
s
 n i 1  n i 1 n i 1
(4.6)
Obter um estimador não tendencioso de um parâmetro  é , em geral, uma tarefa

bastante fácil, dado que as componentes de uma amostra são identicamente distribuídas.
Nestas condições, podemos definir muitos estimadores não tendenciosos para o
parâmetro , média da população X.
Qualquer estatística definida pela média de qualquer subconjunto das variáveis

aleatórias Xi , i = 1,2,3...,n constitui um estimador não tendencioso de .
Por exemplo,
a) ˆ X E 
1 1 1 
ˆ =
ˆ 
b) 
1 10
 X  E ˆ   E  1 10 X   

10
10 i 1
i  10  10 i 1 i 
Desta maneira, no formato média, temos 2 n  1 estimadores não tendenciosos para o
parâmetro , e em conseqüência, necessitamos portanto, estabelecer um critério para
escolher qual estimador preferível em cada caso.
Se  2 é a variância da população, temos que as variâncias de dois dentre os estimadores
citados acima são:
ˆ )  Var  1  X   1 10 2  
10 2
b.1) Var(10  10 i
 i 1  100 10
 1 15  1 2
b.2) Var(15 )  Var   X i  
ˆ 15 
2
 15 i 1  225 15
Segundo análise já feita anteriormente, é óbvio que escolheremos ̂15 , se apenas as
duas opções são viáveis, pois que Var( ˆ )  Var(
ˆ ).
15 10
Exemplo 4.14
Suponhamos que X tenha distribuição de Poisson (). Além das 2 n  1 médias possíveis
que definem estimadores não tendenciosos para , outras opções são disponíveis. Por
exemplo, como E(X) = VAR(X) = , então S2 é também um estimador não tendencioso
para o parâmetro . Ainda mais: as estatísticas X i  X i  X j  , i  j = 1,2,3,...,n são
também estimadores não tendenciosos de , conforme constatamos abaixo,
E  X i  X i  X j    E  X i2  X i X j   E  X i2   E  X i  E  X j 
 Var  X i    2   2  
Seja X uma variável aleatória de Poisson de parâmetro . Mostre que para 0 <  < 1, a
variável  X  1    S  é um estimador não tendencioso do parâmetro .
2
Quando temos vários estimadores disponíveis, um princípio lógico estabelecido na

teoria da estimação é o de escolher o estimador não tendencioso que tem variância
mínima.
Definição 4.8
Se considerarmos todos os estimadores não tendenciosos de um parâmetro , aquele
com a menor variância é chamado estimador não tendencioso de variância mínima
(MVUE (1) de  ).
4.3.2 - Erro Médio Quadrático de um estimador.
Eventualmente, na falta de um estimador não viciado, faz-se necessário adotar

estimador viciado. Em tais casos, o erro médio quadrático - MSE (2) - do estimador
pode ser de grande importância na melhor escolha.
Definição 4.9
   
2
ˆ E 
O erro médio quadrático de um estimador ̂ é definido por MSE  ˆ  .
O erro médio quadrático pode ser escrito da seguinte forma:
     
2
ˆ  E 
MSE  ˆ E  ˆ  
ˆ E 
 
 E  ˆ   E  
ˆ  E  ˆ   
2
 
 E  ˆ   E  
ˆ  E  ˆ      E  ˆ   
2 2
ˆ E 
2  ˆ

De forma que
      E  ˆ   
2 2
ˆ E 
MSE  ˆ E 
ˆ
ˆ )  B  
MSE    
ˆ   Var(
2
ˆ
(4.7)
Isto é, o erro médio quadrático de um estimador é igual à sua variância mais o quadrado
de sua tendenciosidade. Se ̂ é um estimador não viciado de , então seu erro médio
quadrático é igual à VAR ̂ .  
(1) MVUE - Minimum Variance Unbiased Estimator
(2) MSE - Mean Square Error
ˆ e 
O MSE é um valioso critério para a comparação de dois estimadores. Se  ˆ são
1 2
ˆ  
ˆ
dois estimadores quaisquer de um parâmetro  , e se MSE 1 e MSE  2 são os  
seus respectivos erros médios quadráticos, chama-se eficiência relativa entre os
estimadores à razão
ˆ
MSE  1
.
 
ˆ
MSE  2  
Se esta razão for menor do que 1 concluímos que ̂1 é um estimador mais eficiente de
 do que ̂ 2 , no sentido de que ele tem menor erro médio quadrático.
Embora já discutido anteriormente, vale a pena recordar que: dada uma amostra de uma
variável aleatória X, tanto X quanto qualquer das Xi , são estimadores não viciados de
  E  X  , pois para i=1,2,...,n E  X   E  X i   .
A eficiência relativa de Xi para X é

   Var  X    n  1
ˆ
MSE  1
2
, e, portanto,
MSE  
ˆ  Var  X   2
2 i n
para amostras de tamanho n  2 , concluímos que X é um estimador mais eficiente que
Xi na estimação de , pois a eficiência relativa de Xi para X , é menor do que 1.
Algumas vezes poderemos preferir estimadores viciados a não viciados se eles têm
menor erro médio quadrático. Isto é possível quando pudermos reduzir
consideravelmente o MSE, com a introdução de uma pequena tendenciosidade. Uma
aplicação de estimação tendenciosa poderá ser estudada em [6] sec. 7.2 (pag. 374) e [9]
sec. 10-13 (pag. 613).
4.3.3 - Estimador consistente.
Definição 4.10
Seja X uma variável aleatória com função de distribuição FX  x,   . Dizemos que ̂ é
um estimador consistente(1) do parâmetro  se lim
n 
P  
ˆ      0 para todo  > 
0, arbitrário.
Uma primeira decorrência da definição é que: se ̂ é um estimador não tendencioso

de  , e se lim ˆ   0 , então
Var 
n   ̂ é um estimador consistente de  . Tal afirmação é
facilmente comprovada pela aplicação da desigualdade de Chebyshev à variável
aleatória ̂ .
Exemplo 4.15
Segundo o teorema 3.2 a variável  n  1 S  tem distribuição qui-quadrado com (n-
2 2
1) graus de liberdade, e, em conseqüência Var  n  1 S    2  n  1 .

2 2
ˆ  g  X , X ,..., X  converge em probabilidade para a constante  .

(1) A sucessãon 1 2 n
Daí segue que

 n  1
2
2 4
Var  S2   2  n  1  Var  S2   . (4.8)
4  n  1
Como S2 é um estimador não tendencioso de  2 , então E(S2 )   2 .
Aplicando-se a desigualdade de Chebyshev, temos:
2 4
n 

lim P S2  2    lim 
n   n  1  2
0
lim P  S 2
 2    0  S 2
é um estimador consistente de  2 .
n 
Exemplo 4.16
Seja  X1 , X 2 ,..., X n  uma amostra aleatória de uma variável aleatória X com média  e
desvio padrão  . Então X é um estimador consistente do parâmetro .
2
n 

Prova: lim P X      lim  n  n 2
 0  X é consistente
4.3.4 - Eficiência de um Estimador.
Conforme vimos, o MSE de um estimador é uma ferramenta que nos permite comparar
dois estimadores de um mesmo parâmetro com o objetivo de selecionar o mais eficiente
dentre eles. O Teorema que segue nos fornece um limite inferior para o MSE de
qualquer estimador ̂ de um parâmetro  , de uma distribuição de probabilidades que
satisfaça as seguintes condições:
1a.) o domínio de f(x) - ou P(x) - deve ser independente de .
2a.) a derivada de f(x) - ou P(x) - em relação a  deve ser uma função contínua e
diferenciável de .
O resultado do teorema é conhecido como Desigualdade de Cramér-Rao.
Teorema 4.3
Seja  X1 , X 2 ,..., X n  uma amostra de uma variável aleatória X cuja função de densidade
f (x) - ou probabilidade P(x) - depende de um parâmetro , que satisfaz as condições
citadas após a Definição 4.4. Seja  ˆ  G  X , X ,..., X  um estimador tendencioso de
n 1 2 n
. Nestas condições
1  B ˆ  
2
ˆ 
MSE      ln f X  X  
2 ˆ
onde B 
ˆ
dB  
nE    d

  
A demonstração deste Teorema encontra-se no Apêndice A2.3.
ˆ   0 e a desigualdade de
Se ̂ é um estimador não tendencioso de , então B  
Cramér-Rao se expressa por
Var   
ˆ  1
  ln f  X,    .
2
nE  
  
(4.9)
Definição 4.1 1 - Estimador Eficiente

Seja  X1 , X 2 ,..., X n  uma amostra aleatória de uma variável aleatória X, com função de
densidade f(x,) - ou função de probabilidade P(x, ) - e ̂ um estimador não
tendencioso de . Dizemos que ̂ é um estimador eficiente na estimação de , se ele
tem variância mínima dada pela desigualdade de Cramér-Rao.
Exemplo 4.17
Se X é uma variável aleatória de Bernoulli (p), então X é um estimador não
tendencioso de p. Verifique se X é eficiente.
pq
Recordemos que E  X  =p e Var  X   e que a função de probabilidade de X é
n
P  X  x   p x 1  p  , x = 0,1 .
1 x
ln P(X)  X ln p  (1  X) ln(1  p)
 ln P  X  X 1  X  X  Xp  p  Xp X  p
   
p p 1  p  pq pq
Calculemos agora o denominador da variância mínima, conforme Cramér-Rao,
2
Xp n n n
nE    2 2  Var  X   2 2  pq 
 pq  pq pq pq
Aplicando-se a desigualdade, obtemos
Var   
ˆ  1  pq
n n
pq
Portanto, se ̂ é um estimador não tendencioso do parâmetro p da variável aleatória de

Bernoulli, então a sua variância mínima é igual a pq/n. Nestas condições, como Var( X
)=pq/n, então X tem a menor variância possível dentre todos os estimadores não
tendenciosos de p, e, portanto X é um estimador eficiente de p.
Exemplo 4.18
Obtenha a variância mínima de um estimador ̂ , não tendencioso, do parâmetro  da
variável aleatória X, N(, ) .
1   x    2 
f x  exp  
 2  2 2 
 X  
2
ln f  X    ln( 2 ) 
2 2
 ln f  X   1  2   X      X   

 2 2 2
Calculemos o denominador da variância mínima:
  X   2 
  1 n
nE    n  Var  X  
 4  4 2
Aplicando-se a desigualdade de Cramér-Rao,
ˆ  1 
 
2
Var 
n 2 n

2
Logo X é um estimador eficiente de , pois Var  X   é igual à variância mínima
n
dada por Cramér-Rao.
Definição 4.12
Seja X uma variável aleatória cuja distribuição de probabilidades depende de um
parâmetro . Se ̂ é um estimador não tendencioso de , define-se eficiência de ̂ , e
Varmin  ˆ  
ˆ 
representa-se por e  à razão e   ˆ   onde Varmin   
ˆ é a variância
Var  ˆ  
mínima dada por Cramér-Rao.
Se ̂ é um estimador eficiente de , então e   

ˆ  1 . Por outro lado, conforme

  ln L X,    
Apêndice A2.3, e   
ˆ   
2 ˆ;

 , e , consequentemente 0  e ˆ  1.  
 
Os exemplos 4.17 e 4.18 são esclarecedores: no primeiro Varmin 
n
 
ˆ  pq  Var  X  e
ˆ    Var  X  .
 
2
no segundo Varmin 
n
Exemplo 4.19
Se X é uma variável aleatória N(,1) então X é um estimador eficiente de .
1
E  X     X é um estimador não tendencioso de  e Var  X   .
n
1   X    2 
Se X é N(,1)  f  X   exp   e
2  2 
 ln f  X    ln f  X  
2
  nE  X     n
2
 X    nE 
   
Temos então que Varmin   
ˆ  1  Var  X  , logo e  X   1.
n
Se ̂ é um estimador eficiente de um parâmetro  de uma variável aleatória X, a função

de verossimilhança de uma amostra de X satisfaz certas propriedades que serão
estabelecidas pelo teorema que segue, cuja demonstração encontra-se no Apêndice
A2.4.
Teorema 4.4
Uma condição necessária e suficiente para que um estimador ̂ seja eficiente na
estimação de um parâmetro  de uma variável aleatória X, é que a função de
verossimilhança de amostra aleatória de X, possa ser escrita da forma

L     L1 exp  0 1 2 
ˆ     de forma que L e 
1
ˆ não dependem de  , enquanto que
0
1 e 2 podem depender de  .
Exemplo 4.20
Consideremos uma amostra aleatória de uma variável aleatória X normalmente
distribuída com média  desconhecida e variância  0 conhecida.
2
A função de verossimilhança da amostra é:

1  1 n 2
L   n exp  2   x i    
 0  2   20 i 1
n 2

Verificamos que,
n n
  xi      x i2  2nx  n 2
2
i 1 i 1
De forma que,
1  1  n 2 2 
L   
0n  2 
exp     x i  2nx  n 
 20  i 1
n 2 2

 1 n 
exp   2  x i2 
 20 i 1   n    n 2 
L     exp  2  x   exp  2 
0n  2   0  20 
n 2

Façamos,
 1 n 
exp   2  x i2 
L1   20 i 1  ,   n , 
ˆ x e 2 
 n 2
0n  2 
1 0
n 2
02 202
Finalmente podemos afirmar que X é um estimador eficiente de , pois escrevemos
L    como segue,
ˆ .  
L  L  exp  1  0 1 2 
4.3.5 - Distribuição assintótica dos estimadores de máxima verossimilhança.
Os estimadores de máxima verossimilhança não são, em geral, não tendenciosos. No

exemplo 4.9 vimos que os EMV’s dos parâmetros  e 2 de uma distribuição normal
são respectivamente X e M '2 .
Constatamos também que X é não tendencioso na estimação de  , o mesmo não

ocorrendo com M '2 em relação a  2 . Este problema foi resolvido pelo teorema 4.1
através de uma simples transformação da estatística M '2 , gerando o estimador S2 , não
tendencioso, na estimação de  2 .
Em geral, se a distribuição de X satisfaz certas condições de regularidade, os

estimadores de máxima verossimilhança são consistentes ou então assintoticamente
ˆ0.
consistentes quando lim B 
n  
O teorema abaixo, que não será demonstrado, estabelece uma distribuição assintótica
para estimadores de MV, quando o tamanho da amostra é suficientemente grande.
Teorema 4.5
Se  X1 , X 2 ,..., X n  é uma amostra de uma variável aleatória X com função de densidade
f(x) - ou função de probabilidade PX (x) - dependendo de um único parâmetro , então a
distribuição de probabilidades do estimador de máxima verossimilhança ̂ é
assintoticamente normal de parâmetros
E   
ˆ  ,e
 
ˆ 
Var 
1
  ln f X (X, ) 
2
ˆ 
ou Var    1
2
  ln PX (X, )  ,respectivamente.
nE   nE  
     
Exemplo 4.21
Como vimos no exemplo 4.7, o EMV do parâmetro  de uma distribuição de Poisson é

X e E  X    e Var  X   .
n
Calculemos a variância mínima de um estimador não tendencioso para , dada pela
desigualdade de Cramér-Rao:
ln P(X)    X ln   ln(X!)
 ln P  X  X
 1 
 
2
 X  ˆ 
nE 
  
n
  2 E X   

2 n

 Var 
n
 
De forma que X é um estimador eficiente de , e, para n suficientemente grande, X é
assintoticamente N(;  n) , de acordo com o Teorema 4.5.
Exemplo 4.22
O estimador de máxima verossimilhança do parâmetro  de uma população X com
ˆ  1 (vide exercício 4.2.2).
distribuição exponencial é  X
n
Se X é exponencial (), então X

i 1
i tem distribuição Gama (,n) e por sua vez X tem
distribuição Gama(n,n), cuja função de densidade é

 n  y n 1e  ny
n
fX  y   y>0
n
De maneira que a média de ˆ  1 é calculada como segue,
X
ˆ   n 
n 
E    
n 0 y
1 n 1  ny
y e dy
ˆ   n    n  1  E 
n
 
E  ˆ  n  
  n   n  n 1
n 1
Calculemos agora o segundo momento de ̂ :
 n   1 n 1  ny
n
ˆ
E   
2
  n  0 y 2
y e dy
ˆ 2   n    n  2   E 
n
n 2 2
 
E 
  n   n n 2
ˆ2   
 n  1 n  2 
De forma que a variância de ̂ é dada por:
n 2 2 n 22  n2 
Var   
ˆ  
 n  1 n  2   n  1
ˆ  
2 
 Var     
  n  1  n  2  
2 2
Notemos que o estimador ̂ é tendencioso na estimação de , isto é

ˆ  n  E 
 
E  ˆ    B   
ˆ   B ˆ  .
n 1     n 1
Temos ainda que ̂ é assintoticamente não tendencioso visto que para n

ˆ   0 e conseqüentemente E  
suficientemente grande, B   ˆ
    .
Analisemos a variância quando n cresce indefinidamente,
 
 2   
lim Var   
ˆ   2 lim  n
   2
lim


1 

  n  1  n  2  
2 2
 1  1   n  2  
n  n  n 
  n  
 
 
lim Var   
ˆ   2 lim  1
2


 1  1   n  2  
n  n 
  n  
Observemos que, fixado um n suficientemente grande, para todo n > n, o limite em

1
questão se simplifica, já que lim  0 , e escrevemos
n  n
 2
   
2
Var  ˆ ˆ
ou Var  =
n2 n
2
De forma que ̂ tem distribuição assintótica de média  e variância .
n
Apliquemos agora, o Teorema 4.3, ao exemplo em questão,
ln f X (X)  ln   X
 ln f X  X  1
 X
 
  ln f X  X  
2 2
 1 n
nE    nE  X    2
     
De acordo com o teorema citado, podemos dizer que ̂ é assintoticamente normal com
2
média  e variância .
n
5.1 - Em cada um dos itens abaixo, suponha que  X1 , X 2 ,..., X n  seja uma amostra
aleatória da distribuição especificada no item. Verifique se as estatísticas S definidas
são suficientes. Se o parâmetro  é conhecido, está indicado por 0
n
a) X, Geométrica (p), 0<p<1, S   Xi
i 1
n
b) X, Pascal  r0 , p  , 0<p<1, S   Xi
i 1
n
c) X, Normal   0 ,   , S   (X i  0 )
2 2
i 1
n
d) X, Gama   0 ,   ,   0 , S   Xi
i 1
e) X, Gama  , 0  ,   0 , S  X n
n
f) X, Beta  , 0  ,   0 , S   Xi
i 1
g) X, Uniforme  a 0 , b  , a 0  b, Sn  max
1i  n
Xi
h) X, Uniforme  a, b0  , a  b0 , Sn  min
1i  n
Xi
5.2 - Seja  X1 , X 2 ,..., X n  uma amostra de uma variável aleatória X com distribuição de
Bernoulli (p). Mostre que X1 não é um estimador suficiente na estimação de p.
5.3 - Seja  X1 , X 2 ,..., X n  uma amostra de uma variável aleatória X com distribuição de
Bernoulli (p). Mostre que as variáveis Xi , i = 1,2,...,n, (n>1), são conjuntamente
suficientes, isto é, a própria amostra define estatísticas conjuntamente suficientes.
Sugestão: Mostre inicialmente para o caso n = 2, e a seguir prove por indução finita.
5.4 - Sejam X1 e X 2 variáveis aleatórias independentes e identicamente distribuídas

segundo a lei de Poisson ().
a) Verifique se T1  X1  2X 2 é suficiente.
b) Verifique se T2  X1  X 2 é suficiente.
5.5 - Suponha  X1 , X 2 ,..., X n  seja uma amostra de uma população X com distribuição
uniforme no intervalo [a,b]. Use o critério da fatoração para mostrar que
Y1  min X i e Y 2   max X i são conjuntamente suficientes.
1 i  n 1i  n
5.6 - Suponha  X1 , X 2 ,..., X n  uma amostra de uma variável aleatória Gama

n
especificada no exercício 5.1d. Mostre que a estatística S   ln Xi é uma estatística
i 1
suficiente para  .
5.7 - Suponha  X1 , X 2 ,..., X n  uma amostra de uma variável aleatória Beta com
4
1 n 1 
parâmetros  0 (conhecido) e , (>0). Mostre que a estatística T    ln  é
n  i 1 1  Xi 
uma estatística suficiente para .
5.8 - Mostre que cada uma das distribuições abaixo - o índice subscrito em um
parâmetro indica que ele é conhecido - pertence à família exponencial  .
a) Bernoulli (p). f) Gama  , 0  .
b) Poisson (). g) Gama   0 ,   .
c) Pascal  r0 , p  . h) Beta  , 0 .
d) N  , 0  . i) Beta   0 ,  
e) N   0 ,   .
5.9 - Suponha  X1 , X 2 ,..., X n  uma amostra aleatória de uma variável aleatória X com
distribuição normal de média 0,5 e variância  2 desconhecida. Pesquise um estimador
suficiente para  2 .
distribuição normal de média  desconhecida e variância  2 =4. Pesquise um
estimador suficiente para  .
distribuição Normal com ambos os parâmetros  e  , desconhecidos. Mostre que:
a) X não é suficiente para  .
b) S2 não é suficiente para  2 .
6. Estimação Não Tendenciosa de Funções do parâmetro  .
6.1 - Estimador Uniformemente Não Tendencioso de Variância Mínima.
A obtenção de um estimador não tendencioso com variância mínima para um parâmetro

 , é um dos principais objetivos da Teoria da Estimação. Freqüentemente isto não é
possível, e, a solução consiste na busca de um estimador de uma função do parâmetro
 , digamos     , que satisfaça tais requisitos, para todo    .
Se esta condição ocorre para todo valor do parâmetro pertencente ao espaço paramétrico
 , o estimador é denominado uniformemente não tendencioso com variância
mínima.
Definição 6.1
Seja  X1 , X 2 ,..., X n  uma amostra de uma variável aleatória X com função de densidade
f  x,   - ou probabilidade P  x,   . Seja     uma função do parâmetro  e seja
U  u  X1 , X 2 ,..., X n  um estimador de     . Dizemos que U é um estimador
uniformemente não tendencioso de variância mínima - UMVUE(1) - do parâmetro    
se e somente se
- U é não tendencioso, isto é E  U     
- Var  U  Var  U  , para qualquer outro estimador U  u  X1 , X 2 ,..., X n 
tal que E  U      
O Teorema a seguir está demonstrado no Apêndice A2.6 e, em [10] sec. 5, Teorema 7,

pag. 316, e estabelece uma variação da desigualdade de Cramer-Rao própria para uma
função do parâmetro  .
Teorema 6.1
Seja U  u  X1 , X 2 ,..., X n  um estimador não tendencioso de     . Sob certas
condições de regularidade,
    
2
Var  U  
  ln f  X,    2 
nE   
   
que se torna uma igualdade, se e somente se, para k  , n  constante,
 n
ln  f  x i ,    k  , n   u  x1 , x 2 ,..., x n      
 i 1
(1) uniformly minimum variance unbiased estimator

Nota 1:
Se     é a função identidade, isto é,       então a desigualdade ora definida
coincide com a desigualdade de Cramer-Rao anteriormente estabelecida, pois
      1 .
Definição 6.2
Se U  u  X1 , X 2 ,..., X n  é um estimador não tendencioso de     e se
  
 n
ln  f  x i ,    k  , n   u   x1 , x 2 ,..., x n       , então U é um estimador
 i 1
uniformemente não tendencioso com variância mínima de     , ou simplesmente, U

é um UMVUE de     .

Esta definição decorre da demonstração do Teorema 6.1 conjugado com a Desigualdade

de Cauchy-Schwarz quando interpretamos a desigualdade
    
 
n 2
       E  t  X1 , X 2 ,..., X n        E   ln  f  X i ,     .
2 2
   i 1  
A desigualdade se torna uma igualdade (vide Apêndice A2.5), se as funções

 n

 t  X1 , X 2 ,..., X n        e  ln  f  X i ,    são proporcionais, isto é, se existe
  i 1 
uma constante k  , n  tal como na Definição 6.2.
Exemplo 6.1
Seja  X1 , X 2 ,..., X n  uma amostra de uma v.a. X com distribuição de Poisson (). No
Exemplo 4.21 (pag. 54) vimos que X é tal que E  X    e Var  X    n e além disto
a variância mínima de estimadores não tendenciosos para  é igual a  n , de forma que

X é um UMVUE de , de acordo com a Definição 6.1.
Analisando sob a ótica da Definição 6.2,       , e, então,
 n
ln  f  x i ,    k  , n   u   x1 , x 2 ,..., x n      
 i 1
n   xi  n 
 e  n
 x 
ln  
       x i ln   ln  x i !     1  i 
 i 1  x i !  i 1  i 1  
 n

 e   
n   xi  xi   nx  n  n
ln      n  i 1
   x  
 i 1  x i !        
 
 
Assim,
n 
k  , n   , u  x1 , x 2 ,..., x n   x e      

Portanto
U  X1 , X 2 ,..., X n   X é um UMVUE de  .
Exemplo 6.2
n
n 1 n
Se X é N  ,1 então ln  f  x i , u    ln  2     x i    , de forma que
2
i 1 2 2 i 1
 n n n
ln  f  x i , u    x i      x i  nu  n  x    , e, portanto X é um UMVUE de
 i 1 i 1 i 1
.
Exemplo 6.3
Se X tem distribuição de Bernoulli(p), então
n
n n

ln  P  x i , u    x i ln p   1  x i  ln 1  p  
i 1  i 1 i 1 
n n
 n  xi 1  x i  nx  pnx  np  pnx

ln  P  x i , u   i 1
 i 1

p i 1 p 1 p p(1  p)
 n
n
ln  P  x i , u   (x  p) , e, portanto X é um UMVUE de p.
p i 1 p(1  p)
No início desta seção ressaltamos a importância de duas propriedades de um bom
estimador para um parâmetro: ser não tendencioso e ter variância mínima.
O exemplo que segue, esclarece o significado da procura de uma função do parâmetro
 que satisfaça as duas condições acima, para todo    .
Exemplo 6.4
Seja X uma v.a. com distribuição exponencial de parâmetro . Conforme estudado no
Exemplo 4.22, o estimador de MV de  é  ˆ  1 , sendo este estimador tal que
X
ˆ n 
(i) E    n  1     n  1 , e, portanto tendencioso.
ˆ 2  n2 
 
(ii) Var       
 (n  1) (n  2) 
2
ˆ  
2
ˆ  é um estimador não tendencioso do parâmetro , então Var  
Se     n . Embora
o estimador ̂ seja assintoticamente normal com média  e variância  n (conforme
2
Teorema 4.5), ele é tendencioso e sua variância é maior do que  n .

2
1
Consideremos agora a função     

, do parâmetro  e apliquemos as Definições

6.1 e 6.2.
1
Seja U um estimador não tendencioso de     

.

  1 1
     2  Var  U   2
  n
A Definição 6.2 nos permite encontrar um UMVUE para     , como segue,


 n
 n 1   1
ln  e i   i 1  ln   x i    i 1   x i    n  x  
x n
 i 1     
1
Assim, X é um UMVUE de      .

Exemplo 6.5
Seja X uma variável aleatória com densidade Gama (, r0 ) , r0 conhecido, e seja a
função h     r0  . Suponhamos que T seja um estimador não tendencioso de h( ).
1
Vamos calcular a variância mínima de T de acordo com o Teorema 6.1.

 r0 r0 1
f  x,    x i exp x i  x i  0
  r0 
ln f  x,    r0 ln   ln   r0    r0  1 ln x i  x i
2
 r  r  nr
ln f  x,    0  x  nE  X  0   nVar(X)  20
    
Aplicando a desigualdade de Cramer-Rao (Teorema 6.1), temos,
 r r2
h     20   h     04
2
  
2
r0
r
Var  T     0 2
4
nr0 n
2
Por outro lado,
n n
ln  f  x,    nr0 ln   n ln   r0    r0  1 ln  x i    1 x i
n
i 1 i 1
 n
nr  r 
ln  f  x,    0   i 1 x i   n  x  0 
n
 i 1   
r
Concluímos então que, X é um UMVUE de h     0 .

Exemplo 6.6
Consideremos mais uma vez o Exemplo 6.1 agora com objetivo de encontrar um
UMVUE para a função do parâmetro  , definida por      e  P  X  0 

O denominador da desigualdade de Cramer-Rao é n  e        e 2  .

2
Assim a variância mínima de um estimador, não tendencioso, de      e é igual a


 e 2 
. Para obter um estimador não tendencioso para      e , consideremos a

n
seguinte variável aleatória:
1 se Xi  0  e se k=1
Yi    P  Yi  k   
0 se Xi  0

1  e se k=0
Notemos que
E  Yi   e 
Var  Yi   1  e   e    0  e   1  e    1  e   e  , i = 1,2,..,n
2 2
1 n
Notemos também que T   Yi  E T   e , e , portanto T é um estimador não
n i 1
tendencioso de      e e tem variância igual a

 1  e  e
 
.
n
Se compararmos as duas variâncias, vemos que
Var T  
1  e  e 

e 2 
 Varmin  T 
n n
Veremos adiante, no Exemplo 6.11, que podemos encontrar um UMVUE de

     e  , isto é, um estimador com menor variância que Var[T], embora não igual à
variância mínima dada por Cramer-Rao.
6.2 - Estimação Suficiente e Completa.
Vimos no último exemplo que a desigualdade de Cramer-Rao tem utilidade limitada na

pesquisa de estimadores UMVUE’s. Se U é um estimador não tendencioso de alguma
função do parâmetro  , denotada por     , e tem variância mínima dada pela

desigualdade de Cramer-Rao, prova-se que f  x,   pertence a família exponencial  e,

reciprocamente, se f  x,   pertence a família exponencial  , então existe um
estimador U , não tendencioso, de alguma função     , cuja variância mínima é dada

pela desigualdade de Cramer-Rao.
Por outro lado, prova-se também que existe uma única função (e então qualquer função
linear desta função) do parâmetro  para qual existe um estimador não tendencioso cuja
variância coincide com a variância mínima dada pela desigualdade citada.
Desenvolveremos a seguir algumas técnicas para a obtenção de estimadores UMVUE’s ,

a partir do conceito de estatística suficiente. Se um estimador não tendencioso é função
de uma estatística suficiente ele tem variância menor que qualquer outro estimador não
baseado numa estatística suficiente.
Consideremos X uma variável aleatória com densidade f  x,   - ou função de

probabilidade P  x,   - e seja     uma função de  . Representemos por
U  u  X1 , X 2 ,..., X n  um estimador não tendencioso de     , isto é, E U      e
seja S  s  X1 , X 2 ,..., X n  uma estatística suficiente para  . Podemos provar que um
outro estimador não tendencioso U  u  X1 , X 2 ,..., X n  pode ser obtido a partir de U
tal que:
- U é função de S  s  X1 , X 2 ,..., X n  e,
- U é um estimador não tendencioso de     com variância
menor ou igual à variância de U.
Nestas condições preocupar-nos-emos então, em buscar estimadores não tendenciosos

que sejam funções de estatísticas suficientes.
Teorema 6.2 (Rao-Blackwell)

Seja  X1 , X 2 ,..., X n  uma amostra de uma variável aleatória X com função de densidade
f  x,   - ou função de probabilidade P  x,   - e sejam Si  si  X1 , X 2 ,..., X n  ,
estatísticas conjuntamente suficientes, i = 1,2,...,k.
Seja U  u  X1 , X 2 ,..., X n  um estimador não tendencioso de     e U uma


estatística tal que U  E U / S1 ,S2, ...,Sk  .


Sob estas definições,
a) U é uma estatística suficiente por ser função de estatísticas suficientes, isto é

U  u  S1 ,S2, ...,Sk  .
b) E  U       , isto é, U é um estimador não tendencioso de    


c) Var  U   Var  U  , para todo valor de  , sendo Var  U   Var  U 

 
somente se
P U  U    1.
Prova:
A distribuição condicional de U dado  S1 ,S2 ,...,Sk  independe de  pois  S1 ,S2 ,...,Sk 
é um conjunto de estatísticas suficientes. Por conseqüência U  E U / S1 ,S2, ...,Sk 

 
independe de  , sendo no entanto uma função de  S1 ,S2 ,...,Sk  .
Observemos ainda que:
 
E  U   E  E U / S1 ,S2, ...,Sk    E  U 
e

Var  U   E U  E  U    E  U  E  U    
2 2
   
  
Var  U   E  U  U   U   E  U     E U  U    U   E  U    
2 2
   

Var  U   E  U  U    E  U   E  U    2E U  U   U   E  U    
2 2
 
Analisemos à parte a última parcela do lado direito da expressão acima:
   
E U  U  U  E  U    E  E U  U  U  E  U  / S1 ,S2 ,...,Sk  
    
Conforme [10] sec. 4.3, Teorema 8,
 
E U  U  U  E  U      u   s1 ,s 2 ,...,s k   E  U  E  U  U   / S1 ,S2 ,...,Sk 
 
 
  u  s1 ,s 2 ,...,s k   E  U   E  U / S1 ,S2 ,...,Sk    E  U  / S1 ,S2 ,...,Sk 

  u   s1 ,s 2 ,...,s k   E  U   u   s1 ,s 2 ,...,s k   u  s1,s 2 ,...,s k   = 0

Portanto,
Var  U   E  U  U    Var  U    Var  U   .
2
Var  U   Var  U   , então E  U  U  =0, e isto acontece se e somente se

2
Se
P  U  U   1 , ou seja se U e U forem estimadores idênticos.
Nota: Resumidamente, o Teorema estabelece que se U é um estimador não tendencioso

existe um outro estimador não tendencioso, U , função de uma estatística suficiente,
com variância não maior do que U.
Exemplo 6.7
Se X tem distribuição de Bernoulli (p), sabemos que X1 é um estimador não

n
tendencioso de p, e, igualmente, S=  X i é um estimador não tendencioso de p, além
i 1
de ser suficiente.
 n

De acordo com o Teorema 6.2, existe um estimador U  E  X1 /  X i  , não

 i 1 
tendencioso de p, tal que Var  U   Var  X1  , e, neste caso, obviamente

Var  U   Var  X1  , já que U e X1 não são estimadores idênticos.
Para verificar tal fato, determinaremos inicialmente a distribuição de probabilidades de

 n

 1  Xi  e a seguir sua média, ou seja U .
X / 
 i 1 
 n

P  X1  x 1  X i  s  x1 
;
 n

P  X1  x1 /  X i  s    i2 
   n

i 1
P   Xi  s 
 i 1 
n
As variáveis aleatórias X1 e X
i 2
i têm distribuições de Bernoulli (p) e Binomial
[(n-1),p], respectivamente, e, assim
 n  1  s  x1  n 1 s  x i 
p xi 1  p   p 1  p 
1 x i

   s  x1 
n
P  X1  x1 /  X i  s  
  n s
  p 1  p 
i 1 n s
s
 n

P  X1  x1 /  X i  s  
 n  s !s! x1  0,1
 i 1  n  s  x1  !  n  s  1  x1 
Obtemos agora o estimador procurado, calculando U  E  X1 / S .


n s s s
E  X1 / S  0   1  logo U  X , conforme esperado, ou seja X é não
n n n
tendencioso e tem variância menor do que X1 .
6.3 - Família de Densidades Completa.
Definição 6.3
Seja X uma variável aleatória com densidade f (x; ) - ou função de probabilidade
P(x; ) -. Seja G(X) uma função da variável aleatória X. Dizemos que a família C =
f  x;   ;    é completa, se
E G   X   0      P G   X   0 =1
Uma estatística Tn  X1 , X 2 ,..., X n  é dita completa se sua família de distribuições,

obtida a partir da distribuição de  X1 , X 2 ,..., X n  é completa.
A Definição 6.3 em outras palavras quer dizer que: Tn  X1 , X 2 ,..., X n  é completa se e

somente se o único estimador do parâmetro 0 (zero) que é uma função de
Tn  X1 , X 2 ,..., X n  , é identicamente igual a 0 com probabilidade 1.
Esta função é uma variável aleatória quase certamente igual a uma constante 0.
Nota: Se X é uma variável aleatória quase certamente igual a um constante 0, então

P  X  0  1 , e
0 x  0
Fx  
1 x  0
Exemplo 6.8
Seja  X1 , X 2 ,..., X n  uma amostra aleatória de uma variável aleatória de Bernoulli (p).
n
Conforme visto no Exemplo 5.4, a estatística Sn   Xi é suficiente. Sn  X1 , X 2 ,..., X n 
i 1
é completa, se e somente se a família Binomial(n, p);0  p  1 é completa

Seja G( Sn ) uma função qualquer de Sn .
n
n
E G Sn    g  s n    ps 1  p  =0
n s
0<p<1
s 0 s
s
n
 n  p 
E G Sn   1  p   g  s n   
n
 =0 0<p<1
s 0  s  1  p 
 p 
A expressão da média em questão, é um polinômio em   , que é igual a 0 (zero),
 1 p 
s
 p 
se somente se, cada coeficiente de   for igual a 0 para todo s = 0,1,2,..,n. Isto
 1 p 
n n
significa que g  s n     0 para todo s = 0,1,2...,n. Como    0 , então g  s n   0
s s
para todo s = 0,1,...,n.
Exemplo 6.9
A família  N  0,   ;   0 não é completa pois para g(X)=X, E(X) = 0 e X não é
identicamente nula com probabilidade 1. Por outro lado T  X   X é completa,
2
conforme desenvolvimento que segue,

Seja g(T), tal que E g  T   0 . Sendo g(T) uma função de T, sua média é calculada
da forma,

E g  T    g  t  f  t  dt  0
T

 1 1
Se g  X   X então g(X)   1  g  X  é Gama  2 ,  . De forma que
2 2 2
 2 2 
t
 
1
E g  T  
 12 2
 g t dt  0
2
t e
0 2 2 
t
 
E g  T  
 12 2
 g  t t dt  0 t>0
2
e
0
Ora E g  T  é a transformada de Laplace da função g  t  t 2 , e devido à unicidade da

 1
1
transformada, g  t  t 2
 0 para todo t > 0, e, portanto g(t) = 0, para todo t.
Exemplo 6.10
A família de densidades uniformes em  0,   é completa. Para mostrar tal proposição
fazemos
 
1
E G  X     g(x) dx  0   g(x)dx  0 >0
0
 0
Logo , g  x   0 >0
Os dois teoremas que se seguem são de grande importância na busca de estimadores

ótimos para os parâmetros das distribuições de probabilidades em estudo. As
demonstrações dos mesmos serão omitidas e podem ser vistas em [13] Sec. 8.3, pag.
347 e [10] Sec. 5.2, pag. 326.
Teorema 6.3
densidade f  x;   - ou probabilidade P(x; ) -,    , onde  é um intervalo
(possivelmente infinito). Se f  x;   pertence à família exponencial  , ou seja ,
n
f  x;    exp S  x  B     C     D  x  , então a estatística  S x  i é uma estatística
i 1
suficiente completa.
Teorema 6.4
densidade f  x; 1 , 2 ,...., k  , .    1 , 2 ,..., k    . Se f  x; 1 , 2 ,...., k  pertence à
família exponencial  , isto é
k 
f  x; 1 , 2 ,...., k   exp  B j  1 , 2 ,...., k S j  x   C  1 , 2 ,...., k   D  x   ,
 j i 
para todo x real, onde D  x  e S j  x  funções definidas em R , k < n, e, se o domínio
n
de B j (1 , 2 ,...., k ) contem um intervalo aberto em R k , então

n n n
 S1  x i ,
i 1
 S2  x i ,.....,  Sk  x i  são estatísticas suficientes completas.
i 1 i 1
Os dois últimos teoremas acentuam mais uma vez a importância da família de

densidades exponencial  , e a seguir estudaremos um teorema que é de muita
utilidade na busca de UMVUE’S.
Teorema 6.5 (Lehman-Scheffé)

Seja X uma variável aleatória com função de densidade f  x,   - ou função de
probabilidade P  x,   - e seja  X1 , X 2 ,..., X n  uma amostra de X. Se
S  s  X1 , X 2 ,..., X n  é uma estatística suficiente completa e se uma função de S definida
por U  u  (S) , é um estimador não tendencioso de     , então U é um UMVUE de
  .
Prova:
Consideremos uma outra qualquer função de S, representada por U  u   S  ,
igualmente um estimador não tendencioso de     .
Então
E  U  U            0  
Temos ainda que  U  U    u  u   S é obviamente uma função de S. Assim, por S

 
ser completa P  U  U  0   1 ,   . Portanto existe um único estimador não


tendencioso de     que é função de S.
Se U é um qualquer estimador não tendencioso de     , então U deve ser igual a

E  T / S , pois E  T / S é um estimador não tendencioso de     , que depende de S. De
acordo com o Teorema 6.2 , Var  U   Var  U     , e, consequentemente U é

um UMVUE.
Nota: Em resumo, o Teorema 6.5 estabelece que: se uma estatística suficiente completa
S existe, e, se há um estimador não tendencioso para     , então existe um UMVUE
para     e este é o único estimador não tendencioso de     que é função de S.
Exemplo 6.11
No Exemplo 6.6 não conseguimos construir um UMVUE para o parâmetro e  de uma
população X com distribuição de Poisson (  ). Naquele exercício definimos a variável
Y1  P  X1  0  e registramos que Y1 é não tendencioso para e  .
 n

Então, de acordo com o Teorema 6.5, E  Y1 /  X i  define um UMVUE para e  .
 i 1 
Calculemos então a esperança em questão, lembrando que
1 se Xi  0  e se k=1
Yi    P  Yi  k   
0 se Xi  0

1  e se k=0
Então,
P  X1  0;  i 1 X i  s  P  X1  0  P   i 2 X i  s 
n n
P  Y1  1/  i 1 Xi  s      
n
  P   i 1 Xi  s 
n
P   i1 Xi  s 
n
   
e  e  n 1   n  1   s!
s
P  Y1  1/  i 1 X i  s  
n
  e  n  n  s!
s
 n  1 
xi
P Y1  1/  i 1 X i  s  
 
n i1
   n 
 Xi
Assim U   n  1  i1 é um UMVUE de e  , cuja variância é menor dentre todos os
 
 n 
estimadores daquele parâmetro. Calculemos então a Var[U] e comparemos com a
Var[T] obtida no Exemplo 6.6.
Primeiramente calculemos a média, a título de ilustração, pois sabemos que E  U   e .

 n  1  e  n 
  n s s
E U     e n e   e 
n 1 

s 0  n  s!
s
 n  1  2 
  n 
 n  1  e  n 
 n 2s s
 
 n 
 
E U    
 2
  e 
 n
 n s0 s! s0 s!
 n 12  2 

2 

  
E  U   e
2  n
e n
e n
 Var  U   e n
 e 2  Var  U   e 2  e n  1
 
Podemos verificar com facilidade que Var[U] < Var[T].
6.1 - Seja X uma variável aleatória com distribuição Geométrica (p). Verifique a
existência de um UMVUE para a média de X. Considere as duas versões de X. Use a
Definição 6.2.
6.2 - Seja  X1 , X 2 ,..., X n  uma amostra aleatória de uma variável aleatória X com
n
distribuição N  ,1 . Sendo X1 um estimador não tendencioso de  e sendo X
i 1
i uma
estatística suficiente para  , mostre que E  X1 / X  é um UMVUE de  .
6.3 - Obtenha, usando a Definição 6.2, um UMVUE de  2 de uma população N  5;  .
6.4 - Seja  X1 , X 2 ,..., X n 

uma amostra de uma população X com distribuição
1
exponencial    . Obtenha UMVUE’s para os parâmetros  e      . Compare

estes estimadores com aqueles já estudados.
6.5 - Suponha que a variável aleatória X tenha densidade f  x,   na família exponencial

 , sendo S(x) = x. Mostre que existe um estimador não tendencioso para E(X) e este
tem variância igual ao limite inferior da desigualdade de Cramer-Rao.
6.6 - Use o Teorema 6.5 para mostrar que X é um UMVUE de  , média de uma
variável aleatória de Poisson.
6.7 - Mostre que: se ˆ  ˆ  X1 , X 2 ,..., X n  é o estimador de máxima verossimilhança

  n
de  , obtido pela solução da equação ln L  x1 , x 2 ,..., x n ,    ln  f  x i ,    0 , e
  i 1
se T  t  X1 , X 2 ,..., X n  é um estimador não tendencioso de uma função de  ,
 
digamos     , cuja variância coincide com a variância mínima dada pela desigualdade

de Cramer-Rao, então t  X1 , X 2 ,..., X n    ˆ  X1 , X 2 ,..., X n  .

 
6.8 - Seja  X1 , X 2 
uma amostra aleatória de uma variável aleatória X com
distribuição de Poisson (). A estatística S2  X1  X 2 não é completa pois
E(S2 )  E(X1  X 2 )  0 não acarreta P  X1  X 2  0   1.
7 - Estimação por Intervalos.
Nas Seções 4 a 6 estudamos os métodos de determinação de estimadores de um

parâmetro desconhecido  , e algumas propriedades a eles inerentes. A estimativa
pontual de um parâmetro  , do qual depende a distribuição de probabilidade da variável
aleatória X, é obtida a partir dos valores observados de uma amostra de X.
Se ̂ é um estimador não tendencioso de  , então E  ˆ    , isto é, realizada a


amostra e calculada a estimativa de  , a partir da expressão analítica de ̂ , espera-se
obter o valor  . Isto não quer dizer que a estimativa produzirá o verdadeiro valor do
parâmetro desconhecido  . Por exemplo, se a distribuição de probabilidades de ̂ for
ˆ    0 .
do tipo contínuo, temos que P   
Podemos, no entanto, afirmar que a estimativa de ̂ estará tão mais próxima do

ˆ  . Esta é a razão do estudo que
verdadeiro valor de  , quanto menor for a Var  
desenvolvemos para pesquisar estimadores uniformemente não tendenciosos com
variância mínima - UMVUE.
Se ̂ é a estimativa de  , obtida a partir de uma variável aleatória ̂ (estimador de  )

é conveniente que a este valor seja associada alguma medida sobre um possível erro
cometido no processo de estimação. Se a distribuição de ̂ for completamente
especificada, podemos calcular a probabilidade de ̂ assumir valores em quaisquer
intervalos de seu domínio.
Desta forma, é possível fazer inferências sobre a pertinência do verdadeiro valor de  ,

a um determinado intervalo, chamado intervalo de confiança, e , atribuir a este evento
uma especificada probabilidade, denominada nível de confiança (ou coeficiente de
confiança).
Esta interpretação é de certa maneira incoerente, pois o parâmetro  não é uma

variável aleatória, não tendo sentido teórico atribuir probabilidade à pertinência de  a
um intervalo. Na realidade os limites que definem o intervalo é que constituem
variáveis aleatórias. Uma interpretação mais adequada do chamado intervalo de
confiança será brevemente apresentada.
Antes de definirmos formalmente os métodos de construção de intervalos de confiança

para um parâmetro  , de uma distribuição de probabilidade, vamos analisar o seguinte
problema.
Exemplo 7.1
Suponha que X tenha distribuição normal com média 2 e desvio padrão 0,5. Se
realizamos X, isto é , se observamos uma amostra de tamanho n = 1 de X, a
probabilidade de X pertencer aos intervalos (1;3), (1.5;2.5) e (1.8;2,2) são
respectivamente 0,9546, 0,6826 e 0,3108.
Se realizarmos uma amostra de tamanho n = 100 de X, a estatística X , média da

amostra, tem distribuição N(2;0,05) e, se calcularmos as probabilidades referentes
aqueles intervalos obteremos:
P 1  X  3  P  20  Z  20   1
P 1.5  X  2.5   P  10  Z  10   1
P 1.8  X  2.2   P  4  Z  4   1 , onde Z é N(0,1)
O gráfico abaixo mostra as densidades das variáveis X e X que têm distribuições

N(2:0,5) e N(2,;0,05)
Gráfico 7.1
Teoricamente vimos que X é um estimador consistente na estimação da média da

população, no caso   2 , isto é, lim
n 
ˆ 2  0
P  . 
Esta consistência é clara, quando observamos o comportamento da curva da distribuição
N(2;0,05), altamente concentrada em torno da média 2. Por exemplo, calculemos a
probabilidade de X pertencer alguns intervalos:
P 1,9  X  2,1  P 2  Z  2  0,95

P 1,95  X  2, 05  P 1  Z  1  0, 685
O evento 1.9  X  2.1 tem probabilidade 0,95 e é equivalente ao evento

 1,9  2 X  2 2,1  2 
     (X  0,10  2  X  0,10) ,e , portanto
 0, 05 0, 05 0, 05 
P(X  0,10  2  X  0,10)  0,95 .

A leitura desta última probabilidade nos diz que: se realizarmos um número
suficientemente grande de amostras de tamanho n de X, e calcularmos o intervalo
 x  0,10 ; x  0,10  , para cada uma das amostras, em 95% delas, o número 2 estará
contido naquele intervalo. Esta é a interpretação correta do intervalo de confiança de um
parâmetro  .
Definição 7.1
Seja  X1 , X 2 ,..., X n  uma amostra aleatória de uma variável aleatória X com função de
densidade f  x,   - ou probabilidade P(x,  ). Seja     uma função do parâmetro  ,
para todo    .
Consideremos L1  X1 , X 2 ,..., X n  e L 2  X1 , X 2 ,..., X n  duas estatísticas tais que

L1  L 2 .
Se P  L1  X1 , X 2 ,..., X n        L 2  X1 , X 2 ,..., X n    1   , onde  não depende de ,

então o intervalo aleatório  L1 , L 2  é chamado intervalo de confiança para     , com
coeficiente de confiança de 100(1-)%.
Nota 1:
O intervalo formado pelos valores observados das variáveis aleatórias L1 e L 2 , isto é,
 l1 , l2  é também chamado intervalo de confiança. Mais precisamente,  L1 , L2  e
 l1 , l2  podem ser interpretados como estimador e estimativa do intervalo de confiança
para     . Os valores L1 e L 2  ou l1 e l 2  são chamados limite inferior e superior do
intervalo, respectivamente. Esta modalidade de intervalo é comumente chamado de
bilateral.
7.1 - Intervalo de Confiança para a média da distribuição normal, sendo  2

conhecida.
 X1 , X 2 ,..., X n  uma amostra de uma variável aleatória N  ,   , sendo  2

2
Seja
conhecido e sejam as estatísticas: L1  X  k1 e L 2  X  k 2 .
Se o par  L1 , L 2  é um IC (intervalo de confiança) de  , com coeficiente de 100

1    % , devemos ter
P  X  k1    X  k 2   1  
ou P   k 2  X    k1   1  
Tendo X distribuição N  ,   , então X é N  ,  n  , e

2 2
 k
P  2 n 
 X    n  k1 n   1  

    
 k k 
ou P  2 n  Z  1 n   1   onde Z é N(0,1).
   
Existem infinitos pares  k1 , k 2  que satisfazem a condição acima, mas, sendo par a
função de densidade de Z, uma escolha razoável seria fazer k1  k 2  k , de forma que
 k k   k 
P  2 n  Z  1 n   1    P  Z  n  1 
      
k   
Se z p é tal que P  Z  z p   P(Z  z p )  p , então n  z  , e então, k  z   .
 2 2  n
      
Finalmente, P  X  z       X  z     1   , e então o intervalo de
2  n 2  n 

confiança de 100 1    % para o parâmetro  é:
     
L1  X  z    e L2  X  z   (7.1)
2  n 2  n
Exemplo 7.2
Uma indústria produz pistões para motores de carros, com diâmetro normalmente
distribuído com média  e desvio padrão 2 mm. Uma amostra de 25 pistões resultou
em x = 74,036 mm. Vamos construir intervalos de confiança de 90%, 95% e 99% para o
diâmetro médio do pistão.
Solução:
(i) 1    0,90    0,10   / 2  0, 05  Z0,05  1, 65
 2   2 
l1  74, 036  1, 65    e l 2  74, 036  1, 65   
 25   25 
IC de 0,90 para   l1  73,376 e l 2  74, 696
(ii) 1    0, 95    0, 05   / 2  0, 025  Z0,025  1,96

 2   2 
l1  74, 036  1,96    e l 2  74, 036  1,96   
 25   25 
IC de 0,95 para   l1  73, 252 e l 2  74,820
(iii) 1    0,99    0, 01   / 2  0, 005  Z0,005  2,58

 2   2 
l1  74, 036  2,58    e l 2  74, 036  2,58   
 25   25 
IC de 0,99 para   l1  73, 004 e l 2  75, 068
O quadro abaixo resume os cálculos de (i) a (iii), com objetivo de analisar a

sensibilidade do intervalo à variação do coeficiente de confiança.
1  z 2 l1 l2 l 2  l1
0,90 1,65 73,376 74,696 1,320
0,95 1,96 73,252 74,820 1,568
0,99 2,58 73,004 75,068 2,064
É obvia a constatação de que quanto maior desejarmos o coeficiente de confiança maior

será a amplitude do intervalo.
Exemplo 7.3
Suponha que desejamos construir um intervalo de confiança de 90% para a média das
alturas dos estudantes de uma Universidade, com base numa amostra de tamanho 10.
Suponha ainda que as alturas sejam normais com desvio padrão   3, 24. Realizada a
amostra foi produzida a estimativa x  70. Para 1     0,90 temos que z  2  1, 65 , e,

assim:
   3,24
L1  X  z     l1 =70-1,65   l1 =68,309
2 n 3,162
   3,24
L2  X  z    l 2  70  1, 65   l2  71, 690
2 n 3,162
Definição 7.2
Seja  X1 , X 2 ,..., X n  uma amostra aleatória de uma variável aleatória X com função de
densidade f  x,   - ou probabilidade P(x,  ).
Seja   uma função do parâmetro  , para todo    . Consideremos

L  X1 , X 2 ,..., X n  e U  X1 , X 2 ,..., X n  duas estatísticas tais que L  U .
Se P  L  X1 , X 2 ,..., X n         1   e P      U  X1 , X 2 ,..., X n    1   ,

onde  não depende de , então os intervalos aleatórios  L,   e  , U  são
chamados intervalos de confiança unilaterais inferior e superior respectivamente,
ambos com coeficiente de confiança de 100(1-)%.
Exemplo 7.4
A vida em horas de lâmpadas de 100 watts tem distribuição normal com desvio padrão
  25 . Uma amostra aleatória de tamanho n = 20 registrou uma média igual a
x  1014 horas.
Um intervalo de confiança unilateral inferior de 95% seria construído como segue:
P  X  k     1    P  X    k   1    P  X    k   1  
  X   n k n  k n 
P    1    P  Z  z   1    z   k  z
     n

De forma que o limite do intervalo unilateral inferior para o parâmetro  é igual a


L  X  z
n
25
e , de acordo com os dados do problema temos l  1014  1,96   l  1003, 04 .
20
Construção análoga fornece o limite do intervalo unilateral superior:

u  x  z  u  1023, 22 .
n
7.2 - Intervalo de Confiança para a média da distribuição normal, sendo  2

desconhecida.
 X1 , X 2 ,..., X n  uma amostra de uma variável aleatória N  ,   , sendo  2

2
Seja
desconhecido e sejam as estatísticas: L1  X  k1 e L 2  X  k 2 .
Se o par  L1 , L 2  é um IC (intervalo de confiança) de  , com coeficiente de 100

1    % , devemos ter
P  X  k1    X  k 2   1  
ou P   k 2  X    k1   1  
Conforme Teorema 3.4, Tn 1 

X   n
tem distribuição de Student com (n-1) graus
S
12
 1 2
de liberdade, sendo S   
n
 X i  X   .
 n  1 i 1 
 k
P  2 n 
 X    n  n k1   1  
 S S S 
 k k 
ou P   2 n  Tn 1  n 1   1   onde Tn 1 é Student (n-1).
 S S
Considerando que a densidade da Student é par, fazendo-se k1  k 2  k ,
 k k   k
P   2 n  Tn 1  n 1   1    P  Tn 1  n   1  
 S S  S
k
Se t n 1,p é tal que P  Tn 1  t n 1,p   P(Tn 1   t n 1,p )  p , então n  t  , e então,
S n1, 2
 S 
k  t n 1,   .
2  n
Finalmente,
  S   S 
P  X  t n 1,       X  t n 1,     1  
2  n 2  n 

e portanto, o intervalo de confiança de 1    % para o parâmetro  é:
 S   S 
L1  X  t n 1,    e L 2  X  t n 1,  2   (7.2)
2  n  n
Exemplo 7.5
Em uma Universidade deseja-se estimar a média da nota final do conjunto de 300
alunos. Uma amostra de 4 notas resultou em: 64, 66, 89 e 77. Conforme a tabela
abaixo, temos: x  74 e s 2  132, 7 .
xi xi  x (x i  x) 2
64 -10 100
66 -8 64
89 15 225
77 3 9
Consultando a Tabela da Student com 3 graus de liberdade obtemos o valor

t 3;0.025  3,182 , de forma que um intervalo de confiança de 95% para  é:
132, 7
l1  74  3,182   l1  55, 67
4
132, 7
l 2  74  3,182   l 2  92,32
4
A amplitude do intervalo é de 36,65, e indica uma precisão muito pobre, devido

principalmente, ao pequeno tamanho da amostra.
Imaginemos agora que o tamanho da amostra tenha sido n = 30 e os valores estimados

pela amostra tenham sido os mesmos, ou seja: x  74 e s 2  132, 7 .
Temos então que t 29;0,025  2, 045 , e o intervalo de confiança de 95% para  seria:
132, 7
l1  74  2, 045   l1  69, 69
30
132, 7
l2  74  2, 045   l2  78,30
30
Observemos que a amplitude do intervalo foi reduzida consideravelmente em função do

tamanho da amostra .
A amplitude do intervalo de confiança é uma medida da precisão da estimativa e esta

amplitude é diretamente relacionada ao coeficiente de confiança (1-). Em geral, o que
se deseja obter é um intervalo suficientemente pequeno para a tomada de decisões, mas
também associado a um adequado coeficiente de confiança.
Uma maneira de resolver isto é escolher um tamanho de amostra suficientemente grande

para uma especificada amplitude, fixado um coeficiente de confiança desejável.
A precisão do intervalo de confiança definido para a média de  se X é N( , 2 ),  2


conhecido, é z  2 . Isto significa que ao usar X para estimar , o erro   X   é
n

menor ou igual a z  2 com 100(1-)% de confiança.
n
De fato,
      
P X  z       X  z    1  
2  n 2  n 

   
ou P  X    z    1  
2  n 

Observemos que X   representa o erro relacionado ao processo de amostragem.

Assim, se o tamanho da amostra pode ser controlado, nós podemos escolher n, de
forma a termos 100(1-)% de confiança que o erro na estimativa de  não ultrapasse
um especificado valor . O apropriado valor de n será encontrado resolvendo a equação

  z 2 .
n
Definição 7.3
Seja X uma v.a. N  ,   . Se X é o estimador de , o erro na estimativa x   , não
excederá um especificado valor  , com 100(1-)% de confiança, quando o tamanho da
amostra n satisfizer
2
 
n   z 2 
 
(7.3)
Exemplo 7.6
Suponha que X tenha distribuição normal com média  e desvio padrão  = 0,4. Qual
deve ser o tamanho da amostra de tal forma que o erro da estimativa seja no máximo
igual a 0,1 com um coeficiente de confiança de 95%?
Solução:
2 2
   0, 4 
n   z  2   n  1,96   n  61,46  n=62
   0,1 
Nota 2:
Se  L1 , L 2  é um intervalo de confiança de 100(1-)% para o parâmetro  , e se     é
uma função monótona de  , então um intervalo de 100(1-)% para a função     está
perfeitamente determinado.
Exemplo 7.7
Suponha que  L1 , L 2  seja um intervalo de confiança de 100(1-)% de  e seja
     a  b, a  0.
P  L1    L 2   1  
a) Se a > 0, então P  aL1  b  a  b  aL2  b   1   e, neste caso, temos que

aL1  b, aL 2  b é um IC de 100(1-)% de a  b .
b) Se a < 0, então P  aL 2  b  a  b  aL1  b   1   e, neste caso, temos que

aL2  b, aL1  b é um IC de 100(1-)% de a  b .
7.3 - Intervalo de confiança para a variância da distribuição N  ,   .

2
Seja  X1 , X 2 ,..., X n  uma amostra de uma variável aleatória N  ,   , sendo  e  2

2
parâmetros desconhecidos. Segundo Teorema 3.2, a estatística

 n  1 S2
tem
2
distribuição qui-quadrado com (n-1) graus de liberdade, e por conseqüência,
escrevemos

P   2,(n 1) 
 n  1 S2   
1 2,(n 1)   1  
  2

 1 2 1 
P     1 
 1 2,(n 1)  n  1 S  2,(n 1) 
2
  n  1 S2  n  1 S2   1  
P  2  
 1 2,(n 1)  2,(n 1) 
Assim, um intervalo de confiança de 100(1-)% para a variância da distribuição normal
é:
 n  1 S2 e L   n  1 S2
L1  , onde P   p,n  p,n   p (7.4)
2
2
1 2,(n 1)  2,(n 1)
Exemplo 7.8
Vamos obter um IC de 95% para a variância da distribuição da nota final dos 300 alunos
da Universidade conforme Exemplo 7.5. Supondo n=30 e S2  132, 7 .
Consultando a tabela da qui-quadrado com 29 graus de liberdade, obtemos:
0,975;29  45, 7 e 0,025;29  16, 0
De forma que,
29  132, 7 29 132, 7
l1   84, 207 e l2   240,51
45, 7 16, 0
Sendo    2     2   , um intervalo de confiança de 95% para o desvio padrão seria

l1  84, 207  9,17 e l 2  240,51  15,50
7.4 - Intervalo de confiança para o parâmetro  de uma variável aleatória

exponencial.
Seja  X1 , X 2 ,..., X n  uma amostra aleatória de uma variável aleatória X com densidade
f  x,    e x x>0 . A variável aleatória Y   i 1 X i tem distribuição Gama de
n
n
 it 
parâmetros  e n e sua função característica é Y  t    1   .
 
A variável aleatória W=2  Y tem portanto função característica

2n

 it 
2
W  t   1  2it 
n

 1
 1 
 2
E assim, W tem distribuição qui-quadrado com 2n graus de liberdade.
Escrevemos então,
P   / 2,2n  W  1 / 2,2n   1  

P  / 2,2n  2  i 1 X i  1 / 2,2n  1  
n

   
P   /n2,2n    1n/ 2,2n   1  
 2 X i 2 i 1 X i 
 i 1
De forma que um intervalo de confiança de 100 1   % para  é dado por

 / 2,2n 1 / 2,2n
L1  e L2  , onde P   p,2n  p,2n   p (7.5)
2 i 1 Xi 2 i 1 Xi
n n
Exemplo 7.9
A duração da vida de uma lâmpada de 25 watts é regulada por uma distribuição
exponencial de parâmetro  . Quinze lâmpadas foram testadas e o total da vida das
lâmpadas resultou em  i 1 x i  7559, 25 horas. Vamos determinar:
15
a) um IC bilateral de 95% para o parâmetro  .

b) um IC bilateral de 90% para a duração média da vida das lâmpadas.
c) um IC unilateral superior de 99% para o parâmetro 
a) Para 1    0,95    0, 05   / 2  0, 025 e 1-/2=0,975

0,025;30  16,8 e 0,975;30  47, 0
16,8
Logo, l1   0, 0011 e l2  0, 0031
15118,50
b) Para 1    0, 90    0,10   / 2  0, 05 e 1-/2=0,95

0,05;30  18,5 e 0,95;30  43,8
Logo um intervalo de 90% para  é dado por

18,5 43,8
l1   0, 0012 e l2   0, 0029
15118,50 15118, 50
1
A duração média da vida das lâmpadas é a função      , que é uma função

monótona decrescente de  , e o intervalo de confiança de 90% para 1/  é igual a
1 1
 ,  , ou seja (344,82 ; 833,33)
 l 2 l1 
c) Para 1-  = 0,99  0,99;30  50,9

P   0.99,30
2
 50,9   0,99
 
 
P 2  i 1 X i  50,9 ,99  P   
15

50,9
2 i 1 Xi
n
  0,99

 
50,9
Então u   0, 0033 , e, assim, o IC unilateral superior de 99% para  é
15118,5
(-, 0,0033).
7.5 - Intervalo de confiança para o parâmetro  de uma variável aleatória
uniforme no intervalo  0,   .
Seja  X1 , X 2 ,..., X n 
uma amostra aleatória de uma variável aleatória uniforme em
 0,   . O estimador de máxima verossimilhança de  é a estatística X n   max Xi cuja 1i n
função de distribuição é:
1 n
F y  y 0  y<
n
Sejam 1    e  2    duas funções de  tais que 1      2   
P 1     X  n    2      1   , sendo
 
P  X  n   1     e P  X  n    2     
2 2
Nestas condições, temos

 1    
n
 
P  X  n   1        n    1      n 
2  2 2
e
 2    
n
 
P  X  n    2       1     2    n 1  
2  n
2 2
Temos então que,
 
 X n X n  
   
P   X n   1 
n n  1   P   1 
 1  .
2 2 1
 1   2  n   2  n 
Finalmente, um IC de 100(1-)% para o parâmetro  é dado por
Xn  Xn 
L1  1
e L2  1 (7.6)
1   2  n
  2 n
Exemplo 7.10
Vinte observações de uma variável aleatória uniforme no intervalo  0,   foram
realizadas e o maior valor registrado foi x  n   0,92. Obtenha intervalos de confiança
para  : a) com 90% de confiança; b) com 95% de confiança.
Solução:
a) 1    0,90    0,10   / 2  0, 05
0,92 0,92
l1  1
  0,922
(0,95) 20 0,9974
0,92 0,92
l2  1
  1, 068
(0, 05) 20 0,8608
b) 1    0,95    0, 05   / 2  0, 025
0,92 0,92
l1  1
  0,921
(0,975) 20 0,9987
0,92 0,92
l2  1
  1,106
(0, 025) 20 0,8315
7.6 - Intervalo de confiança para o parâmetro , com base em grandes amostras.
De acordo com o Teorema 4.5, se  X1 , X 2 ,..., X n  é uma amostra aleatória de uma

variável aleatória X cuja distribuição de probabilidades depende de um único parâmetro
, então para n suficientemente grande o estimador ̂ obtido pelo método da máxima
verossimilhança para estimar , é assintoticamente normal de parâmetros:
ˆ ˆ 1
E   e Var   2
 
nE  ln f  X,   
  
ˆ 

Daí segue que Z 
 
ˆ é aproximadamente N(0,1).
Var 
7.7 - Intervalo de confiança para o parâmetro p da variável aleatória de

Bernoulli (p).
Se  X1 , X 2 ,..., X n  é uma amostra aleatória de uma variável aleatória de Bernoulli (p) o

estimador de MV de p é X e segundo o Teorema 4.5, X é assintoticamente normal de
média p e variância p(1-p)/n.
 Xp 
Então P z  / 2   z  / 2   1   ou então
 p 1  p  / n 
 Xp   (X  p) 2 
 
P  z / 2   1    P   z 2 / 2   1  
 p 1  p  / n   p(1  p) / n 
(X  p)2
O valores L1 e L 2 , funções de X , são as soluções da equação  z 2 / 2 .
p(1  p) / n
De forma que os limites procurados são as raízes de (X  p)2  z 2 p(1  p) / n .
Daí segue que,

(X  p) 2  z 2 p(1  p) / n
p 2 p2
X  2pX  p  z  z
2 2 2
0
n n
 z2  2  z2 
 1   p   2X  p X  0
2
 n   n 
z2 1
X  
 2n 2
 z2 
1  
 n
4Xz 2 z 4 4X 2 z 2
  4X 2   2  4X 2 
n n n
2 4
4z z
  X 1  X    2
n   n
z 2 1 4z 2  z2 
X 
2n 2 n 
X 1  X  
4n 
L X 
 z2 
1  
 n
z2 X 1  X  z 2
X z  2
L X  2n n 4n
onde z = z  / 2 .
 z  2
1  
 n
Se n é suficientemente grande, as quantidades ( z 2 / n ),  z / 2n  e  z / 4n  tendem a

2 2
zero e desta forma os limites do intervalo de confiança para p, usados para grandes
amostras, são simplificados como abaixo,
X 1  X  X 1  X  *
L1  X  z  e L2  X  z
2 n 2 n
(7.7)
(*) vide [13] V.K. Rohatgi, Cap XI, Example 5, pág. 475
[12] Pessoa, Djalma G.C.,Seção 4, Exemplo 1.6
Exemplo 7.11
Em uma pesquisa eleitoral realizada entre 200 eleitores, 140 deles se declararam
votantes do candidato da oposição. Estimar o IC de 95% da proporção de eventuais
eleitores do candidato em questão.
Solução:
1

200
x x  0, 70
i 1 i
200
Temos então,
0, 70  0,30
l1  0, 70  1,96   l1  0, 63
200
0, 70  0,30
l2  0, 70  1,96   l2  0, 76
200
8. Estimação de funções de parâmetros de duas populações X e Y.
Nas seções anteriores, estudamos procedimentos para estimar parâmetros

desconhecidos, propriedades para comparar estimadores e construção de intervalos de
confiança para parâmetros de distribuições de probabilidades, a partir de uma amostra
aleatória  X1 , X 2 ,..., X n  de uma população X, com função de densidade f  x,   - ou
função de probabilidade P  x,   -.
Em muitos problemas na prática, estaremos interessados em comparar parâmetros de

duas ou mais leis de probabilidades.
Exemplo 8.1
Por exemplo, podemos supor que a duração de vida de uma lâmpada da marca A, é uma
variável aleatória X com distribuição exponencial de parâmetro  X . Podemos supor
também que a duração da vida de uma lâmpada similar, da marca B, é uma variável
aleatória Y com distribuição exponencial de parâmetro  Y . Se desejamos comparar os
dois tipos de produto, seria relevante estimar o valor esperado da diferença das vidas,
ou seja, estimar o parâmetro  E  X   E  Y   .
Exemplo 8.2
A reação de um paciente ao medicamento A, pode ser , em alguns casos, uma variável
aleatória X com uma especificada distribuição de probabilidades, com média  X e
variância  2X . Por outro lado, a reação do mesmo paciente ao medicamento B, pode ser
uma variável aleatória Y com possivelmente, a mesma distribuição de probabilidades,
mas com média  Y e variância  2Y .
8.1 - Estimadores de Máxima Verossimilhança de funções parâmetros de duas

amostras.
Consideremos  X1 , X 2 ,..., X n  uma amostra aleatória de uma variável aleatória X com

f X  x, 1  e  Y1 , Y2 ,..., Ym  uma amostra aleatória de uma variável aleatória Y com
f Y  y, 2  . Se Xi , i = 1,2,...,n e Yj , j = 1,2,3,..,m, são variáveis aleatórias
independentes a função de verossimilhança das duas amostras é
   n m
L XY (x, y, 1 , 2 )  L X (x, 1 )L  y, 2    f  x i , 1   f  y j , 2 
i 1 j1
Se ˆ 1 e ˆ 2 são as estimativas de máxima verossimilhança de 1 e 2 , maximizam as
 
funções L X (x, 1 ) e L Y  y, 2  respectivamente. Desta forma, o valor máximo da

função de verossimilhança das duas amostras é L x, y, ˆ 1 , ˆ 2 .  
Se g  1 , 2  é uma função dos parâmetros 1 e 2 , então o estimador de máxima
verossimilhança de g é dado por g ˆ ,
ˆ .  1 2 
Exemplo 8.3
Dez mulheres experimentaram uma dieta 1, por t meses, e perderam em média, x  8
kg. Outras 8 mulheres se propuseram a uma dieta 2, por t meses, e perderam em média,
y  11 kg.
Assim, temos duas amostras  X1 , X 2 ,..., X10  e  Y1 , Y2 ,..., Y8  , sendo X e Y os

estimadores de máxima verossimilhança das médias de X e Y. A função
D̂  g  X, Y    X  Y  é o estimador de máxima verossimilhança da diferença entre a
média das duas populações e d̂  g  x, y   x  y  3 é a correspondente estimativa.
Exemplo 8.4
A vida de um equipamento eletrônico quando usado em condições normais de
temperatura é uma variável aleatória X, com distribuição exponencial de parâmetro  .
Se usado em condições de alta temperatura, a vida é uma v.a. Y exponencial de
parâmetro 4  .
Tomemos duas amostras aleatórias de tamanhos n e m das variáveis em questão, isto é
 X1 , X 2 ,..., X n  e  Y1 , Y2 ,..., Ym 
Determinaremos um estimador de máxima verossimilhança para o parâmetro  a partir
das duas amostras disponíveis.
As funções de verossimilhança das amostras são

  n

L X  x,     n exp   x i  x i  0,   0
 i 1 
  m 
e L Y  y,    4m  m exp 4  y j  y j  0,   0
 j1 
De forma que a função de verossimilhança conjunta é
    n m  
L XY  x, y,    4 m  n  m exp    x i  4 y j   x i , y j  0,   0
  i 1 j1  
i = 1,2,...,n
j = 1,2,...,m
Segue daí que

  n m 
ln L XY  x, y,    m ln 4  (n  m) ln      x i  4 y j 
 i 1 j1 
  nm  n m 
L  x, y,       x i  4 y j 
   i 1 j1 
nm
ˆ 
é uma estimativa MV para  .
n m
Assim,
x
i 1
i  4 y j
i 1
1
Obs: A estimativa de MV da média   , é obtida através do conceito de invariância

dos estimadores de MV para funções de um parâmetro, isto é
n m
 x i  4 y j
ˆ 
1
 ˆ = i 1 i 1 ˆ = nX  4mY
 
ˆ nm n+m
8.2 - Intervalo de Confiança para a diferença entre as médias de duas variáveis

aleatórias independentes X e Y, ambas com distribuição normal, com médias
diferentes e variância comum, desconhecida.
Sejam Xi , i = 1,2,...,n e Yj j = 1,2,3,..,m variáveis aleatórias independentes todas com

distribuição normal e tais que
E  X    X , E  Y    Y , Var  X    2 , Var  Y    2
Estas variáveis definem duas amostras  X1 , X 2 ,..., X n  e  Y1 , Y2 ,..., Ym  , onde

X e Y são os estimadores de MV dos parâmetros  X e  Y , respectivamente.
A variável aleatória  X  Y  tem distribuição Normal por ser função linear de variáveis
normais, com as seguintes características:
i) E  X  Y    X   Y , e, portanto  X  Y  é um estimador não tendencioso para a

diferença entre as médias de X e Y,
2 2 n  m 2
ii) Var  X  Y   Var  X   VarY    
n m nm
Z
 X  Y    X  Y 
Desta forma a variável  2 (n  m) tem distribuição N(0,1).
nm
Podemos verificar facilmente que a estimativa de MV do parâmetro  2 é dada por
1 n m
2
ˆ 2   i
n  m  i 1
 x  x 
2
   y j  y   e que um estimador não tendencioso para  2 ,
j1 
é a variância ponderada das duas amostras conforme visto no estudo da teoria das
distribuições de amostragem, ou seja
1 n m
2
  Xi  X     Yj  Y  
2
S2p 
n  m  2  i 1 j1 
2  n m2 2
Recordemos que Sp é independente de Z e que   Sp tem distribuição qui-
 
2

quadrado com (n+m-2) graus de liberdade, de forma que
 X  Y     X   Y   nm
Tn  m  2   
Sp n  m
é uma v.a. de Student com (n+m-2) graus de liberdade.
Um intervalo de confiança de 100(1-)% para a função ( X   Y ) é construído como

segue:
Se definirmos P  Tn  m 2  t p   P  Tn  m 2   t p   p ,

P  t  2 
 X  Y    X   Y  nm  t   1  
 2
 Sp nm 
ou
 S nm S n  m 
P  X  Y   t  2 p   X  Y    X  Y   t  2 p  1 
 nm nm 
Assim, finalmente temos
Sp n  m Sp n  m
L1   X  Y   t  2 e L2   X  Y   t  2 (8.2)
nm nm
Exemplo 8.5
Em uma Universidade foram realizadas duas amostras independentes dos salários anuais
(em 1000 reais) de seus professores e os resultados estão no quadro abaixo.
x i (mas) y j (fem) (x i  x) 2 (yi  y) 2

16 9 0 4
19 12 9 1
12 8 16 9
11 10 25 1
22 16 36 25
80 55 86 40
Calculamos então
5
80
x  x   86
2
x  16 i
5 i=1
5
55
y  y   40
2
y  11 j
5 j=1
1
s 2p   86  40   s p  15, 75  3,968
8
Se desejamos um IC de 90% para a diferença entre as médias salariais dos sexos,
1    0,90    0,10   / 2  0, 05 e t 8; 0,05  1,86

Assim, temos
10
l1  5  1,86   3,968  5  4, 66  0,34
25
l2  9, 66
8.3 - Intervalo de Confiança para a razão entre as variâncias de duas variáveis

aleatórias independentes X e Y, ambas com distribuição normal.
Sejam  X1 , X 2 ,..., X n  e  Y1 , Y2 ,..., Ym  amostras aleatórias das variáveis aleatórias

independentes X e Y, com distribuições N   X , X  e N   Y ,  Y  .
2 2
 n  1 S2X  m  1 S2Y
Anteriormente vimos que e têm distribuição qui-quadrado
 2X  2Y
com (n-1) e (m-1) graus de liberdade.
Assim, definimos uma variável aleatória F de Snedecor , como segue

 2 S2
F n 1;m 1  Y2  X2
 X SY
 
Se P Fd1 ,d2 ,p  f d1 ,d2 ,p  p , então um IC de 100(1-)% para a razão entre as duas
variâncias será construído como segue
  2 S2 
P f n 1,m 1, / 2  Y2  X2  f n1,m1,1  / 2   1  
  X SY 
 S2 2 S2 
P  Y2  f n 1,m 1, / 2  Y2  Y2  f n1,m1,1  / 2   1  
 SX X SX 
Assim, finalmente
S2Y S2Y
L1  2 f n1,m1, / 2 e L 2  2 f n1,m1,1 / 2 (8.3)
SX SX
Exemplo 8.6
Em uma industria de lapidação de diamantes há duas alternativas de processamento:
lapidação manual e semi-manual. Em ambos os processos existe uma perda média de
matéria prima (em carat), e suas correspondentes variâncias. Esses parâmetros sempre
variam, em função do quadro de pessoal que sofre mutações, devido a dispensas e
contratações.
Periodicamente o gerente responsável seleciona 6 ordens de serviço designadas para

cada um dos processos e registra-os numa tabela de controle para posterior análise. A
análise da última amostragem é apresentada no quadro seguinte:
x i (man) y j (semi) (x i  x) 2 (yi  y) 2

2 2 1 1
4 2 1 1
1 2 4 1
2 2 1 1
5 6 4 9
4 4 1 1
18 18 12 14
Assim, temos
1 1
s 2X   12  2, 4 e s Y2   14  2,80
5 5
Então um IC de 90% para a razão entre as duas variâncias dos processos de lapidação é
1
f5,5;0,95  5, 05  f5,5;0,05 = =0,198
f 5,5;0,95
s 2Y
L1  2  f 5,5;0,05  l1  1,166  0,198  0, 2309
sX
s 2Y
L2   f 5,5;0,95  l2  1,166  5, 05  5,888
s 2X
8.4 - Intervalo de Confiança para a razão dos parâmetros de duas variáveis

aleatórias independentes X e Y, ambas com distribuição exponencial.
Sejam  X1 , X 2 ,..., X n  e  Y1 , Y2 ,..., Ym 

amostras aleatórias das variáveis aleatórias
independentes X e Y, com distribuição exponencial de parâmetros  X e  Y ,
respectivamente.
n m
Anteriormente, vimos que 2 X  Xi e 2 Y  Yi têm distribuição qui-quadrado com
i 1 i 1
2n e 2m graus de liberdade respectivamente.
Assim, definimos uma variável aleatória de Snedecor com 2n e 2m graus de liberdade,

ou seja
n
2 X  Xi / 2n
X X
F2n,2m  i 1
 F2n,2m  .
m
Y Y
2 Y  Yi / 2m
i 1
  X 
P f 2n ,2m, / 2  X .  f 2n ,2m,1  / 2    1  
 Y Y 
Y  Y 
P   f 2n ,2m, / 2  X   f 2n ,2m,1  / 2    1  
X Y X 
X
Assim, um intervalo de confiança de 100 1   % para a razão , ou para a razão
Y
Y
entre as médias de Y e X, ,é
X
Y Y
L1   f 2n ,2m, / 2 e L2  f (8.4)
X X 2n ,2m,1  / 2 
Exemplo 8.7
Em geral, o tempo necessário para um caixa de Banco atender um cliente é uma
variável aleatória exponencial de parâmetro  . Os tempos de atendimento (em minutos)
requeridos para atender 6 clientes, por cada um de dois caixas de um Banco, num
determinado dia, foram registrados:
Caixa 1: 1,9 5,8 0,8 1,2 0,7 3,0

Caixa 2: 2,2 1,3 4,8 0,4 0,9 2,0
Sejam 1 e  2 os parâmetros dos caixas 1 e 2 respectivamente. Vamos calcular um

intervalo de confiança de 90% para a razão entre os tempos médios de atendimento dos
caixas.
n n
y
i 1
x i  13, 4 e i 1
y i  11, 6 
x
 0,865
Se 1    0,90    0,10   / 2  0, 05 , logo f12,12;0,95  2, 687 e
1 1
f12,12;0,05    0,372
f12,12;0,95 2, 687
Y
Finalmente, um IC de 95% para a razão , dos tempos médios é encontrado
X
l1  0,865  0,372  0,321 e l2  0,865  2, 687  2,32
8.5 - Intervalo de Confiança para a diferença entre as médias de duas variáveis

aleatórias independentes X e Y, ambas com distribuição de Bernoulli (p).
Sejam Xi , i = 1,2,...,n e Yj j = 1,2,3,..,m variáveis aleatórias independentes todas com

distribuição de Bernoulli.
E  X   p1 e E  Y   p2
Estas variáveis definem duas amostras  X1 , X 2 ,..., X n  e  Y1 , Y2 ,..., Ym  , onde

X e Y são os estimadores de MV dos parâmetros p1 e p 2 , respectivamente.
Para n e m suficientemente grandes, a variável aleatória  X  Y  tem distribuição
assintoticamente normal com parâmetros
E  X  Y   p1  p 2
p1 1  p1  p2 1  p2 
e Var  X  Y   Var  X   Var  Y   
n m
Como vimos anteriormente, esta variância pode ser estimada por
X 1  X  Y 1  Y 

n m
E daí temos que
Z
X  Y  p  p 
1 2
X 1  X  Y 1  Y  assintoticamente N(0,1)

n m
Se P  Z  z p   P  Z   z p   p então,
 

P  z  / 2 
 X  Y    p1  p 2   z   1  
 / 2 
 X 1  X  Y 1  Y  
  
 n m 
e

 X 1  X  Y 1  Y 
P (X  Y)  z  / 2    p1  p 2   ....
 n m
X 1  X  Y 1  Y  
....  (X  Y)  z  / 2    1 
n m 
Assim, um intervalo de 100(1  )% para a diferença entre os parâmetros de duas v.as.
de Bernoulli é dado por
X 1  X  Y 1  Y 
L1  (X  Y)  z  / 2 
n m
(8.5)
X 1  X  Y 1  Y 
L 2  (X  Y)  z  / 2 
n m
Exemplo 8.8
Um estudo foi conduzido para determinar a eficácia de uma nova vacina contra a gripe.
A nova vacina foi administrada a 300 pessoas aleatóriamente escolhidas e deste grupo
30 pessoas contraíram a doença. Um grupo de 250 pessoas também escolhidas
aleatoriamente não foram vacinadas, e, portanto, serviu como grupo de controle, tendo
havido neste grupo 17 casos.
Assim, temos
n = 300 m = 250
30 17
x  0,1 y  0, 068
300 250
x  y  0, 032
Um IC de 95% para a diferença p X  p Y é
0,10  0,90 0, 068  0,932

l1  0, 032  1,96    0, 032  1,96  0, 0235  0, 032  0, 014
300 250
l 2  0, 032  0, 046  0, 078
Exercícios Propostos 7/ 8.
8.1 - Uma máquina produz varas de metal para serem usadas em sistemas de suspensão
de automóveis. Uma amostra de 15 varas foi selecionada e os diâmetros das peças foram
medidos. Os resultados obtidos são mostrados abaixo. Supondo que os diâmetros sejam
normalmente distribuídos , construa um IC bilateral de 95% para o diâmetro médio.
8,24 8,23 8,20 8,21 8,20 8,28 8,23 8,26 8,24 8,25 8,19 8,25 8,26 8,23
8,24
8.2 - Uma das características de um bloco de concreto é a sua força de compressão. Um

engenheiro civil testou 12 espécimens e obteve os resultados abaixo. Supondo
normalidade dos dados, construa:
a) um IC bilateral de 90% para a média da população.
b) um IC unilateral inferior de 90% para a média da população.
2216 2237 2249 2204 2225 2301
2263 2318 2255 2275 2295 2281
8.3 - A pintura de sinalização de uma estrada é feita nas cores branca e amarela. O
tempo de secagem desta pintura é de grande interesse. Suspeita-se que o amarelo tenha
um tempo de secagem mais rápido que o branco. Suponha que os tempos são
normalmente distribuídos, com a mesma variância. Abaixo temos amostras dos seus
tempos de secagem de ambos os tipos de pintura. Construa um IC de 95% para a
diferença entre as médias populacionais.
Branco: 120 132 123 122 140 110 120 e 107
Amarelo: 126 124 116 125 109 130 125 117 129 e 120
8.4 - Um fabricante de detergente líquido está interessado na uniformidade com que

uma especial máquina engarrafa o produto. É desejado que o desvio padrão do volume
engarrafado seja menor do que 0,15 da unidade de volume (uv). Suponha que o volume
de uma garrafa cheia é distribuído normalmente. Uma amostra de 20 garrafas resultou
em s 2  0, 0153  uv  . Obtenha um IC unilateral de 95% apropriado para julgar se o
2
processo de engarrafamento satisfaz o requisito desejado.
8.5 - Uma indústria fabrica discos de freio para automóveis. Dois processos P1 e P2 são
usados, e, ambos produzem discos com diâmetros médios idênticos. Amostras de n =
12 e m = 15 unidades fabricadas pelos dois processos resultaram em
s1  5,1 e s 2  4, 7 micro-polegadas. Determine um IC de 90% para a razão entre as
variâncias dos dois processos, supondo normalidade dos dados.
8.6 - Uma pesquisa foi realizada em 1954 com o objetivo de verificar a eficácia da
vacina Salk no combate à paralisia infantil. Dois grupos de pessoas:
n1  201.299 e n 2  200.745 participaram da pesquisa. A vacina foi aplicada as
pessoas do segundo grupo, enquanto que as pessoas do primeiro receberam um placebo
(visualmente idêntica à vacina, mas sem produzir nenhum efeito). Por razões éticas e
por suspeita de que o conhecimento da administração ou não da vacina poderia influir
em futuros diagnósticos, nem as pessoas, nem os administradores da vacina, tomaram
conhecimento de quem recebeu a vacina e quem recebeu o placebo. Os casos de polio
observados foram 110 e 33, respectivamente aos grupos. Estabeleça um procedimento
para analisar eficácia da vacina. Use um nível de confiança de 95%.
9. Testes de Hipóteses Paramétricos.
Nas seções anteriores estudamos como um parâmetro é estimado através de uma

amostra aleatória. Nós podemos estimar um simples valor para o parâmetro (estimativa
pontual) ou um intervalo de valores prováveis (intervalo de confiança). Contudo, em
várias áreas de aplicação, seremos chamados a decidir se aceitamos ou rejeitamos
alguma hipótese estabelecida sobre um parâmetro.
Por exemplo, suponhamos que a duração média da vida de uma especial placa de
micro-computador seja igual a 800 horas. Um novo processo de fabricação é proposto,
e, deseja-se estabelecer um procedimento de decisão para julgar se o novo processo é
melhor do que o processo atual. Em outras palavras, desejamos testar se a duração
média das placas produzidas pelo novo processo é maior ou menor que a duração média
atual.
Neste exemplo, formularemos a hipótese de que o novo processo não é melhor do que o
atual. Em geral, esperamos que a hipótese seja rejeitada. Para testar a hipótese, 100
placas produzidas pelo processo proposto são observadas e suas vidas registradas.
Suponha que a média das vidas obtida seja igual a x  950 .
Uma primeira comparação nos levar a admitir que o novo processo é melhor. No
ˆ
entanto, suponhamos que a estimativa do desvio padrão de X seja igual a  150 .
10
Supondo que a vida é normalmente distribuída, um intervalo de confiança de 95% para

a média de vida do novo processo seria (650;1250). A média amostral x  950 poderia
muito bem ter sido originária da população de placas produzidas pelo processo atual.
Rejeitar a hipótese pode nos levar a um grande erro.
ˆ
Se no entanto  50 , o intervalo de confiança de 95% seria (859 ; 1050) e com algum
10
risco podemos rejeitar a hipótese formulada e declarar com um certo grau de
confiança que o novo processo é melhor que o atual.
Observamos que a teoria dos testes estatísticos está fortemente relacionada com a teoria
da estimação (pontual e intervalar).
Definição 9.1
Chama-se hipótese estatística H, a qualquer declaração ou afirmativa a respeito da
distribuição de uma ou mais variáveis aleatórias. Se a hipótese estatística especifica
completamente a distribuição, então ela é dita simples, e, em caso contrário composta.
Nota: Seja  X1 , X 2 ,..., X n  uma amostra de uma variável aleatória exponencial de

parâmetro  . A hipótese H:    0 é uma hipótese simples, enquanto que H :    0 é
composta.
Definição 9.2
Chama-se teste da hipótese estatística H a qualquer procedimento ou regra que nos
permita decidir quando rejeitar H.
Nota: Seja  X1 , X 2 ,..., X n  uma amostra de uma variável aleatória X com distribuição
N  ; 2  64  . Seja a hipótese H:   25 . O procedimento: “Rejeitar H se e somente se
x  25  8 / n ” é um teste estatístico.
Se por exemplo n = 20 a hipótese será rejeitada se x  25  8 / 20  x  23, 21 e

enquanto que se n = 100 a rejeição de H se dará se x  25  8 / 100  x  24, 2.
Através desta seção, vamos supor que sabemos a forma da distribuição do modelo, mas
desconhecemos o valor do parâmetro do qual depende àquela distribuição. Por este
motivo, os testes estatísticos que estudaremos são chamados testes paramétricos.
9.1 - Testes de Hipóteses Simples.
Inicialmente estaremos interessados em estudar os testes de hipóteses simples. A

hipótese a ser testada é denominada hipótese nula e será representada por H 0 .
A toda hipótese nula H 0 ,corresponde uma hipótese H1 chamada hipótese alternativa.

Quando testamos H 0 contra H1 e aceitamos H 0 , isto significa que H1 é rejeitada.
A decisão de aceitar ou rejeitar a hipótese nula será sempre baseada numa amostra
aleatória e numa apropriada estatística a ela associada, chamada estatística de teste.
Por exemplo, suponhamos que se deseja testar a hipótese de que uma distribuição de
Poisson tem média igual 1 contra uma hipótese alternativa de que a média seja 3. Assim,
as hipóteses nula e alternativa são:
H 0 :  =1
H1 :  =3
A decisão será tomada com base em uma amostra aleatória da variável aleatória de
Poisson, e a estatística de teste a ser usada é a média da amostra. O procedimento de
teste, consiste na partição do espaço amostra constituído por todos os valores possíveis
de X , em duas regiões que denominaremos por A e R, chamadas regiões de aceitação e
rejeição (ou crítica), respectivamente.
_______________  ________________
Região A c Região R
Se x  A aceitaremos a hipótese H 0 : =1 , rejeitando automaticamente H1 : =3 .

Brevemente, estudaremos métodos para determinar o ponto c que delimita as regiões de
aceitação (A) e rejeição  R  .
9.2 - Erros cometidos em um teste estatístico.
Ao testar H 0 contra H1 dois tipos de erros podem ser cometidos:
- Erro do 1o. Tipo: Rejeitar H 0 quando H 0 é verdadeira

- Erro do 2o. Tipo: Aceitar H 0 quando H1 é verdadeira
Definiremos para estes eventos as seguintes probabilidades:
 = P(cometer erro do 1o. Tipo) = P(rejeitar H 0 / H 0 é verdadeira)

 = P(cometer erro do 2o. Tipo) = P(aceitar H 0 / H1 é verdadeira)
Em todo teste, aceitamos ou rejeitamos H 0 , e, desta forma não podemos cometer os

dois tipos de erro simultaneamente. Entretanto, jamais saberemos qual deles ocorreu. O
quadro abaixo resume as considerações aqui feitas.
Decisão H 0 é verdadeira H1 é verdadeira

Aceito H 0 sem erro erro do 2o. Tipo
Rejeito H 0 erro do 1o. Tipo sem erro
A todo teste estatístico corresponde então um par de probabilidades, e, o ideal seria

construir um teste que minimizasse ambas as probabilidades, mas isto não possível. É
fácil verificar que se reduzirmos a região de aceitação o valor de  cresce e o de 
decresce. Se aumentarmos a região de aceitação,  decresce e  cresce.
Suponha que desejamos testar a hipótese H 0 :   1 contra a hipótese H1 :   5 de uma

população , N  ,1 .
O gráfico abaixo mostra as distribuições normais com médias 1 e 5 e variância comum

igual à unidade. O ponto c separa a região A à sua esquerda, da região R à sua direita.
Se c se afastar para a direita, aumenta A, diminui R, diminui  e aumenta .
Gráfico 9.1
A probabilidade  = P(erro do 1o Tipo) corresponde é a área hachurada (fortemente) sob

a curva N(1,1) no intervalo (c, ), enquanto  = P(erro do 2o. Tipo) é a área hachurada
(fracamente) sob a curva N(5,1) no intervalo (-,c).
Se realizarmos uma única observação de X o gráfico 9.1 espelha as distribuições da

média da amostra sob as hipóteses H 0 e H1 .Se fixarmos o limite entre A e R por
c = 2,7, teremos:
 2, 7  1 
  P  X  2, 7 / H 0   P  X  2, 7 /   1  P  Z    P  Z  1, 7   0, 0446
 1 
 2, 7  5 
  P  X  2, 7 / H1   P  X  2, 7 /   5   P  Z    P  Z  2,3   0, 0107
 1 
9.3 - Determinação da Região de Rejeição.
Exemplo 9.1
Seja  X1 , X 2 ,..., X9  uma amostra de uma variável aleatória N(,1) e consideremos o
teste das hipóteses seguintes:
H 0 : =4
H1 :=5
Como as duas hipóteses especificam valores para  e sendo X um estimador de MV de

, não tendencioso e de variância mínima, então parece razoável usar esta estatística
para testar H 0 .
É intuitivo que, se H 0 é verdadeira esperamos que x (valor observado de X na
amostra) assuma um valor mais próximo de 4 do que de 5, e, se H 0 é falsa ( H1 é
verdadeira), esperamos justo o contrário.
Sendo 4  c  5 - isto será provado adiante - o ponto que delimita A e R, adotaremos

o seguinte critério para testar H 0 :
se x  c aceita-se H 0

 se x>c rejeita-se H 0
Assim, calculamos as probabilidades dos erros do 1o. e 2o. Tipo,
  P  erro do 1o. Tipo    P  X  c / H 0 verdadeira 
 X4 c4 c4

  1 P     1  FZ  
 1/ 3 1/ 3   1/ 3 
  P(erro do 2o.Tipo)  P(X  c / H1 verdadeira)
 X-5 c  5   c-5   c 5 
=P    =P  Z     FZ  
 1/3 1/ 3   1/3   1/ 3 
A tabela abaixo mostra a interdependência entre as probabilidades ,  e o valor c.
 c 
0,03 4,62 0,1271
0,05 4,55 0,0885
0,07 4,49 0,0630
0,10 4,42 0,0409
A escolha do ponto c delimitador da regiões A e R pode ser feita através da análise do

quadro acima. A relação funcional entre  e  é inversa, isto é, se tentamos minimizar a
probabilidade do erro do 1o. Tipo, automaticamente o erro do 2 o. Tipo tende a crescer,
sendo a recíproca verdadeira. Uma decisão lógica seria a de minimizar o erro
considerado o mais grave!
Como rejeitar H 0 quando verdadeira é um fato mais grave do que aceitá-la sendo
falsa, então devemos minimizar a probabilidade do erro do 1o. Tipo, ou seja . Escolher
qual das probabilidades deve ser minimizada envolve diretamente a formulação das
hipóteses, conforme o exemplo que segue e nota subsequente.
Exemplo 9.2 (*)
Em um tribunal o juiz deve decidir entre a hipótese H 0 : o acusado é inocente e H1 : o
acusado é culpado. Se o acusado for condenado sendo H 0 verdadeira comete-se um erro
do 1o. Tipo, cuja probabilidade é . Se ele for absolvido sendo H1 verdadeira, ocorre
um erro do 2o. Tipo, cuja probabilidade é .
Se reformas legais e administrativas vem sendo implantadas para reduzir 

(probabilidade do erro mais grave!), estas ações podem paralelamente aumentar . Por
exemplo, uma dessas medidas pode ser a limitação do poder da polícia para obter uma
confissão, e isso pode contribuir para aumentar , ou seja a probabilidade de absolver
um culpado. Não há meios de reduzir  a zero (jamais condenar um inocente) sem
elevar  à unidade (libertar o culpado, anulando o julgamento).
O único meio de reduzir  e  simultaneamente é aumentar, neste caso, as evidências a

partir de investigações mais significativas. Na Estatística, em geral, uma forma de
aumentar as “evidências”, se traduz por uma amostra maior.
(*) Introductory Statistics

Wonnacott T.H. , Wonnacott R.J , 1980
Cap. 9, sec. 9.4
Nota:
Se as formulações das hipóteses fossem trocadas, isto é, se H 0 : o acusado é culpado e
H1 : o acusado é inocente, o erro mais grave seria condenar um inocente, e, neste caso,
 é probabilidade a ser minimizada. Em geral as hipóteses H 0 e H1 são estabelecidas
de forma que a probabilidade do erro do 1o. Tipo seja aquela a ser minimizada.
O exemplo a seguir é baseado na mesma situação do Exemplo 9.1, quando tomamos

uma amostra de tamanho n = 16. Conforme comentado no Exemplo 9.2, se
aumentarmos o tamanho da amostra conseguiremos reduzir a probabilidade do erro do
2o. Tipo,  , para valores de  fixados.
Exemplo 9.3
Seja  X1 , X 2 ,..., X16  uma amostra de uma variável aleatória N(,1) e consideremos o
teste das hipóteses seguintes:
H 0 : =4
H1 :=5
Adotando o mesmo critério de teste do Exemplo 9.1, teríamos para os mesmos valores
 lá fixados a seguinte tabela
 c 
0,03 4,47 0,0170
0,05 4,41 0,0091
0,07 4,37 0,0059
0,10 4,32 0,0033
Facilmente verificamos uma redução drástica das probabilidades  comparativamente
àquelas do Exemplo 9.1. Isto se deve exclusivamente ao fato de que o tamanho da
amostra passou de 9 para 16.
9.4 - A função  e o Poder do Teste.
Introduziremos o conceito de Poder do Teste desenvolvendo o exemplo seguinte.
Exemplo 9.4
Suponha que um processo de fabricação de circuitos elétricos para TV gere produtos
com duração de vida distribuída normalmente com média igual a  = 1200 horas e
desvio padrão de  = 300 horas. Um novo processo de fabricação está em análise e o
engenheiro responsável pelo controle estatístico da qualidade deseja testar a hipótese de
que o novo processo não é melhor do que o atual. Para isso estabeleceu uma hipótese
nula da forma H 0 :0 =1200 e definiu o seguinte critério de teste: observar 100 produtos
fabricados pelo novo processo e, rejeitar H 0 se o tempo médio de vida dos circuitos
testados for superior a 1249.
Na verdade o engenheiro calculou esse valor definindo inicialmente a probabilidade do
erro do 1o. Tipo que ele admite cometer, isto é:
  P(rejeitar H 0 / H 0 verdadeira)=P  X>c/H 0   0, 05

 c  1200 
P  X  c / H0   P  Z    0, 05  c  1249
 300 / 100 
Suponhamos que inicialmente o engenheiro tenha fixado H1 :1  1240 , de forma que
  P  aceitar H 0 / H1 verdadeira   P  X  1249 / H1 
 1249  1240 
P  X  1249 / H1   P  Z    P  Z  0,30   0, 62
 30 
Na prática, na maioria das situações, não desejamos fixar a hipótese alternativa em um

único valor. Vamos analisar diversas alternativas possíveis e verificar o comportamento
de  face o estabelecimento de diversas hipóteses H1 , isto é , vamos calcular uma
função       .
Façamos então,
i) H1 :1 =1280
 1249  1280 
  P  X  1249 / H1   P  Z    P  Z  1, 03   0,15
 30 
ii) H1 :1 =1300

 1249  1300 
  P  X  1249 / H1   P  Z    P  Z  1, 70   0, 0446
 30 
Na realidade, uma hipótese alternativa mais completa consideraria qualquer valor de 

maior do que 1200, isto é H1 :1  1200 . Uma hipótese deste tipo, composta por
infinitas alternativas é chamada hipótese composta.
O quadro que segue apresenta o comportamento das funções       e 1       ,
para alguns valores de  .
Valores de   1-
. . .
. . .
1300 0,0446 0,9554
1290 0,0869 0,9131
1280 0,1500 0,8500
1260 0,3594 0,6406
1240 0,6200 0,3800
1210 0,9032 0,0968
1202 0,9420 0,0580
1201 0,9460 0,0540
. . .
limite = 1200 0,9500 0,0500
A função definida por      1      , representa a probabilidade de se rejeitar

corretamente a hipótese nula falsa, e tem importância fundamental na teoria dos
testes estatísticos sendo chamada Função Poder do Teste.
Quando 1 se aproxima de 1200, o poder tende a 0,05, o valor de . Por outro lado
quando 1 se afasta de  0 , o poder de detectar a falsidade de H 0 tende para 1. Isto quer
dizer que: quanto mais 1 se distancia de  0 , mais fácil se torna discriminar entre as
duas hipóteses.
Definição 9.3
Seja  um teste estatístico da hipótese nula H 0 :=0 . Chama-se função poder de  ,
denotada por      1      , à probabilidade de rejeição da hipótese nula para todo 
pertencente ao espaço paramétrico da distribuição da qual a amostra foi gerada, ou seja:
     P rejeitar H0 /   
Nota:
A função poder (ou função potência) pode ser denotada por      P  rejeitar H 0  onde
 é o verdadeiro valor do parâmetro. Assim,      P  T  X1 , X 2 ,..., X n   R  onde
T  X1 , X 2 ,..., X n  e R são respectivamente a estatística de teste e a região de rejeição.
Exemplo 9.5
Seja  X1 , X 2 ,..., X n  uma
amostra aleatória de X com distribuição N( 
,5).Consideremos a hipótese nula H 0 :   17 e o seguinte teste:
: “rejeitar H 0 se e somente se x  17  5 / n ”
 17  5 / n   
A função poder é então,      P  X  17  5 / n   P  Z  .
 5/ n 
Para n = 25, teremos,      P  X  18  P  Z  18    1  FZ 18    .
A tabela seguinte mostra a função poder para diversos valores de  ,

 1  FZ 18   
15 0,0013
16 0,0227
16,5 0,0668
17 0,1587
17,5 0,3085
18 0,5000
18,5 0,6915
19 0,8413
19,5 0,9332
20 0,9773
A função poder é muito útil no julgamento de um teste, no sentido de que ele é um

bom teste ou não. Usa-se também a função poder para se escolher entre dois ou
mais testes.
No exemplo acima se  é igual ou maior do que 20, quase certamente H 0 será

rejeitada, e, se  é um valor igual ou menor do que 16, o teste quase certamente não
rejeitará H 0 . Por outro lado, 17    18 ( isto é , H 0 é falsa) o teste tem menos da
metade da chance de rejeitar H 0 .
Definição 9.4
Seja X uma variável aleatória com distribuição dependendo de um parâmetro 

pertencente a um espaço  . Seja  um teste estatístico sobre a hipótese
H 0 :  0 , onde 0   . Chama-se nível de significância do teste  , da hipótese H 0 ,
ao valor de     , dado por
sup      .
Nível de significância =  = 
0
Nota:
No Exemplo 9.5, o nível do teste é dado por
sup      P  Z  18  17   1  FZ 1  0,1587

17
9.5 - Construção do Teste Estatístico de uma hipótese nula simples contra uma
hipótese alternativa simples.
Suponha que  X1 , X 2 ,..., X n  seja uma amostra aleatória gerada por uma das duas
distribuições seguintes: f(x, 0 ) ou g(x, 1 ). Consideremos as hipóteses
H 0 : X  f  x,0 
H1 : X  g  x,1 
Se realizamos uma única observação x1 de X, podemos racionalmente decidir que essa

observação teve origem em f , se f > g , e, em caso contrário decidiremos pela origem g,
se g > f.
No Gráfico 9.2, decidiríamos por f(x) se x = 2 e por g(x) se x = 10.
Gráfico 9.2
Definição 9.5
Teste da Razão de Verossimilhança Simples
f  x, 0  ou f  x, 1  . O teste  de H 0 :X  f  x,0  contra H1 :X  f  x, 1  é
chamado teste da razão de verossimilhança se
L  x1 , x 2 ,..., x n , 0 
Rejeitamos H 0 se: k
L  x1 , x 2 ,..., x n , 1 
L  x1 , x 2 ,..., x n , 0 
Aceitamos H 0 se: k
L  x1 , x 2 ,..., x n , 1 
onde k é uma constante arbitrária, não negativa e L  x1 , x 2 ,..., x n ,  j  é a função de
verossimilhança da amostra da população f(x,  j ), j=0,1.
9.6 - Teste mais Poderoso.

f  x,   - ou função de probabilidade P(x, ) - . Suponha que o espaço paramétrico seja
constituído por apenas dois valores, isto é,   0 , 1 .
Definição 9.6
Um teste  de H 0 :=0 contra H1 :=1 é chamado teste mais poderoso de nível , se
e somente se
-   0   
-   1     1  para qualquer outro teste  tal que
   0   
Em outras palavras, um teste  é o mais poderoso de nível  , se ele tem nível  , e ,

se dentre todos os outros testes de nível de significância menor ou igual a  , ele é o
mais poderoso.
De outra forma, podemos também dizer que:
 é o mais poderoso de nível  , se ele tem nível de significância igual a

probabilidade do erro do 1o. Tipo, e tem a menor probabilidade do erro do 2 o.
Tipo, dentre todos os outros testes com probabilidade do erro do 1 o. Tipo menor ou
igual .
9.7 - Teorema de Neyman e Pearson
Suponhamos que se deseja testar a hipótese H 0 :=0 contra a hipótese H1 :=1 .

Como vimos anteriormente, isto será feito a partir de uma amostra  X1 , X 2 ,..., X n  da
variável aleatória X com função de densidade f  x,   ou função de probabilidade
P  x,   , sendo  desconhecido.
A decisão de aceitar a hipótese nula será baseada em alguma estatística T associada à

amostra , denominada estatística de teste. O valor observado desta estatística é que nos
permitirá decidir aceitar ou não a hipótese nula.
Para todas as leis de probabilidades, as regiões A e R, de aceitação e rejeição

respectivamente, que particionam o espaço amostra da estatística T, são funções de
equivalentes partições do espaço amostra S, dos valores  x1 , x 2 ,..., x n  obtidos em
 X1 , X 2 ,..., X n  .
Assim, usaremos a mesma notação, do espaço de T para definir o
espaço S, de forma que S  A  R .
Para testar as hipóteses,
H 0 :=0
H1 :=1

definiremos as regiões de aceitação e rejeição como segue, onde x   x1 , x 2 ,..., x n 

A  x / aceitamos H 0 

R  x / rejeitamos H 0 
Vamos supor que X, origem da amostra seja do tipo discreto, e neste caso, a função de
verossimilhança nos fornece a probabilidade de ocorrer o valor observado na amostra

designado por x   x1 , x 2 ,..., x n  .
Temos então duas únicas funções de verossimilhança – funções de probabilidades -

correspondendo cada uma às hipóteses formuladas, ou seja:
L  x1 , x 2 ,..., x n , 0  e L  x1 , x 2 ,..., x n , 1 
tais que:
 L  x , x ,..., x

xS
1 2 n , 0   1
 L  x , x ,..., x

xS
1 2 n , 1   1
Para um teste T com partição (A,R), tal que S  A  R , temos
 L      L      L     (1 )    1

xS
0

xA
0

xR
0
e  L      L      L       1     1

xS
1

xA
1

xR
1
Assim, as probabilidades dos erros de 1o. Tipo e 2o. Tipo são obtidas somando-se as
funções de verossimilhança em convenientes regiões, de acordo com as definições, isto
é,
   L  0  e =  L  1 
 
xR xA
Conforme Definição 9.5 podemos adotar o seguinte teste para H 0

A  x / L  0   kL  1 

R  x / L  0   kL  1 
onde k > 0 é uma constante não negativa arbitrária.
Suponhamos agora que k seja escolhido de tal forma que   


L  0  e
xR
consideremos um outro teste qualquer, para as mesmas hipóteses, mas com partição
 A , R   , embora com a mesma probabilidade de erro do 1o. Tipo, ou seja
  L   .

0
xR 
Os dois testes determinam uma partição do espaço S em quatro partes, mostradas na

figura abaixo.
Por outro lado,

 L     L     L     L    0

0

0

0

0
xR xR  xR xR 
e
 L     L     L     L    0
0 0 0 0
R A  R R  A R  R R 
 L     L  
0 0
R A A R 

Se para todo x  R  L  0   kL  1  e como  R  A   R , então

 L    k  L  
0 1 ou   L     k  L   
0 1 (I)
R A R  A R  A R A

Se para todo x  A  L  0   kL  1  e como  A  R   A , então

 L    k  L  
0 1
A R  A R 
(II)
Somando-se (I) e (II), obtemos,
0k  L    k  L  
1 1
A R  R  A
ou
 L     L  
1 1
A R  R A 
Somando-se  L    a ambos os membros da desigualdade, obtemos,

1
A A 
 L     L     L     L  
1 1 1 1
A R  A A  R A  A A 
 L     L  

1

1 ou   
xA xA 
Finalmente concluímos que a probabilidade  , de aceitar H 0 quando   1 , usando o

teste de partição (A,R) com nivel de significância , é menor ou igual a probabilidade
 , do mesmo evento, quando usamos o teste de partição  A , R  , com o mesmo
 
nível de significância .
Teorema 9.1 - Neyman & Pearson

Seja  X1 , X 2 ,..., X n  uma amostra de uma variável aleatória X, com função de
densidade f  x,   - ou função de probabilidade P  x,   . Para testar as hipóteses
simples H 0 :=0 contra H1 :=1 , o teste com região de rejeição definida por
R   x1 , x 2 ,..., x n  / L  0   kL  1 
é aquele que tem o menor valor possível de  , dentre todos os possíveis testes com o
mesmo nível de significância  , sendo k uma constante não negativa.
Exemplo 9.6
Recordemos o Exemplo 9.1, quando definimos  X1 , X 2 ,..., X 9  de uma variável
aleatória X com distribuição N(  ,1), para testar as hipóteses
H 0 :=4 contra H1 :=5 ,
vamos aplicar o Teorema de Neyman-Pearson.
As funções de verossimilhança disponíveis são,
  1 n 2
L  x, 4   1/ 2  exp     x i  4  
n 2
 2 i 1 
  1 n 2
L  x,5   1/ 2  exp     x i  5  
n 2
 2 i 1 
e para um  fixado, o teste com a menor probabilidade de erro do 2o. Tipo é
  1 n 2  1 n 2 
R   x / 1/ 2  exp     x i  4    k 1/ 2   exp     x i  5   
n 2 n 2
  2 i 1   2 i 1 
Vamos desenvolver a desigualdade em R.
1 n 1 n
     x i  5
2 2
 x i  4  ln k 
2 i 1 2 i 1
n n
x
i 1
2
i  8x i  16   2 ln k    x i2  10x i  25 
i 1
n
2 x i  2 ln k  25n  16n
i 1
n
9n  1 9
x
i 1
i   ln k 
2
 R=  x/x  - ln k  
 n 2
Assim, X é a estatística de teste, segundo Neyman-Pearson, pois seu valor observado é

1 9
necessário para decidir quando aceitar ou rejeitar H 0 . O valor de c = - ln k  é
n 2

determinado uma vez fixado . O valor de c, para   0, 05 , como visto anteriormente
é 4,55.
Exemplo 9.7
Um amostra de tamanho n = 10 de uma variável aleatória Normal com variância
conhecida  2  9 , produziu a estimativa x  25, 65 . Teste a um nível de significância
=0,05 a hipótese H 0 :   24 contra as hipótese alternativas:
a) H1 :   24 b) H1 :   24 c) H1 :   24
Solução:
Item a: Formulação das hipóteses:
H 0 :   24
H1 :   24
  0, 05
 9 
Estatística de teste: X é N  ,   X é N  ;0,95 
 10 

Região de rejeição: R  x / X  c
 c  24 
P X  c / H 0     P  Z    0, 05
 0,95 
c  24
 1, 65  c  24  1,568  c  25,568
0,95
Decisão: Como x  25, 65  c  25,568  rejeitamos H 0 .

Item b: Formulação das hipóteses:
H 0 :   24
H1 :   24
  0, 05
 9 
Estatística de teste: X é N  ,   X é N  ;0,95 
 10 

Região de rejeição: R  x / X  c
 c  24 
P X  c / H 0     P  Z    0, 05
 0,95 
c  24
 1, 65  c  24  1,568  c  22, 432
0,95
Decisão: Como x  25, 65  c  22, 432  não rejeitamos H 0 .
Item c: Formulação das hipóteses:

H 0 :   24
H1 :   24
  0, 05
 9 
Estatística de teste: X é N  ,   X é N  ;0,95 
 10 
Região de rejeição:


R  x /  X  c1    X  c 2  

Região de Aceitação: A  x / c1  X  c 2 
 c  24 c  24 
P c1  X  c 2 / H 0   1    P  1 Z 2   0,95
 0,95 0,95 
c1  24
 1,96  c1  24  1,862  c1  22,138
0,95
c 2  24
 1,96  c 2  24  1,862  c 2  25,862
0,95
Decisão: Como x  25, 65  A  não rejeitamos H 0 .
Exemplo 9.8
Suponha que desejamos testar a hipótese H 0 : =2 contra H1 : =4 , sendo  o
parâmetro de uma população X, com distribuição exponencial, e que dispomos de uma
amostra aleatória de tamanho n = 15 de X.
As duas funções de verossimilhança são,
 15   15 
L  2    2  exp 2 x i  e L  4    4  exp 4  x i 
15 15
 i 1   i 1 
O teste, segundo Neyman-Pearson, tem a seguinte região de rejeição,
  15   15 
R   x / 215 exp  2 x i   k415 exp  4 x i 
  i 1   i 1 
Facilmente, após alguns cálculos, verificamos que
 ln k 1  
R  x / x   ln 2  o que é equivalente a R  x / x  c .
 30 2 
n
Sabemos que 2  X i é  2n e se H 0 é verdadeira,   2 , e sendo n = 15, a variável
2
i 1
aleatória 2  2 15  X  60X tem distribuição qui-quadrado com 2 15  30 graus de

liberdade.
Se fixarmos  = 0,10.
P(X  c / H 0 )  0,10  P(60X  60c)  0,10

P  30;0,10
2
 60c   0,10  60c  20, 6

De forma que R  x / x  0,34 é o teste que tem o menor  possível dentre todos os
testes com  = 0,1.
O teorema de Neyman e Pearson permanece válido para o caso de variáveis aleatórias
do tipo discreto. Podemos então construir teste para hipóteses simples sobre parâmetros
de leis de probabilidades discretas. A estatística de teste é , em geral, também uma
variável aleatória discreta, e, por isso os valores disponíveis de  também formarão um
conjunto discreto. Em muitos casos porém é possível obter aproximações razoáveis para
efeito de comparações teóricas como veremos no exemplo a seguir.
Exemplo 9.9
Suponha X uma variável aleatória de Bernoulli (p) e seja  X1 , X 2 ,..., X n  uma amostra
aleatória de X. Vamos definir com base em Neyman-Pearson um teste para as hipótese
simples H 0 : p = 0,2 contra a hipótese alternativa H1 : p = 0,4 .
As funções de verossimilhança são
n n
 xi n   xi
L  0, 2   (0, 2) i 1
(0,8) i 1
n n
x n x
L  0, 4   (0, 4)
i i
i 1
(0, 6) i 1
n n n n
x i n x i x i n x i
(0, 2) i 1
(0,8) i 1
 k(0, 4) i 1
(0, 6) i 1
n n
 xi n   xi
(1/ 2) i1
(4 / 3) i 1
k
n
 n

 x ln(1/ 2)   n   x  ln(4 / 3)  ln k
i 1
i
i 1
i
n n
0, 6931 x i  0, 2877  x i  ln k  0, 2877n
i 1 i 1
Assim, um teste para um fixado valor para  , com o menor  possível é dado por
 n 
R  x /  x i  c 
 i 1 
Analisemos dois casos:
10
a) Se n = 10, a variável X10   X i , sob a hipótese H 0 , tem distribuição Binomial
i 1
(10;0,2). Fixemos o valor do nível de significância em   0, 0328 (*), ou

aproximadamente   0, 03 .
Desta forma P  X10  c / p  0, 2   0, 03  c  5 , e , assim, rejeitaremos H 0 se em 10

provas de Bernoulli (0,2) ocorrem 5 ou mais sucessos.
Vamos continuar a análise, obtendo a probabilidade de rejeição da hipótese nula falsa, e,
para isto calculemos primeiramente a probabilidade do erro do 2o. Tipo.
  P  X10  5 / p  0, 4   0, 6330 

O poder do teste no ponto p = 0,4 é então   0, 4   1    0,367 , isto é, a probabilidade
de rejeição da hipótese H 0 , sendo H 0 falsa é 0,367.
20
b) Se n = 20, a variável X 20   X i , sob a hipótese H 0 , tem distribuição Binomial
i 1
(20,p). Fixemos o valor do nível de significância em   0, 0322 (*), ou

aproximadamente   0, 03 .
Notemos então P  X 20  c / p  0, 2   0, 03  c  8 , isto é, a hipótese nula será rejeitada

se em 20 provas de Bernoulli (0,2) ocorrem 8 ou mais sucessos.
Além disso,   P  X10  8 / p  0, 4   0, 4158 (*) o que implica que o poder do teste
para p = 0,4 é   0, 4   1    0,5842 .
A probabilidade de rejeição da hipótese nula falsa aumentou consideravelmente, tendo

em vista que o tamanho da amostra foi duplicado.
(*)
Vide Tabela da Binomial em [2]
Teorema 9.1.a
Seja  X1 , X 2 ,..., X n  uma amostra de uma variável aleatória N  ,   , sendo  2
2
conhecida. A região de rejeição R do teste da razão de verossimilhança generalizada,

para o parâmetro  , a um nível de significância  é dada por
H0 H1 R
  0   0 x  0  z  
n
  0   0 x  0  z 
n
  0   0 x  0
 z
/ n 2
9.8 - O tamanho da amostra quando X é normal.
A escolha do tamanho da amostra n é fundamental, na medida em que o pesquisador

interessado no teste tenha fixado o seu nível de significância  . Fixado também o
tamanho da amostra n, se a probabilidade do erro do 2o. Tipo for indesejável, isto é,
muito grande, a solução é redefinir, se possível, o valor de  , se o tamanho da
amostra não puder ser majorado.
Se X tem distribuição normal com média  e variância conhecida, uma vez fixados
 e  , podemos encontrar o tamanho da amostra n, que utilizado com o melhor teste
fornece os mesmos  e  escolhidos, quando testamos hipótese simples sobre  .
Exemplo 9.10
Seja X uma v.a. N(,   4) e suponha que desejamos testar a hipótese H 0 :=0
contra H1 :=1 , onde  0  1 . Já vimos anteriormente que a região crítica segundo

Neyman-Pearson é R  x / X  c .
Fixados os valores de  e  , e sabendo-se que X é N(,4/ n ) , temos então que:
 c  0   c  0   0  c 
  P  X  c / H0   P  Z    1  FZ    FZ  
 4/ n   4/ n   4/ n 
 c  1   c  1 
  P  X  c / H1   P  Z    FZ  
 4/ n   4/ n 
Se P  Z  z p   P  Z   z p   p , então temos as duas equações abaixo:
0  c c  1
 z e  z
4/ n 4/ n
4 4
ou 0  c  z e c  1  z 
n n
Finalmente temos,
16  z  z  
2
 0 z  1z 
c e n
z   z  0  1 
2
2  z  z  
2
Nota: Uma fórmula geral , para n, para todo   0 seria n  .

 0  1 
2
Exemplo 9.11
Seja X uma variável aleatória N(,   4) . Determinaremos o valor de n , para testar a
hipótese H 0 : = 3 contra H1 : = 6 , usando o melhor teste com   0, 05 e =0,10 .
16  1, 28  1, 64 
2
136, 42
n n   n  15,15  15
 6  3
2
9
c
 1, 64  6    1, 28  3
= 4,68
1, 64  1, 28
Conferindo a teoria desenvolvida, obtemos
 4, 68  3 
P  X  4, 68 /   3  P  Z   1  FZ 1, 6254   1  0,9463  0, 05
 1, 0336 
 4, 68  6 
P  X  4, 68 /   6   P  Z   P  Z  1, 2771  0,10
 1, 0336 
9.9 - Testes de Hipóteses Compostas.

No caso do teste de hipótese simples, fixamos uma probabilidade do erro do 1 o. Tipo,
  P  Re jeitar H 0 /H 0 é verdadeira  , e escolhemos dentre todos os testes possíveis
aquele com o menor valor do erro do 2o. Tipo, ou seja   P  Aceitar H 0 /H 0 é falsa  .
Idêntico raciocínio devemos adotar no caso de hipóteses compostas. Consideraremos

todos os testes com poder , máximo valor de     para todos valores de 
especificados em H 0 , e, dentre estes, escolheremos aquele que possui o maior valor de
    para todos os valores de  especificados em H1 (o que corresponde ao menor
valor de  ). Tal teste, se existe, é chamado uniformemente mais poderoso, porque ele
maximiza a função potência para todos os valores de  especificados em H1 .
Testes uniformemente mais poderosos existem para um grande número de modelos e

freqüentemente podem ser construídos com base no Teorema de Neyman-Pearson.
Recordemos que o melhor teste para as hipótese H 0 :=0 contra a hipótese H1 :=1 ,
é aquele cuja região crítica é dada por
  
R  x / L  x, 0   kL  x, 1 
que é equivalente a:
i) R  t  x1 , x 2 ,..., x n   c se 1  0
ii) R  t  x1 , x 2 ,..., x n   c se 1  0
Onde t  x1 , x 2 ,..., x n  é o valor observado da estatística de teste T  X1 , X 2 ,..., X n  .
Segue daí que  ,
1. O máximo valor de     , para todo   0 , especificados em H 0 é igual a

    0  , de forma que  é o nível de significância do teste.
2. A probabilidade do erro do 2o. Tipo,  , é a menor, para todo   0 , dentre todos

os teste com o mesmo  (ou equivalentemente a função poder é a maior para todo
  0 ).
(*) vide exemplo 9.12
Exemplo 9.12
Seja  X1 , X 2 ,..., X n  uma amostra aleatória de uma variável aleatória exponencial de
parâmetro  . Para testar as hipóteses
H 0 :   0
H1 :   0
para todo 1   0 , o melhor teste, dado por Neyman-Pearson é
 
L  x,  0   kL  x, 1 
 n
  n

ou  0n exp  0  x i   k1n exp 1  x i 
 i 1   i 1 
n n
que é equivalente n ln  0   0  x i  ln k  n ln 1  1  x i
i 1 i 1
n
ou  1   0   x i  ln k  n ln 1  n ln  0
i 1
e finalmente, vemos que

n

ln k  ln  1 
x  0  = c se 1   0
n  1   0 
n
ln k  ln  1 
x  0  = c se 1   0
n  1   0 
O procedimento teórico desenvolvido é a base da construção de testes uniformemente

mais poderosos para testar alternativas uni laterais para os parâmetros:
1. p, da Bernouli (p).
2.  , da Poisson (  ).
3.  , da Normal com  conhecido.
4.  , da Normal com  conhecido.
5. p, da Geométrica(p).
9.10 - Testes sobre Espaços Paramétricos de dimensão k > 1.


Seja X uma variável aleatória cuja distribuição depende de k parâmetros, isto é,    .
O espaço paramétrico  é portanto de dimensão k. Por exemplo, se é N  ,   , então
   ,   /      ;   0 .
Suponhamos que se deseja testar uma hipótese H 0 que especifica valores ou intervalos
para um ou mais parâmetros de uma lei de probabilidade contra a hipótese alternativa
H1 , que simplesmente estabelece que H 0 é falsa. As hipóteses podem ser estabelecidas
da forma

H 0 :  W

H1 :  W, W  

 
A função de verossimilhança da amostra é por definição L x,  , e, esta função assume

o seu valor máximo quando os componentes do vetor  são as estimativas de máxima
ˆ
verossimilhança dos respectivos parâmetros, ou seja   ˆ 1 , ˆ 2 ,..., ˆ k  .
Podemos também maximizar a função L apenas no conjunto W   , ou seja , apenas


no conjunto de valores de  especificados em H 0 .
 ˆ
Representemos por L x, W   
   ˆ
o máximo valor de L x,  para   W , e seja L x,  o  
 
 
máximo valor de L x,  , para    .
Considerando que W   , é obvio que
l

 ˆ
L x, W
1

 
 ˆ
L x, 

 ˆ
L x, W 
A razão l 
 
 ˆ é chamada razão de verossimilhança generalizada.
L x, 

É claro que se H 0 :  W é verdadeira, o numerador da razão é próximo do
denominador e consequentemente a razão se aproxima de 1. Se, ao contrário, H 0 é
falsa, esperamos o numerador consideravelmente menor do que o denominador, e assim,
o critério do chamado teste da razão de verossimilhança generalizada é dado por
 

R  x / l 

 ˆ
L x, W 

 k
 

 ˆ
 L x,  
 
onde k < 1 é escolhido, de forma que o nível de significância do teste seja igual a  .
Prova-se que este teste é equivalente ao “melhor teste” obtido quando aplicamos o
Teorema de Neyman-Pearson, para o caso em que temos H 0 e H1 como hipóteses
simples.
Exemplo 9.13
Suponhamos que a duração da vida de um equipamento eletrônico tem distribuição N
(, ) , e, a partir de uma amostra aleatória de tamanho n, desejamos testar as hipóteses:
H 0 :=750 horas
H1 :  750 horas

O espaço paramétrico completo do vetor   (, ) é o espaço
   ,   /      ,   0 , enquanto que o espaço paramétrico correspondente à
hipótese nula é: W   ,   /   750;   0 .
A função de verossimilhança da amostra é o produto das densidades f  x i , ,   , onde

(, )   , ou seja
n
  1  2  1 n
2
L  x, , 2    2 
exp  2 x i    .
 2   2 i 1 
Sendo as estimativas de máxima verossimilhança de  e  dados por ˆ  x e
1 n
  x i  x  , então o denominador da razão de verossimilhança generalizada é
2
ˆ 2 
n i 1
n
  2
n  
 n
L  x, ˆ , ˆ 2   e 2 

n

 2 2 
   xi  x  
 i 1 
Se H 0 é verdadeira,   750 , e o numerador da razão será o máximo valor de

 
L  x, 750,  2  . Calculemos então valor de  2 que maximiza ln L  x, 750,  2 
,derivando esta função em relação a  2 ,
n n
  1  2 1  2  1 n
2
L  x, 750,  2      2  exp  2 x i  750  
 2      2 i 1 
n
x  750 
2
i
 n n  1 
ln L  x, 750,  2    ln(2)  ln  2  i 1
 2
2 2 2  
n
n 
 x i  750 
2

 ln L  x, 750,  2 
 2 i 1
0
 2 2 2  2 
2
x  750 
2
i
n 1 n
  x i  750 
2
 i 1
 ˆ 2 
2 2 2 4 n i 1
n
 2
n  
 ˆ
  n

Logo, L x, W e 2 n

 2 2 
   x i  750  
 i 1 
Assim, a razão de verossimilhança generalizada (RVG) é

n
 n 2 
2
L x, W    x i  x  
 
 ˆ
l   ni 1
 
 ˆ 
L x,     x i  750 2 
 i 1 
Observemos no entanto que
n n 2
x  750     x i  x    x  750  

2
i
i 1 i 1
n
   x i  x    x  750   2  x i  x  x  750  
2 2
i 1
 
n
   x i  x   n  x  750 
2 2
i 1
Substituindo-se convenientemente na RVG, obtemos
2
 (x i  x) 2
1
l n
 i 1

n
n(x  750) 2
 (x i  x) 2  n(x  750) 2 1 n
i 1
 (x
i 1
i  x) 2
O teste da RVG deve rejeitar H 0 quando o numerador da razão se distanciar do

denominador, isto é, quando l n 2 ou simplesmente quando l for pequeno.
n(x  750)2
n
Observa-se facilmente que l é pequeno quando é grande, e, assim, a região
i 1
 x)2  (x i

de rejeição do teste da RVG é definida para valores de x tais que
n(x  750) 2 x  750 n

n
d  d
ou equivalentemente n , para d arbitrário.
 (x
i 1
i  x) 2
 (x i  x) 2
i 1
Se multiplicarmos ambos os membros por n  1 , obtemos o valor observado de uma

variável aleatória Tn 1 , de Student com n-1 graus de liberdade
x  750 n
 d(n  1)  t n-1  c
1 n

n  1 i 1
(x i  x) 2
Se o nível de significância do teste é igual a , rejeitaremos H 0 , se e somente se
x  750 n
 t (n 1),  / 2
S
O exemplo discutido até então, é um caso particular do teorema abaixo cuja
demonstração pode ser feita como exercício
Teorema 9.2
Seja  X1 , X 2 ,..., X n  uma amostra de uma variável aleatória N  ,   , sendo ambos os
2
parâmetros desconhecidos. A região de rejeição R do teste da razão de verossimilhança

generalizada, para o parâmetro  , a um nível de significância  é dada por
H0 H1 R
  0   0 x   0  t  n 1, s
n
  0   0 x   0  t  n 1, s
n
  0   0 x  0
 t  n 1, / 2
s/ n
Exemplo 9.14 Teste para  com X, N( ,  )
Um fabricante de réguas de cálculo afirma que o desvio padrão das medidas produzidas
por sua máquina não excede não excede 0,02. Supondo que as medidas são
normalmente distribuídas, construa um teste de razão de verossimilhança generalizada
para testar
H 0 :  0,02
H1 :>0,02
Solução:
A função de verossimilhança da amostra é
n
  1  2  1 n
2
L  x, , 2    2 
exp  2 x i   
 2   2 i 1 

Devemos maximizar L  x, ,   no sub-espaço W de  , definido por
2

W   ,   /      ;0   2   0, 02 
2
.

Sabemos que em relação ao parâmetro  , o valor que maximiza L  x, ,   é x .
2

Com relação a  2 , o valor que maximiza L  x, ,   é
2
x  x
2
i
  0, 02 
2
i) ˆ 2 se ˆ 2  i 1
n
n
x  x
2
i
ii) 0, 02 se ˆ 2  i 1
 (0, 02) 2
n

 ˆ
Assim, obtemos L x, W ; 
 n
  2  x  x
n 2
 n n
  0, 02 
 2
e 2  i 1 i
 se
  i 1 i 
n 2
 2  x  x  n

 ˆ
L x, W

  n

   n  x i  x 2   x  x
n
1  2 2
   0, 02 
2
exp   i 1  se i
2
i 1
  2  0, 02   2  0, 02  
2
 n

Por outro lado, já vimos que

n
 2
 n  n 
L  x, ˆ , ˆ   e 2

2
 n

 2  x  x  2 
 i 1
i

 ˆ
L x, W  
De forma que , sendo l 
 
 ˆ , temos então que
L x, 
  x  x
n 2
  0, 02 
2
 1 se i 1 i
 n
l n
  i 1  i
    n  n  x i  x 2   x  x
n 2 2 n 2
x  x
  0, 02 
2
  exp   i 1  se i 1 i
   
2 2
 n 0, 02   2 2 0, 02  n
   
 x  x
n 2
i 1 i
Observemos o gráfico de l em função de b =
n  0, 02 
2
 x  x
n 2
i
Nota-se que lk  i 1
 c . Dessa forma rejeitaremos H 0 quando
n  0, 02 
2
l

 ˆ
L x, W 
 
 ˆ for pequeno, e assim a região crítica do teste de RVG será
L x, 
   n  x i  x  2 
R   x / i 1  nc  c 
 0, 02 
2
 
Recordando que
 n  1 S2 é uma variável aleatória  2n 1 , então a probabilidade do erro
2
do 1o. Tipo é
 n  X  X 2 
 i 
P  i 1  c 
 
2
 0, 02 
Por exemplo, se fizermos n = 10 medidas do mesmo objeto, e , se desejamos testar
H 0 :  0,02
H1 :>0,02
com um nível de significância de 0,1, então 9  14, 7 , e rejeitaremos a hipótese nula se
2
 x  x  >14,7  0, 02   0, 00588 ,
10 2 2
i 1 i
onde x1 , x 2 ,..., x10 são as 10 medidas observadas.
O exemplo discutido até então, é um caso particular do teorema abaixo cuja

demonstração pode ser feita como exercício
Teorema 9.3
Seja  X1 , X 2 ,..., X n  uma amostra aleatória de uma variável aleatória normal de média
 desconhecida. A região crítica (rejeição) do teste da razão de verossimilhança
generalizada a um nível de significância  , para o parâmetro  2 é
H0 H1 R
      x i  x   02 12
2 2 2 2 n 2
0 0
i 1
 2   20  2   20   x i  x   022
n 2
i 1
 2   20  2   20   x i  x   02 2 / 2
n 2
i 1
ou
  x i  x   02 12 / 2
n 2
i 1
Exemplo 9.15
O crescimento de uma certa planta, durante o período de um ano é supostamente uma
variável aleatória N  ,   . Deseja-se testar as hipóteses
2
H 0 :2  1/ 4
H1 : 2 <1/4
Com um nível de significância de 0,05 e baseado numa amostra aleatória de n = 5
observações seguintes: 1.9 , 1.1 , 2.7 , 1.6 e 2 , com x  1,86
xi 1.9 1.1 2.7 1.6 2 9,3
 xi  x  0,04 -0,76 0,84 -0,26 0,14
 xi  x  0,0016 0,5776 0,7056 0,0676 0,0196 1,372

2
 n 
R   x /   x i  x   02 n2 1,  .
2
Para n = 5 e   0, 05   4;0,05  0, 711 
2
 i 1 
n
x  x   1,372  0, 25  0, 711  0,1777 , logo aceitamos H 0 .

2
Como i
i 1
9.11 - Relação entre Intervalos de Confiança e Testes de Hipóteses
Há uma relação direta entre intervalos de confiança para parâmetros desconhecidos e os

testes de hipóteses sobre os mesmos parâmetros. Para ilustrar, recordemos que o
intervalo de confiança de 100 1   % , para a média de uma v.a. N  ,   é dado por
s s
x  t  n 1, / 2 e x  t  n 1,  / 2
n n
Se desejamos testar a hipótese H 0 :=0 contra H1 :   0 , a hipótese nula será aceita

s s x  0
se: x  t  n 1, / 2  0  x  t  n 1, / 2 , o que é equivalente a  t n 1, / 2 .
n n s/ n
9.12 – Teste de Significância - O Uso do p-valor em testes de hipóteses.
Uma maneira comum de relatar o resultado de um teste de hipóteses é estabelecer que a

hipótese nula foi ou não foi rejeitada a um especificado nível de significância ..
Este procedimento muitas vezes é inadequado, pois não permite ao pesquisador

apreciar a distância entre o valor observado da estatística de teste e o limite que separa
as regiões A e R. Fixar  , para calcular c e separar A de R, impõe um erro
predefinido, que pode não ser satisfatório para outros eventuais usuários da informação.
Para evitar tais problemas a técnica do p-valor tem sido largamente aplicada na prática.
O p-valor é a probabilidade de que a estatística de teste assuma um valor que é tão ou
mais extremo que o valor observado da estatística de teste, quando a hipótese nula é
verdadeira. O p-valor exprime muita informação sobre o peso das evidências obtidas na
amostra, contra a hipótese H 0 .
A técnica do p-valor é essencialmente baseada na definição de evento raro, isto é,

aquele que tem ínfima probabilidade de ocorrer. Por exemplo, se fizermos a hipótese de
que X tem distribuição N  0,1 , e ao realizarmos X, obtivermos x  6 , estaremos
diante de duas interpretações: ou realmente ocorreu um evento raro ou a hipótese
formulada é falsa e deve ser reconsiderada.
A decisão sobre a hipótese H 0 , com base no p-valor deve levar em conta o erro
admissível. Grandes valores de p-valor sugerem H 0 verdadeira, enquanto que
pequenos valores de p-valor sugerem H1 verdadeira. Se o nível  for predefinido,
rejeitaremos H 0 quando p-valor for menor que  .
O gráfico abaixo, da distribuição N(5,1), mostra o p-valor  0,11 para x = 6,2,

representada pela área hachurada sob a curva no intervalo  6, 2;   , enquanto a área
fortemente hachurada, representa um possível   0, 02 predefinido, que corresponde à
probabilidade P(X > 7).
Gráfico 9.1
É comum chamar o teste (e os dados) de significante (s), quando a hipótese nula é

rejeitada, e, por isto, podemos dizer que o p-valor é o menor nível  para o qual os
dados são significantes.
Definição 9.7
O p-valor de um teste estatístico é o menor nível de significância que nos levaria à
rejeição da hipótese nula H 0
Exemplo 9.15
Três pesquisadores A, B e C, estão diante de um teste estatístico e divergem entre si
quanto ao erro do 1o. Tipo que admitem cometer:  A  0, 01 ,  B  0, 05 e  C  0,10 .
Alheio à divergência entre A, B e C, um quarto pesquisador, encarregado de realizar o
teste informa-os que o p-valor obtido no teste foi 0,08. Nestas condições o teste é não
significante para os pesquisadores A e B, que certamente aceitarão a hipótese nula,
enquanto que C rejeitará H 0 , visto que p-valor=0,08 <  C  0,10 .
Exemplo 9.16
Suponha X uma variável aleatória N(u,1). Se uma amostra de tamanho n = 10, resultou
em x = 2,5 , teste a hipótese H 0 :  2 contra H1 :>2 , usando o teste de significância.
Solução:
 2,5  2 
p-valor  P  X  2,5 /   2   P  Z  
 1/10 
p-valor = P  Z  1,58   0, 0571  0, 05
Rejeitamos a hipótese nula pois o teste é significante para qualquer   0, 0571 , por
exemplo 0,06 , 0,07, ....., 0,10, ..., 0,15 , ......
A técnica do teste de significância usando o p-valor, dispensa a predefinição do nível

 , o cálculo da constante c delimitadora de A e R e a conseqüente comparação do valor
observado da estatística de teste com o valor de c. No entanto, para fins de fixação da
técnica, os comentários abaixo são válidos:
Suponha que para o mesmo teste acima, tenham sido fixados, por três pesquisadores A,
B e C, os níveis:  A  0,10 ,  B  0, 025 e  C  0, 01.
 c2 
1. Se  A  0,10  P  X  c / H 0   P  Z   c  2, 404 ,
 0,316 
e como x  2,5  c  H 0 é rejeitada.
 c2 
2. Se  B  0, 025  P  X  c / H 0   P  Z   c  2, 619 ,
 0,316 
e como x  2,5  c  H 0 não é rejeitada.
 c2 
3. Se  C  0, 01  P  X  c / H 0   P  Z   c  2, 736 ,
 0, 316 
e como x  2,5  c  H 0 não é rejeitada.
Exemplo 9.17
Uma amostra de tamanho n = 5 de uma variável aleatória N  ,   resultou em
s 2  0,343 . Teste a hipótese H 0 :2  1/ 4 contra H1 : 2  1/ 4 .
Solução:
Segundo o teste da razão de verossimilhança, a região de rejeição de H0 é

R  x / s 2  c , e , consequentemente o p-valor é
 4  S2 
p-valor  P S  0,343  P   16  0,343 
2
 14 
p-valor  P   4  5, 488   0, 75
2
Concluímos portanto que o teste não é significante para que rejeitemos H 0 .
9.13 - Testes de Hipóteses associados a duas amostras.
A construção de um intervalo de confiança para uma função de parâmetros de duas

distribuições, conforme vimos na seção 8, requer a observação de duas amostras
 X1 , X 2 ,..., X n  e  Y1 , Y2 ,..., Ym  das variáveis aleatórias X e Y, respectivamente.
Para iniciar este estudo, vamos apresentar um exemplo de teste que pode ser
estudado com base na teoria que desenvolveremos.
Suponha, por exemplo, que o número de acidentes em uma rodovia, por dia, seja uma
variável aleatória X, com distribuição de Poisson de parâmetro 1 , quando a velocidade
máxima permitida é de 80 km por hora. Se o limite de velocidade é alterado para 60 km
por hora, podemos assumir que o número de acidentes é uma variável aleatória Y, com
distribuição de Poisson de parâmetro  2 . O julgamento sobre a influência da velocidade
máxima
,
permitida na rodovia, na incidência de acidentes, pode ser subsidiado pelo teste da
hipótese H 0 :1  2 contra a alternativa H1 :1   2 . Estas hipóteses são equivalentes
às hipótese H 0 :1   2  0 contra H 0 :1   2  0 .
9.14 - Teste da Diferença entre as médias das variáveis aleatórias independentes

X e Y, com distribuições N  1 ,   e N   2 ,   , onde  2 é desconhecida.
2 2
Sejam  X1 , X 2 ,..., X n  e  Y1 , Y2 ,..., Ym  amostras aleatórias das variáveis X,

N  1 , 2  e Y, N   2 ,  2  , respectivamente. Observemos que ambas as variáveis têm
a mesma variância igual a  2 . Adotaremos a teoria da razão de verossimilhança
generalizada para testar as hipóteses:
H 0 :1   2 H 0 :1   2  0
ou
H1 :1   2 H1 :1   2  0
O vetor de parâmetros das duas amostras é    1 ,  2 ,   e o espaço paramétrico é

2

   1 ,  2 ,  2  /    1  ,    2  ,  2  0 . 
Se a hipótese H 0 é verdade, o espaço W restrito a H 0 , é

W   1 ,  2 ,  2  /      ,  2  0 
A função de verossimilhança das duas amostras é:
  i 1  x i  1    j1  y j   2  
n m
 n 2 m 2

   1 
L  x, 1 , 2  .L  y,  2 , 2   
2
2 
exp  
 2   2 2 
 x i  1    j1  y j  2 
2

n 2 m

e ln L  x, nm
y, 1 ,  2 ,    
2
ln 2  ln   
2 i 1

2 2 2 2 2
Daí, temos
 x  1 
n 2
 ln L i
 i 1
1  2
 y  2 
m 2
 ln L j
 i 1
 2 2
n  m  i 1  x i  1    j1  y j   2 
n 2 m 2
 ln L
  
 2 2 2 2  2 
2
Igualando-se a zero, obtemos

1 n
ˆ 1   xi
n i 1
1 m
ˆ 2   y j
n i 1
ˆ 2 
nm
1

n
i 1 
 x i  x    j1  y j  y 
2 m 2


Substituindo-se esses valores em L  x, y, 1 ,  2 ,   , obtemos o seu máximo, ou seja
2
nm
  2

  ˆ 

nm
nm  
L x, y,    e 2
 2  n
i 1
 x i  x    j1  y j  y 
2 m 2
 

Supondo agora que H 0 seja verdadeira, a função de verossimilhança da amostra,

 
L  x, 1 , 2  .L  y,  2 , 2  , restrita a W, se torna
  i 1  x i      j1  y j    
nm
 n 2 m 2

  1 
L  x, , 2   
2
2 
exp  
 2   22 
Ora, esta é a função de verossimilhança de uma amostra de tamanho (n+m) de uma

variável aleatória N  ,   , e, portanto, os valores que a maximizam são
2
 x i   j1 y j
n m
i 1 nx  my
ˆ  
nm nm
ˆ 2 
1
nm
 n
i 1
 x i  ˆ 
2
  j1  y j  ˆ 
m 2


Substituindo-se esses valores em L  x, ,   ,
2
nm
  2
nm
  nm 
L  x, y, ˆ , ˆ   
2
e 2

n 2 m

 2  i 1  x i  ˆ    j1  y j  ˆ 
2
 


Sendo assim, a razão entre as duas funções de verossimilhança é
nm
l

  ˆ
L x, y, W
  in1

 n  x  x 2  m  y  y 2 
 i  j1 j 
2
 
 
  i 1  x i  ˆ    j1  y j  ˆ  
  ˆ 2 m 2
L x, y, 
nx  my
Lembrando que ˆ  , podemos escrever,
nm
 x  ˆ    j1  y j  ˆ    i 1  x i  x  x  ˆ    j1  y j  y  y  ˆ 
n 2 m 2 n 2 m 2
i 1 i
n m
   x i  x     y j  y   n  x  ˆ   m  y  ˆ 
2 2 2 2
i 1 j1
nm  x  y 
2
n m
   xi  x    yj  y 
2 2
i 1 j1 nm
Dividindo-se o numerador e o denominador de l pelo numerador, temos
1
l n m ,
1  a  2
nm  x  y 
2
onde nm t2
a n 
 i1  x i  x    j1  y j  y  n  m  2
2 m 2
Recordemos que
 x  x    j1  y j  y 
n 2 m 2
t
 x  y nm i 1 i
nm nm2
é uma observação de uma variável aleatória de Student com n+m-2 graus de liberdade,
se H 0 :1   2  0 é verdadeira.
A região crítica do teste da razão de verossimilhança generalizada é definido por
l
L Wˆ  
ˆ  k
L  
1
l nm
t2
Como  t  2 2 , então l  k eqüivale a a  c , ou c,
1   nm2
 nm2
ou t  d , onde k, c e d são constantes arbitrárias.
Finalmente, podemos escrever que, para termos uma probabilidade de erro do 1 o. tipo
igual a  , rejeitaremos H 0 se
 x  x    j1  y j  y 
n 2 m 2
x  y nm
 t  n  m  2 , / 2 ,
i 1 i
nm nm2
onde P  Tn  t n ,p   P  Tn   t n ,p   p .
Isto estabelece a demonstração de parte do teorema que segue, referente ao teste

bilateral. A demonstração para os casos unilaterais também é sustentada pelo teste da
razão de verossimilhança.
Teorema 9.4
Sejam  X1 , X 2 ,..., X n  e  Y1 , Y2 ,..., Ym  amostras aleatórias de variáveis aleatórias X,
N  1 , 2  e Y, N   2 ,  2  , independentes.
Seja Sp 
2 1
nm2
 n
i 1
X i  X    j1  Yj  Y 
2 m 2
eT  n m 2  X  Y
nm
nm
Sp .
Os testes da razão de verossimilhança generalizada ao nível de significância  , para os

testes de hipóteses de médias associadas a duas amostras são:
H0 H1 R
1   2 1   2 t  t (n  m 2), / 2
1   2 1   2 t  t (n  m  2),
1   2 1   2 t   t (n  m  2),
Exemplo 9.18
Oito válvulas da marca G funcionaram durante 686, 784, 769, 848, 728, 739, 757 e 743
horas, enquanto que 10 válvulas similares mas da marca H funcionaram durante 762,
783, 763, 749, 806, 783, 831, 784, 790 e 750 horas. Supondo que as duas amostras são
independentes, de origem normal e variância comum, vamos testar as hipóteses
H 0 :1   2 contra a hipótese alternativa H1 :1   2 a um nível de significância 
=0,05.
Solução:
a) Formulação das hipóteses:

H1 :1   2
H1 :1   2
 =0,05,  / 2  0, 025  t16;0,025  2,12
b) Estatística de teste:
 X  X    j1  Yj  Y 
n 2 m 2
X  Y nm i 1 i
Tn  m  2 
nm nm2
c) Região de rejeição:
Conforme Teorema 9.4,
R  x / t  t (n  m 2), / 2  
 R  x / t  t16;0,025   R  x / t  2,12
d) Cálculo do valor observado da estatística de teste:

8
x  x   15.555,5
2
x  756, 75 i
i 1
10
y  y   5.884,9
2
y  780,10 j
j1
15.555,5  5.884,9
s 2p   1.340, 025
16
 756, 75  780,1 8018
t  1,345
1.340, 025
e) Decisão
Como t  1,345  1,345  2,120  t16:0,025  não rejeitamos H 0 .
f) Cálculo do p-valor: p-valor = 2P  T16  1, 345   2  0, 0986  0,1972
9.15 - Teste para a razão entre duas variâncias de duas variáveis normais
independentes.
Sejam  X1 , X 2 ,..., X n  e  Y1 , Y2 ,..., Ym  amostras aleatórias de variáveis

independentes X, N   X ,   e Y, N   Y ,  .
2 2
X Y Como vimos anteriormente, um
 2
intervalo de confiança para o parâmetro Y
é:
 2X
S2Y S2Y
L1  2 f n 1,m 1,  / 2 e L 2  2 f n 1,m 1,1 / 2
SX SX
O intervalo de confiança de 100 1   %, acima definido foi construído a partir da

definição da seguinte probabilidade
 S2 2 S2 
P  Y2 f n 1,m 1, / 2  Y2  Y2 f n 1,m 1,1 / 2   1  
 SX X SX 
Se desejamos testar a hipótese H 0 :X  Y contra H1 :X2   Y2 , a região de rejeição

2 2
 
será constituída pelo conjunto de valores  x, y  que geram valores observados da
S2Y
estatística fora do intervalo  L1 , L2  . Se a hipótese nula é verdadeira, então
S2X
 2X
 1 e então rejeitaremos H 0 , se  L1 , L2  não incluir o valor 1, isto é:
 2Y
S2Y S2Y
f n 1,m 1, / 2 >1 ou f n 1,m 1,1 / 2  1
S2X S2X
S2X S2X
<f n 1,m 1, / 2 ou  f n 1,m 1,1 / 2 .
S2Y S2Y
Teorema 9.5
Sejam  X1 , X 2 ,..., X n  e  Y1 , Y2 ,..., Ym  amostras aleatórias de variáveis
independentes X, N   X ,  X  e Y, N   Y ,  Y  . Sendo
2 2
1 n 1 m
  Xi  X    Yi  Y 
2 2
S2X  e SY2 
n  1 i 1 m  1 j1
o teste da razão de verossimilhança generalizada fornece os seguintes critérios para

2
testar a razão X 2 .
Y
H0 H1 R
 2X   2Y  2X   2Y s 2X
 f n 1,m 1,1
s 2Y
 2X   2Y  2X   2Y s 2X
 f n 1,m 1, 
s 2Y
 2X   2Y  2X   2Y s 2X s 2X
 f n 1,m 1,  / 2 ou  f n 1,m 1,1 / 2
s 2Y s 2Y
Exemplo 9.19
No exemplo 9.18 testamos a igualdade das vidas médias médias das válvulas das marcas
G e H, na suposição de que a variâncias eram iguais. Vamos agora testar, usando os
dados daquele exemplo, a hipótese H 0 :X  Y contra H1 :X2   Y2 ., a um nível de
2 2
significância   0, 02.
Solução:
H 0 :2X  2Y
H1 :X2   Y2
1 1
  0, 02  f 7,9;0,99  5, 613  f 7;9;0,01    0,1488
f 9;7;0,99 6, 719
S2X
S2Y
   s2
 s Y  2

R   x, y  / X2  (  ;f n 1,m 1, )  f n 1, m 1,1  ; 
2
 
d) Cálculo do valor observado da estatística de teste
Os dados produziram as seguintes estimativas:

15.555,5 5.884,9
s 2X   2.222, 21 e s Y2   653,87
7 9
Assim
s 2X 1 1
 3,39 , f 7;9;0,99  5, 613 e f 7;9;0,01    0,1488
s 2Y f9;7;0,99 6, 719
e a região de rejeição de H 0 é portanto,
   s2 
R   x, y  / X2   0;0,1488    5, 613;    
 sY 
e) Decisão:
s 2X
Como  3,39  R  aceitamos H 0 .
s 2Y
Embora haja uma razoável diferença entre as estimativas, isto não é suficiente
para rejeitar a igualdade a um nível de significância de   0, 02.
Se fixarmos   0,10 , a região de aceitação seria

   s 2X 
A   x, y  / 2   0, 271 ; 3, 293   , e neste caso rejeitamos H 0 .
 sY 
9.16 - Teste da Diferença entre as médias de X e Y, normais, independentes com

variâncias desiguais.
Até então, ao testarmos a hipótese H 0 :1   2 contra a alternativa H1 :1   2 , a

suposição básica era a de igualdade das variâncias. Se ao contrário, as variâncias são
desiguais o problema se complica pois a razão de verossimilhança adequada para testar
H 0 depende da razão  X 2 .
2
Y
Um teste aproximado, proposto por Welch é comumente usado neste caso, mas, não
existe ainda, unanimidade sobre o melhor teste a ser adotado.
Temos então que
E  X  Y   1   2
 2X  2Y
Var  X  Y   
n m
Sejam S2X 2
e SY os estimadores não tendenciosos para as duas variâncias.
XY
W
A variável aleatória S2X S2Y é uma estatística de certa forma adequada para

n m
testar H 0 :1   2  0 , principalmente se as variâncias fossem iguais e n = m, pois neste

caso W teria distribuição de Student com 2n-2 graus de liberdade, conforme Teorema
9.4.
No entanto, se  2X   2Y , W não tem distribuição de Student, mas Welch mostra que é

razoável aproximar a verdadeira distribuição de W por uma distribuição de Student com
d graus de liberdade, onde :
2
 S2X S2Y 
  
 n m
d
 S4X S4Y 
 2  
 n  n  1 m  m  1 
2
O número de graus de liberdade d deve ser obtido por interpolação, visto que, quase
certamente não é um inteiro. A hipótese H 0 :1   2  0 será rejeitada a um nível de
significância  , quando w  t  / 2 .
Exemplo 9.20
No Exemplo 9.19, a hipótese H 0 :X  Y foi aceita a um nível de significância de
2 2
  0, 02 e rejeitada quando fixamos   0,10 . Nestas condições o Teorema 9.4 não

tem aplicação para testar H 0 :1   2 . Aplicaremos então o teste de Welch, a um nível
  0, 05 , conforme veremos a seguir:
Os dados do problema são
Amostra de X: n 8 x=756,75 s 2X  2.222, 21

Amostra de Y: m  10 y=780,1 s 2Y  653,88
O valor observado de w é
w
 756, 75  780,1  1, 26
2.222, 21  653.88
8 10
O número de graus de liberdade d é
 2.222, 21 653,88 
2
  2.222, 212  653,88 2 
d        10, 24
 8 10   64  7 100  9 
 
Como t10;0,025  2, 228 e t11;0,025  2, 201 , então interpolamos para obter

aproximadamente o valor de t 0,025  2, 228  0, 24(2, 201  2, 228)  2, 222 .
Como w  1, 26  1, 26  2, 222  aceitamos H 0 .
9.17 - Teste da diferença entre as médias de duas variáveis X e Y, não
independentes.
Em algumas aplicações podemos nos defrontar com duas amostras dependentes. Esta
dependência muitas vezes ocorre intencionalmente. Suponha que se deseja testar o
efeito que a ingestão de bebidas alcóolicas possa provocar em n motoristas.
Numa primeira fase da experiência os n motoristas, em condições normais (sem

consumo de álcool), seriam testados quanto ao tempo que levariam para acionar o freio,
face a um inesperado obstáculo. Estes tempos são variáveis aleatórias Xi , i = 1,2,...,n.
Na segunda fase da experiência, os mesmos motoristas são novamente testados, tendo

cada um deles ingerido uma certa quantidade de bebida alcóolica. Os tempos de reação
registrados nessas condições são as variáveis aleatórias Yi , i = 1, 2,....,n .
A hipótese nula a ser testada é “o tempo de reação das pessoas é o mesmo, em quaisquer
condições” , ou simplesmente E  X  Y   0.
Suponha que as variáveis X e Y tenham distribuição N   X ,  X  e N   Y ,  Y  . Para

2 2
testar a hipótese H 0 : X   Y contra a alternativa H1 : X   Y , obviamente não

podemos aplicar o Teorema 9.1, pois as variáveis X e Y claramente não são
independentes, e, além disso, é aceitável também que as variâncias dos tempos de
reação antes e depois do “tratamento” (ingestão de bebida alcóolica) sejam diferentes.
A seguinte teoria é comumente usada em situações deste tipo.
Seja  X i , Yi  , i = 1,2,3...,n uma amostra aleatória bidimensional de uma variável

aleatória normal de parâmetros  X ,  Y , X , Y e   X,Y  . Sejam Di  X i  Yi , i =
2 2
1,2,3,...,n as diferenças entre os tempos de reação antes e depois , de cada indivíduo.
Observemos que
E  X i  Yi   E  Di    d   X   Y
Var  X i  Yi   Var  D i   2D  2X  2Y  2  X, Y  X  Y
Observemos ainda que  D  0 é equivalente a  X   Y  0 , e assim, podemos aplicar o

teste de T do Teorema 9.2, registrando que:
i)  D  0   X   Y
ii)  D  0   X   Y
iii)  D  0   X   Y
Teorema 9.6
Seja  X i , Yi  , i = 1,2,3...,n uma amostra aleatória bidimensional de uma variável
1 n
aleatória normal de parâmetros  X ,  Y ,  X ,  Y e   X,Y  , e sejam D 
2 2
 Di
n i 1
e
1 n
  Di  D  os estimadores de  D e 2D respectivamente.
2
S2D 
n  1 i 1
Então a estatística Tn 1 
D    D n
tem distribuição de Student com n-1 graus de
SD
liberdade e pode ser aplicada para testar as hipótese abaixo indicadas a um nível de
significância  .
H0 H1 R
X  Y X  Y sD
d  t  n 1,
n
X  Y X  Y s
d   t  n 1, D
n
X  Y X  Y sD
d t  n 1,  / 2
n
Exemplo 9.21
Quinze homens adultos com idade entre 35 e 50 anos participaram de um estudo para
avaliar o efeito de dieta alimentar e exercício físico nos níveis de colesterol. O total de
colesterol foi registrado em cada um deles antes e após três meses de participação em
um programa de dieta e de exercícios. Os dados são mostrados na Tabela abaixo. Teste
a hipótese de que a dieta e os exercícios são valiosos na redução dos níveis de
colesterol, usando o nível de significância de   0, 05 .
Adulto Antes Depois di

d  d
2
i
1 265 229 36 83,418

2 240 231 9 319,218
3 258 227 31 17,084
4 295 240 55 791,484
5 251 238 13 192,284
6 245 241 4 522,884
7 287 234 53 682,951
8 314 256 58 969,284
9 260 247 13 192,284
10 279 239 40 172,484
11 283 246 37 102,684
12 240 218 22 23,684
13 238 219 19 61,884
14 225 226 -1 776,551
15 247 233 14 165,551
403 5.073,729
Solução:
H0 : D  0 H0 : X  Y  0
ou
H1 :  D  0 H1 :  X   Y  0
Tn 1 
D   D n
SD
n
1 1 n
   Di  D 
2
onde D  
2
D i e S D
n i 1 n  1 i 1
 s 
R   x , y  / d  t  n 1, D 
 n
d) Cálculo do valor observado de T.
Conforme totais da tabela de cálculo, temos:

403 5073, 729
d  26,867 , s d2   362, 409 e sd  362, 409  19, 037
15 14
De forma que, sendo t14;0,025  2,145 , temos que
 19, 037 
R  d / d  2,145   10,543
 15 
e) Decisão:
Como d  26,867  10, 543  rejeitamos a hipótese H 0 .
A hipótese nula em questão é aquela definida no Teorema 9.2, ou seja H 0 : X   Y , ou

equivalentemente H 0 : D  0.
Completaremos a análise testando as hipóteses
H 0 : X   Y
H1 : X   Y
Para   0, 05   t14;0,05  1, 761 , de forma que a região crítica é
 19, 033 
R  d / d  1, 761  8, 654 
 15 
como d  26,867  8, 654  aceitamos a hipótese nula, ou seja, a média do nível de
colesterol após o “tratamento” é menor do que a média do mesmo nível antes do
tratamento.
9.18 - Teste da igualdade entre os parâmetros de duas variáveis aleatórias com

distribuição exponencial.
X
O intervalo de confiança para a razão  Y , ou seja, a razão entre os parâmetros de
duas variáveis aleatórias com distribuição exponencial, é igual a
Y Y
L1  f 2n,2m, / 2 e L2  f 2n,2m,1 / 2
X X
Estes limites foram obtidos a partir da análise da probabilidade
Y Y 
P  f 2n ,2m, / 2   X  f 2n ,2m,1 / 2   1  
X  Y X 
Estamos interessados em testar as hipóteses:

X
H0 : =1
H 0 : X   Y Y
ou
H1 : X   Y X
H1 : 1
Y
Se a hipótese nula é verdadeira, rejeitaremos H 0 quando  L1 , L2  não contiver a

unidade. Logo a região crítica do teste é
X  X 
  f 2n ,2m,1 / 2  ou   f 2n,2m, / 2 
Y  Y 
Teorema 9.7
Sejam  X1 , X 2 ,..., X n  e  Y1 , Y2 ,..., Ym  amostras aleatórias das variáveis aleatórias
independentes X, exponencial   X  e Y, exponencial   Y  . Os testes da razão de
verossimilhança generalizada, para testar a razão entre os parâmetros das exponenciais
acima, a um nível de significância  são
H0 H1 R
X  Y X  Y x  f 2n ,2m, 
y
X  Y X  Y x  f 2n,2m,1
y
X  Y X  Y x  f 2n ,2m,  / 2 ou x  f 2n ,2m,1 / 2
y y
Exemplo 9.22
Quinze valores de duas variáveis aleatórias com distribuição exponencial de

parâmetro   5 , foram geradas pelo software Excel e os dados estão na Tabela que
segue.
O procedimento para gerar os valores de X, consistiu em gerar inicialmente 15 valores

da variável aleatória W, Uniforme (0,1), e, aplicar a transformada integral de
 ln(1  w)
probabilidades, ou seja, obter x  . O mesmo procedimento foi adotado para
5
gerar os valores de Y.
Se o processador de números aleatórios for eficiente, o teste de igualdade entre os
X
parâmetros da duas exponenciais deve aceitar a hipótese nula H 0 :  1 contra a
Y
X
hipótese alternativa H1 :  1.
Y
Vamos então realizar este teste a um nível de significância de   0,10 . A Tabela que
segue mostra o resultado da geração de ambas as variáveis:
Observ. Unif (0,1) X, Exp(5) Unif (0,1) Y, Exp(5)

1 0.6438 0.2065 0.7988 0.0449
2 0.8882 0.4383 0.0436 0.6265
3 0.7748 0.2981 0.4532 0.1583
4 0.9625 0.6565 0.4756 0.1486
5 0.2378 0.0543 0.1059 0.4490
6 0.2553 0.0590 0.2702 0.2617
7 0.0956 0.0201 0.6672 0.0809
8 0.1260 0.0269 0.1382 0.3958
9 0.1905 0.0423 0.2449 0.2814
10 0.6000 0.1832 0.3497 0.2101
11 0.8538 0.3845 0.3095 0.2346
12 0.2742 0.0641 0.4622 0.1544
13 0.0822 0.0172 0.8430 0.0342
14 0.1055 0.0223 0.8787 0.0259
15 0.2264 0.0513 0.6527 0.0853
x 1 0.1767 y 1 0.2370
X Y
̂ X 5.6607 Y 4.2202
Conforme o teorema 9.7, a região de rejeição do teste é
R  x, y /  X Y  f 2n,2m,  / 2   X Y  f 2n,2m,1 / 2 

Como n  m  15  f 30,30;0,95  1,841  f30,30;0,05  0,543 .
  x 
De forma que a região crítica é R   x, y  /   0;0,543  1,841;     .
 y 
x 0,1767
Como   0, 7455  R , então aceitamos a hipótese nula de que o processador
y 0, 2370
de números aleatórios do Excel gerou eficientemente duas distribuições exponenciais
com igual média., a um nível de significância   0,10 .
Podemos verificar, que a decisão permanece para   0, 20 , sendo H 0 rejeitada para

  0,50 .
9.19 - Teste da igualdade entre duas proporções (amostras grandes)

Sejam  X1 , X 2 ,..., X n  e  Y1 , Y2 ,..., Ym 
amostras aleatórias das variáveis aleatórias
independentes X e Y, com distribuição de Bernoulli de parâmetros p X e p Y ,
respectivamente. Supondo que n e m são suficientemente grandes testaremos a hipótese
H 0 :p X  p Y contra a alternativa H1 :p X  p Y .
Sejam as estatísticas
1 n  p 1  p X  
X 
n i 1
Xi  N  pX ; X
n

 
1 m  p 1  pY  
Y=  Yj  N  p Y ; Y 
m ji  m 
A variável aleatória diferença entre X e Y é assintoticamente normal tal que
E  X  Y   p X  p Y
p X 1  p X  p Y 1  p Y 
Var  X  Y   
n m
Sob a hipótese H 0 , p X  p Y  p , e obtemos
E  X  Y   0
 1 1   n  m  p 1  p 
Var  X  Y   p 1  p     
n m nm
Nestas condições, o estimador de máxima verossimilhança do parâmetro p é

n m
 X  Y
i 1
i
j1
j
nX  mY
pˆ   pˆ 
nm nm
Podemos então escrever, supondo a hipótese nula verdadeira, que (vide Teorema 4.6)
XY
Z
n  m  nX  mY  nX  mY  é assintoticamente normal padrão.
1
nm  n  m  n  m 
Rejeitaremos H 0 :p X  p Y quando Z  z  / 2 .
Exemplo 9.23
Duas classes A e B de uma Universidade, participaram de uma pesquisa sobre a
escolha: aulas aos sábados ou aulas a partir do mês de fevereiro, no próximo ano letivo.
Numa amostra da classe A, com n = 100 alunos, 40 optaram pela antecipação do
calendário, ou seja: aulas em fevereiro. Numa amostra da classe B, com m = 80 alunos,
56 preferiram aulas aos sábados. Teste a hipótese H 0 de que a proporção dos alunos
que preferem aulas em fevereiro é igual em ambas as classes, a um nível de
significância de   0,10 .
Solução:
Desejamos testar as hipóteses,
H0 : pA  pB
H1 : p A  p B
Sejam as variáveis de Bernoulli tais que
0 aulas aos sábados 0 aulas aos sábados

Xi   Yj  
1 aulas em fevereiro 1 aulas em fevereiro
i = 1,2,...,100 e j = 1,2,3,...,80
Assim definidas as variáveis, temos

40 24
x  0, 4 e nx=40 y=  0,3 e my=24
100 80
0, 4  0,3 0,1
z   1,39
De forma que 100  80  40  24  40  24  0, 00516
 1  
100  80  180  180 
Como z  1,39  z 0,05  1, 64  aceitamos H 0 .
Obs: Um outro tipo de teste para H 0 será estudado na seção 10.
Exercícios 9.
9.1 - Uma simples observação de uma variável aleatória X com distribuição

hipergeométrica de parâmetros N = 7,k e n = 2 é usada para testar a hipótese nula de
que k=2 contra alternativa k=4. Se rejeitamos a hipótese nula se e somente se X assume
o valor o valor 2, encontre as probabilidades dos erros do primeiro e segundo tipo.
9.2 - Uma simples observação de uma variável aleatória geométrica (q) é usada para
testar as hipótese nula H 0 :   0 contra H1 :   1  0 . Se a hipótese nula é rejeitada
se e somente se o valor observado de X é menor ou igual a uma constante k, positiva,
encontre as expressões das probabilidades dos erros do primeiro e segundo tipo.
9.3 - Uma simples observação de uma variável aleatória X com distribuição exponencial
é usada para testar a hipótese nula de que a média da distribuição é   2 contra   5 .
Se a hipótese nula é aceita se e somente se o valor observado de X é menor que 3,
encontre as probabilidades dos erros do primeiro e segundo tipo.
9.4 - Sejam X1 e X 2 uma amostra aleatória de X, N(m,s=1). Se a hipótese nula   0

será rejeitada em favor da hipótese alternativa   1  0 quando x   0  1 , qual a
probabilidade do erro do primeiro tipo?
9.5 - Uma simples observação da variável X com distribuição uniforme no intervalo

 0,  é usada para testar a hipótese H 0 :   0 contra a alternativa H1 :     2 . Se a
hipótese nula é rejeitada se X assume um valor maior do que   1 , encontre as
probabilidades  e .
9.6 - Suponha que X é uma v.a. de Bernoulli com parâmetro p. Toma-se uma amostra de
tamanho 4 de X para se testar H0: p = 0,25 contra H1: p=0,75. Rejeita-se H0 se, e
somente se, a amostra apresentar 4 sucessos. Levando-se em consideração este
procedimento, calcule  e .
9.7 - Seja X1,..., Xn uma amostra aleatória de uma distribuição uniforme no intervalo
(0;), e deseja-se testar a hipótese H0:   2 contra a alternativa H1:  < 2. Seja a
estatística de teste T  X  n  . O procedimento do teste é tal que a região crítica contém
todos os resultados que satisfazem t < 1,5.
(a) Determine a função poder  () desse teste.
(b) Determine o nível de significância  desse teste.
9.8 - Cinco quantidades de óleo foram retiradas do mesmo reservatório e analisadas

quanto ao seus respectivos níveis de ferro. Admite-se que os resultados podem ser
considerados originários de uma distribuição normal de média  e variância 2 = 3.
Sabendo que xi = 265, você aceitaria H0:  = 50 contra H1:  = 55, com um nível de
significância da ordem de 0,05? E se H1:  = 45?
9.9 - Assuma que X é uma v.a. de Poisson de parâmetro . Construa uma região crítica
do melhor teste para as hipóteses H0:  = 2 e H1:  = 1, se baseando numa amostra
aleatória de tamanho n.
9.10 - Seja X uma variável aleatória Beta (;1). Com base numa amostra aleatória de
tamanho n, construa o teste da razão de verossimilhança para testar H0:  = 0 contra
H1:  = 1, sabendo que 0 < 1.
9.11 - Uma variável aleatória X tem distribuição Normal (5;2). Com base numa
amostra aleatória de tamanho n, qual a melhor região de rejeição e a estatística de teste
associada para se testar H0: 2 = 10 contra H1: 2 = 20? Que mudança ocorre na região
crítica caso a hipótese alternativa fosse H1: 2 = 5?
9.12 - Assuma que cada uma das n = 13 mulheres seguiram a mesma dieta por um
período de 2 meses. A quantidade de quilos perdidos foram:
3,9 4,3 5,6 5,6 4,1 6,5 3,7 5,9 4,3 3,7 4,4 5,9 5,0
(a) Assumindo que estes resultados tem origem normal, você aceitaria H0:   4,5
(contra H1:  < 4,5) com  = 0,10?
(b) Utilizando agora  = 0,05, você aceitaria H0: 2  0,8 (contra H1: 2 > 0,8)?
9.13 - Seja uma amostra aleatória de tamanho n = 9 de uma v.a. Normal com parâmetros
desconhecidos. Sabe-se que a realização dessa amostra gerou uma média de 22 e uma
variância s2 = 72.
(a) Teste a hipótese H0:   20 contra H1:  > 20, com um nível de significância 0,05.
(b) Teste a hipótese H0:  = 20 contra H1:   20, com um nível de significância 0,05.
(c) Construa um intervalo de confiança bi-lateral para  com um coeficiente de
confiança de 95%.
A partir do resultado, teste a hipótese nula do item (b). A decisão tomada foi igual à do
item (b)? Por quê?
(d) Calcule o p-valor dos itens (a) e (b). Aplique um teste de significância para as
hipóteses nulas de cada item, com base nos resultados obtidos? As decisões desse item
são as mesmas que os outros? Por quê?
9.14 - Suponha que a especificação do diâmetro de um cabo condutor de eletricidade

tenha desvio padrão não maior que 0,06. Uma amostra aleatória de 18 condutores
forneceu s2 = 0,68. Supondo que o diâmetro de um determinado condutor seja descrito
por uma v.a. X de distribuição normal, teste a hipótese (use  = 0,05) de que a
suposição inicial é verdadeira. Obtenha um intervalo para o p-valor e compare as
decisões.
9.15 - As especificações de um certo tipo de arame registra que sua resistência a

rupturas é aproximadamente normal com média igual a 185 quilos. Se 5 amostras
selecionadas aleatoriamente de cinco diferentes rolos de arame apresentaram rupturas
(em quilos) iguais a
171,6 191,8 178,3 184,9 189,1
teste a hipótese nula H 0 :   185 contra a hipótese alternativa H1 :   185 .
9.16 - 10 recentes graduados da Universidade C foram selecionados ao acaso para um

teste de Q.I., gerando os seguintes resultados: 120, 101, 87, 120, 107, 110, 118, 119,
112 e 104. Também foram selecionados 10 alunos da Universidade P para o mesmo
teste, resultando em: 130, 133, 119, 123, 125, 124, 133, 120, 126, 126.
(a) Admitindo normalidade em ambas as populações de alunos amostradas e igualdade
das variâncias, você aceitaria que o resultado médio de um teste de Q.I. para ambos os
tipos de graduados é o mesmo? Use  = 0,10.
(b) Suponha agora que as variâncias não são necessariamente iguais. Teste, portanto, se
elas são de fato da mesma ordem de grandeza, com  = 0,10. O resultado desse teste
muda a sua decisão tomada no ítem (a)?
9.17 - É assumido que o número de dias entre a ocorrência de terremotos é uma v.a.
exponencialmente distribuída com taxa de ocorrência . Numa região A, os números de
dias entre os 9 mais recentes terremotos foram:
2,036 0,753 0,480 5,816 6,067 1,449 1,448 1,604
Na região B, os números de dias entre os 12 mais recentes terremotos foram:
1,972 4,054 2,801 2,227 3,826 2,984 1,193 1,996 0,982 2,325 3,404
Você aceitaria, com base nos dados obtidos, que as ocorrências de terremotos se dão
com a mesma taxa nas duas regiões , a um nível de significância à sua escolha?.
Calcule o p-valor do teste e faça os comentários que julgar convenientes.
9.18 - Uma pesquisa sobre aceitação das privatizações de companhias telefônicas foi
realizada no Rio e em São Paulo. Dentre 400 cariocas, 90 se declararam favoráveis,
enquanto que, dentre 220 paulistas, 64 se declararam contrários. Teste a hipótese de que
a aceitação popular sobre as privatizações nas duas cidades é o mesmo, com base apenas
no p-valor obtido, sem fixar qualquer nível de significância.
9.19 - Para comparar duas qualidades de tinta, um consumidor testou na prática, 4

galões de marca A, que foram suficientes para pintar em média, uma superfície de 1 =
546 dcm2 com um desvio padrão de  = 31 cm . Quatro galões da marca B
apresentaram os seguintes resultados análogos:  2  492 dcm 2 e  2  26 dcm .
Supondo que as duas populações sejam normais, com a mesma variância, teste a
hipótese de igualdade das médias, com   0, 05 .
9.20 - Deseja-se estudar o número de almoços de negócios que os executivos declaram

como despesas deduzíveis no mês. Quarenta executivos da área bancária foram
entrevistados e obteve-se: x  9,1 e s X  1,9 . Cinqüenta executivos da área de seguros
produziram os resultados: y  8, 0 e s Y  2,1 . Supondo que as amostras são normais
com a mesma variância, teste a hipótese de que não há diferenças entre as médias das
duas populações. Use   0, 05 .
9.21 - Amostras de duas qualidades de aço temperado foram realizadas para comparar
a resistência a tensão (medidas em unidades de 1000 quilos por polegada quadrada) do
produto. As amostras resultaram em: s 2X  19, 2 para n=13 e s2Y  16 para m=16 .
Supondo que as medidas constituem amostras de variáveis aleatórias independentes com
distribuição normal, teste a hipótese de igualdade das variâncias das duas populações.
Use   0, 02 .
9.22 - Considere o exercício 9.18 e teste a hipótese H 0 : X  Y contra a hipótese
H1 : X  Y , a um nível de significância de   0, 05 .
9.23 - Dois catalisadores estão sendo analisados para determinar o quanto eles influem
na produção média de um processo químico. O catalisador 1 está em uso, mas o
catalisador 2, por ser mais barato, poderia vir a ser adotado desde que não altere o
processo em questão.
Duas amostras de produção assistidas pelos catalisadores 1 e 2 seguem abaixo. Supondo
que as amostras tem origem normal com variâncias iguais, teste a hipótese de igualdade
das médias dos dois processos, a um nível de significância de   0, 05.
Observ. Catalisador 1 Catalisador 2

1 91,50 89,19.
2 94,18 90,95
3 92,18 90,46
4 95,39 93,21
5 91,79 97,19
6 89,07 97,04
7 94,72 91,07
8 89,21 92,75
10. A Distribuição Multinomial - Teste Qui-Quadrado.
Uma importante generalização da prova de Bernoulli (p), é a chamada prova

multinomial. Uma prova de Bernoulli (p) pode produzir dois resultados possíveis:
sucesso ou fracasso, sim ou não, feminino ou masculino, os números 0 ou 1, etc.... .
Comumente denotamos por p e q (p+q=1) as probabilidades dos dois resultados
descritos.
Uma prova é dita multinomial quando a experiência geradora produz 3 ou mais
resultados. Se alguma classificação pode ser atribuída a um valor observado de uma
experiência, então podemos definir para cada classificação possível uma respectiva
probabilidade.
As alturas de um grupo de pessoas podem ser classificadas em baixa, média ou alta,

através de um critério de classificação. Se deste grupo de pessoas, selecionarmos
aleatoriamente um elemento, temos definidas três probabilidades:
P(seleção de um elemento baixo) = p1

P(seleção de um elemento médio) = p 2
3
P(seleção de um elemento alto) = p3 , p
i 1
i 1
6
Se um dado é lançado temos k = 6 resultados possíveis e pi  1/ 6, sendo p
i 1
i  1.
Uma peça manufaturada pode ter defeito grave, defeito não grave ou ser não defeituosa.
3
Neste caso temos p
i 1
i  1.
Portanto, uma prova multinomial tem k diferentes resultados possíveis. Se k = 2 a

prova é dita binomial, modelada pela distribuição de Bernoulli (p). No caso da
Bernoulli, apenas um parâmetro é especificado, isto é, se p é uma das probabilidades da
prova então (1-p) é a outra probabilidade. Numa prova multinomial, com k resultados
possíveis, apenas (k-1) probabilidades são especificadas, tendo em vista que
p k  1   p1  p 2  ...  p k 1  .
Suponha agora que uma prova multinomial seja repetida n vezes, cada uma delas com
os mesmos k resultados possíveis, e sejam p1 , p 2 ,..., p k , suas respectivas probabilidades
associadas.
Denotemos por Xi , i = 1,2,...,n , a variável aleatória que se identifica ao resultado

ocorrido na i-ésima prova. Se as n realizações são independentes, o resultado final das n
provas é então uma variável aleatória n-dimensional  X1 , X 2 ,..., X n  .
Se  X1 , X 2 ,..., X n  é uma variável aleatória n-dimensional, sua função de probabilidade,

representada por P  X1  x1 , X 2  x 2 ,..., X n  x n  é o produto de n probabilidades,
sendo cada fator do produto uma das probabilidades p1 , p 2 ,..., p k .
Retomemos o exemplo de seleção de um elemento de um grupo de pessoas, com o

objetivo de classificá-lo quanto à sua altura. Suponha que as probabilidades dos
atributos (k=3 resultados) sejam
P(alta) = 0,20 P(média) = 0,50 P(baixa) = 0,30
Suponha que n = 4 elementos sejam selecionados do grupo. Nestas condições o espaço

amostra S, da experiência é constituído por 34 pontos  x1 , x 2 , x 3 , x 4  .
Porque supomos independência das provas, a probabilidade de cada  x1 , x 2 , x 3 , x 4  é o

produto de 4 probabilidades. Representando os resultados alta, média ou baixa, de cada
prova, por 1, 2 ou 3, respectivamente, teremos
P  X1  1, X 2  1, X 3  1, X 4  1  (0, 2) 4
P  X1  2, X 2  1, X 3  3, X 4  1  (0,5)(0, 2)(0,3)(0, 2)
P  X1  3, X 2  3, X 3  3, X 4  2   (0,3)3 (0,5)
Consideremos agora a variável aleatória Yj que se identifica ao número de ocorrências

k
do atributo j = 1,2,...,k, nas n provas. Obviamente  Y  n.

j1
j O quadro abaixo mostra
algumas relações entre as variáveis Xi , i = 1,2,...,n e as variáveis Yj , j = 1,2,...,k

para o caso exemplificado, quando k=3 e n=4.
X1 X2 X3 X4 Y1 Y2 Y3
1 1 1 1 4 0 0
3 3 2 2 0 2 2
1 1 1 3 3 0 1
2 2 2 2 0 4 0
3 2 3 1 1 1 2
Para avaliar a probabilidade do evento  Y1  1, Y2  1, Y3  2  , devemos somar as

probabilidades de todas as quadruplas que contem dois 3’s , um 2 e um 1. A
probabilidade de cada um destes pontos de S é igual  0, 2   0,5   0,3  e existem
1 1 2
4!
destes pontos em S.
1!1!2!
Logo,
4!
P  Y1  1, Y2  1, Y3  2    0, 2   0,5   0,3
1 1 2
1!1!2!

3
y j  0,1, 2,3, 4 p1  p 2  p3  1 j1
yj  4
Se n = 10 elementos são selecionados do grupo, o modelo seria.
10!
P  Y1  y1 , Y2  y 2 , Y3  y3    0, 2   0,5   0,3 
y 1 y y 2 3
y1 !y 2 !y3 !

3
y j  0,1, 2,...,10 p1  p 2  p3  1 j1
y j  10
Definição 10.1
Sejam n provas multinomiais com k resultados possíveis e respectivas probabilidades
p j , j = 1,2,...,k. Se Yj se identifica ao número de vezes que o resultado j ocorre nas n
provas, j = 1,2,...,k, então a função de probabilidade do vetor  Y1 , Y2 ,..., Yk  é
n!
P  Y1  y1 , Y2  y 2 ,..., Yk  y k    p1   p 2  ....  p k 
y y 1 y 2 k
y1 !y 2 !...y k !

k
y j  0,1, 2,...., n p1  p 2  ...  p k  1 j1
yj  n
e nestas condições a vetor  Y1 , Y2 ,..., Yk  é denominado variável aleatória multinomial
de parâmetros n, p1 , p 2 ,..., p k .
É interessante observar que se k = 2, a variável aleatória  Y1 , Y2  coincide com a

variável aleatória binomial (n, p1 ), pois Y2 assume o valor (n- Y1 ),
n!
P  Y1  y1 , Y2  y 2    p1   p 2 
y 1 n y 1
y1 ! n  y1  !

2
y j  0,1, 2,...., n p1  p 2  1 j1
yj  n
Como p1  p 2  1 e y 2  n  y1 , temos então que,

n! y n y n
P  Y1  y1    p1  1  p1      p1  1 1  p1  1
1
y 1
n y
y1 ! n  y1 !  y1 
y1  0,1, 2,...., n
Prova-se facilmente que as distribuições marginais de  Y1 , Y2 ,..., Yk  têm distribuição

Binomial de médias n p j e variância n p j (1  p j ) . A prova teórica não será aqui
apresentada, mas nós podemos verificar que em cada uma das n provas independentes,
ocorre o resultado j (sucesso), ou um resultado diferente de j (fracasso) com
probabilidades p j e 1-p j  respectivamente. Assim, a variável Yj é Binomial com
média np j e variância np j 1  p j  .
Teorema 10.1
Seja  Y1 , Y2 ,..., Yk  uma variável aleatória multinomial com parâmetros n, p1 , p 2 ,..., p k .
 Y  np 
2
k
Para n suficientemente grande a variável aleatória Q k 1  
j j
tem
np j j1
aproximadamente, distribuição qui-quadrado com k-1 graus de liberdade, isto é

lim FQk1  t   F  t  , para todo t.
2
n  k 1
Para n suficientemente grande a distribuição de cada Yj , j = 1,2,...,n é assintoticamente

Yj  np j
N  np j ; np j 1  p j   , e, consequentemente, podemos escrever que Z  é
np 1  p  j j
 Y  np 
2
j j
assintoticamente N(0,1), e em conseqüência Z 2
 tem distribuição
np 1  p  j j
aproximadamente igual à da variável aleatória qui-quadrado com 1 grau de liberdade.
Assim, para j = 1, representemos Z2 por
 Y  np1    Y1  np1   Y  np1 

2 2 2
Q1  1  1
np1 1  p1  np1 n 1  p1 
Se Y2  n  Y1 e p 2  1  p1 , então  Y1  np1    Y2  np 2  e, assim,

2 2
 Y  np 
2
 Y  np1   Y  np2 
2 2
2

j j
Q1  1  2
np1 np 2 j1 np j
tem distribuição qui-quadrado com 1 grau de liberdade.
Consideremos  Y1 , Y2 ,..., Yk  uma variável aleatória com distribuição multinomial,
conforme Definição 10.1. Se Yk  n   Y1 , Y2 ,..., Yk 1  e p k  1   p1  p 2  ...  p k 1  ,
 Y  np 
2
k
prova-se em um nível mais avançado que o deste texto que Q k 1  
j j
tem
np j j1
distribuição aproximadamente igual à da variável aleatória qui-quadrado com k-1 graus

de liberdade.
A maioria dos autores alerta para o fato de que tal aproximação pode ser utilizada, com
um n suficientemente grande, mas de tal forma que np j  5 .
A aplicação do Teorema 10.1 é vasta. A variável aleatória Q k 1 é uma estatística

adequada para hipóteses não paramétricas de independência, homogeneidade e também
de aderência (ou adequabilidade de ajustamento) entre uma distribuição teórica e uma
empírica.
10.1 - Teste  2 de Adequabilidade.
Consideremos uma experiência aleatória E com espaço amostra S e seja A j , j =

k
1,2,...,k uma partição de S, isto é, A

j1
j  S e Ai  A j   .
Sejam p j  P  A j  , j = 1,2,...,k onde p k  1   p1  p 2  ...  p k 1  , de tal forma que p j é a

probabilidade de que um resultado de E seja elemento de A j .
Se a experiência E é repetida n vezes e se Yj se identifica ao número de vezes que um

elemento de A j ocorreu, então  Y1 , Y2 ,..., Yk  é uma variável aleatória multinomial de
parâmetros n, p1 , p 2 ,..., p k , onde Yk  n   Y1  Y2  ...  Yk 1  .
Seja a hipótese nula H 0 :p1  p1,0 ,p 2  p 2,0 ,...,p k-1  p k 1,0 , contra a hipótese
alternativa de que , simplesmente H 0 é falsa.
 Y  np 
2
k
Se a hipótese nula é verdadeira a variável aleatória Qk 1  
j j,0
tem
np j,0 j1
distribuição aproximadamente igual à da variável aleatória qui-quadrado com k-1 graus

de liberdade.
Se H 0 é verdadeira , então np j,0 é o valor esperado de Yj , e por isso esperamos que

Yj  np j,0 assumam valores pequenos, para j = 1,2,...,k. Com esta intuição rejeitaremos
a hipótese H 0 quando Q k 1  c . Se  é o nível de significância desejado, então
P  Q k 1  c / H 0    .
Exemplo 10.1
Um dos primeiros seis números inteiros é escolhido ao acaso. Assim, A j  x / x  j , j
= 1,2,..,6. Na realidade esta experiência coincide com a do lançamento de um dado com
o objetivo de se verificar o ponto obtido. Seja =0,05 e vamos testar a hipótese de que a
seleção aleatória é eficiente, ou seja, que o dado é perfeito. A hipótese nula é
equivalente a
1
H 0 :P(A j )  p j,0  , j = 1,2,...,6
6
e a hipótese alternativa é simplesmente a negação de H 0 . Para realizar o teste, a

experiência foi realizada 60 vezes, sempre nas mesmas condições.
  Y  10
6 2
1
Temos então que, np j,0  60   10 e Q  j1 j
é 52 . Consultando a
6 5
10
tabela adequadamente, verificamos que P  Q5  11.1  0, 05 .
Suponha agora que as freqüências empíricas dos eventos A j , j = 1,2,...,6 tenham sido
  Y  10
6 2
j
13, 19, 11, 8, 5 e 4, respectivamente. O valor observado de Q  j1 é
5
10
então
13  10  19  10  11  10   8  10   5  10   4  10 

2 2 2 2 2 2
Q5        15, 6
10 10 10 10 10 10
Como Q5,observ  15, 6  5;0,95  11,1 , a hipótese H 0 é rejeitada a um nível de

2
significância de 5%.
O p-valor do teste é P  5  15, 6   0, 0081 , ou seja o teste é significante e rejeitamos

2
H0 .
Exemplo 10.2
Um ponto X é selecionado aleatoriamente no intervalo (0,1). Consideremos os eventos
A1  x / 0  x  1/ 4
A 2  x /1/ 4  x  1/ 2
A 3  x /1/ 2  x  3 / 4
A 4  x / 3 / 4  x  1
A experiência foi realizada n = 160 vezes e a partir de X, uniforme em (0,1) foram

gerados os respectivos valores da variável aleatória Yj com densidade
f  x   2x se 0<x<1 .
As freqüências dos eventos A j , j = 1,2,3,4, foram respectivamente: 12, 24, 50 e 74.

Vamos testar a hipótese H 0 : “a distribuição de X é da forma f  x   2x se 0<x<1 ”,
a um nível de significância de =0,025.
Sob a hipótese H 0 , temos que
1
4
1 3 5 7
p1,0   2xdx  16 ;
0
p 2,0 
16
; p 3,0 
16
e p 4,0 
16
e consequentemente, como n = 160, os valores esperados np j,0 de Yj , são 10, 30, 50 e

70, para j = 1,2,3,4 , respectivamente.
Assim,
12  10  24  30   50  50   74  70 
2 2 2 2
Q3      1,82857
10 30 50 70
Como Q3,observ  1,82857  3;0,975  9,35  aceitamos H 0 .
Para completar, calculamos p-valor = P  3  1,82857   0, 60874 , ou seja, os dados

2
não são significantes e assim aceitamos H 0 .
Exemplo 10.3
O exemplo anterior pode ser resolvido de uma maneira diferente, mas que em geral
proporciona um teste com maior poder. Os 160 valores da distribuição do exemplo
anterior foram gerados pelo software Excel. Vamos agora definir os eventos A j , tais
que P  A j   0, 25 j=1,2,3,4. Desta forma os eventos em questão são:
A1  x / 0  x  0,50
A 2  x / 0,50  x  0, 70711
A 3  x / 0, 70711  x  0,86603
A 4  x / 0,86603  x  1
As freqüências dos eventos A j , j = 1,2,3,4 nestes intervalos foram 36, 39, 36 e 49 e
assim,
 36  40  39  40  36  40   49  40 
2 2 2 2
Q3      2,85
40 40 40 40
Como Q3,observ  2,85  3;0,975  9,35  aceitamos H 0 .
O p-valor do teste é: P Q3  2,85  0, 4153 , confirmando a decisão.
Definição 10.2
Seja  X1 , X 2 ,..., X n 
uma amostra aleatória de uma variável aleatória X cuja
distribuição é completamente especificada e definida em R. Se A j , j = 1,2,3...,k é
uma qualquer partição de R e Yj , j = 1,2,...,k é o número de valores X is que
pertencem a A j , então  Y1 , Y2 ,..., Yk  é uma variável aleatória multinomial com
parâmetros n, p1 , p 2 ,.., p k , onde p j  P  X  A j  , para j = 1,2,...,k.
Nós podemos então usar o Teorema 10.2 para testar se uma amostra  X1 , X 2 ,..., X n 
tem origem em uma especificada distribuição de probabilidades. Os exemplos 10.1 a
10.3 são aplicações desta teoria.
Exemplo 10.4
Os 30 valores abaixo foram gerados pelo Excell sob a hipótese de normalidade, com
média 7 e desvio padrão 1.5.
3.77 6.19 6.83 7.15 7.83 8.48

4.52 6.25 6.89 7.49 7.88 8.66
4.59 6.27 6.90 7.56 7.92 9.18
6.05 6.69 6.92 7.60 8.06 9.36
6.14 6.82 7.13 7.77 8.32 9.69
Vamos a seguir testar a hipótese de que realmente os dados tem origem X, N(7;1.5), o
que eqüivale testar a hipótese que o processador é eficiente na geração de distribuição
de probabilidades normais.
(x  7)
A tabela seguinte mostra os valores y  que, segundo H 0 tem distribuição
1,5
N(0,1).
-2.15 -0.54 -0.11 0.10 0.55 0.99

-1.65 -0.50 -0.07 0.33 0.59 1.11
-1.61 -0.49 -0.06 0.38 0.61 1.45
-0.64 -0.21 -0.05 0.40 0.71 1.57
-0.57 -0.12 0.09 0.51 0.88 1.79
Considere a partição do intervalo (-3;3) do domínio de uma variável aleatória N(0,1),

abaixo;
A1  x /  3  x  0,97
A 2  x /  0.97  x  0, 43
A 3  x /  0, 43  x  0
A 4  x / 0  x  0, 43
A 5  x / 0, 43  x  0,97
A 6  x / 0,97  x  3
A partição acima foi construída de forma que p j  P  A j   0,166 para todo j =

1,2,3,4,5,6. As freqüências absolutas correspondentes ao eventos A j , j = 1,2,...,6 são
respectivamente 3, 5, 6, 5, 6 e 5.
Para todo j = 1,2,...,6 as freqüências esperadas np j  30  0,166  5 ,e então

 3  5  5  5  6  5 5  5  6  5 5  5
2 2 2 2 2 2
Q5        1, 2
5 5 5 5 5 5
Como Q5  1, 2  5;0,95  11,1  aceitamos a hipótese H 0 a um nível de significância

2
=0,05.
O p-valor do teste é P  5  1, 2   0,9 0, e portanto os dados não são significantes a

2
ponto de rejeitarmos a hipótese nula.
O Teorema 10.1 é de utilidade quando desejamos testar se uma amostra tem origem
completamente especificada, ou seja, quando conhecemos a forma e os parâmetros da
distribuição de X. Em muitas aplicações no entanto vamos testar uma hipótese, por
exemplo, de que a distribuição é normal, mas sem especificar os valores paramétricos
correspondentes. A solução consiste em estimar tais parâmetros e usar o teorema que
segue, que constitui uma variação do Teorema 10.1.
Teorema 10.2
Seja  X1 , X 2 ,..., X n  uma amostra de uma variável aleatória X, cuja função de
distribuição FX  x  , definida em R, depende de s parâmetros desconhecidos.
Seja A j , j=1,2,..,k uma partição de R e seja  Y1 , Y2 ,..., Yk 
a variável aleatória
multinomial de parâmetros n, p1 , p 2 ,.., p k , associada à partição. Se Pˆ1 , Pˆ 2 ,.., Pˆ k são os
estimadores de máxima verossimilhança de p1 , p 2 ,.., p k , obtidos a partir de
 Y  nPˆ 
2
k
 Y1 , Y2 ,..., Yk  , então a distribuição de Q   converge em distribuição
j j
nPˆ j j1
para a distribuição de uma variável aleatória qui-quadrado com k-1-s graus de

liberdade.
Nota: Não é aconselhável aplicar esta teoria se np j  5 . Se possível, intervalos de

classe contíguos podem ser reunidos para atender a restrição.
Exemplo 10.5
A indústria Yakemaha produz um tipo de circuito eletrônico para diversos tipos de
equipamentos. A empresa pretende testar a hipótese de que a vida média desse produto
tem distribuição exponencial de parâmetro 0,01, e, para isto ofereceu substituição grátis
a 200 clientes compradores do circuito. Este procedimento lhe proporcionou obter 200
valores observados da variável aleatória “tempo de vida do circuito”. O quadro abaixo
dispõe os dados em uma tabela de distribuição de freqüências.
L1 L2 Freq. Pto.médio Total

0 10.53 24 5.265 126.36
10.53 22.31 22 16.42 361.24
22.31 35.66 24 28.985 695.64
35.66 51.08 16 43.37 693.92
51.08 69.31 22 60.19 1324.18
69.31 91.62 17 80.46 1367.82
91.62 120.39 20 106 2120
120.39 160.94 20 140.66 2813.2
160.94 230.25 14 195.59 2738.26
.>230,25 21 332.39 6980.19
200 19220.81
Os dados foram classificados em 10 intervalos de classe limitados superiormente (L2)
pelo decil de uma distribuição exponencial (0,01), isto é, o L2 do terceiro intervalo, foi
calculado da forma
FX  (L2) 3   0,30  1  e
0,01 L 2 3
 0,30  (L2) 3  100  ln(0, 70)  35, 66
Para obter a vida total dos 200 produtos foram definidos os pontos médios das classes e
estes, multiplicados pelas freqüências observadas compõem a última coluna do quadro,
cujo total dividido por 200 produziu a estimativa desejada da duração média de vida dos
circuitos e a correspondente estimativa do parâmetro  da variável exponencial, de
acordo com a hipótese a ser testada.
19.220,81
x  96,10405  ˆ =1/96,10405=0,01041
200
Com relação a atribuição de um valor de x para a última freqüência, um raciocínio

lógico seria obter o valor médio de X quando X > 230,25. Se X é, sob a hipótese H 0 ,
uma variável exponencial, então X é sem memória e,
P  X  x / X  a   P(X  x  a)
P  X  x / X  a   P(X  x  a)
f X / X a  x   e  x a  x>a
Podemos agora calcular o valor esperado da variável aleatória (X/X>a), sendo X

exponencial (  ).

1
E  X / X  a    xe  dx  a 
 x  a
a

Como (200-21) durações foram menores do que 230,25 então este valor pode ser usado
200  21 179
como estimativa do percentil de ordem   0,895 .
200 200
E assim, podemos escrever
230,25

0
ex dx  0,895   =0,00979  1/ =102,14

E X / X  a  
  x a 
Logo,  xe
a
dx  230, 25  102,14  332,39
O quadro que segue mostra o cálculo de Q10 11  Q8 . Observe que s = 1 parâmetro foi
estimado.
L1 L2 yj p̂ j n p̂ j y  npˆ j   npˆ j
2
j
0 10.53 24 0.1038 20.7646 0.5041

10.53 22.31 22 0.1034 20.6854 0.0836
22.31 35.66 24 0.1029 20.5717 0.5713
35.66 51.08 16 0.1023 20.4623 0.9731
51.08 69.31 22 0.1016 20.3131 0.1401
69.31 91.62 17 0.1007 20.1453 0.4911
91.62 120.39 20 0.0997 19.9431 0.0002
120.39 160.94 20 0.0983 19.6673 0.0056
160.94 230.25 14 0.0962 19.2473 1.4306
> 230,25 21 0.0910 18.1999 0.4308
200 200 4.6304
Note, por exemplo que, p̂ 2  FX  22, 31  FX 10,53  e

10,53 
 e 22,31 , e sendo
ˆ  0, 01041 , p̂ 2  e 0,10962  e0,23225  0,89617  0, 79275  0,10342 .
A um nível =0,05, Q8;0,95  15,5 , e assim, decidimos aceitar a hipótese nula já que
Q8;observ.  4, 6304  15,5 . O p-valor é igual a P 82  4, 6304 =0,2037 , confirmando a
decisão.
Exemplo 10.6
Testar a hipótese que os dados da primeira e segunda coluna da tabela abaixo, tem
origem numa distribuição de Poisson. Use  = 0,05.
Solução:
Para determinar o correspondente conjunto de freqüências esperadas, primeiramente
1.341
estimaremos a média da amostra e obtemos ˆ   3, 05 ou aproximadamente
440
ˆ  3 . Assim, a terceira coluna contém a distribuição teórica de Poisson de parâmetro
  3 . A quarta coluna é o produto da terceira coluna pela freqüência total n = 440.
Erros Fobserv Pteórica Fesperada

 Y  np 
2
j j / np j
0 18 0,0498 21,912 0,6984
1 53 0,1494 65,736 2,4675
2 103 0,2240 98,56 0,2000
3 107 0,2240 98,56 0,7227
4 82 0,1680 73,92 0,8832
5 46 0,1008 44,352 0,0612
6 18 0,0504 22,176 0,7864
7 10 0,0216 9,504 0,0259
8 2 0,0081 3,564 0,6863
9 1 0,0027 1,188 0,0298
soma 440 6,5614
Observamos no entanto que np8 = 3,564 e np9 = 1,188 são ambas menores do que 5 e
desta forma, devemos reunir a duas freqüências, em uma única para atender a condição
np j  5 . Como a soma destas duas freqüências é igual a 4,752 < 5, então, a solução é
reunir as freqüências de x = 7, 8 e 9.
A nova tabela então seria:
Erros Fobserv Pteórica Fesperada

 Y  np 
2
j j / np j
0 18 0,0498 21,912 0,6984
1 53 0,1494 65,736 2,4675
2 103 0,2240 98,560 0,2000
3 107 0,2240 98,560 0,7227
4 82 0,1680 73,920 0,8832
5 46 0,1008 44,352 0,0612
6 18 0,0504 22,176 0,7864
7 13 0,0324 14,256 0,1107
soma 440 5,9301
O número de graus de liberdade é igual a k-1-s = 8-1-1 = 6, onde s = 1 corresponde ao

grau de liberdade perdido quando se estimou  .
Assim Q9 11  Q 7  6, 4912  7  14,1  não rejeitamos a hipótese de que os dados
2
são originários de uma distribuição de Poisson.
10.2 - Independência de Variáveis
Suponha que uma amostra de uma população tenha por objetivo o registro de duas
características de cada elemento da população. Representemos estas características
(variáveis aleatórias) por X e Y. Freqüentemente, um dos objetivos da análise estatística
é avaliar a relação entre X e Y. Dado um valor de X podemos estimar um valor de Y?
Se Y depende de X, podemos de alguma forma relacionar X e Y e obter uma estimativa
de Y dado X, e nesse caso diremos que X e Y são dependentes. Se um valor de X não
proporciona nenhuma informação sobre o valor de Y, dizemos que X e Y são variáveis
aleatórias independentes.
Suponha que desejamos estimar a renda média de uma família moradora numa
determinada cidade. Se temos informação sobre a classe social desta família, poderemos
estimar com maior precisão essa renda, pois sabemos que existe uma certa dependência
entre as variáveis renda e classe social.
Se de uma turma de graduação de Engenharia selecionarmos um elemento com o

objetivo de registrar o seu sexo, esperamos em geral, selecionar um elemento do sexo
masculino. Sabemos que existe uma relação forte entre a escolha de certas carreiras e o
sexo.
Exemplo 10.7
Duzentos estudantes de Economia e Administração de uma Universidade, foram
classificados segundo o sexo, e os dados compõem a tabela abaixo:
Curso/Sexo Masculino Feminino Total

Economia 85 35 120
Administração 55 25 80
Total 140 60 200
Como veremos brevemente, aplicando o teste Qui-quadrado de Independência,

calculamos Q1  0, 09919 o que nos leva a aceitar a hipótese de independência entre as
variáveis Curso e Sexo a um nível de significância de 0,01, visto que Q1;0,99  6, 63 .
A tabela abaixo considera as freqüências de cada coluna obtidas com os percentuais da

coluna de total:
Economia 84 36 0,60
Administração 56 24 0,40
Total 140 60 200
Se o mesmo procedimento for realizado usando a linha de total obtemos as seguintes

freqüências:
Economia 84 36 120
Administração 56 24 80
Total 0,70 0,30 200
Os dois últimos quadros mostram que, se usarmos a distribuição marginal da variável

Curso sobre o total das colunas de Sexo, o resultado é bem próximo dos valores
originais observados. O mesmo acontece quando usamos a distribuição marginal da
variável sexo e a aplicamos sobre o total das colunas de Curso. Estas considerações nos
leva a sugerir que as variáveis X e Y são independentes.
Exemplo 10.8
Consideremos agora um exemplo similar mas envolvendo alunos de Física e Ciências
Sociais. O quadro abaixo reune as freqüências das variáveis sexo e disciplina para
análise.

Física 100 20 120
Ciências Sociais 40 40 80
Total 140 60 200
Como veremos brevemente, aplicando o teste Qui-quadrado de Independência,

calculamos Q1  25,3961 o que nos leva a aceitar a rejeitar independência entre as
variáveis Curso e Sexo a um nível de significância de 0,005, visto que Q1;0,995  7,88 .
A tabela abaixo mostra as freqüências de cada célula e o seu correspondente percentual

em relação ao total da coluna.

Física 100(0,71) 20(0,33) (120)0,60
Ciências Sociais 40(0,29) 40(0,67) (80)0,40
Total 140 60 200
O que se observa claramente é que existe uma maior concentração do sexo masculino
(71%) no curso de Física e do sexo feminino (67%) no curso de Ciências Sociais. Isto
quer dizer que se selecionarmos aleatoriamente um aluno do sexo masculino é grande a
chance dele cursar Física, enquanto que se o aluno é do sexo feminino é mais provável
que o curso que freqüenta é Ciências Sociais.
10. 3 - Tabelas de Contingência - Teste de Independência.
Muitas vezes na prática, os n elementos de uma amostra são classificados de acordo

com dois diferentes critérios. Por exemplo, consideremos uma amostra aleatória de n
estatísticos. Cada um deles será classificado segundo dois critérios: salário inicial e área
de especialização.
Em geral, uma questão de grande interesse, consiste em testar a hipótese de que os dois
critérios são independentes.
Suponha que o critério 1 tenha três níveis salariais, nomeados A, B e C, e que o critério
2 classifique cada estatístico segundo as especializações: Amostragem, Demografia e
Econometria. O quadro abaixo apresenta um exemplo de classificação, segundo os dois
critérios, com base numa amostra de tamanho n = 100.
Amostragem Demografia Econometria Total

A 12 15 10 37
B 10 14 5 29
C 10 12 12 34
Total 32 41 27 100
Representemos por Yij , i = 1,2,..,r e j = 1,2,..,c o número de elementos na amostra

classificados no nível i, pelo critério 1, e no nível j, pelo critério 2. Seja ainda pij , a
probabilidade de um elemento da população ser classificado no nível i, segundo o
critério 1, e no nível j, de acordo com o critério 2.
Se por exemplo, r = 3 e c = 3, a matriz dos vetores multinomiais abaixo é chamada

tabela de contingência.
Y11 Y12 Y13

Y21 Y22 Y23
Y31 Y32 Y33
As linhas da tabela descrevem os níveis do critério 1, e as colunas os níveis do critério

2.
A toda tabela de contingência, está associada a matriz de probabilidades correspondente,
conforme abaixo
p11 p12 p13

p 21 p 22 p 23
p31 p32 p33
Analogamente a uma função de probabilidade de uma variável aleatória bidimensional

do tipo discreto, temos que
3
pi.   p ij  P(elemento do nível i, critério 1)
j1
3
p. j   p ij  P(elemento do nível j, critério 2)
i 1
Se de fato os critérios de classificação são independentes então é verdade que
pij  pi.  p.j
Em outras palavras, a probabilidade de seleção de um elemento da população

classificado nos níveis i e j, dos critérios 1 e 2 respectivamente, é igual a probabilidade
de seleção de um elemento classificado no nível i vezes a probabilidade de seleção de
um elemento classificado no nível j.
Os estimadores de máxima verossimilhança para os parâmetros pi. e p.j são
respectivamente
Y Y
Pî.  i. e Pˆ.j  . j
n n
e, em conseqüência, o estimador de máxima verossimilhança para a probabilidade do
resultado (i,j), sob a hipótese nula é
Y Y
Pîj  i. 2 . j  Pî.Pˆ. j
n
e, desta forma, o estimador para o valor esperado de Yij é
Y Y
E ij  nPîj  i. . j
n
Finalmente, de acordo com o Teorema 10.2, se a hipótese nula é verdadeira, isto é,

H 0 : pij  pi.  p.j , a variável aleatória
2
r c  Yij  E ij 
Q   
i 1 j1 E ij
tem distribuição aproximadamente igual à da distribuição qui quadrado com

rc-1-[(r-1)+(c-1)] = (r-1)(c-1) graus de liberdade .
Se H 0 é verdadeira esperamos que as diferenças entre os valores observados Yij e os

valores esperados E ij , sejam pequenas e isto indica que devemos rejeitar H 0 quando Q
for maior que um valor c, selecionado da variável aleatória qui quadrado com (r-1)(c-1)
graus de liberdade, de acordo com um nível de significância  fixado.
Exemplo 10.9
Um estudo desenvolvido em 1956 no Canadá, classificou 1469 idosos entre 60 e 64
anos segundo dois critérios: mortalidade e hábito de fumar. Duas classes foram
consideradas quanto ao hábito de fumar (fumantes e não fumantes) , enquanto que com
respeito a mortalidade: idosos ainda vivos e idosos que morreram no período de 6 anos
após o início da experiência. A tabela de contingência construída foi a seguinte:
Hábito de fumar
Mortalidade Não Fumantes Fumantes Total
Vivos 117 54 171
Mortos 950 348 1298
Total 1067 402 1469
Sob a hipótese de independência, as freqüências esperadas são:

1067 171
E11   124, 20
1469
402  171
E12   46, 79
1469
1067  1298
E 21   942, 79
1469
402 1298
E 22   355, 20
1469
Assim, temos
117  124, 20   54  46, 79   950  942, 79   348  355, 20 
2 2 2 2
Q1    
124, 20 46, 79 942, 79 355, 20
Q1  0, 41739  1,111  0, 05513  0,14594
Q1  1, 72946
Como Q1;observ  1, 72946  Q1;0,95  3,84 então não podemos rejeitar a hipótese nula de
que as variáveis são independentes.
Exemplo 10.10
Um companhia deve escolher entre três planos de pensão. A direção deseja saber se a
preferência pelos planos de pensão é independente do vínculo do empregado com a
empresa. Há duas classificações quanto ao vínculo empregatício: assalariados e
horistas. As opiniões de 500 empregados estão resumidas na tabela de contingência
abaixo e o nível de significância desejado é de =0,05.
Planos de Pensão
Trabalho 1 2 3 Totais
Assalariado 160 140 40 340
Horista 40 60 60 160
Totais 200 200 100 500
Calculemos inicialmente as estimativas da probabilidades marginais,
y1. 340 y.1 200

pˆ 1.  = =0,68 pˆ .1  = =0,40
n 500 n 500
y 160 y 200
pˆ 2.  2. = =0,32 pˆ .2  .2 = =0,40
n 500 n 500
y 100
pˆ .3  .3 = =0,20
n 500
As freqüências esperadas são apresentadas no quadro abaixo.

Por exemplo, E  Y11   500  pˆ 11  500  pˆ 1.  pˆ .1  500   0, 68    0, 40   136 .
Planos de Pensão
Trabalho 1 2 3 Totais
Assalariado 136 136 68 340
Horista 64 64 32 160
Totais 200 200 100 500
Calculando a variável aleatória Q, obtemos

160  136  140  136   40  68  40  64   60  64   60  32 
2 2 2 2 2 2
Q       49, 63
136 136 68 64 64 32
O número de graus de liberdade é (2-1)(3-1)=2, e para o nível de significância fixado

temos Q 2;0,95  5,99 .
Como Q 2,observ  49, 63  5,99  rejeitamos a hipótese nula, ou seja, rejeitamos a

hipótese de que a preferência por planos de pensão independe do vínculo empregatício
do empregado.
Exemplo 10.11
O Sindicato dos Donos de Restaurantes encomendou uma pesquisa para verificar se a
política de propaganda de cada restaurante e seu padrão de atendimento (serviço e
qualidade da refeição), são independentes. Os dados abaixo mostram os resultados da
investigação de 440 associados do Sindicato. Teste a hipótese a um nível  = 0,05.
Padrão de Atendimento
Política Baixo Médio Alto Total
Agressiva 24 52 58 134
Neutra 15 72 86 173
Não Agressiva 17 80 36 133
Total 56 204 180 440
As probabilidades marginais estimadas são

134 173 133
pˆ 1.   0,304 pˆ 2.   0,393 pˆ 3.   0,302
440 440 440
56 204 180
pˆ .1   0,127 pˆ .2   0, 463 pˆ .3   0, 409
440 440 440
Assim, sob a hipótese de independência, a freqüência esperada da célula agressiva/baixa

seria E11  0,304  0,127  440  16,98 .
Política Baixo Médio Alto Total

Agressiva 24-16,98 52-61,91 58-54,69 134
Neutra 15-21,96 72-80,03 86-70,71 173
Não Agressiva 17-16,85 80-61,51 36-54,34 133
Total 56 204 180 440
Calculando Q, obtemos
Q = 2,9022+2,2059+0,0013+1,5863+0,8057+5,5581+0,2003+3,3062+6,1898=22,7558
Observamos que Q 4,observ = 22,7558 > Q 4;0,95  9, 49  rejeitamos a hipótese que as

variáveis em questão sejam independentes.
10.4 - Tabelas de Contingência - Teste de Homogeneidade.

O uso de uma tabela de contingência para testar a independência entre duas variáveis
não é a única aplicação deste tipo de organização de dados. Uma outra situação comum
ocorre quando m populações em estudo são classificadas em k categorias.
Realizada uma amostra da população i , i= 1,2,...,m , os valores observados, em cada

uma das amostras, são então classificados em k categorias, formando uma tabela de
contingência exatamente igual aquela definida no exemplo 10.8.
Num teste de homogeneidade entre populações, o que se deseja é testar se as proporções

em cada uma das categorias são as mesmas para as m populações. Por exemplo, quando
temos apenas duas categorias tais como: sucesso e fracasso, peça defeituosa e peça não
defeituosa, masculino e feminino, etc..., o teste de homogeneidade é na verdade o teste
de igualdade entre m parâmetros de distribuições do tipo Binomial.
Suponhamos então que temos amostras aleatórias independentes de m populações,

sendo n i o tamanho da amostra selecionada da população i = 1,2,...,m.
Seja Xij , i = 1,2,...,m e j = 1,2,..., n i os valores observados. Consideremos uma

partição de R, domínio comum das m populações, definida por D1 , D 2 ,..., D k , e seja Yir
a freqüência absoluta dos valores Xij que pertencem a D r , r = 1,2,...,k.
Por exemplo, Y1r é a contagem do número de valores observados na amostra 1, que

pertencem ao r-ésimo conjunto da partição, ou seja D r , r = 1,2,...,k. Analogamente
Y25 é o número de valores observados da amostra 2, X 2 j classificados em D5 .
As freqüências Yir  i  1, 2,..., m e r  1, 2,..., k  , dos valores Xij (i = 1,2,..,m e

m
j = 1,2,..., n i ) se apresentam na tabela de contingência abaixo, onde Y.r   Yir .
i 1
Categoria População 1 População 2 --------- População m Total

1 Y11 Y21 --------- Ym1 Y.1
2 Y12 Y22 --------- Ym2 Y.2
- - - --------- - -
- - - --------- - -
k Y1k Y2k --------- Ymk Y.k
Total n1 n2 --------- nm m
n
i 1
i
Na amostra i, o vetor  Yi1 , Yi2 ,..., Yik  define uma variável aleatória multinomial de
parâmetros n i , p i1 , p i2 ,..., p ik , i = 1,2,...,m.
Os parâmetros das variáveis  Yi1 , Yi2 ,..., Yik  são visualizados na tabela abaixo, para
maior compreensão:
Categoria População 1 População 2 --------- População m

1 p11 p 21 --------- p m1
2 p12 p 22 --------- p m2
- - - --------- -
- - - --------- -
k p1k p 2k --------- p mk
Total n1 n2 --------- nm
A hipótese de homogeneidade pode ser assim escrita:
H 0 : "as proporções em cada uma das categorias são as mesmas para as m populações"
Então, sob a hipótese H 0 , temos:
p11  p 21  ...  p m1
p12  p 22  ... =p m2
p13  p 23  ...  p m3
____________
____________
p1k  p 2k  ...  p mk
Em outras palavras a hipótese H 0 estabelece que a probabilidade p r , de um valor

observado pertencer a D r , r = 1,2,..,k é a mesma, não importando de qual população i
ele foi selecionado.
O estimador de máxima verossimilhança de p r , r = 1,2,...,k é dado por
m
Y ir
Y.r
P̂r  i 1
m
 m
n
i 1
i n
i 1
i
e um estimador para o valor esperado de Yir , denotado por E  Yir  é dado por
Y
E ir  n i m .r  n i pˆ r
.
 ni i 1
 Yir  n i pˆ r 
2
k
Segundo o Teorema 10.1, para um fixado i, Qi   é aproximadamente
n i pˆ i r 1
uma variável aleatória qui quadrado com k-1 graus de liberdade, e , sendo as amostras
 Yir  n i pˆ r 
2
m k
independentes, Q   é aproximadamente uma variável aleatória com
i 1 r 1 n i pˆ r
distribuição qui quadrado com m(k-1) graus de liberdade.
Para estimar os valores esperados E ir , precisamos estimar as probabilidades

k
p1 , p 2 ,..., p k ,e, assim perdemos s = k-1 graus de liberdade, pois p
r 1
r  1 . De acordo
com o Teorema 10.2
 Yir  E ir 
2
m k
Q  
i 1 r 1 E ir
é aproximadamente uma distribuição qui quadrado com m(k-1)-(k-1) = (m-1)(k-1)

graus de liberdade.
Se H 0 é verdadeira, esperamos que as diferenças entre os valores observados Yir e os
valores esperados E ir , sejam pequenas e isto indica que devemos rejeitar H 0 quando Q
for maior que um valor c, selecionado da variável aleatória qui quadrado com
(m-1)(k-1) graus de liberdade, de acordo com um nível de significância  fixado.
Exemplo 10.12
Um grande anunciante da imprensa escrita encomendou uma pesquisa para verificar se
existe algum tipo de comparação entre preferência pela leitura de um determinado
jornal e classe social do leitor. Uma amostra de 100 leitores de cada um de três dos
maiores jornais, apresentou os seguintes resultados.
Classe Social ESP JB GLB Total

Alta 18 26 31 75
Média 1 49 59 51 159
Média 2 31 11 12 54
Baixa 2 4 6 12
100 100 100 300
As estimativas dos parâmetros p r , r = 1,2,3,4 são 0,25 , 0,53 , 0,18 e 0,04

respectivamente, e estas probabilidades multiplicadas por 100 produzem os valores
esperados de cada célula, conforme a tabela abaixo
Classe Social ESP JB GLB Total

Alta 18-25 26-25 31-25 75
Média 1 49-53 59-53 51-53 159
Média 2 31-18 11-18 12-18 54
Baixa 2-4 4-4 6-4 12
100 100 100 300
Assim, calculamos o valor de Q6 :

(18  25) 2 (26  25) 2 (31  25) 2
Q6    
25 25 25
(49  53) 2 (59  53) 2 (51  53) 2
  
53 53 53
(31  18) 2 (11  18) 2 (12  18) 2
  
18 18 18
(2  4) 2 (4  4) 2 (6  4) 2
  
4 4 4
Q6  1,96  0, 04  1, 44  0,3018  0, 6792, 0754 
9,3888+2,7222+2+1+0+1=20,607
Como Q6,observ  20, 607  Q6;0,95  12, 6 , rejeitamos a hipótese nula de homogeneidade,
ou seja, rejeitamos a hipótese de que as amostras tem origem de uma mesma população.
O teste de homogeneidade pode ser aplicado para testar a igualdade da proporção de

elementos com um certo atributo de duas populações diferentes, sendo portanto
equivalente ao teste da igualdade entre a média de duas variáveis aleatórias
independentes X e Y, com distribuição de Bernoulli .
Exemplo 10.13
Consideremos os dados do exemplo 9.24 dispostos na tabela de contingência seguinte:
Opção/Classe Classe A Classe B Totais

Aulas aos sábados 60 56 116
Aulas em fevereiro 40 24 64
Totais 100 80 180
Usaremos o teste qui-quadrado de homogeneidade para testar se as distribuições por

classe são de mesma origem.
As estimativas dos parâmetros p r , r = 1,2 são respectivamente:
116 64
pˆ 1   0, 65 e pˆ 2   0,35
180 180
O quadro de freqüências esperadas é então:
Opção/Classe Classe A Classe B
Aulas aos sábados 65 52
Aulas em fevereiro 35 28
Totais 100 80
Calculemos o valor observado de Q1 :
 60  65   56  52    40  35    24  28
2 2 2 2
Q1 
65 52 35 28
Q1  0,3846  0,3076  0, 7142  0,5714  1,9778
Como Q1;observ  1,9778  Q1;0,95  3,84 então aceitamos a hipótese nula de que as
amostras tem origem única.

10.1 - De uma população de pais e filhos, foram selecionados 1000 pares (pai;filho) e a
cor de seus olhos foram registradas, conforme a tabela abaixo . Deseja-se testar a um
nível de significância de 0,01 se a cor dos olhos do pai e a cor dos olhos do filho são
independentes.
Filho/Pai Claro Escuro
Claro 471 148
Escuro 151 230
10.2 - 1000 pessoas de uma população foram classificadas segundo o sexo e o

daltonismo, conforme tabela abaixo. Teste a hipótese de que as duas variáveis são
independentes a um nível de significância de 0,05.
Daltonismo/Sexo Homem Mulher

Não 442 514
Sim 38 6
10.3 - Os dados abaixo indicam que na população consultada, a preferência por uma
marca de carro independe do sexo?
Sexo/Marca Marca A Marca B Marca C

Homem 60 80 110
Mulher 80 70 100
10.4 - Determine, com base nos dados contidos na tabela abaixo, se a proporção
verdadeira dos compradores que preferem o detergente A ao detergente B é a mesma
nas três cidades.
Compradores Rio S.Paulo B.Horizonte Total
A 232 260 197 689
B 168 240 203 611
Total 400 500 400 1300
10.5 - O número de erros tipográficos em um livro é em geral regulado por uma lei de
Poisson. O número de erros contidos em 100 páginas de uma recente novela foram
registrados na tabela abaixo.
N0 de Erros N0 de Páginas
0 65
1 25
2 8
3 2
Total 100
Teste a um nível de significância de 0,10 a hipótese de que o número de erros se
distribui conforme uma lei de Poisson de parâmetro   0, 4 .
10.6 - Teste a hipótese que no lançamento de uma moeda, cara e coroa são igualmente
prováveis, usando uma amostra de 27 caras e 23 coroas. Use   0, 05 .
10.7 - Em um experimento de multiplicação de grãos de ervilhas, Mendel obteve 315

redondas amarelas, 108 redondas verdes, 101 angulosas amarelas e 32 angulosas verdes.
Esta experiência contradiz a teoria segundo a qual as probabilidades das quatro
espécimen estão na razão de 9:3:3:1? Use   0, 05 .
10.8 - Trezentos estudantes de uma Universidade foram entrevistados a respeito de suas

ideologias políticas e esses dados foram organizados na tabela abaixo. Teste a um nível
de significância de 0,05, se existem diferenças entre as posições políticas de estudantes
do sexo masculino e feminino.
Ideologia/Sexo Masculino Feminino Totais

Direita 69 21 90
Centro 52 23 75
Esquerda 79 56 135
Totais 200 100 300
10.9 - Em uma empresa 100 funcionários foram classificados segundo o sexo e estado
civil, resultado na tabela de contingência 3 x 2 seguinte:
EstadoCivil/Sexo Masculino Feminino Totais

Casados 15 14 29
Solteiros 40 21 61
Outros 9 1 10
Totais 64 36 100
A um nível de significância   0, 05 teste a hipótese de que não existem diferenças

entre a distribuição do estado civil de estudantes do sexo masculino e feminino.
10.10 - A 34 de 77 pacientes com uma determinada doença foi aplicado um soro. Eles
foram tratados da mesma forma que os outros 43 pacientes que não receberam o soro.
Usando os dados da tabela abaixo teste a hipótese (use   0, 05 ) de que o soro não
ajudou a cura da doença.
Soro/Cura Curados Não Curados Totais

Com Soro 26 8 34
Sem Soro 30 13 43
Totais 56 21 77
10.11 - A atitude disciplinar do pai e o comportamento do filho são dependentes? Use a
tabela abaixo obtida na investigação de 917 pares (pai/filho) na cidade de Dallas (USA),
em 1988.
Pai/Filho Delinqüente Não Delinqüente Totais

Amável mas firme 25 255 280
Negligente 122 82 204
Rigoroso 120 40 160
Irregular 191 82 273
Totais 458 459 917
APÊNDICE
Apêndice A1.1
1 - Definição:
Chama-se função caraterística de uma v.a. real X à expectância da função complexa de
variável real t, definida por X  t   E  e  , i  1 .
itX
2 - Principais propriedades:
- dada uma v.a. X, X  t  existe sempre.
- X  t   1
- X   t   X (t)
- jX  t   E  costX  isentX   E  costX   iE  sentX 
j   t 
s
- Se existe  s  X  , s = 0,1,2,... então a S  X   t 0
is
3 - Função característica de transformadas lineares.
- Se X e uma v.a. com função características X  t  e se Y=aX+b, (a0), então

Y  t   e bit X  at  .
- Se X1 , X 2 ,..., X n são variáveis aleatórias com funções características X j  t  ,

n
j = 1,2,...,n , então a função característica de X   X j é dada por

j1
  n    n itX 
X  t   E exp  it  X j    E  e  . j
  j1    j1 
- Se no caso anterior, as variáveis aleatórias são independentes, temos que
  n    n itX  n
 
n
X  t   E exp  it  X j    E  e    E e   X j  t  .
j itX j
  j1    j1  j1 j1

- Se no caso anterior, as variáveis aleatórias são identicamente distribuídas,
n
X  t   X j  t   .
- Dada uma amostra aleatória  X1 , X 2 ,..., X n  , de uma variável aleatória X , com
1 n
função característica X  t  , a função característica de X   X j é dada por
n j1
n
  t 
X  t    X    .
  n 
4- Função característica de uma variável aleatória n-dimensional.

Se  X1 , X 2 ,..., X n  é uma variável aleatória n-dimensional, chama-se função

característica de X n à função definida por
X  t1 , t 2 ,..., t n   E  exp it1X1  it 2 X 2  ...  it n X n  
n
Apêndice A1.2
Teorema:

Seja X   X1 , X 2 ,..., X n  uma variável aleatória normal multi-dimensional tal que
 2 i  j  
E  Xi  0  e E  Xi X j    i,j = 1,2,...,n. Se Y  CX , onde C é uma matriz
0 i j

ortogonal, então Y é N  0,  n  , onde  n   2  n .
Prova:

Se X é N  0,  n  as variáveis Xi são não correlacionadas, pois
E  X i X j   0  E  X i  0   X j  0    Cov(X i X j ) , e independentes, porque normais,
(vide A1.6).

A função característica de X é , por definição,

X  t    E exp it1X1  it 2 X 2  ....  it n X n 
   1  
 
jX  t    E exp it X   exp  t Lt  onde t    t1 , t 2 ,..., t n   R n .
   2 
 
 1

Seja Y  CX , onde CC  I n  CC C  C , isto é, C é uma matriz ortogonal.

A função característica de Y é
   
  
Y  t    E exp it Y   E exp it CX 
    
   
Fazendo-se r  t C  r=C t , temos
    1 
 
Y  t    E exp ir X   X  r   exp  r r 
   2 
   1      1 
Y  t    E exp  ir X    X  r   exp  r r 
  2   2 
  1     1     1 
Y  t    exp  t C 2 C t   exp  t  2 CC t   exp  t  2 I n t 
 2   2   2 
 
e, finalmente, encontramos que Y tem a mesma função caraterística de X , isto é
  1  
Y  t    exp  t  t 
 2 
 
De forma que Y tem distribuição N(0,  2 I n ) .
Apêndice A1.3
Densidade da variável aleatória de Student.
Definição:
Sejam X, X1 , X 2 ,..., X n variáveis aleatórias independentes com distribuição N(0,1) .
Dizemos que Tn tem distribuição de Student com n graus de liberdade se
X
T
1 n 2
 Xi
n i 1
nX V
T 
Observemos que n U , sendo V e U independentes tais que V é N(0, )
X
i 1
2
i
1 n
e U é tem distribuição  Gama  ,  .
2 2
As densidades de V e U são,
1  v2 
fV  v   exp   , v  R
2n  2
e
 0 u0


 
n 2
f U  u    2 12 n 1  u2 
 u exp   u  0
   
n
2  2
A densidade da bidimensional (V,U) é o produto das densidades, isto é
 o u  0 e vR
 n 2
 1
f V,U  v, u    2 
2  nu 2  v2 
 u n 1 exp   u  0 e vR

  
n
2
2n  2n 
Consideremos as seguintes transformadas,

 V
T   v=ty y t
 U    J= y
 Y  U  u=y 0 1
Obtemos a densidade de (T,Y) conforme abaixo,

n 2
 0 y  0 e t R 1
 2 
  n  t  y 
f T,Y   t, y    n
2 2
, c= 2
cy exp 
 
2n
 y  0 e t R

  
n
2
2n
A densidade da marginal T é
+   n  t 2  y 2 
f T  t  =c  y exp  
n
dy t R
o  2n 
Façamos a seguinte transformada,

w
w   n  t 2  y2  y=
n+t 2
w n+t 2
dw  2  n  t 2  dy  dy= dw
n+t 2 2 w n  t2 
De maneira que,
 n 1 n 1
c  w
exp     n  t 2  2 dw
1 
fT  t    w 2
tR
2 0  2n 
n 2
1  n 1 
2    n 1
1  2  2 
n 1 
fT  t   . nt 
2  2
t R
2 n
2  
2n  1  2
 
 2n 
Finalmente,
n 1

1  t2  2
f t  1   tR
n 1 n
n  , 
2 2
Apêndice A1.4
Teorema:
A seqüência Fn (t) de distribuições de Student com n graus de liberdade é
assintoticamente normal de parâmetros 0 e 1, isto é
2
t t
1 
lim Fn (t) 
n   2 dt
2 
e
Prova:
A variável aleatória Tn de Student com n graus de liberdade é uma transformada do tipo
Z
 2n sendo Z um v.a. N(0,1) .
n
Calculemos a média e a variância do radicando do denominador,
 2  1 1
E  n   E   2n    n  1
 n  n n
  2n  1 1 2
Var    2 Var   2n   2  2n 
 n  n n n
Aplicando-se a desigualdade de Chebyshev,
 2  2
lim P   n     lim 2  0
n 
 n 1  n  n
  2n 
De forma que a seqüência   converge em probabilidade para a constante 1, e
n
  2 
decorrente disto ( vide [3] pag. 351), a seqüência  n  é também estocasticamente
 n 
Z
convergente para 1. De acordo com [14], sec. 20-6, a razão  2n converge em
n
distribuição para a variável aleatória N(0,1) .
Apêndice A1.5
Densidade da variável aleatória F, de Snedecor.
Definição.
Se X e Y são variáveis aleatórias independentes com distribuições qui-quadrado com r
X/r
e s graus liberdade, respectivamente, então a variável W  tem distribuição F de
Y/s
Snedecor com r e s graus de liberdade que será representada por Fr,s .
Se X e Y são independentes, então

r s
1 2
  r s
 x  y
f  x, y    
2 1 1
x 2 y 2 exp    x,y>0
r s  2 
  
2 2
Prova:
Consideremos a transformada
 X
W   x=wv v w
 Y    J= v
 V  Y  y=v 0 1
r s
1 2
  r s
  w  1 v 
f  x, y    2 1 2 1
v  wv  v exp  x,y>0
2

r s  2 
  
2 2
r s
1 2
  r  r  s
 (w  1)v 
f  x, y    
2 1 1
w 2  v 2 exp    dv v,w>0
r s  2 
   0
2 2
r s
1 2  r+s 
  r  
f  x, y    
2 1
 2  1+w  r+s
r s   2
w2 w>0
r s
   1 2
2 2  
2
r
1 1 r+s
f  x, y   w 2 1+w  2

w>0
r s
 , 
2 2
s r  rx 
Por outro lado, Fr,s   W  f F  x   f W  
r s  s  r ,s
Logo,
r r s
 rx  2 1  rx 
1 
r 1 2
fF  x     x>0
s  r s  2r 1  s 
 ,  s
2 2
r r s

1 r 2r 1  rx  2 2
fF  x   x 1   x>0
 r s  2r  s 
 ,  s
2 2
r s r r s
1 1
fF  x   r 2 s 2 x 2 1  rx  2

x>0
E finalmente, r s
 , 
2 2
Apêndice A1.6
Definição:
Chama-se distribuição normal bivariada à variável aleatória cuja função de densidade é
dada por:


e 2
f  x, y   ,  x,y   R 2
2 x  y 1  2
1   x- x   y- y   x   x   y   y  
2 2
=   2
1-2   2x  2y xy 
 
A função acima depende portanto de 5 parâmetros, quais sejam:

x  E  X 
y  E  Y 
 2x  Var  X 
 2y  Var  Y 
E  X   x   Y   y  
    x, y   ,  1
x y
A função de densidade da normal bivariada é uma superfície sobre todo o plano (x,y),
e tem um valor máximo único no ponto   x ,  y  . Os três gráficos que seguem ilustram
a esta densidade para os parâmetros  X   Y  0 , X   Y  1 e =-0,75 , 0 e 0,75.
Gráfico 1
Parâmetros:  X   Y  0 ,  X   Y  1 e =-0,75
Gráfico 2
Parâmetros:  X   Y  0 ,  X   Y  1 e =0
Gráfico 3:
Parâmetros:  X   Y  0 ,  X   Y  1 e =0,75
Distribuições das marginais X e Y.
Analisemos inicialmente o valor da constante  :

1   x- x   y- y   x   x   y   y  
2 2
=   2
1-2   2x  2y xy 
 
y  
2
y
Não alteramos  se somarmos e subtrairmos o termo :
 2y
1   x- x   y- y   x   x   y   y    y   y   y   y 
2 2 2 2
=   2  
1-2   2x  2y xy   2y  2y
 
Segue daí que:

1   x- x   y- y  1     y- y   x   x   y   y    y   y 
 2 2 2 2 2
=    2 
1-2   2x  2y  2y x y   2y
 
1   x- x    y- y   x   x   y   y    y   y 
2 2 2 2
=   2 
1-2   2x  2y xy   2y
 
 2 2x  y- y  x  x  x   y   y    y   y 
2 2
1  x- x  
2

= 2  2
 x 1-2   2y y  2y
 
e finalmente,
 x  y   y    y   y 
2 2
1 
= 2   x-    
 x 1-2  
x
y   2y
Usando este resultado;

a) verificaremos que realmente f(x,y) é uma densidade e,
b) obteremos suas marginais com muita facilidade.
a) f(x,y) é realmente um densidade .

 
I   f  x, y  dxdy
 
  x  y   y   
2
  x  x    
         y   2 
1   y  
I  
y
exp   exp   dxdy
  2  
x y 1   2
 2  2
x 1   2
  
2  2
y

 
 
   x  y   y   
2
  x  x   
       1   y   2 
1   y  
I   dx. 
y
exp  exp   dy

 x 1   2
2   2  2
x 1   2
   y  2 

2  2
y

 
 
Como se pode observar, as duas funções integradas em I são densidades de variáveis
aleatórias unidimensionais:
 x  y   y  
N  x  
y
; x 1    
2
e N  y ; y 
 
b.1) cálculo da marginal f(y).
  x  y   y   
2
  x  x    
  y  y  
     2

 

1 
fY  y   
y
exp   exp    dx
 2 x  y 1  
2
 2 2x 1  2    22y 

 
 
  y   2 
1  
fY  y  
y
exp    , yR
 y 2  2  2
y 
b.2) cálculo da marginal f(x).

Invertendo o procedimento adotado na análise da constante , isto é, somando e
 x  x 
2
subtraindo o termo à constante , e integrando-se f(x,y) em relação a y,

 2x
obteremos;
1   x   x 2 
fX  x   exp   , xR
x 2  2  2
x 
Observamos portanto que a v.a. normal bivariada é tal que suas distribuições marginais
tem densidades N   x ,  x  e N   y ,  y  , mas f  x, y   f  x  f  y  .
Observemos ainda que se  = 0, ou seja, se X e Y são não correlacionadas, a densidade

da bivariada se torna:
  x   x  2    y   2 
1  
f  x, y    ,  x,y   R 2
y
exp   exp 
2 x  y  2x 
2
 2 y 
2

ou
  y  y  
  x   x  2  1  2

1
f  x, y   exp   exp    ,  x,y   R 2
x 2  2 2
x 
 y 2   2 2
y 
ou seja, quando  = 0, f(x,y) = f(x).f(y), o que nos permite afirmar:
“se X e Y são variáveis aleatórias normais e não correlacionadas então elas são
independentes”
O resultado é importante no sentido de que:
“se duas variáveis aleatórias X e Y são independentes, elas são não correlacionadas,
isto é E  XY   E  X  E  Y   Cov(X, Y)  0 , não sendo a recíproca verdadeira, a
menos que X e Y tenham distribuição normal”
3. Distribuições condicionais.
Para se obter a densidade da variável (Y/X=x) devemos calcular:
f  x, y 
f (y / x) 
f x
 1   x   x   y   y   x   x   y   y      x   x 2 
  2 2
1
 exp    2  exp  
 y 2 1   2  2 1   2
 

 2
x  2
y  x  y 
  
 2 x2 
Notemos que:
 x  x   x  x  2  x   x 
2 2 2
 
2 2x 2 1  2  2x 2 1  2   2x
Portanto, escrevemos:
 1   y   y   x   x   y   y  2  x   x 2  
  2
1
f y / x  exp   2  
y 2 1   2  2 1   2
 

 2
y  x  y  2x 

  2 y  x   x   y   y  22y  x   x   
2
1 1
2 
f y / x   y  y  
2
exp   
y 2 1   2 
2 1   2
  y 

 x  2
x  
F
Finalmente obtemos a densidade de (Y/X),
1  1   y  x   x   
2
2 
f y / x  exp  y  y    
 2 1     y  x
2
y 2 1   2  
e concluímos que a variável Y condicionada ao evento X = x tem distribuição normal

com os parâmetros abaixo:
  x   x 
E Y / X  x   y  y
x
Y / X   y 1  2
Teorema:
Se (X,Y) é uma variável aleatória normal bivariada com parâmetros  x ,  y ,  x ,  y e
e   x,y  então:
a) X é N   x ,  x  e Y é N   y ,  y 
b) X e Y são independentes se e somente se  = 0
  y 
c) (Y/X=x) é N  y   x   x  ; 2y 1  2 
 x 
  
(X/Y=y) é N  x  x  y   y  ;  x 1    
2 2
 y 
Apêndice A2.1
1. Sejam X1 , X 2 ,..., X n variáveis aleatórias não correlacionadas (certamente serão,

se independentes), tais que E  X i   i e Var(X i )  i .
2
n n
Sejam as transformadas U   a i X i e V=  bi Xi , onde a i e bi são constantes
i 1 i=1
quaisquer. Então a covariância entre U e V é igual a

n
Cov  U, V    a i bi i2
i 1
Prova:
De acordo com as propriedades dos momentos de variáveis aleatórias,
n n n n
U   a i ui  2U   a i2 i2  V   bi i  2V   bi2 i2
i 1 i 1 i 1 i 1
Assim,
 n n
 n n

Cov(U, V)  E   a i X i   a i i   b i X i   b i i  
 i 1 i 1  i 1 i 1 
 n  n 
Cov(U, V)  E   a i  X i   i    bi  X i   i   
 i 1  i 1 
n
Cov  U, V    a i bi E  X i  i    2  a i b jE  X i  i   X j   j  
2
i 1
  
 
i j
n
Finalmente, Cov(U, V)   a i b i i
2
i 1
2. Sejam X1 , X 2 ,..., X n são variáveis não correlacionadas, tais que E  X i    e

Var  X i    2 . Sejam as transformadas X e X i  X  , i = 1,2,...,n. Então
X e X i  X  , i= 1,2,...,n, são não correlacionadas.
Prova: (apenas para i = 1, sendo idêntico o procedimento para i = 2,3,..,n)
X1 X 2 X
X   ...  n
n n n
 Xi  X   n n 1 X1  Xn2  ....  Xnn

Assim, conforme A2.1.1,
 1 n  1 1 1 1 1 
Cov  X; X i  X    2      ...   
n n n n n n
 n 1 n 1
Cov  X; X i  X    2  2  2 
 n n 
Cov  X; X i  X   0
Apêndice A2.2
Lema de Fisher
Seja  X1 , X 2 ,..., X n  uma amostra aleatória de uma variável aleatória X com
distribuição N(0, ) e sejam Yk , k = 1,2,...,p (p < n) tais que:
Y1  c11X1  c12 X 2  ...c1n X n
Y2  c 21X1  c 22 X 2  ...c 2n X n
........................................
Yp  c p1X1  c p2 X 2  ...c pn X n
Onde os coeficientes cij , i = 1,2,...,p e j = 1,2,...,n satisfazem as condições de
ortogonalidade, isto é
n
1 i  k
c c 
ij kj
j1 0 i  k
i,k = 1,2,...,p
n
Nessas condições, a variável aleatória Q   X j  Y1  Y2  .....  Yp independe de

2 2 2 2
j1
Q
Y1 , Y2 ,...., Yp e tem distribuição qui-quadrado com (n-p) graus de liberdade.
2
Prova:
Consideremos as (n-p) equações abaixo
Yp 1  c p 1,1X1  c p 1,2 X 2  .....  c p 1,n X n

Yp  2  c p  2,1X1  c p  2,2 X 2  .....  c p  2,n X n
.....................................................
Yn  c n,1 X1  c n,2 X 2  .....  c n,n X n
 
de tal forma que a matriz C nn seja ortogonal. Assim, Y  CX e por conseqüência,
 
segundo Apêndice A1.2 , Y é N(0;  2 I n ) .
As variáveis aleatórias Yi , i = 1,2,...,n são N(0, ) e não correlacionadas, e portanto

independentes, conforme Apêndice A1.2. Por outro lado, observamos que
n       n 2 n
 iY 2
 Y Y  X CCX  X X   iX e que Q   Yj2  Y12  Y22  .....  Yp2 , ou seja
j1
i 1 i 1
n
Q Y
i  p 1
i , e, portanto, independente de Yi , i = 1 ,2, ... ,p.
Y 
Finalmente, reduzindo-se as variáveis aleatórias Yi , i = 1,2,...,n temos que  2i  são
 
2
N(0,1) e 2    2i 
n
Q Y
é  n p .
2
 i  p 1   
Aplicação do Lema de Fisher no Teorema 3.2 (pág. 16)

Seja  X1 , X 2 ,..., X n  uma amostra aleatória de uma variável X com distribuição
N(, ) . Sejam ainda X e S2 a média e a variância da amostra respectivamente.
Observemos que Zi  (X i  ) são N(0, ) e independentes e que

1 n
X    Z   Zi é N(0,  n ) .
n i 1
Por outro lado
n n
 n  1 S2    X i  X    n  1 S2    Zi    Z   
2 2
i 1 i 1
n
 n  1 S2   Zi2  nZ2
i 1
Seja Y1  nZ
Z Z Z 
Y1  n  1  1  ....  n 
 n n n 
2
 n n
Observamos que     1 , e portanto, podemos aplicar o Lema de Fisher, para
i 1  n 
p = 1, concluindo que  n  1 S independe

2
de Y1  nZ , e também de
n  X     nZ .
Logo S2 e X são independentes, e, se reduzirmos Zi , temos:
 n  1 S2   Zi2
n

 n-1 S2 n
Z 
2
   i  é 2n-1
i 2 2 i 2   
Apêndice A2.3
Demonstração do Teorema 4.3

Seja L  x1 , x 2 ,..., x n ,   a função de verossimilhança da amostra.
Temos então que:
  
  ... L  x1 , x 2 ,..., x n ,   dx1dx 2 ...dx n  1
  
  
ˆ L  x , x ,..., x ,   dx dx ...dx    B 
ˆ
 
 
... 

o 1 2 n 1 2 n  
onde ̂0 é a determinação genérica de ̂ .
 ˆ
B 
Se existem as derivadas L  x 1 , x 2 ,..., x n ,   
L  x, 
e   B ˆ  , então
    

   L  x,  
 
 
...
 
dx1dx 2 ...dx n  0
(1)

  L  x,  

  ... o  dx1dx 2 ...dx n  1  B ˆ 
ˆ (2)
Por outro lado, notemos que

   
 ln L  x,   L  x,    ln L  x,    L  x,  
    L  x,   
  L  x,    
Substituindo-se os resultados em (1) e (2), temos


    ln L  x,   
  ... L  x,   dx1dx 2 ...dx n  0
   

 
ˆ  ln L
  x,  
L  x,   dx1dx 2 ...dx n  1  B 
ˆ
  
...  o
 
As equações acima expressam o cálculo das seguintes expectâncias:


E

  ln L X,  
0

  
 


ˆ
E 

 ln L X,   
  1  B ˆ
    
 

 ln L  x,  
Convencionaremos que  0 se L  x1 , x 2 ,..., x n ,    0 .


A covariância entre as variáveis ̂ e
 ln L X, 
é dada por:
 

  

  ln L X,   
  ln L X,    
  ln L X,      1  B ˆ 

ˆ;
Cov  

  E
 
ˆ

E 

ˆ  E
 
    
     
Por outro lado,

 2
  ln L X, 
ˆ;
2  
  

1  B 

ˆ 
 
1

     ln L X,    
  Var 
ˆ    Var 
  
 
Segue daí que,
2
1  B  ˆ 
 
ˆ  
Var 
 

  ln L X, 
Var 
  
  
 
Entretanto,
   
        
2 2 2
  ln L X,     ln L X,      ln L X,     ln L X, 
Var    E   E    E 
            
        
Finalmente, obtemos a desigualdade de Cramer-Rao que estabelece a variância mínima

de um estimador ̂ de um parâmetro .
Desigualdade de Cramér-Rao
2
1  B 
ˆ 
ˆ
Var    
  
 ˆ
B  
  
2
  ln L X,   , onde B 
ˆ
E    
  
 
Considerando que uma amostra aleatória é constituída por variáveis aleatórias

independentes e identicamente distribuídas, a desigualdade de Cramér-Rao pode ser
apresentada uma forma mais simples, conforme segue
n
 n
L  x1 , x 2 ,..., x n ,     f  x i ,    ln L  x,     ln f  x i ,  
i 1 i 1
Logo,

 ln L  x,   n  ln f  x i ,  

 i 1 

  ln L  x,     n  ln f  x i ,   
2 2
    
    i 1  

  ln L  x,      ln f  x i ,      ln f  x i ,      ln f  x j ,   
2 2
n n
        

         
i 1 i  j 1


     ln f  X i ,      ln f  X j ,   
2
  ln L X,    ln f  Xi ,   
n
2
n
E  E   2 E E  
           
  i 1 i  j 1

Mas,

f  x i ,  
 
 ln f  x i ,  
 f  xi ,   dxi  1    dxi  0    f  x i ,  dx i  0
de forma que:
  ln f  Xi ,   
E 0
  
Logo,

 
2
  ln L X,   n
  ln f  X,   
2
  ln f  X,   
2
E   E    nE  
   i 1      
 
A desigualdade de Cramér-Rao pode então ser escrita, como segue
 
2
ˆ
1  B 
ˆ 
Var    
  ln f  X,   
2
nE  
  
Entretanto,
     
2 2 2
ˆ  E 
Var  ˆ E  ˆ   E  ˆ 
ˆ    B   ˆ  ˆ 
       E      B   
     
2
ˆ E 
Var  ˆ    B2  ˆ ˆ ˆ
   2B   E   

ˆ  MSE 
Var    
ˆ  B2  ˆ ˆ ˆ
   2B    E     
Var  
ˆ  MSE    
ˆ  B2  ˆ
 
Substituindo-se na desigualdade, obtemos

1  B ˆ  
2
ˆ  B2 
MSE  ˆ 
 
  ln f  X,   
2
nE  
  
ˆ   0 , escrevemos finalmente que
Sendo B 
2

 
2
ˆ
1  B 
ˆ 
MSE    
  ln f  X,   
2 ˆ
onde B 
ˆ
dB  
nE    d

  
Apêndice A2.4
Demonstração do Teorema 4.4

Se ̂ é um estimador eficiente na estimação de , então
E   
ˆ   e Var 
ˆ   
  ln f  X,   
1
2
nE  
  

1
 1  2  
  ln L X, 
ˆ;    =1
ˆ E   ln f  X,   
e 2
  
nVar   
  
 

  ln L X,  
ˆ;  
De forma que      1 , e, assim sendo, conforme a teoria de regressão
  
 


ˆ ;
 ln X,    
linear, todos os pontos   0
 estão na reta, inclusive seus valores médios.
  
 
Logo, podemos escrever,

 

 ln L X,    ln L X,      ˆ ˆ

 E
 
E 
   o  
ˆ  , onde ̂ é estimativa do coeficiente
 

angular da reta, que pode depender de
 ln L X, 
e mesmo de .
 

Conforme Apêndice A2.3


 ln L X, 

  ˆ ˆ
  o  
Integrando-se ambos os membros em relação a , obtemos:


 ln L X,  d  ˆ
ˆ ˆ
 
0  d    d  c


ln L X,    0 1
ˆ  g    g    c
2
Fazendo-se 1  g1    , 2  g 2    e L1  e , escrevemos,
c

  ˆ .  
L X,   L`1  exp  0 1 2  
Em resumo, uma condição necessária e suficiente para que ̂ seja um estimador
eficiente na estimação de um parâmetro , é a possibilidade da função de
ˆ não dependem de
verossimilhança da amostra ser escrita da forma acima, onde L1 e 
, enquanto que 1 e 2 podem depender de .
Apêndice A2.5 (Desigualdade de Cauchy-Schwart)
Se X e Y têm momentos de segunda ordem finitos, então

 E  XY   E  XY   E  X  E  Y  , a igualdade prevalecendo se e somente se
2 2 2 2
P Y  cX  1 , para uma constante c arbitrária.

Prova:
A existência dos momentos E(X), E(Y) e E(XY) decorre da existência dos momentos
E  X2  e E  Y2  .
Seja f  t   E tX  Y  0 t  R .
2
Então E t X  2tXY  Y   0  t E  X   2tE  XY   E  Y   0 .

2 2 2 2 2 2
O trinômio em t, não tem raízes no campo real se  < 0. E, portanto

4  E  XY   4E  X 2  E  Y 2   0
2
ou
 E  XY   E  X 2  E  Y 2 
2
A igualdade prevalece se e somente se existir um t = c, tal que E  cX  Y   0 , o que

2
implica em P cX  Y  1 .
Apêndice A2.6
Seja  X1 , X 2 ,..., X n  uma amostra aleatória de X com densidade f  x,   - ou

probabilidade P(X  x) ,onde   R . Consideremos a estatística
T  t  x1 , x 2 ,..., x n  um estimador não tendencioso da função     . Consideraremos
neste texto o caso onde X é do tipo continuo, sendo análogo o desenvolvimento para
caso discreto.
Façamos as seguintes suposições, denominadas condições de regularidade:

(i) ln f  x,   existe para todo x  R e   

 n
 n
(ii)
    i 1
...  i f  x ;  dx 1 ...dx n      
...
i 1
f  x i ;  dx1 ...dx n
 n
(iii)
   
... t  x 1 , x 2 ,..., x n  i 1
f  x i ,  dx1...dx n =
 n
   1 2 n  
... t  x , x ,..., x 
i 1
f  x i ,  dx1...dx n
    
2
(iv) 0  E   ln f  X;      
    
Teorema: Desigualdade de Cramer-Rao - Extensão para uma função de 

Sob as condições de regularidade descritas acima,
2
Var  T        

    
2
nE   ln f  X;    
    
onde T  t  X1 , X 2 ,..., X n  é um estimador não tendencioso de     , observando que a
igualdade prevalece se e somente se existe uma função k(  ,n) tal que
n


i 1 
ln f  x i ;    k  , n    t  x1 , x 2 ,..., x n       
O lado direito da desigualdade é a variância mínima dos estimadores não tendenciosos

de     .
Prova:
Se E[T  X1 , X 2 ,..., X n  ] =     , então
n
       ... t  x1 , x 2 ,..., x n   f  x i ;   dx1...dx n
i 1
     n
        ... t  x1 , x 2 ,..., x n   f  x i ;   dx1...dx n

  i 1
 n

Por outro lado,        ...  f  x i ;  dx1...dx n   1  0
 i 1 
Podemos escrever então,
 n  n
       ... t  x1 , x 2 ,..., x n   f  x i ;   dx1...dx n         ...  f  x i ;  dx1...dx n
 i 1  i 1
Daí, segue que

 n
       ...  t  x1 , x 2 ,..., x n         f  x i ;   dx1...dx n
 i 1
(1)
Mas,
 n
  n  1
ln  f  x i ;     f  x i ;    
 i 1   i 1 
n
 f  x ; 
i 1
i
e portanto,
 n
 n  n
 ln  i  
  i 1
f  x ;   
i 1
f  x i ;     f  xi ; 
 i 1
Substituindo-se este resultado em (1),

 n
 n
       ...  t  x1 , x 2 ,..., x n         ln  f  x i ;      f  x i ;  dx1...dx n
  i 1  i 1
Concluímos daí que,
  n

     E  T  X1 , X 2 ,..., X n         ln  f  X;    
   i 1 
Segundo a desigualdade de Cauchy-Schwartz (vide Apêndice A2.5),

2
 n

       E  T  X1 , X 2 ,..., X n        E  ln  f  X;   
2 2

  i 1 
Logo,
    
2
E T  X1 , X 2 ,..., X n        
2
2
 n

E  ln  f  X;   
  i 1 
ou
    
2
VAR  T   2
 n

E  ln  f  X;   
  i 1 
ou
    
2
VAR  T   2
 
nE  ln f  X;   
  
No Apêndice A2.5, já citado, podemos verificar que a igualdade prevalece se existe uma
proporcionalidade entre as funções
 n
ln  f  x i ;   e  t  x1 , x 2 ,..., x n       
 i 1
sendo a constante de proporcionalidade igual a k(  ,n).
Apêndice A3. Densidades da Família Exponencial
1. Definição
Admitamos que Y seja uma variável aleatória real com função de densidade ou função
de probabilidade, f(y;), conforme seja ela do tipo contínuo ou discreto
respectivamente. Suponhamos ainda que sua distribuição dependa de um simples
parâmetro de interesse .
Dizemos que a distribuição de Y pertence à Família de Exponenciais, se f(y;) puder

ser escrita da forma
f  y;    exp a  y  b     c     d  y   (1)
onde a(y), b(), c() e d(y) são funções conhecidas.
Nota: Se a(y) = y dizemos que (1) está na forma canônica e b() é chamado de
parâmetro natural da distribuição.
2. Cálculo da média e variância de a(y):

d log f  Y;  
Seja l(;y) = log f(y;) e denominemos de “score” o valor de U  .
d
d log f (Y; ) df  Y;   1
U  (2)
d d f  Y;  
Calculemos agora a expectância da v.a. U, que, como se vê, é uma função de Y.

1 df  y;  
E U   f  y;   dy
y 
f y;   d
df  y;   d d
E U   dy   f  y;  dy  1  0
y
d d y d
E U  0
A seguir, calculemos a variância de U . Para isto derivemos ambos os lados da

expressão (2), em relação a , ou seja:
d  d log f  Y;    d  1 df  Y;   
    
d  d  d  f  Y;   d 
Observemos que ambas as expressões são funções de Y e portanto podemos calcular a

expectância de ambos os lados da igualdade como segue:
d d log f  y;   d 1 df  y;   d2
    1  0
d y d y f  y;   d
f y;  dy  f y;  dy 
d d2
A expressão ao lado esquerdo é a derivada em relação a  do produto de duas funções
de , quais sejam:
d log f  y;  
e f  y; 
d
Logo podemos escrever,
d 2 log f  y;   d log f  y;   df  y;  
y d2 f  y;  dy  y d d
dy  0
df  y;   d log f  y;  
De U tiramos que  f  y;   e substituindo devidamente na
d d
expressão anterior obtemos:
d 2 log f  y;    d log f  y;   
2
y d2 f  y;  dy  y  d  f  y;   dy  0
d 2 log f  y;    d log f  y;   
2
y  1 f  y;   dy  y  d  f  y;  dy
d2
Logo E   U  E  U  , e, consequentemente, sendo E  U   0 , temos que

2
VAR  U   E  U 2   E   U.
RESPOSTAS DE ALGUNS EXERCÍCIOS
Exercícios Propostos 3
3.1 (a) (0,25) n (b) 1 - (0,75) n - (0,25) n
3.2 M ’ 2 ~ Gama (n/22 ; (n-1)/2)
3.3 f.d.p. da Gama((n-1)/22 ; (n-1)/2)
3.4 (a) W ~ N(0 ; 2(m+n)/(nm)) (b) 0,3085
3.5 pelo menos 40
3.6 pelo menos 255
3.7 Qui-quadrado com 1 grau de liberdade
3.8 F1; n-1
3.9 (a) 0,939 (b)0,917
3.10 (a) c = 2 (b) 8 graus de liberdade
Exercícios Propostos 4.1,

4.1.1 9,7
4.1.2 0,67
4.1.3 r  X /  M 2  X  X  e p=X/  M 2  X 2 
2
4.1.4 10,07
4.1.5 9,21
4.1.6 5,483 e 4,703
4.2.1 X (n)
4.2.2 1 / X
4.2.3 - n / ln ( Xi) - 1
4.2.4 X
4.2.7 - n / ln ( Xi)
4.2.8 (a) (1 / n)  (Xi - )
4.2.10 n /  Xi r
4.3.1 Ambos os estimadores são não viciados e 1 é o melhor.

4.3.2 (b) B[X 2] = 2 / n
4.3.3 3 é preferível, caso seja assintoticamente não viciado.
4.3.5 B[] = 0 e  é consistente para 2.
4.3.6 p (1-p) / n
4.3.9 a = n1 / (n1 + n2)
4.3.10  = X2 - S2
4.3.11 S(X) = 2X
4.3.12 A condição é: ai = 1
4.3.13 Não é eficiente.
4.3.14 X / N
Exercícios Propostos 5:
5.1 Em todos os ítens, as respectivas estatísticas são suficientes.

5.4 (a) Não é suficiente. (b) É suficiente.
5.9  (Xi - 0,5)2
5.10  Xi
Exercícios Propostos 7/8
8.1 (8,22 ; 8,25)

8.2 (a) (2241,476 ; 2278,358) (b) (2245,922 ; +)
8.3 (-9,009 ; 8,309)
8.4 (- ; 0,1697), logo não há garantia de que o desvio-padrão seja menor que 0,15
8.5 (0,310 ; 2,181)
8.6 (0,0002 ; 0,0004)
Exercícios Propostos 10
10.1 - Rejeita-se H0
10.3 - Aceita-se H0
10.5 - Aceita-se H0
10.6 - Aceita-se H0
10.7 - Aceita-se H0
10.9 - Aceita-se H0
10.10 - Aceita-se H0
Referências Bibliográficas:
[1] Bussab W.O. & Morettin P.A.

Estatística Básica, 4a. Edição
[2] DeGroot, M. H.
Probability and Statistics, 2a. Edition
[3] Fisz, M.
Probability Theory and Mathematical Statistics, 3a. Edition
[4] Fraser, D.A.S.
Statistics : An Introduction
[5] Kalbfleisch, J.G.
Probability and Statistical Inference, 1a. Edition
[6] Larson H. J.
Introduction to Probability Theory and Statistical Inference,
2a. Edition
[7] Lindgren, B.W.
Statistical Theory 2a. Edition
[8] Malvar, H.T
Apostila de Inferência Estatística
Ence/Ibge, 1970
[9] Montgomery D.C. & Runger G.C.
Applied Statistics and Porbability for Engineers, 1a. Edition
[10] Mood, A.M. , Graybill, Franklin A & Boes D.C.
Introduction to the Theory of Statistics, 2a. Edition
[11] Pereira C.A.B. & Viana M.A.G.
Elementos de Inferência Bayesiana
5o. Sinape
[12] Pessoa, Djalma G.C.
Notas de Aula, Inferência Estatística
Ence/Ibge, 1992
[13] Rohatgi, V.K.
An Introduction to Probability Theory and Mathematical
Statistics, 1a. Edition
[14] Cramer, H.
Metodos Matematicos de Estadistica, 4a. Edicion
INFERENCIAS SOBRE QUANTIS

Mood Graybill e Boes - Cap. XI – páginas 512 a 514
Estimativas pontual e por intervalo de um quantil.

Através desta seção consideraremos uma amostra de uma variável aleatória
contínua com função de distribuição F  x  .
Recordemos que o q-ésimo quantil, aqui representado por Sq , é definido

por F  s q   q
para um fixado q, 0  q  1 . Em particular, para q 0,5 , S0,5 é chamada de
mediana . Os quantis podem ser usados como medidas de locação e de
dispersão . Por exemplo, S0,5 ,
Sq  S1q
2
, etc., são medidas de locação enquanto que S0.9  S0,1 , S0,75  S0,25 ,
etc.são medidas de dispersão.

Apostila - Inferencia - Ence

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apostila - Inferencia - Ence

Enviado por

Direitos autorais:

Formatos disponíveis

ESCOLA NACIONAL DE CIÊNCIAS ESTATÍSTICAS - IBGE

INTRODUÇÃO Á INFERÊNCIA ESTATÍSTICA

O objetivo principal foi o de estimular o estudo da Inferência Estatística através

Um segundo objetivo foi o de reunir os tópicos apresentados na bibliografia da

No futuro pretendemos incluir neste trabalho as seções 11 e 12 destinadas a

A Inferência Estatística consiste na utilização de métodos empíricos e teóricos da

Imaginemos que a população total de cães em estudo seja igual a N = 10.000. Na

No exemplo estudado anteriormente a população definida é o conjunto de N = 10.000

A última definição de população despreza o objeto (cão) em si e considera

Simbolicamente, representaríamos a população por

Uma amostra aleatória pode ser obtida,

(1) Com reposição.

(2) Sem reposição.

A eqüiprobabilidade de seleção de cada elemento da população é que define o adjetivo

Ao selecionarmos o primeiro elemento da população e registrarmos a sua característica,

O exemplo a seguir ilustra as duas situações em questão:

1) esquema com reposição.

Claramente as variáveis X i , i = 1,2,3,4,5 são identicamente distribuídas com

2) esquema sem reposição.

Determinaremos a distribuição de X 2 , e o mesmo procedimento pode ser adotado para

O evento  X 2  1 pode ser decomposto sob a forma:

Calculando a probabilidade temos,

Existe um outro tipo de situação que ocorre comumente - cujo procedimento é

(3) os resultados (observações amostrais) são obtidos a partir de repetidas realizações

Uma amostra aleatória com reposição é muito mais simples de se tratar

 X1 , X 2 ,..., X n  , ou simplesmente “realização da amostra”.

Se n placas são colocadas em operação, independentemente uma das outras, a função de

O termo estatística também se aplica convenientemente, à uma função das variáveis

O cálculo de uma estatística, a partir de um conjunto de observações constitui uma

Frequentemente é importante tomar os valores observados em ordem crescente de

Assim, x1  31, x 2  28, x 3  27, x 4  32 e x 5  36 , enquanto que x 1  27, x  2   28 ,

O vetor  X  , X  ,..., X   , que representa as observações ordenadas é chamado de

estatística de ordem, e constitui-se numa função do tipo R n  R n .

Vários outros exemplos de estatísticas de ordem são importantes. As variáveis

Em ambos os casos, a transformação é do tipo R n  R .

Uma outra estatística de ordem de grande utilidade é a chamada amplitude da amostra,

A toda amostra, associamos a função de distribuição amostral, calculada por

Esta função proporciona uma natural estimativa da função de distribuição da população

A média amostral é uma observação da estatística “média da amostra”, função das

No cálculo da variância , n quadrados do tipo  x i  x  foram somados e o resultado

n diferenças, conhecidas as outras (n-1) diferenças.

Por exemplo, a diferença  x1  x  é perfeitamente determinada, uma vez conhecidas as

Em grandes amostras é muitas vezes conveniente apresentar as observações através de

Neste caso, a média e variância amostral são, respectivamente

Os dados podem também ser agrupados em intervalos de classe , abrangendo a

Obs: Aconselhamos a leitura , a título de complementação e revisão, de textos sobre

Exercícios Propostos 1/2:

1.1 - A tabela abaixo apresenta o número de multas de trânsito, aplicadas em um

105 221 183 186 121 181 180 143

Seja X o número de multas, por região, no mes:

1.2 - Estabeleça um critério de seleção aleatória e obtenha uma amostra de tamanho n =

1.4 - Sejam  x1 , x 2 ,...., x n  os valores observados de uma amostra aleatória da variável

1.9 - Suponha que o número de pousos observados no aeroporto Santos Dumont,

Consideremos uma população de objetos dos quais estamos interessados em estudar

Seja  X1 , X 2 ,..., X n  uma amostra aleatória da variável aleatória X.

Uma preocupação básica na estatística matemática é a determinação da distribuição das

Em um primeiro tipo de problema devemos buscar para todo n, a função de distribuição

Num segundo tipo de problema não estaremos interessados em investigar a distribuição

3.1 - Distribuição de Amostragem da Média da Amostra.

3.1.1 - Média da Média da Amostra.

3.1.2 - Variância da Média da Amostra.

desigualdade de Chebyshev o resultado é imediato.

3.2 - Distribuição da média da amostra quando X é Normal (,).