Apostila Estatística

FGV/EPGE - Graduação em Ciências Econômicas
Disciplina: Estatística - Professor: Eduardo Campos
• O Que é Estatística? A estatística divide-se

em duas áreas:
Estatística é a ciência que permite obter
informações sobre um fenômeno, a partir
do registro de observações deste fenômeno.
- Estatística Descritiva
ESTATÍSTICA: - Inferência Estatística
DADOS → INFORMAÇÃO
Estatística Descritiva ou
Análise Exploratória de Dados Exemplo:
Cálculo do coeficiente de rendimento

A estatística descritiva ocupa-se da (c.r.) = média ponderada das notas em
análise/descrição de um conjunto de cada disciplina → medida-resumo do
dados por intermédio de tabelas, gráficos desempenho acadêmico de um aluno.
e/ou medidas-resumo, com o objetivo de
facilitar sua visualização e compreensão.
Inferência Estatística ou
Estatística Inferencial Exemplo:
Pesquisa eleitoral → estimação dos

A inferência estatística consiste de um percentuais de intenções de voto em todo
conjunto de técnicas para, a partir de uma o universo eleitoral, a partir de uma
amostra selecionada de um universo, amostra de, digamos, 2.000 pessoas.
formular conclusões para este universo.
1
• Tipos de Dados 1 - Dados Populacionais x Amostrais

Dados = matéria prima da estatística.
• Dados populacionais são aqueles que
representam todo o universo em estudo.
A identificação da ferramenta estatística
adequada para tratá-los depende da
identificação correta do tipo dos dados. • Dados amostrais são aqueles que
representam um subconjunto do universo
em estudo, sendo em geral utilizados para
A seguir são apresentadas as tipologias
tirar conclusões acerca desse universo.
mais importantes para classificar dados.
2 - Dados Primários x Secundários 3 - Corte x Séries Temporais x Painel
• Dados primários são aqueles obtidos • Dados em corte (transversal) são aqueles
de forma direta, mediante observação, referentes ao mesmo instante de tempo.
pesquisas ou experimentos controlados.
• Dados de séries temporais são aqueles
• Dados secundários são aqueles que não registrados ao longo de um período de
são obtidos diretamente, e sim mediante tempo, com determinada frequência.
publicações (como relatórios ou artigos).
4 - Dados Qualitativos x Quantitativos
• Dados em painel consistem no registro de • Dados qualitativos são aqueles que

informações ao longo do tempo para um representam um atributo ou qualidade.
conjunto de unidades em corte transversal. Exemplos: profissão, gênero, raça, estado
civil, classe social, nível de educação, etc.
Podem também ser vistos como um • Dados quantitativos são números que
conjunto de n séries temporais. resultam de uma contagem ou medida.
Exemplos: idade, peso, altura, renda, número
de filhos, número de banheiros em casa, etc.
2
Dados qualitativos podem estar

• Escala de Dados em escala nominal ou ordinal.
• Escala nominal é aquela na qual a ordem dos

No caso desta última tipologia atributos é indiferente. Exemplo: cursos de
(qualitativos x quantitativos), é Mestrado em Economia no Rio de Janeiro.
preciso especificar a escala dos dados.
• Escala ordinal é aquela na qual faz sentido
estabelecer uma ordem. Exemplo: avaliação
em excelente, boa, regular, ruim ou péssima.
Dados quantitativos podem estar

em escala discreta ou contínua.
Neste exemplo, se a avaliação fosse por notas • Dados em escala discreta são
de 1 a 5, as notas também seriam classificadas provenientes de uma contagem.
como dados qualitativos em escala ordinal! Exemplo: número de filhos.
• Dados em escala contínua são

definidos em um intervalo contínuo.
Exemplos: altura, renda.
Outro tipo de escala é a métrica, que

classifica como intervalar ou de razão. Um exemplo é a temperatura em oC. (não faz
sentido afirmar que 30oC seja o dobro de 15oC).
• Dados em escala intervalar são
aqueles para os quais faz sentido
calcular diferenças, mas não faz sentido • Dados em escala de razão (a maioria) são
calcular um quociente (razão), pelo aqueles para os quais existe uma origem bem
fato de não haver um zero absoluto. definida, e assim faz sentido interpretar razões.
3
Exemplo 1.1 - Faturamento bruto no mês

passado, em milhões de R$, das 30 filiais
de uma determinada empresa de varejo:
1. ESTATÍSTICA 11,8 3,6

8,9 9,1
16,6 13,5 4,8 8,3
7,7 2,3 12,1 6.1
10,2 8,0 11,4 6,8 9,6 19,5
DESCRITIVA 15,3 12,3 8,5 15,9 18,7 11,7
6,2 11,2 10,4 7,2 5,5 14,5
O que se pode concluir sobre esses dados?
Esses dados estão na chamada forma Distribuição de Frequências

bruta, difícil de analisar diretamente.
Precisamos usar técnicas adequadas para A distribuição de frequências é
resumí-los ou facilitar sua visualização. uma tabela que agrupa dados em classes
(intervalos), indicando o número ou
a proporção de observações que
É disto que trata a pertencem a cada uma das classes.
estatística descritiva!
Vamos obter a distribuição de frequências
correspondente aos dados do exemplo 1.1.
• Distribuição de Frequências Absolutas Limitações da distribuição

Classe Frequência
de frequências absolutas:
2 | 5 3
1. A frequência absoluta de cada classe não
5 | 8 7
Obs - as tem interpretação direta. É sempre necessário
8 | 11 7
classes não olhar para o total de observações consideradas.
11 | 14 7 precisam
14 | 17 4 ter 2. Não permite a comparação com outra
17 | 20 2 amplitudes distribuição cujos totais sejam diferentes.
Total: 30 iguais.
O uso de frequências relativas
A notação | significa que o extremo inferior da classe soluciona os problemas acima.
não está incluído, e o extremo superior está incluído!
4
• Distribuição de Frequências Relativas • Distribuição de Frequências Acumuladas

Representa a proporção ou o percentual Representa a soma das frequências
de observações que caem em cada classe. até a classe considerada (inclusive).
Classe Frequência Relativa Classe Frequência Acumulada
2 | 5 3/30 = 0,1 = 10% 2 | 5 3 ou 10%
5 | 8 = 7/30 ou 23,33% 5 | 8 3 + 7 = 10 ou 33,3%
8 | 11 23,33% 8 | 11 3 + 7 + 7 = 17 ou 56,7%
11| 14 23,33%
| 14
11 24 ou 80%
14 | 17 13,33%
17 | 20 6,67% 14 | 17 28 ou 93,3%
Total: 1 = 100% 17 | 20 30 ou 100%
Histograma (Frequências Absolutas) - ex. 1.1:

Histograma
Frequências
10
O histograma é uma representação 8
gráfica da distribuição de frequências. 6
4
Como obter o histograma? 2

0
Classes
Colocar as classes no eixo horizontal, 2-|5 5-|8 8-|11 11-|14 14-|17 17-|20
as frequências no eixo vertical,
e traçar um diagrama de barras. O histograma de frequências relativas tem o
mesmo formato, com o eixo vertical modificado.
• Histograma com Classes

• Curva ou Polígono de Frequência de Amplitudes Diferentes
Se as classes tiverem amplitudes diferentes,
isto precisa estar contemplado no histograma,
A curva obtida ao ligarmos os pontos
com as bases proporcionais às amplitudes
médios das linhas superiores das barras
e as alturas das barras reguladas de tal forma
do histograma é chamada curva de
que as áreas de cada barra sejam proporcionais
frequência ou polígono de frequência.
às frequências, caso contrário isto pode
ocasionar uma grande distorção na forma da
distribuição, comprometendo a interpretação.
5
Se o histograma desconsiderar as diferenças

Exemplo 1.2 (forma errada de construir
nas amplitudes de classe e construir as
um histograma) - Considere a seguinte
barras com as bases iguais e as alturas
distribuição de frequências dos consumos
proporcionais às frequências, teremos:
domiciliares mensais de energia elétrica:
Faixas de Consumo Frequência Relativa
0 | 50 KWh 8%
50 | 100 KWh 12%
100 | 150 KWh 32%
150 | 300 KWh 40%
300 | 500 KWh 8%
Total: 100%
Seguindo o procedimento recomendado, vê-se

que a forma da distribuição é bem diferente: Gráfico de Barras
Representação gráfica apropriada para

variáveis que representam contagens.
Consiste de barras verticais centradas

nos valores assumidos pela variável,
e com espaços separando as barras.
Exemplo 1.3
É muito frequente a confusão de histograma
Frequências de reclamações diárias no
com gráfico de barras, mas note que são
SAC de uma empresa em um certo mês:
ferramentas para tipos distintos de dados.
A confusão de uma com a outra pode

comprometer, por exemplo, o cálculo
de importantes quantidades chamadas
percentis, como veremos mais adiante.
6
Exemplo 1.4 - Análise dos tipos de defeito nas

• Gráfico de Pareto e Ogiva chapas fabricadas por uma empresa siderúrgica.
O gráfico de Pareto é um gráfico de

barras no qual os eventos são dispostos em
Ogiva
ordem crescente ou decrescente de frequência.
Em geral, é sobreposta a ele uma curva de

frequências acumuladas, denominada ogiva.
Exemplo 1.5:
Gráfico de Setores Circulares
O gráfico de pizza, ou de setores, é um

diagrama estatístico bastante popular.
É apropriado quando o objetivo

é identificar partes de um todo.
• Medidas de Posição
Média
Uma medida de posição é um valor em
torno do qual os dados estão concentrados. É a soma das observações dividida
pelo número de observações:
n
Sinônimos: medida de localização ∑x i x 1 + x 2 + ... + x n
ou de tendência central. µ= i =1
= .
n n
Principais medidas de posição:
no de i-ésima
Média , Mediana e Moda. observações observação
7
Exemplo 1.6:
No exemplo 1.1, o faturamento médio
é µ = 307,7/30 = 10,3 milhões. Salários de economistas recém-formados
(em R$ 1.000): 2,8; 6,0; 2,6; 3,1; 3,0.
Note que o valor 10,3 não ocorre.
Salário médio (dos 5 economistas):
µ = 3,5 (R$ 3.500,00).
Nenhum problema!
A média de um conjunto de dados não
Este número é representativo
precisa ser um dos valores observados.
dos salários destes 5 economistas?
R: Não, pois está bem acima

Conclusão:
de 4 dos 5 valores.
A média é uma medida de posição

Claramente, o valor responsável muito sensível à presença de outliers!
por esta distorção foi o “6,0”.
O “6,0” é um valor atípico ou discrepante, Neste caso, é recomendável utilizar outra

tecnicamente denominado outlier. medida de posição, chamada mediana!
Exemplo 1.6 (cont.):

Mediana
Salários ordenados:
É o valor Md que divide os dados 2,6; 2,8; 3,0; 3,1; 6,0.
ordenados em duas partes iguais.
Se n for ímpar: Md = observação central. Md = 3,0.
Se n for par: 3,0 é mais representativo da posição ou

Md = média das duas observações centrais. tendência central dos salários. A mediana é
uma medida de posição robusta ou resistente.
8
Em algumas situações, nem a média nem Moda

a mediana serão medidas apropriadas.
A moda é o valor que ocorre com

Exemplo 1.7 - O gerente de uma loja de maior frequência em um conjunto
calçados está interessado em saber qual de observações (notação: Mo).
tamanho de calçado ele deve priorizar na
hora de planejar seu estoque, a partir dos
tamanhos dos calçados vendidos no último Exercício 1.1 - As notas de uma turma
mês. Qual a medida de posição adequada? foram: 9, 7, 8, 6, 3, 8, 7 e 8. Obtenha a
média, a mediana e a moda das notas.
Exemplo 1.8 - Em uma pequena empresa,

os salários dos 12 funcionários estão
distribuídos da seguinte forma:
Um conjunto de dados que possua 2 modas
é chamado bimodal. Se possui mais de 2, 5 ganham R$ 2.500,00;
multimodal. Se não possui moda, amodal. 2 ganham R$ 3.000,00;
3 ganham R$ 4.000,00;
2 ganham R$ 4.500,00.
Calcule o salário médio dos

funcionários desta empresa.
Aplicação: Índice de Preço de Laspeyres:

Média Ponderada
A média ponderada, µp, é definida como: n p it

k L t = ∑ ωi i *100.
p
∑ ω jx j i =1 p0
j=1 ω1x 1 + ω2 x 2 + ... + ωk x k
µp = = .
k
∑ ωj ω1 + ω2 + ... + ωk
p i0 q i0 valor no
j=1 ωi = n
. período-base
peso do j-ésimo valor distinto de x (no

exemplo = frequência do j-ésimo salário) ∑p q
i =1
i
0
i
0
Resposta do exemplo 1.8: R$ 3.291,67.
9
O índice de Laspeyres é a média aritmética • Média para Dados Agrupados

dos preços relativos, ponderada pelo valor
(= preço*quantidade) no período-base.
Quando os dados estão disponíveis agrupados
Obs - é comum considerar como pesos as (na forma de uma distribuição de frequências),
frequências relativas. Porém, note que neste só é possível obter a média por aproximação.
caso temos uma soma - e não uma média –
ponderada. Todavia, em diversos textos
(e no exame da Anpec) o índice de Laspeyres O que se faz é a média dos pontos médios
é definido como a média dos preços relativos das classes, ponderados por suas frequências.
ponderada pelo valor relativo no período-base).
Exercício 1.2 - Obtenha o peso médio da

população cuja distribuição de frequências é: Embora a média, a mediana e a moda
sejam as medidas de posição mais usuais,
Classe Frequência há outras medidas de posição importantes.
 50 Kg
40 | 2
 60 Kg
50 | 5
 70 Kg
60 | 7
 80 Kg
70 | 8
 90 Kg
80 | 3 Apresenta-se a seguir a média
geométrica e a média harmônica.
Solução: µ ≅ (2*45 + 5*55 +
7*65 + 8*75 + 3*85)/25 = 67 Kg.
Exemplo 1.9 - Seja um investimento com

Média Geométrica taxas de retorno anuais de 10 e 20% nos
anos 1 e 2, respectivamente.
A média geométrica µg é
definida da seguinte forma: A média simples (aritmética) dos retornos
é 15%. Isto poderia levar à impressão de
que alguém que invista neste ativo por 2
µ g = (x 1 x 2 ...x n )n .
1
anos obteria um retorno de 15% ao ano,
uma conclusão totalmente equivocada.
10
Para ilustrar, considere um capital de

R$ 1000,00 investido no início do ano 1.
O retorno médio efetivo ou equivalente
Qual o valor capitalizado ao final dos 2 anos? Req é o retorno por período que levaria
ao mesmo valor final caso os retornos
de todos os períodos fossem iguais.
1.000*(1+R1)*(1+R2) = 1.000*1,1*1,2 =
R$ 1.320,00.
fator de capitalização fator de capitalização

no ano 1 no ano 2
O fator de capitalização equivalente No exemplo 1.9:

referente a n períodos é obtido por meio
da média geométrica dos fatores de
capitalização referentes à cada período: (1 + R eq ) = (1 + R 1 )(1 + R 2 ) = 1,32 = 1,148913,
(1+Req)n = (1+R1)(1+R2)...(1+Rn) de tal forma que Req = 14,8913%.

⇓
(1+Req) = [(1+R1)(1+R2)...(1+Rn)]1/n
Interpretação: para obter o valor final de R$
1.320,00 com a mesma taxa de retorno em
E daí se obtém o Req. cada ano, esta taxa teria que ser 14,8913%.
Outro bom exemplo de aplicação do conceito

de média geométrica em economia é o índice Média Harmônica
de Fisher, que é uma média geométrica
dos índices de Laspeyres e Paasche: A média harmônica µh é
definida da seguinte forma:
Ftp = Lpt Ptp e Ftq = Lqt Ptq .
n
µh = n 1
.
(este índice possui algumas propriedades
desejáveis que os índices de Laspeyres e ∑
i =1 x i
de Paasche não possuem)
11
Aplicação: Índice de Preço de Paasche:

Note que os pesos do índice de Paasche não
possuem interpretação muito clara, uma vez
np it que os preços e as quantidades são
Pt = ∑ ωi i *100.
p
computados em instantes diferentes.
i =1 p0
valor
p i0 q it considerando O conceito de média harmônica permite
ωi = n
. o preço no
expressar o índice de Paasche com pesos
∑p q i i período-base
0 t e a quantidade “interpretáveis”, como no índice de Laspeyres.
i =1 no período t
Paasche como Média Harmônica:

Relação Entre os Tipos de Média
O índice de Paasche pode ser escrito como a
média harmônica dos preços relativos,
ponderada pelos valores no período t. Seja µ a média aritmética. Então, a não
ser que todos os números sejam iguais:
1 p it q it
Ptp = n i
. ωi = n
.
p
∑ ωi
p
0
i ∑p q i
t
i
t
i =1 t i =1 µ > µg > µh.
Vale o mesmo comentário feito para o índice
de Laspeyres - o uso de média ponderada
mesmo quando o peso é o valor relativo.
• Medidas de Dispersão Exemplo 1.10 - Dois fornecedores, A e

B, apresentaram os seguintes prazos de
Frequentemente, uma medida de posição entrega, referentes aos últimos 5 clientes
não fornece todas as informações de que (em dias):
precisamos para tomar uma certa decisão. Fornecedor A – 18; 10; 17; 3; 2.
Fornecedor B – 9; 10; 10; 9; 12.
Por exemplo, uma pessoa com metade
do corpo em um forno, e a outra metade
em um freezer, “na média” estará bem! Com base nos prazos acima, qual dos
fornecedores você escolheria: A ou B?
12
Naturalmente, você escolheria o fornecedor B Seja (xi-µ) o desvio de xi em relação à média.

(menor risco inerente ao prazo de entrega). Possíveis medidas de dispersão seriam:
A medida de dispersão mais simples n
n ∑ ( x − µ)i
é a amplitude = máximo - mínimo. ∑ ( x − µ) ou i =1
.
i
i =1 n
Uma forma mais completa de definir
uma medida de dispersão é: valor que Problema:
nos informa o quanto os dados variam n
em torno de uma medida de posição. ∑ (x − µ) = 0, sempre!

i =1
i
Note que este problema é resolvido • Desvio (Absoluto) Médio

mediante qualquer transformação que
converta os desvios em valores positivos. É a média dos módulos dos desvios:
∑| x
i =1
i −µ|
DM = .
n
As mais simples são o módulo e o quadrado.
Esta medida possui alguns inconvenientes,
sendo usual tomar os quadrados dos desvios.
σ2)
Variância (σ Forma alternativa para o cálculo de σ2:
É a média dos quadrados dos desvios:

n n
∑x − nµ ∑ x i2
n 2 2
∑ (x i
− µ) 2
i
σ2 = i =1
. σ2 = i =1
= i =1
− µ2.
n n n
Exercício 1.3 - Seja um conjunto de 3 dados:

x1 = 2, x2 = 5 e x3 = 8. Ache a variância. R: 6.
13
Exemplo 1.10 (cont.):

A variância apresenta um sério problema: ela
é expressa no quadrado da unidade original,
Prazos de entrega aos últimos 5 clientes:
em geral uma unidade que sequer faz sentido.
Fornecedor A – 18; 10; 17; 3; 2.
Como consequência, a variância
Fornecedor B – 9; 10; 10; 9; 12.
não possui interpretação direta.
Para o fornecedor A: σ2 = 45,2.
Para o fornecedor B: σ2 = 1,2. Por esta razão o desvio padrão, apresentado
.
a seguir, é adotado com maior frequência.

Interpretação?
Interpretação de σ (válida se os dados seguem

σ)
Desvio Padrão (σ uma distribuição Normal de probabilidade):
99,72%
Regra Z
σ= σ . 2
para identificar
outliers: valores
que estejam fora
No exemplo 1.9, para o fornecedor A: σ = de [µ-3σ,µ+3σ].
6,72 dias, e para o fornecedor B: σ = 1,10 dias.
O desvio padrão preserva a unidade original
dos dados e ainda possui interpretação direta.
Exemplo 1.11 - Aplicação em Finanças

• Aplicação em Análise de Investimentos Os retornos da ação B oscilam em torno de um patamar superior àquele em
torno do qual oscila os retornos da ação A → maior retorno esperado.
RETORNOS DIÁRIOS DE 2 AÇÕES

12
É usual analisar a média e o desvio padrão dos 10
8
retornos (variações de preço) de um ativo. 6
4
Ação A
2
Ação B
0
1
13
17
21
25
29
33
37
41
45
49
-2
Neste contexto, o desvio padrão é uma medida -4
-6 média da
do risco do ativo, chamada volatilidade. -8 ação B
média da DIAS
ação A Em compensação, a flutuação dos retornos
da ação B é bem maior → maior desvio
padrão = medida de risco = volatilidade.
14
Medidas de Posição no Excel Medidas de Dispersão no Excel
Considere que os dados estão

na coluna A, células A1 a A8. Considere que os dados estão
na coluna A, células A1 a A8.
Média: MEDIA(A1:A8).
Mediana: MED(A1:A8). Variância: VARP(A1:A8).
Moda: MODO(A1:A8). Desvio Padrão: DESVPADP(A1:A8).
Questão: por que o “P” no final do comando? • Variância Amostral (s2)
Para enfatizar que estamos calculando média amostral.

as quantidades Populacionais, ou seja, n n
considerando que o conjunto de dados é o ∑ (x i − x ) 2 ∑ x i2 − nx 2
nosso universo de estudo, como é o caso. s2 = i =1
= i =1
.
n −1 n −1
Quando trabalharmos com uma amostra,
com o objetivo de estimar a variância σ2 Esta medida é usada para estimar a variância
de uma população (capítulo 2 do curso), de uma população. Os comandos no excel
a fórmula adequada será a do slide seguinte. são, respectivamente: VARA e DESVPADA.
• Variância para Dados Agrupados Exercício 1.4 - Calcule a variância dos pesos
Quando os dados estão disponíveis na forma de na população do exercício 1.2, com base
distribuição de frequências (isto é, agrupados), apenas na distribuição de frequências:
só é possível obter a variância por meio de uma Classe Frequência
aproximação, a partir da média dos quadrados  50 Kg
40 | 2
dos desvios dos pontos médios das k classes em  60 Kg
50 | 5
relação à média, ponderados pelas frequências:  70 Kg
60 | 7
k
 80 Kg
70 | 8
∑ ω j ( x j − µ)
2
 90 Kg
80 | 3
j=1
σ2 ≅ .
n R: 128.
15
Erro médio absoluto, em relaçao a c:

Obs - erro quadrático médio em relação a c:
∑ (x
n
− c) 2
i =1
i
∑x i −c
. i =1
.
n n
Esta medida assumirá o seu valor mínimo

para c = µ (caímos, portanto, na variância). Esta medida assumirá o seu
valor mínimo para c = Md.
A primeira propriedade faz da média uma

medida de posição mais precisa, se tomamos Coeficiente de Variação (CV)
como referência de medida de dispersão
o erro quadrático médio (como é usual).
Quando queremos comparar dados
expressos em diferentes unidades ou
magnitudes, o uso do desvio padrão
A segunda propriedade faz da mediana
leva a conclusões equivocadas, sendo
a medida mais adequada, se tomamos
necessário utilizar uma outra medida
como referência o erro médio absoluto
chamada coeficiente de variação.
(isso é frequente em estatística robusta).
Exemplo 1.12 - Suponha que estejamos O desvio padrão dos salários dos gerentes
interessados em estudar a variabilidade de foi igual ao dos salários dos auxiliares
salários em diferentes ramos de atividade de escritório, ambos iguais a 100.
profissional. Como um caso extremo, Isto indica variabilidade alta ou baixa?
considere a comparação entre salários
de gerentes e de auxiliares de escritório. No caso dos auxiliares de escritório, cujos
salários estão em torno de R$ 500,00, é alta.
Sabe-se que o salário médio dos
gerentes é de R$ 5.000,00 e o dos Já para os gerentes, cujos salários estão em
auxiliares de escritório é de R$ 500,00. torno de R$ 5.000,00, é relativamente baixa.
16
Fórmula do Coeficiente de Variação: Propriedades do Coeficiente de Variação:
σ 1 - É adimensional, isto é, não é expresso

CV = .
µ em nenhuma unidade de medida.
2 - É uma medida de dispersão relativa.

CV dos salários dos auxiliares de
escritório: 100/500 = 0,2 ou 20%.
3 - CV pequeno = dados homogêneos
CV dos salários dos gerentes: 100/5.000 = e CV grande = dados heterogêneos.
0,02 ou 2% ⇒ dispersão relativa menor.
• Transformações de Origem • Transformações de Escala
Uma transformação de origem é o ato de Uma transformação de escala é o ato de

somar uma constante - digamos b - a todos multiplicar por uma constante - digamos a -
os valores de um conjunto de dados, ou seja: todos os valores de um conjunto de dados:
yi = xi + b, i = 1, ..., n. yi = axi, i = 1, ..., n.
Efeitos de uma transformação de origem: Efeitos de uma transformação de escala:

µ y = µ x + b, σ 2y = σ 2x , σ y = σ x , CVy = σ x /(µ x + b). µ y = aµ x , σ 2y = a 2σ 2x , σ y = a σ x , CVy = CVx .
• Transformações de Origem + Escala Exercício 1.5 - Seja um produto importado

cujo preço, em dólares, apresenta, ao longo
de um período, média 80 e desvio padrão 8.
yi = axi + b, i = 1, ..., n.
a) Se a taxa de câmbio for 2 R$/Dólar,
obtenha a média, o desvio padrão e o
Efeitos de uma transformação coeficiente de variação do preço em R$.
de origem + escala:
b) Se o preço do produto aumenta 10 dólares,
obtenha média, desvio padrão e coeficiente
µ y = aµ x + b, σ 2y = a 2σ 2x , σ y = a σ x ,
de variação do novo preço (em dólares).
e, desta forma : CVy = a σ x /(aµ x + b). R: a) µ = R$ 160, σ = R$ 16 e CV = 10%.
b) µ = US$ 90, σ = US$ 8 e CV ≅ 8,89%.
17
Conclusões a respeito de
• Outras Medidas Importantes
transformações nos dados:
Medidas de posição e de dispersão, embora
A média é sensível a transformações
muito importantes, não são as únicas medidas
tanto de escala, tanto de origem.
resumo que descrevem um conjunto de dados.
A variância e o desvio padrão são
invariantes à transformações de origem. Para uma análise mais completa, em algumas
situações específicas, podemos precisar de
O coeficiente de variação é invariante
medidas mais sofisticadas, como assimetria,
a transformações de escala (e esta é outra
curtose e percentis (= quantis = separatrizes).
propriedade importante desta medida!).
As figuras a seguir comparam as curvas de

Assimetria e Curtose frequências de dados simétricos e assimétricos, e
sua relação com as medidas de posição usuais:
A assimetria (a) é uma medida do quanto a curva
de frequência dos dados está afastada de um
aspecto simétrico em relação ao eixo central.
Se a metade esquerda da curva é um “espelho”

da metade direita, dizemos que os dados são
distribuição distribuição com distribuição com
simétricos. Caso contrário, que são assimétricos. simétrica assimetria positiva assimetria negativa
ou à direita ou à esquerda
A curtose (k) é uma medida do “achatamento”

da curva de frequência dos dados. As figuras Coeficientes de Assimetria e Curtose
a seguir ilustram as 3 situações possíveis:
Medidas usuais da assimetria e da curtose
de um conjunto de dados são, respectivamente:
referência
(k = 3).
n n
∑ ( x i − µ) 3 e ∑ (x i − µ) 4
a= i =1
k= i =1
Aspecto achatado, com aspecto pontiagudo, com nσ 3 nσ 4
valores distribuídos de valores concentrados em um
modo uniforme (k<3). intervalo pequeno (k>3).
18
No caso da assimetria, outra medida comum é o • Percentil ou Quantil

(primeiro) coeficiente de assimetria de Pearson:
µ − Mo O percentil p é o valor tal que
a1 = . p% dos dados estão abaixo dele.
σ
Se a > 0 (< 0), a assimetria é positiva (negativa). Os percentis que dividem a distribuição em
4 partes são chamados quartis. Em 5, quintis.
Quando a moda não existe, é usual considerar o Em 10, decis (p.ex., 10º percentil =1º decil).
(segundo) coeficiente de assimetria de Pearson:
µ − Md Quantil é sinônimo de percentil
a2 = . (não confundir com quaRtil).
σ
• Cálculo de Percentis a
Um importante caso particular são os
Partir de Dados Agrupados
quartis = medidas Q1, Q2 e Q3 que
dividem os dados em 4 partes iguais. Exemplo 1.13 - Considere a seguinte
distribuição de frequências dos consumos
domiciliares mensais de energia elétrica:
Faixas de Consumo Frequência Relativa
0 | 50 KWh 8%
50 | 100 KWh 12%
100 | 150 KWh 32%
150 | 300 KWh 40%
300 | 500 KWh 8%
Total: 100%
O cálculo dos percentis é feito A figura a seguir posiciona Q2 (mediana)

por meio de uma regra de 3. na distribuição acumulada (Q2 = 100+h):
O primeiro passo é obter
a distribuição acumulada:
Faixas de Consumo Frequência Acumulada
0 | 50 KWh 8%
50 | 100 KWh 20%
100 | 150 KWh 52%
150 | 300 KWh 92%
300 | 500 KWh 100%
19
A figura a seguir posiciona Q1 na distribuição

h é calculado por meio da seguinte regra de três: de frequências acumuladas (Q1 = 100+h):
150 − 100 52 − 20
= .
h 50 − 20
Assim, Q2 ≅ 100 + 46,8 = 146,8 KWh.
A figura a seguir posiciona Q3 na distribuição

h é calculado por meio da seguinte regra de três: de frequências acumuladas (Q3 = 150+h):
150 − 100 52 − 20
= .
h 25 − 20
Assim, Q1 ≅ 100 + 8 = 108 KWh.
Exercício 1.5 - Ache os quartis associados à

h é calculado por meio da seguinte regra de três: distribuição de frequências dos salários (em
R$ 1.000) dos 40 gerentes em uma empresa:
300 − 150 92 − 52
= . Salários: Frequência:
h 75 − 52
16 -| 19 8
Assim, Q3 ≅ 150 + 86 = 236 KWh. 19 -| 22 4
22 |- 23 16
23 |- 25 12
A mesma lógica vale para qualquer percentil. Total 40
Respostas: Q1 = 20,5, Q2 = 22,5 e Q3 = 23,33.
20
• Cálculo de Percentis a Exemplo 1.14 - Achar os quartis do

partir de Dados Brutos conjunto de dados: 5, 4, 8, 2, 9, 5, 8, 7, 8, 3.
Existe mais de uma forma Solução:
admissível, sendo a mais usual:
Dados ordenados: 2, 3, 4, 5, 5, 7, 8, 8, 8, 9.
Posição do percentil p
⇒ (n+1)*(p/100) Posição da Mediana: (10+1)/2 = 5,5 ⇒ Md = 6.
Posição de Q2 (mediana): (n+1)/2 Posição do Q1: (10+1)/4 = 2,75. Para obter
Posição do Q1: (n+1)/4 Q1, é necessário utilizar uma regra de três.
Posição do Q3: 3(n+1)/4
A idéia é achar, entre as observações 3 e 4 Obs - as funções QUARTIL E

(que correspondem às posições 2 e 3), o QUARTIL.EXC fazem de outra forma:
valor que corresponderia à posição 2,75:
4−3 3− 2 Passo 1 - Ordenar as observações. A mediana

= , é calculada como já foi ensinado: (5+7)/2 = 6.
Q1 − 3 2,75 − 2
obtendo-se assim: Q1 = 3,75. Passo 2 - Achar a posição k do Q1.

Deve-se resolver: 3*(k-1) = n-k
Posição do Q3: 3(10+1)/4 = 8,25 ⇒ Q3 = 8. ⇒ k = (n+3)/4 = 3,25.
(no Excel, a função é QUARTIL.INC)
Passo 3 - Achar, via “regra de três”, o Passo 4 - Achar a posição k do Q3.

valor situado entre as observações 4 e 5 Deve-se resolver: (k-1) = 3*(n-k)
que corresponde à “posição” 3,25. ⇒ k = (3n+1)/4 = 7,75.
5−4 4−3 Passo 5 - Achar, via “regra de três”, o

= .
Q1 − 4 3,25 − 3 valor que corresponde à “posição” 7,75.
Aqui nem tem que fazer conta: Q3 = 8.

O que resulta em Q1 = 4,25.
21
• Amplitude Interquartílica • Esquema de 5 Números (ou Resumo de

de 5 Números ou Desenho Esquemático)
É uma medida de dispersão definida como a
diferença entre o terceiro e o primeiro quartis:
É uma representação que mostra os quartis
e os valores máximo e mínimo de um
∆Q = Q3 – Q1. conjunto de dados, da seguinte forma:
Não confundir com amplitude
(= valor máximo - valor mínimo).
Também chamada amplitude interquartil ou
semi-interquartílica ou desvio interquartílico.
Box-Plot Exemplo 1.15 - Seja o seguinte conjunto de

dados (ordenado): 5, 10, 12, ... , 37, 42, 45.
É um diagrama que representa:
Sabendo-se que os quartis são Q1 = 20,
- a mediana,
Q2 = 25 e Q3 = 28, obtenha o box-plot.
- os quartis Q1 e Q3,
- uma linha que vai de Q3 até a maior
observação menor ou igual a LS = Q3+1,5∆Q,
- outra linha que vai de Q1 até a menor
observação maior ou igual a LI = Q1-1,5∆Q.
Aplicações do Box-Plot Como detectar e identificar o tipo de assimetria?
1. Comparar dispersões (via amplitudes A partir das distâncias da mediana aos quartis.
interquartílicas) de dois conjuntos de dados.
Se a mediana está mais próxima de Q1,
2. Identificar a presença de assimetria os dados apresentam assimetria positiva.
(e o tipo dela – se é positiva ou negativa),
Se a mediana está mais próxima de Q3,
por meio de uma regra mais precisa do que
os dados apresentam assimetria negativa.
a regra baseada nas medidas de posição.
22
Aplicações do Box-Plot (cont.)

Obs - se a distância da mediana aos
quartis é igual, os dados podem ter (mas não
necessariamente tem) distribuição simétrica. 3. Detectar a presença de outliers:
Valores acima de LS são outliers (superiores)

Qualquer condição para a simetria, que não
seja inspecionar a curva de frequência exata Valores abaixo de LI são outliers (inferiores)
dos dados, será apenas necessária - nunca (esta regra é preferível à regra Z, sendo
suficiente - para que se conclua por simetria. a referência para identificar outliers)
Os outliers costumam ser assinalados com *.
Exercício 1.6 - As idades das mulheres Obs1 - Por que quem está fora dos
com 40 anos ou mais, em uma localidade, limites LI e LS é considerado outlier?
apresentam Q1 = 49, Md = 54 e Q3 = 63. A
mais velha tem 71 anos. Obtenha o box-plot. Por que estes limites são construídos de
tal forma que, se os dados seguirem uma
distribuição Normal, aproximadamente
Solução: 99,3% dos dados estarão contidos em [LI,LS]
(aproximando-se, desta forma, da regra Z)
Note ainda que o critério baseado no Box-

Plot é mais geral que a regra Z, pois permite
identificar outliers para dados não Normais.
• Análise Bidimensional
Diagrama de Dispersão
É a análise estatística que envolve 2 variáveis.
Por exemplo: Um diagrama de dispersão é um

gráfico de pontos {(xi,yi); i = 1,2,...,n}
1) gasto com alimentação e renda que indica se parece ou não existir
alguma relação entre 2 variáveis X e Y,
2) nota em uma prova e horas de estudo e identificar qual o tipo desta relação.
3) vendas e investimento em publicidade
cada ponto desses representa o valor
etc. de X e de Y para a i-ésima observação
23
Questões que o diagrama de

dispersão permite responder: 3 - Havendo relação linear, ela é perfeita?
(os pontos estão todos sobre uma reta?)
1 - É possível observar algum padrão que
indique uma associação entre X e Y?
4 - No caso de relação linear imperfeita,
o grau de associação é forte ou fraco?
2 - Em caso positivo, a relação aparente:
2.1 - É crescente ou decrescente?
2.2 - É linear ou não-linear? uma relação é chamada mais forte à medida que os
uma relação é linear quando podemos traçar uma reta que se ajusta
pontos estejam mais concentrados em torno da reta
bem aos pontos, no sentido de descrever sua disposição no diagrama
Exemplos de diagramas de dispersão:

O diagrama de dispersão permite
visualizar uma relação de associação.
Este é um dos objetivos da estatística

descritiva. Todavia, é muito importante
saber mensurar a força desta associação.
Para isto, precisamos de medidas-resumo.
Interpretação da Covariância:
Covariância
Uma covariância positiva nos diz que
quando X tende a variar acima de sua média
A covariância é uma medida da (xi>µ X), Y também tende (yi>µ Y), e quando
variabilidade conjunta de X e Y. X tende a variar abaixo de sua média
(xi<µ X), Y também tende (yi<µ Y), ou seja:
Fórmula:
n X e Y variam no mesmo sentido.
∑ (x i − µ X )( y i − µ Y )
Uma covariância negativa significa
σ XY = i =1
. que X e Y variam em sentidos opostos.
n
24
Exemplo 1.16 - Considere 3 alunos cujos

números X de faltas a um curso e notas Y Fórmula alternativa para a covariância:
na prova são dados a seguir:
X Y
n n
Aluno 1 4 3 ∑ x i y i − nµ X µ Y ∑ x i y i
Aluno 2 4 4 σ XY = i =1
= i =1
− µ Xµ Y .
n n
Aluno 3 1 8
Calcule a covariância entre faltas e notas.
R: σXY = -3.
Coeficiente de Correlação
A covariância evidencia o sentido da relação
entre as variáveis, mas o interesse maior
costuma ser medir a força desta associação. O coeficiente de correlação é um
número entre -1 e 1, que mede a força
da associação linear entre X e Y.
É aí que entra o Fórmula:

coeficiente de correlação. σ XY
ρ XY = .
σXσY
Interpretação do Obs - Correlação x Independência!

Coeficiente de Correlação:
- Se a relação linear entre X e Y for É importante frisar que a correlação mede

positiva e perfeita, a correlação é igual a 1. apenas a força de uma associação linear,
não fornecendo informação acerca de
- Se a relação linear entre X e Y for relações de dependência não lineares.
negativa e perfeita, a correlação é igual a -1.
Por exemplo, se Y = X2, ρXY = 0,
- Se não houver relação linear: o valor porém as variáveis são dependentes.
do coeficiente de correlação é zero.
25
Se a relação linear entre X e Y for positiva, Se a relação linear entre X e Y for negativa,
mas não perfeita, a correlação está entre 0 e 1. mas não perfeita, a correlação está entre -1 e 0.
Neste caso, quanto maior a intensidade da Neste caso, quanto maior a intensidade da
associação, mais próximo ρXY está de 1. associação, mais próximo ρXY está de -1.
Por exemplo, um coeficiente de correlação Por exemplo, um coeficiente de correlação

igual a 0,95 indica uma relação linear igual a -0,1 indica uma relação linear
positiva e forte entre X e Y. negativa e fraca entre X e Y.
Exemplo 1.17 - No exemplo 1.16, ache a Resumo das Propriedades do

correlação entre notas e faltas. Os desvios Coeficiente de Correlação:
padrão são, respectivamente, 2,16 e 1,41.
1 - varia entre -1 e 1
Resposta:
σ XY −3 2 - é adimensional (não possui unidade)
ρ XY = = ≅ −0,98.
σ X σ Y 2,16 *1,41 3 - representa a força da relação
linear (apenas) entre 2 variáveis.
A associação linear entre o número de
faltas e a nota é negativa ou inversa (o Obs - correlação x causalidade.
que era de se esperar), e bastante forte.
• Covariância e Correlação Amostrais Medidas de Associação no Excel

n
Covariância (amostral):
∑ (x i − x )( yi − y) COVAR(A1:A8;B1:B8).
s XY = i =1
.
n −1 Correlação: CORREL(A1:A8;B1:B8).
É isto que a
s XY
função COVAR rXY = , Importante: na hora de calcular a
do Excel calcula! s Xs Y covariância e a correlação entre duas
variáveis, não ordene os dados. Isto não
onde sX e sY são os desvios padrão amostrais. faz o menor sentido e induz uma relação
(perceba que, numericamente, rXY = ρXY) crescente espúria entre as variáveis.
26
• Estimação Pontual
2. ESTIMAÇÃO – Exemplo 2.1 - Seja o interesse em obter

alguma informação sobre uma turma grande,
CONCEITOS por exemplo, a altura média dos alunos.
BÁSICOS Alunos da turma = universo em estudo.

Altura = característica de interesse.
Se o universo (= turma) apresenta um Neste caso, temos um problema de

tamanho moderado, este é um problema inferência estatística, em que, a partir de
de estatística descritiva: o cálculo - e não um subconjunto do universo em estudo,
a estimação - de uma medida de posição. queremos descobrir algo sobre este universo.
Porém, em geral, o universo em estudo

é muito amplo (imagine uma turma Este “algo” é o parâmetro de interesse.
bem grande), o que pode tornar inviável
observar os valores da característica de
Os slides seguintes formalizam as
interesse para todas as unidades (= alunos).
definições de população e parâmetro.
População Parâmetro
Define-se população como a Um parâmetro é uma quantidade fixa

distribuição de probabilidade e desconhecida na população, sobre
considerada adequada para a qual queremos obter informação.
a característica de interesse.
No exemplo, o parâmetro de interesse é a
Uma suposição usual é que a característica de
altura média dos alunos, ou seja, a média da
interesse (no caso, a altura dos alunos) siga
distribuição das alturas, que denotamos por µ.
distribuição Normal ⇒ população Normal.
27
Se o universo em estudo é grande (como O resultado de cada experimento pode

estamos supondo), é preciso selecionar ser representado por uma variável aleatória
um subconjunto de n unidades (alunos) Xi, que representa a altura do i- ésimo
e registrar as alturas de cada um deles. aluno selecionado, para i = 1, 2, ..., n.
A seleção de cada aluno, e o registro da O conjunto de v.a.`s: {X1, X2, ..., Xn}
sua altura, é um experimento aleatório. é o que se denomina amostra.
Temos então n experimentos aleatórios.
Amostra Estimador
Amostra é um conjunto de v.a.`s: {X1, Estimador é uma estatística (função das

X2, ..., Xn} que representam os valores v.a.`s da amostra) usada para obter um
da característica de interesse para as valor “plausível” para um parâmetro.
n unidades selecionadas do universo. O estimador “natural” para µ é:
n
O caso em que X1, X2, ..., Xn são independentes
∑X
o chapéu significa média da
que estamos i amostra
define um tipo importante de amostra, chamado estimando µ µˆ = X = i =1
. ou média
amostra aleatória ou amostra aleatória simples. n amostral
• Estimador x Estimativa Questão importante:

Quando substituímos no estimador os
valores observados de X1, X2, ..., Xn, O que é um bom estimador?
obtemos uma estimativa do parâmetro.
Exemplo 2.1 (cont.) - Considere a amostra

observada de tamanho 5: x1 = 174, x2 = 186,
x3 = 186, x4 = 180 e x5 = 174 (cm). Em linhas gerais, é aquele que tem alta
5 probabilidade de gerar uma estimativa
∑ xi próxima ao parâmetro de interesse.
A estimativa de µ é: x = i =1
= 180.
5
28
Resultado importante (visto em probabilidade):

No caso do estimador apresentado, é tal que:
P (µ − ε < X < µ + ε)
Se a população é Normal, a
seja alta, para um ε (arbitrário) > 0.

distribuição de xé Normal.
Assim, para avaliar um estimador, devemos Tecnicamente, a distribuição de um

conhecer sua distribuição de probabilidade. estimador é chamada distribuição amostral.
Exercício 2.1 - Considere uma população

Distribuição Amostral que contenha 4 unidades e cuja característica
de interesse assuma os valores 2, 4, 5 e 6.
A distribuição amostral de um estimador Represente a distribuição amostral do estimador
é a sua distribuição de probabilidade. média amostral, considerando n = 2, por meio
de uma tabela e calcule o valor esperado deste
estimador (considere que as amostras possuem
Ela representa o comportamento dos valores a mesma probabilidade, como ocorre em uma
assumidos pelo estimador em amostras AAS). Compare com a média populacional.
repetidas ⇒ isto significa: considerando
todas as amostras de tamanho n possíveis. R: 4,25, igual à média da população.
Um estimador sem vício é aquele que, em

Estimador Não Viciado algumas amostras “erra para baixo”, em outras
“erra para cima”, mas, “em média”, acerta θ.
Um estimador não viciado (ou não Um estimador viciado errará mais para baixo
tendencioso, não viesado) é aquele cujo (subestimando o parâmetro) ou mais para cima
valor esperado é igual ao parâmetro. (sobrestimando), a depender da direção do vício.
Ou seja, um estimador θ̂ é não

viciado para um parâmetro θ se:
E (θˆ ) = θ. não viciado viciado p/ baixo viciado p/ cima
29
Resultado importante (cuja demonstração

O vício (ou tendência, ou será revisada no próximo slide):
viés) de θ̂ é dado por:
E ( X ) = µ, e assim X
B(θˆ ) = E (θˆ ) − θ.
é não viciado para µ.
do inglês: bias = vício
Isto mostra que o resultado do
exerc. 2.1 não foi coincidência!
Demonstração:
Embora a ausência de vício seja uma
propriedade importante, ela não garante
1 n 1 n que um estimador seja adequado.
E(X) = E( ∑ Xi ) = E(∑ Xi ) =
n i=1 n i=1
1 n 1
∑ E(Xi ) = nµ = µ.
n i=1 n A variância também é importante, pois
mede a dispersão em torno do parâmetro.
Qual dos estimadores propostos abaixo

é melhor para estimar o parâmetro µ? Quanto menor a
variância, maior será:
distribuição de µˆ 1
P(µ − ε < µˆ < µ + ε),
distribuição de µˆ 2
para um ε arbitrário, > 0.
µ-ε µ µ+ε
30
Variância de x: • Erro Padrão
2 O desvio padrão de um estimador

1n 1 n
V(X) = V( ∑Xi ) =   V(∑ Xi ) = é denominado erro padrão (EP).
n i=1  n  i=1
1 2 σ2
2
1 n
  ∑V(Xi ) = 2 nσ = . Vimos que:
 n  i=1 n n
σ 2 e assim: σ
AAS = v.a.`s V (X ) = EP ( X ) = .
n n
independentes.
• Estimação de σ2 Demonstração de que σ̂*2 é viciado:
O candidato natural para estimar a  X 2 − nX 2 

n
variância σ2 de uma população seria: ∑ i 

Queremos provar que: E i =1 ≠σ .
2
 n 
n n  
∑ (X − X ) ∑ X − nX
2 2 2
i i Prova:
σˆ * =
2 i =1
= i =1
.
n n
 ∑ X 2 − nX 2 
( )
n
 i  1 n 2
Problema: E i =1  = E ∑ X i − nX 2 =
 n  n i =1
o estimador acima é viciado.  
=
1 n
n i=1
(( )
E ∑ X i2 − E(nX 2 ) = ) Usaremos os seguintes resultados:
V (X i ) = E (X i2 ) − E 2 (X i ) ⇒
1 n
n
∑
i =1
(
E(X i2 ) − nE(X 2 ) ) E(X i2 ) = V( X i ) + E 2 (X i ) = σ 2 + µ 2 .
V ( X ) = E(X 2 ) − E 2 ( X ) ⇒
?
? σ2
E (X ) = V ( X ) + E ( X ) = + µ 2 .
2 2
31
Retomando a demonstração:
1 σ 
2
 n (σ 2 + µ 2 ) − n  + µ 2   =
n 
( )
n
∑ E(X i ) − nE(X ) =
1 n 2 2
n i =1
1
(nσ 2 + nµ 2 − σ 2 − nµ 2 ) =
n
1 n 2 σ 
2
 ∑ (σ + µ ) − n + µ 2   =
(nσ 2 − σ 2 ) = n − 1 σ 2 ≠ σ 2 .
2
1
n  i=1 n  n n
O vício do estimador é: • Estimador Não Viciado para σ2

σ2
B(σˆ ) = E (σˆ ) − σ = − .
2
*
2
*
2
n n
n
∑ (X i − X)2 ∑X 2
i − nX 2
S2 = i =1
= i =1
.
Para obter um estimador não n −1 n −1
viciado, basta fazer:
n n Este estimador é chamado variância amostral.
n 2 ∑ (X
n i =1 i − X )2 ∑ (X i − X )2
(sua aplicação aos dados do exemplo 2.1
σˆ * = = i =1
= S2 .
n −1 n −1 n n −1 resulta na estimativa s2 = 36 para a variância)
O estimador usual para o desvio padrão σ Para demonstrar, precisamos

de uma população é a raiz quadrada de S2: da desigualdade de Jensen:
Se g(.) é uma função estritamente convexa:

σˆ = S = S2 .
E[g (X)] > g[E(X)].
(aplicando ao exemplo 2.1, temos s = 6)
Se g(.) é uma função estritamente côncava:
Apesar de S2 ser não viciado para σ2, S
apresenta vício para a estimação de σ. Mas E[g(X)] < g[E (X)].
este vício é desprezível em grandes amostras.
32
Qual a direção do vício?

• Distribuição de S2 (população Normal):
Podemos obter a direção do vício de S,
usando a desigualdade de Jensen para g(X) = X :
S2
(n − 1) 2 ~ χ 2n −1
E(g(X)) < g(E(X)), pois X é côncava. σ
Então : E( S2 ) < E (S2 )
Então : E(S) < σ 2
distribuição qui-quadrado
com n-1 graus de liberdade
E(S) < σ ⇒ S subestima σ.
Distribuição Qui-Quadrado (Revisão)

Esta distribuição apresenta
Fórmula: assimetria positiva e é tabelada.
υ
1 −1 −
x
Valor Esperado e Variância:
f (x) = υ x 2 e 2 ; x > 0; υ > 0.
2 2
π
E(X) = υ
υ
V(X) = 2υ
Parâmetro: υ (graus de liberdade)
Notação: X ~ χ 2υ .
Demonstração simples de que S2 é não viciado: Cálculo da variância de S2 (população Normal):

resultado da distribuição resultado da distribuição
qui-quadrado qui-quadrado
 S  2
 S  2
E (n − 1) 2  = ( n − 1) V (n − 1) 2  = 2(n − 1)
 σ   σ 
(n − 1) (n − 1) 2
E(S2 ) = (n − 1) ⇒ E(S2 ) = σ 2 . ( ) ( ) 2σ 4
V S 2
= 2 ( n − 1) ⇒ V S 2
= .
(n − 1)
2
σ σ4
Esta demonstração é mais simples, mas válida

Este resultado só vale se
apenas quando a população é Normal!
a população é Normal!
33
• Estimação de uma Proporção Estimador para p:
Aplicações: Seja C o conjunto de unidades, dentre i = 1,

2, ..., n, que contém o atributo de interesse.
1- Estimação da proporção p de eleitores que
pretendem votar em certo candidato; Seja: Xi = 0, se a unidade i∉C
2 - Estimação da proporção p de itens Seja: Xi = 1, se a unidade i∈C
defeituosos, em controle de qualidade; n
frequência
3 - Estimação da proporção p de usuários de relativa ou = ∑X i
proporção p̂ = i =1
= X.
celular que desenvolvem câncer cerebral. n
amostral
Cálculo do Valor Esperado de p̂: Cálculo da Variância de p̂ (sob AAS):
1 n 1 n 1 n 1
2 n
1
2 n
E(p̂) = E( ∑
n i=1
Xi ) = E(∑ Xi ) =
n i=1 V(p̂) = V( ∑Xi ) =   V(∑Xi ) =   ∑V(X ) =i
n i=1 n i =1 n i =1
n n
1 1 1
∑ E(Xi ) = ∑ p = np = p. p(1− p)
2 n
1 1
n i=1 n i=1 n  
n
∑p(1− p) = n
i =1
2
np(1− p) =
n
.
Distribuição Amostral de p̂ : Propriedades de p̂ − resumo :
 p(1 − p) 
p̂ ≈ N p, . 1. É um estimador não viciado para p.
 n 
2. Tem distribuição amostral
aproximada para n grande. assintoticamente Normal (T.C.L.).
Padronizando: Z =
p̂ − p 3. Sua variância decresce quando n
≈ N (0,1). cresce, como também ocorre com X.
p(1 − p)
(isto é muito importante, como será visto)
n
34
• Comparação de Estimadores
3. EFICIÊNCIA E Se 2 estimadores são não viciados para

um parâmetro, qual deles é o melhor?
ESTIMADORES R: o que tiver menor variância.
SUB-ÓTIMOS
Este estimador é dito mais eficiente.
• Eficiência Relativa Interpretação:
Sejam θˆ 1 e θˆ 2 dois estimadores Se Ef > 1, significa que o

não-viciados para um parâmetro θ. estimador 1 é mais eficiente
A eficiência relativa do estimador 1
em relação ao 2 é dada pela razão entre Se Ef < 1, significa que o
as variâncias dos estimadores 2 e 1, isto é: estimador 2 é mais eficiente
V(θˆ 2 )
Ef (θˆ 1 , θˆ 2 ) = . Se Ef = 1, os estimadores
V(θˆ 1 ) são igualmente eficientes.
Exemplo 3.1 - Seja uma AAS de tamanho 3

de uma população com média µ e variância A razão de variâncias só tem utilidade
σ2, e sejam os seguintes estimadores para µ: para comparar estimadores não viciados.
X1 + X 2 + X 3 E quando eles são viciados,

µˆ 1 = X = ou um deles é viciado?
3
X + X3
e µˆ 2 = 1 .
2 Neste caso, a medida adequada de
eficiência não é mais a variância.
Calcule a eficiência relativa do
estimador 1 em relação ao estimador 2.
35
Isto porque a variância mede a incerteza do • Erro Quadrático Médio (EQM)

estimador em torno do seu valor esperado:
O erro quadrático médio de um estimador
V(θˆ ) = E[θˆ − E (θˆ )]2 , θ̂ para um parâmetro θ é dado por:
e o que queremos é a incerteza em
torno do valor real do parâmetro: EQM(θˆ ) = E (θˆ − θ) 2 .
E (θˆ − θ) 2 .
Se o estimador é não-viciado, então o
Esta medida é chamada erro quadrático EQM e a variância são a mesma coisa.
médio, em geral abreviado por EQM.
Exemplo 3.2 - A figura a seguir faz uso

de uma tradicional analogia de estimação
com tiro ao alvo. Nesta analogia, o
centro do alvo é o parâmetro.
Você deve ser capaz de identificar

qual dentre os 4 estimadores:
a) possui menor variância.

b) é o mais eficiente, entre b) e c)?
c) é o mais eficiente de todos?
Respostas do exemplo 3.2:

EQM como função da variância e do vício:
a) O estimador c).
b) O estimador b).
c) O estimador a).
EQM(θˆ ) = V (θˆ ) + B2 (θˆ ).
Compare agora os estimadores c) e d).

Qual é melhor? Qual a principal mensagem?
36
Demonstração :
( )2 No caso de estimadores viciados, a

EQM(θˆ ) = E θˆ − θ = eficiência relativa é definida como:
( ) 2
E θˆ − E(θˆ ) + E(θˆ ) − θ =
E[(θˆ − E(θˆ ) ) + (E(θˆ ) − θ)] =
2 EQM (θˆ 2 )
Ef (θˆ 1 , θˆ 2 ) = .
EQM (θˆ 1 )
E (θˆ − E(θˆ ) ) + 2(θˆ − E(θˆ ) )(E(θˆ ) − θ)+ (E(θˆ ) − θ)  =
2 2
 
E(θˆ − E(θˆ ) ) + 2(E(θˆ ) − θ)E (θˆ − E(θˆ ) ) + (E(θˆ ) − θ) =
2 2
Esta fórmula serve tanto para estimadores
E(θˆ − E(θˆ ) ) + 2(E(θˆ ) − θ)(E(θˆ ) − E(θˆ )) + (E(θˆ ) − θ) =

2 2
viciados quanto não viciados (já que, neste
último caso, o EQM é igual à variância).
E(θˆ − E(θˆ ) ) + (E(θˆ ) − θ) = V(θˆ ) + B (θˆ ), C.Q.D..
2 2
2
Exemplo 3.3 - Dada uma AAS de tamanho Exercício 3.1- Para estimar a variância
n = 3, considere os seguintes candidatos a de uma população Normal, considere:
estimadores para a média populacional µ: n
∑ (X i − X ) 2
X1 + X 2 + X 3 σˆ =
2 i =1
µˆ 1 = X = *
n
(viciado) e
3
n
X1 + 2 X 2 + X 3 ∑ (X i − X ) 2
e µˆ 2 = .
3 S2 = i =1
(não viciado).
n −1
Calcule a eficiência relativa.
µ2 ( n − 1)( 2 n − 1)
R :2+ . Verifique que : Ef (S 2 , σˆ *2 ) = .
3σ 2 2n 2
 n − 1  2σ 2(n − 1)σ 4
2
Caminho para a resolução: O EQM 4
do estimador viciado é obtido a partir do V(σˆ ) = 

2
 = .
 n  n −1
*
n2
seu vício (já calculado) e da sua variância.
Para obter a variância, note que:  σ2 

2
EQM(σˆ ) = V(σˆ ) +  − 
2
*
2
*
n −1 2  n −1 
2
 n 
σˆ =
2
S ⇒ V (σˆ *2 ) =  2
 V(S ).
*
n  n  2(n − 1)σ 4 σ 4 (2n − 1)σ 4
= + 2 = .
n2 n n2
sendo que a variância de S2 já foi obtida,
Dividindo por V(S2) e manipulando,
no caso de populações Normais. Assim:
chega-se ao resultado proposto.
37
Gráfico de Ef (S2 , σˆ *2 ), como função de n :

Comparação entre os
Estimadores de Variância:
1. Em amostras pequenas, embora S2

seja não viciado, σ̂*2 é mais eficiente.
2. Em grandes amostras, os estimadores

são praticamente equivalentes.
• Estimadores Ótimos x Sub-Ótimos Melhor Estimador Não Viciado (UMVUE/BUE)

Até o momento, deve estar claro que
o melhor estimador possível - ou seja, Um estimador é chamado UMVUE (Uniformily
o estimador ótimo - é aquele que possui Minimum Variance Unbiased Estimator)
o menor erro quadrático médio possível, ou BUE (Best Unbiased Estimator) se:
independente de ele ser viciado ou não.
Todavia, frequentemente não é possível 1. é não viciado
e/ou necessário achar um estimador ótimo e
sem algum tipo de restrição à classe
2. sua variância é menor do que a de
de estimadores considerados, chegando,
qualquer outro estimador não viciado.
neste caso, a um estimador sub-ótimo.
Exercício 3.2 - Se há apenas 3 estimadores

• Limite Inferior de Cramér-Rao
possíveis para um parâmetro θ, ilustrados
abaixo, qual deles é o UMVUE?
É o menor valor possível que a variância
de um estimador não viciado pode assumir.
O estimador não viciado cuja variância

atinja o LICR é chamado eficiente.
38
• Estimador Eficiente Obs - UMVUE x Estimador Eficiente
Um estimador é eficiente se: A variância de um estimador não viciado para

θ é sempre igual ou maior do que o LICR(θ).
1. é não viciado
e O UMVUE para um parâmetro sempre
2. sua variância é igual ao LICR. existe, porém nem sempre é possível
(em breve será mostrado como calcular o LICR) encontrar um estimador eficiente.
Fórmula do Limite
O UMVUE só será eficiente se Inferior de Cramér-Rao:
sua variância for igual ao LICR.
1
LICR (θ) = .
I(θ)
Assim, nem todo UMVUE é eficiente,
mas todo estimador eficiente é UMVUE. Informação de Fisher
A informação de Fisher, por sua

Exemplo 3.4 - Seja uma AAS de uma
vez, é definida da seguinte forma:
população Poisson(λ). Verifique se
2
ˆλ = X é um estimador eficiente para λ.
 d ln f (X)   d 2 ln f (X) 
I(θ) = nE  ou − nE
 dθ2  .
 dθ    Solução:
ou P(X=X),
no caso
discreto. Obs - λˆ = X é não viciado e sua variância
Obs - o LICR nem sempre é aplicável. A é igual a λ/n. O que temos que fazer é
condição é que a distribuição seja diferenciável compará-la com o LICR(λ), obtido a seguir.
em θ, e que seu domínio não dependa de θ.
39
Cálculo do LICR para o exemplo 3.4:

λX e − λ Conclusão: como o estimador λˆ = X.
P(X ) = ⇒ ln(P(X)) = X ln λ − λ − ln(X!).
X! é não viciado e sua variância é
dln(P(X )) X X−λ igual ao LICR, ele é eficiente para λ.
⇒ = −1 = .
dλ λ λ
X−λ E(X − λ ) V (X) 1

2 2 2
 dln(P(X )) 
E  = E  = = 2 = .
 dλ   λ  λ2 λ λ
λ
2
 dln(P(X ))  n
I(λ ) = nE  = ⇒ LICR (λ ) = .
 dλ  λ n
Passos para calcular o LICR: Passos para calcular o LICR (cont.):
1. Escrever a expressão de ln(f(X)) ou de 3. Elevar a derivada do passo 2 ao

ln(P(X)) - atenção para o fato de que X quadrado, e aplicar o valor esperado.
tem que ser maiúsculo, senão não faria
sentido aplicar o valor esperado. 4. Multiplicar por n, obtendo a informação.
2. Derivar ln(f(X)) - ou ln(P(X)) - 5. O LICR é 1 dividido pela informação.

em relação ao parâmetro de interesse.
1
Prova de que é viciado para λ :
Exemplo 3.5 - Seja uma AAS de uma X
população Expo(λ). Verifique se 1
Usando a desigualdade de Jensen para g(X) = :
ˆλ = 1 / X é um estimador eficiente para λ. X
1
E(g(X)) > g(E(X)), pois é convexa.
Solução: X
1 1 1
Então : E  > = = λ.
 X  E(X) 1/λ
λˆ = 1 / X é viciado (slide seguinte),
e assim não tem como ser eficiente. Daí :
1 1
E  > λ ⇒ sobrestima λ.
X X
40
f (X) = λe − λX ⇒ ln(f (X)) = ln λ − λX.

dln(f (X)) 1
O vício não é simples de obter, mas ⇒ = − X.
dλ λ
provar que é viciado é suficiente para
concluir que ele não é eficiente. 2 2 2
 dln(f (X))  1   1 1
E  = E  − X  = E X −  = V ( X ) = 2 .
 dλ  λ   λ λ
λ2
2
 dln(f (X))  n
De qualquer forma, vamos calcular I(λ) = nE  = 2 ⇒ LICR (λ) = .
 dλ  λ n
o LICR para λ, como exercício.
Um estimador eficiente para λ teria que
ter valor esperado λ e variância λ2/n.
Exercício 3.3 - Seja uma AAS de Passos intermediários para a solução:

uma população Expo(λ). Verifique se
X é um estimador eficiente para estimar a dln(f (X)) X 1 X − θ
= 2− = 2 .
média desta população, dada por: θ = 1/λ. dθ θ θ θ
Solução: n θ2
I(θ) = ⇒ LICR ( θ) = .
θ2 n
Obs - X é não viciado para θ e sua variância
é igual a θ2/n. O que temos que fazer é Que é igual à variância do estimador. Logo,
compará-la com o LICR(θ), obtido a seguir. o estimador proposto é eficiente para θ.
Solução:
Exemplo 3.6 - Seja uma AAS de uma
população Bernoulli(p). Verifique se
P( X) = p X (1 − p)1−X ⇒ ln(P (X )) = X ln p + (1 − X) ln(1 − p).
p̂ = X é um estimador eficiente para p. dln(P( X)) X (1 − X ) X−p
⇒ = + (−1) = .
dp p 1− p p(1 − p)
Solução:
E (X − p )
2 2
 dln(P (X ))   X−p 
2
V( X)
E  = E  = 2 = 2
Obs - p̂ = X é não viciado e sua variância  dp   p (1 − p )  p (1 − p ) 2
p (1 − p) 2
é igual a p(1-p)/n. O que temos que fazer é 1 n p(1 − p)
= ⇒ I ( p) = ⇒ LICR( p) = .
compará-la com o LICR(p), obtido a seguir. p(1 − p) p(1 − p) n
41
• LICR para uma Função do Parâmetro

Conclusão: como o estimador p̂ = X.
é não viciado e sua variância é Em alguns casos, é fácil obter o LICR para
igual ao LICR, ele é eficiente para p. um parâmetro, porém muito difícil obtê-lo
para determinada função deste parâmetro.
Por exemplo, no exemplo 3.6, tente

calcular o LICR para θ = p(1-p).
Seja então p o parâmetro original e θ = g(p) a Exemplo 3.7 - Seja uma AAS de uma
função para a qual desejamos calcular o LICR. população Bernoulli(p). Encontre o limite
inferior de Cramer-Rao para θ = p(1-p).
Você pode utilizar a seguinte fórmula: Solução:
Tentar escrever p em função de θ e calcular

[g`(p)]2 dg(p)
LICR (g (p)) = , sendo g`(p) = . o LICR você já viu que não é uma boa...
I( p) dp
Utilizando a fórmula:
Exercício 3.4 - Seja novamente uma
AAS de uma população Bernoulli(p).
[g`( p)]2 dg (p)
LICR (g ( p)) = , sendo g`( p) = .
I( p) p = g −1 ( θ )
dp
Calcule o LICR para θ = 1/p
Temos g`(p) = 1-2p, e assim: a) diretamente

b) usando a fórmula
[1 − 2p]2 [1 − 2p]2 [1 − 2p]2 p(1 − p)
LICR (θ) = = = .
I( p ) n / p(1 − p) n
42
Exercício 3.5 - Seja uma AAS de

Obs - para o cálculo direto, deve-se substituir p tamanho n de uma população Normal
= 1/θ na distribuição de probabilidade original com σ2 conhecido. Verifique que o
(ou seja, reparametrizá-la) e seguir todos os estimador usual para µ é eficiente.
passos para o cálculo do LICR para θ. Não é
correto substituir diretamente θ no LICR(p).
Passos intermediários para a solução: Uma questão interessante é a seguinte: é

possível afirmar que a média amostral é
dln(f (X)) X − µ sempre eficiente (independente da população)?
= .
dµ σ2
Note que, para provar eficiência, é necessário
que se conheça o modelo populacional. Para
n σ
2
I (µ ) = ⇒ LICR (µ) = . fazer uma afirmação sobre a média sem alusão
σ 2
n
à distribuição que referencia a população, não
é suficiente restringir a busca aos estimadores
Que é igual à variância do estimador. Assim, não viciados, é necessário reduzir ainda mais
o estimador proposto é não viciado e possui o subconjunto de estimadores considerados.
variância = LICR(µ). Logo, é eficiente para µ.
• Estimador Linear
Esta afirmação é: dentre todos os estimadores
lineares não viciados, a média amostral é o
melhor (mais eficiente ou de menor variância). Estimador linear é uma função linear
das variáveis aleatórias da amostra:
n
Tecnicamente, dizemos que ele é o BLUE θˆ = ∑ ci X i
(Best Linear Unbiased Estimator). i =1
43
• Melhor Estimador Linear Demonstração:

Não Viciado (BLUE)
n O estimador é não viciado se: E(θˆ ) = θ.
Seja θˆ = ∑ c i X i um estimador (linear) de
i =1
Manipulando o valor esperado do estimador:
n  n  n n n
θ. Este será não viciado desde que ∑ c i = 1. E(θˆ ) = E ∑ ci X i  = ∑ ci E(X i ) = .∑ ci θ = θ∑ ci .

i =1
 i=1  i=1 i =1 i =1
Que será igual a θ se e somente se:
Além do mais, θˆ terá variância

n
∑c i = 1.
mínima se c i = 1 / n para todo i. i =1
A variância do estimador resultante é:

Suponha agora que exista um outro estimador 2
 n 1   n 1 
que satisfaça à esta condição, mas cujos pesos V(θˆ ) = V ∑  + k i X i  = ∑  + k i  V( X i )
sejam: ci = 1/n + ki, sendo ki um valor  i=1  n   i=1  n 
2 2
qualquer. Para isto ocorrer, é necessário que: n
1  n
1 
= ∑  + k i  σ2 = σ2 ∑  + k i  .
i =1  n  i =1  n 
n
∑k
i =1
i = 0. Nosso problema, então, reduz-se a minimizar:
2
n
1 
∑  + ki 
i =1  n 
Expandindo essa soma: Este resultado assume valor mínimo se:

2 n  2

n
1  1 1 n
∑ 
i =1  n
+ k i 

= ∑ 
  
i =1   n 
+ 2
n
k i + k 2
i

 ∑k 2
i = 0.
 i =1
2
n
1 2 n n
1 n
= ∑   + ∑ k i + ∑ k i2 = + ∑ k i2 ,
i =1  n  n i=1 i=1 n i=1 O que só acontece se ki = 0, para todo i.
n
pois ∑k
i =1
i = 0. Assim: ci = 1/n + ki = 1/n, c.q.d.
44
Propriedades “Desejáveis” de um Estimador

em Amostras Finitas (tamanho moderado):
4. PROPRIEDADES 1. Ser não viciado.
ASSINTÓTICAS 2. Se for não viciado, ter variância pequena.

Melhor ainda se for um estimador eficiente.
3. Se for viciado, que tenha EQM pequeno.
Propriedades Assintóticas (= válidas para Exercício 4.1 - Considere que sejam

amostras grandes) Desejáveis de um Estimador: propostos os seguintes estimadores da
variância de uma população Normal:
n n
1. Ser assintoticamente não viciado (isto ∑ (X i − X)2 ∑X 2
i
é, seu vício tender a zero quando n → ∞). σˆ 12 = i =1

e σˆ 22 = i =1
n n
O exemplo a seguir ilustra esta propriedade. Verifique se cada um deles é:

a) viciado (em amostras finitas)
b) assintoticamente não viciado.
Re sposta do exercício 4.1 Propriedades Assintóticas

Desejáveis de um Estimador (cont.):
− σ2
Ambos são viciados, porém B(σˆ 12 ) = ,
n
e assim : Lim B(σˆ 12 ) = 0. Por outro lado, 2. Ser consistente.
n →∞
B(σˆ 22 ) = µ2 , de tal forma que : Lim B(σˆ 22 ) ≠ 0.

n →∞
A consistência é a mais importante de todas
as propriedades, e será detalhada a seguir.
Conclusão: o segundo estimador
proposto é assintoticamente viciado!
45
• Estimador Consistente O conceito de limite em probabilidade é

bem mais complicado do que de um limite
simples, como o estudado em cálculo I.
Um estimador θ̂ é consistente para um
parâmetro θ se θ̂ converge em A diferença é que não é o estimador que se
probabilidade para θ, ou seja, se: aproxima do parâmetro. É a probabilidade
de que o estimador esteja a ε unidades do
(
Lim P θˆ − θ ≥ ε = 0, ∀ε > 0.
n →∞
) parâmetro que vai se aproximando de zero.
Ou ainda, é a probabilidade de estar próximo
Notação : θˆ 
→
p
θ, ou P lim(θˆ ) = θ. ao parâmetro que vai se aproximando de 1.
Estimadores e suas Propriedades -
Prof. Eduardo Lima Campos.
Interpretação para fins práticos: Tradução da Lei (Fraca) dos Grandes

Números para a Teoria da Estimação:
À medida que o tamanho da amostra X é um estimador consistente

aumenta, a distribuição de θ̂ vai se
para a média populacional µ.
concentrando cada vez mais em torno
de θ, o que significa que a probabilidade
de obter estimativas próximas a θ vai
A demonstração do resultado acima
aumentando, aproximando-se de 1.
envolve a desigualdade de Chebyshev.
• Desigualdade de Chebyshev (Revisão) Demonstração da Lei dos Grandes Números:
Seja X uma v.a. c/ valor esperado Aplicando a desigualdade de Chebyshev a X :

µ e variância σ2, ambos finitos.
[
P X − E(X) ≥ ε ≤ ] Vε(X) .2
Então, para ε arbitrário > 0:
Por outro lado, sabe-se que:
σ2
P[ X − µ ≥ ε] ≤ 2 σ2
ε E ( X ) = µ, V ( X ) = .
Estimadores e suas Propriedades - Estimadores e suas Propriedades -
n
Prof. Eduardo Lima Campos. Prof. Eduardo Lima Campos.
46
Assim:
σ2
[ σ2
P X −µ ≥ ε ≤ 2 .
nε
] Como Lim
n →∞ nε 2
= 0, temos:
Tomando o limite quando n→∞ dos [

Lim P X − µ ≥ ε ≤ 0 .
n →∞
]
dois membros da equação acima:
n →∞
[
Lim P X − µ ≥ ε ≤ Lim ] n →∞
σ2
nε 2
.
Estimadores e suas Propriedades - Estimadores e suas Propriedades -
Prof. Eduardo Lima Campos. Prof. Eduardo Lima Campos.
Uma regra equivalente para determinar se

[ ]
Mas P X − µ ≥ ε não pode ser menor do um estimador é consistente é verificar se
uma das seguintes condições é satisfeita:
que zero (por definição de probabilidade).
(1) É não viciado e:
Portanto, o limite do slide anterior só
Lim V(θˆ ) = 0.
pode ser igual a zero. Assim: n →∞
[ ]
assintoticamente ou (2) É viciado, mas:
Lim P X − µ ≥ ε = 0 , c.q.d.. não viciado.
n →∞
Lim
n →∞
B(θˆ ) = 0 e Lim
n →∞
V(θˆ ) = 0.
Demonstração de que a condição (1)

implica na consistência do estimador:
Seja um estimador θ̂ (não viciado) para θ
A demonstração de que a condição (1) e aplique a desigualdade de Chebyshev:
implica em convergência em probabilidade é a
mesma utilizada na Lei dos Grandes Números.
(que, na verdade, é apenas um caso particular)
[ V (θˆ )
P θˆ − E(θˆ ) ≥ ε ≤ 2 .
ε
]
Ou ainda, como, por hipótese, E( θ̂ ) = θ:
[ V(θˆ )
P θˆ − θ ≥ ε ≤ 2 .
ε
]
47
Tomando o limite quando n→∞ dos Exercício 4.2 - Considere a estimação

dois membros da equação acima: da variância de uma população Normal.
n →∞
[ˆ ]
n →∞
V (θˆ ) Lim
Lim P θ − θ ≥ ε ≤ Lim 2 =
ε
n →∞
V(θˆ )
ε2
. Verifique se o estimador (não
viciado) a seguir é consistente.
De tal forma que, se Lim V (θˆ ) = 0, n
n →∞
∑ (X i − X)2
S =
2 i =1
.
LimP[| θˆ − θ |≥ ε] ≤ 0 n −1
n →∞
⇒ LimP[| θˆ − θ |≥ ε] = 0, c.q.d.. R: sim, pois satisfaz à condição (1).

n →∞
A condição (2) é algumas vezes denominada Obs - Por que a condição (2) equivale a
(de forma inadequada!) convergência em Lim EQM (θˆ ) = 0 ?
média quadrática ou consistência em EQM. n →∞
Resposta: porque o EQM é a soma da variância

A idéia é que ela pode ser com o quadrado do vício, e (lembre-se que)
enunciada da seguinte forma: o limite de 2 funções não negativas é zero se
e somente se o limite da soma delas é zero!
Lim EQM (θˆ ) = 0.
n →∞
A prova de que a condição (2) implica na
Note ainda que esta condição é convergência em probabilidade, e portanto
geral, pois engloba a condição (1). na consistência do estimador - utiliza a
forma geral da desigualdade de Chebyshev.
• Desigualdade de Chebyshev Demonstração de que a condição

(Forma Geral) (2) implica em consistência:
Seja um estimador θ̂ (viciado) para θ e aplique
Seja X uma v.a. e seja c uma a forma geral da desigualdade de Chebyshev:
constante finita, tais que E(X-c)2 < ∞.
Então, para ε arbitrário > 0:

[
P θ−θ ≥ ε ≤
ˆ E(θˆ − θ) 2
ε2
.]
Ou ainda:
E ( X − c) 2
P[ X − c ≥ ε ] ≤
[ ]
.
ε2 EQM (θˆ )
P θˆ − θ ≥ ε ≤ .
ε2
48
Tomando o limite quando n→∞ dos Exercício 4.3 - Considere a estimação

dois membros da equação acima: da variância de uma população Normal.
n →∞
[
ˆ ]
Lim P θ − θ ≥ ε ≤ Lim
n →∞
EQM (θˆ ) Lim
ε2
= n →∞
EQM (θˆ )
ε2
. Verifique se o estimador
viciado) a seguir é consistente.
De tal forma que, se Lim EQM (θˆ ) = 0, n
n →∞
∑ (X i − X) 2
σˆ *2 = i =1
.
LimP[| θˆ − θ |≥ ε] ≤ 0 n
n →∞
⇒ LimP[| θˆ − θ |≥ ε] = 0, c.q.d.. R: sim, pois satisfaz à condição (2).

n →∞
• Investigando a Consistência - Resumo Fluxograma para Verificar Consistência

1. É viciado?
Estimadores assintoticamente viciados são
necessariamente inconsistentes. Nestes
casos, nem é preciso calcular a variância. 2. O vício tende a zero?
Neste sentido, a verificação de consistência 3. A variância tende a zero?

pode ser sistematizada em um fluxograma
simples, que pode chegar a ter 3 passos. Uma forma alternativa útil baseia-se
no limite em probabilidade, ou Plim.
• Plim - Propriedades Importantes

3 - P lim(cθˆ ) = cP lim(θˆ ),
1 - P lim(θˆ 1θˆ 2 ) = P lim(θˆ 1 )P lim(θˆ 2 ). em que c é uma constante.
 θˆ  P lim(θˆ 1 ) 4 - P lim(c(n ) * θˆ ) = Lim (c( n )) * P lim(θˆ ), em

2 - P lim 1  = . n →∞
θ
ˆ
 2 P lim(θ
ˆ )
2 que c(n) é uma função determinística de n.
49
Exemplo 4.1 - Refazendo o exercício 4.3,

usando a propriedade 4 do Plim (considerando
já provado que S2 é consistente): 5 - P lim(g (θˆ )) = g (P lim(θˆ )), em
que g é uma função contínua.
n −1 2
P lim(σˆ *2 ) = P lim( S )
n
n −1 O resultado acima é muito importante!
= Lim( ) * P lim(S2 )
n →∞ n
= 1* σ = σ 2 , C.Q.D.
2
Exemplo 4.2 - Considere a estimação

Solução do item a) :
da média de uma população Normal.
Aplicando Jensen para g(X) = ln(X), temos

a ) Verifique que µˆ = ln(X ) é viciado para ln(µ). que E(g(X)) < g(E(X)), pois ln(X) é côncava.
(dica : use a desigualdade de Jensen)
Então : E ( ln(X ) ) < ln (E( X) ) = ln (µ ).

b) Verifique que µˆ = ln(X ) é consistente para
ln(µ). (dica : use a propriedade 5 do Plim)
E ( ln(X ) ) < ln (µ ) ⇒ ln(X ) subestima ln (µ ).
Solução do Item b): Exercício 4.4 - Sobre estimadores, assinale V

ou F para cada uma das afirmativas a seguir:
P lim(g(θˆ )) = g(P lim(θˆ )), em
a) Todo estimador consistente é eficiente.
que g é uma função contínua.
b) Todo estimador eficiente é não viciado.
Assim : c) Todo estimador assintoticamente
não viciado é consistente.
P lim(ln(X )) = ln(P lim(X )) = ln(µ),
d) Todo estimador consistente é
assintoticamente não viciado.
provando a consistência de ln(X ) para ln(µ). R: FVFV
50
Nada foi dito até agora sobre como obter

bons estimadores para um parâmetro. Isto diz
respeito aos chamados métodos de estimação.
5. MÉTODOS
Estudaremos a seguir o método da máxima
DE ESTIMAÇÃO verossimilhança e o método dos momentos.
(PARTE 1 - CASOS CLÁSSICOS)

Um terceiro método, o dos mínimos
quadrados, será estudado mais adiante,
no contexto de modelos de regressão linear.
Exemplo 5.1 - Seja X1 uma AAS de

• Método da Máxima Verossimilhança
tamanho 1 de uma população Poisson, cujo
parâmetro é λ. A amostra observada foi x = 2.
Seja uma AAS observada {x1,x2,...,xn} de uma
população com parâmetro desconhecido θ. Ache o EMV de λ.
O estimador de máxima verossimilhança é Solução - se X ~ Poisson(λ):

aquele que conduz ao valor de θ que tornaria
λ xe−λ
máxima a probabilidade de obter essa amostra. P(X = x ) = ; x = 0,1,2,...; λ > 0.
x!
Se fosse um problema de probabilidade, A probabilidade de que a amostra

você calcularia P(X=2) para um dado valor fornecida no enunciado ocorra é:
de λ (usando a fórmula do slide anterior).
λ 2e − λ
P(X = 2) = .
Mas o problema aqui é inverso: 2!
temos x (amostra), no caso: x = 2, e

Perceba que esta probabilidade
queremos saber qual o valor de λ.
é uma função de λ, e não de x.
51
P(X = 2) como função de λ: • Função de Verossimilhança
0,3 P(X=x), encarada como função de λ, é

0,25 chamada função de verossimilhança.
0,2
0,15 O nome original em inglês é likelihood

0,1
function, daí a notação usual: L(λ).
0,05
0
A idéia do método a ser apresentado é
0,01
0,64
1,27
1,9
2,53
3,16
3,79
4,42
5,05
5,68
6,31
6,94
7,57
8,2
8,83
9,46
10,1
10,7
11,4
12
12,6
13,2
13,9
14,5
buscar o valor de λ que maximiza L(λ).
Resolvendo o problema graficamente:

E no caso de uma AAS de tamanho n>1?
0,3
máximo da função
0,25
0,2
0,15 A idéia é a mesma, só que agora a função de

0,1 ponto de máximo verossimilhança é a distribuição conjunta das
0,05 v.a.`s da amostra, encarada como função de λ.
0
0,01
0,64
1,27
1,9
2,53
3,16
3,79
4,42
5,05
5,68
6,31
6,94
7,57
8,2
8,83
9,46
10,1
10,7
11,4
12
12,6
13,2
13,9
14,5
• Função de Verossimilhança (caso discreto) Exemplo 5.1 (cont.) no caso de uma AAS
de tamanho n de uma população Poisson(λ):
n
O produto é pelo fato de ser uma ∑ xi
AAS (v.a.´s independentes!) λ i=1 e −nλ
n L (λ ) = .
P(X1 = x1 , X2 = x 2 ,...,Xn = x n ) = ∏ P(Xi = xi ),
n
i =1
∏x ! i
∀(x1,x2,...,xn). i =1
L(λ) Esta função deve ser

maximizada em relação a λ.
52
• Função de Log-Verossimilhança Exemplo 5.1 (cont.) - função de

log-verossimilhança para a Poisson:
l(λ) = ln[L(λ)] é chamada
função de log-verossimilhança.
 n xi 
 ∑ − nλ 
O valor de λ que maximiza l(λ) λ e  n 
i=1
l(λ) = ln n = ∑ x ln λ − nλ + c
é o mesmo que maximiza L(λ).    i =1 i 
 ∏ x i! 
 i =1 
Nos casos práticos, é bem mais fácil derivar
(e, portanto, maximizar) l(λ) do que L(λ).
Maximizando a Função
de Log-Verossimilhança: Exemplo 5.1 (cont.) - A derivada da função
de log-verossimilhança encontrada é:
O ponto de máximo de l(λ)
é o valor de λ tal que: n
∑ xi
l`(λ) = 0 e l``(λ) < 0. l`(λ) = i =1
−n
λ
Um facilitador: em geral, l(λ) é
côncava, o que garante que: l``(λ) < 0,
∀ λ. Portanto, basta resolver: l`(λ) = 0.
n Logo, o estimador de máxima

Assim, temos que ∑ xi verossimilhança (EMV) é:
resolver a equação: l`(λ) = i =1 − n = 0,
λ
n λˆ MV = X.
∑ xi
cuja solução é: λ = i =1
= x.
n
53
Método da Máxima Verossimilhança: Caso Contínuo:
1. Escrever a função de verossimilhança.

E se a população de interesse for contínua
2. Escrever a função de log-verossimilhança.
(p.ex., exponencial com parâmetro λ)?
3. Derivar a função de log-verossimilhança.
4. Igualar a derivada do passo 3 a zero, e
resolver para o parâmetro de interesse. A idéia é a mesma, só que a função de
5. Aplicar a função encontrada em (4) à verossimilhança passa a ser a distribuição
{X1,X2,...,Xn}, obtendo assim o EMV. conjunta de n variáveis aleatórias contínuas.
• Função de Verossimilhança (caso contínuo)

Exemplo 5.2 - Seja uma AAS
Por analogia com o caso discreto: de tamanho n de uma população
n
exponencial com parâmetro λ.
f (x1 , x 2 ,..., x n ) = ∏f (x i ),
i =1
∀(x1,x2,...,xn).
L(λ), caso Obtenha o EMV de λ.
contínuo
Solução: A função de log-verossimilhança é:

 −λ ∑ x i   −λ ∑ x i 
n n
A função de densidade é: f(x) = λe-λx, x>0.

 n i=1 
l(λ) = ln λ e  ( ) 
= ln λ + ln e i=1  =
n 
   
   
A função de verossimilhança é:
n ln(λ) − λ∑ xi .
n
n i =1
L(λ) = ∏ f (x i ) = Derivando e igualando a zero :
i=1
n
∑xi n n n 1
n −λ
l`( λ ) = − ∑ xi = 0 ⇔ λ = n = .
∏λe =λe
−λx i n i=1
. λ
i=1
i =1
∑ xi x
i =1
54
Logo, o EMV é: Exercício 5.1 - Seja uma AAS de tamanho

n de uma população Bernoulli(p).
Obtenha o EMV de p.
1
λˆ MV = .
X R:
p̂ MV = X.
Solução Resumida do Exercício 5.1:

Exemplo 5.3 - Seja uma AAS de
n
n
∑ xi
n
∑ (1−xi )
tamanho n de uma população N(µ,σ2).
L(p) = ∏pxi (1 − p)1−xi = p
i=1 i=1
(1- p) =
i=1
n n Obtenha os EMV`s de µ e σ2.
∑ xi n − ∑ xi
⇒ l(p) = ∑ x i ln(p) +  n − ∑ xi ln(1- p).
n n
i=1 i=1
p (1- p)
i=1  i=1 
n
 n
 n n
∑ xi  n − ∑ xi  ∑ xi − np ∑ xi
l`(p) = i=1 +  i =1  (−1) = i=1 = 0 ⇔ p = i=1 .
p (1 − p) p(1 − p) n
Solução:
A função de verossimilhança é:
n
A idéia aqui é derivar a função de log- L(µ, θ = σ2 ) = ∏ f (x i ) =
verossimilhança em relação a µ e θ = σ2 i=1
n
( x i −µ ) 2
(que são os parâmetros a serem estimados). n −
1 ( x −µ ) 2
− i −
n − ∑
∏ (2πθ) e =(2πθ) e
2θ 2θ
2 2 i=1
.
i =1
55
Derivando em relação à µ:
A função de log-verossimilhança é:
n
∂l(µ, θ) ∑ (x i − µ)
 n −∑ ( xi −µ) 
n 2
= i=1 .
 − 2θ  ∂µ θ
l(µ, θ) = ln (2πθ) e2 i=1
 =

 
n Igualando a zero:
n ∑(xi − µ) 2
− ln(2πθ) − i=1
n
2 2θ
.
∑ (x
i =1
i − µ) = 0 ⇔ µ = x ⇒ µˆ MV = X.
Derivando em relação à θ:
Assim, os EMV`s de µ e σ2 da Normal são:
n
∑ (xi − µ)
2
∂l(µ, θ) n
= − + i=1 µˆ MV = X.
∂θ 2θ 2θ2 n
Igualando a zero e substituindo µ por x :

∑ (X i − X) 2
σˆ 2MV = i =1
.
n n
∑ (x − x)
i
2
θ= i =1
. Obs - note que o EMV de σ2 é viciado.
n
• Propriedades Estatísticas dos EMV EMV para os casos mais importantes:

Bernoulli : p̂ MV = X.
1) Não são necessariamente não viciados, mas Poisson : λˆ = X.MV
são assintoticamente não viciados e consistentes.
1
exp onencial : λˆ MV = .
2) São assintoticamente eficientes. X
1
geométrica : p̂ MV = .
3) Seguem distribuição aproximadamente X
n
Normal, para grandes amostras
∑ (X i −X )
2
(isto é, são assintoticamente Normais). Normal : µˆ MV = X e σˆ 2
= i =1
.
MV
n
56
• Princípio da Invariância do EMV Exemplo 5.5 - Considere que queiramos

estimar a probabilidade de uma mulher
Se θ̂ é o EMV de θ, então o EMV de não ter filhos, em uma população Poisson.
uma função g(θ) é simplesmente g (θˆ ).
Ache o EMV desta probabilidade,
Exemplo 5.4 - O EMV de q = (1-p) da baseado em uma AAS de tamanho n.
distribuição de Bernoulli, usando o P.I., é:
R : P̂MV ( X = 0) = e −λ MV = e −X .
ˆ
q̂ MV = 1 − p̂ MV = 1 − X.
Exercício 5.2 - Considere uma AAS de Solução Resumida do Exercício 5.2:

tamanho n de uma população referenciada
pela distribuição: f(x) = αxα-1, 0<x<1, α>0. n n
L(α) = ∏αx iα−1 = αn ∏ x αi −1.
i=1 i=1
Obtenha o EMV de α. n
l(α) = nln(α) + (α −1)∑ln(x i ).
i=1
n
R : αˆ MV = −
n
n n
n
. l`(α) = + ∑ln(x i ) = 0 ⇔ α = − .
∑ ln(X i ) α i=1 n
i =1 ∑ln(x )
i=1
i
O que são “momentos” ?

• Método dos Momentos
Momentos populacionais:
E(X), E(X2), ..., E(Xk).
Vantagem: bem mais simples do que
o método da máxima verossimilhança Momentos amostrais:
e, na maior parte dos casos práticos n n n
de interesse, leva ao mesmo resultado. ∑ Xi ∑ X i2 ∑ X ik
i =1 i =1 i =1
, ,..., .
n n n
57
Método dos Momentos para

Idéia Geral Distribuições com 1 Parâmetro
O método dos momentos consiste em No caso de distribuições com apenas

igualar os momentos populacionais 1 parâmetro (ex., Poisson, exponencial,
aos momentos amostrais. A lógica Bernoulli, geométrica), o estimador de
momentos é obtido igualando o primeiro
por detrás disto é que, pela LGN, os
momento populacional ao primeiro
momentos amostrais são estimadores momento amostral - ou seja:
consistentes dos momentos populacionais.
E (X ) = X.
Estimadores de momentos para os casos Método dos Momentos para

mais importantes envolvendo 1 parâmetro: Distribuições com 2 Parâmetros
Bernoulli : p̂ MM = X.
No caso de populações com 2 parâmetros
Poisson : λˆMM = X.
(ex.: Normal), o estimador de momentos é
1
exponencial : λˆ MM = . obtido igualando os 2 primeiros momentos
X populacionais - E(X) e E(X2) - aos
1 respectivos momentos amostrais.
geométrica : p̂ MM = .
X
Exercício 5.3 - Seja uma AAS de Dica para a solução do exercício 5.3:
tamanho n de uma população N(µ,σ2).
Para obter o estimador da variância, você
precisará usar que E(X2) = V(X) + E2(X), e:
Obtenha os estimadores de
momentos de µ e σ2. n n
∑X 2
i ∑X 2
i
n σ2 + X 2 = i =1
⇒ σˆ 2MM = i =1
− X2
n n
∑ (X i − X ) 2 n n
R : µˆ MM = X e σˆ = i =1
∑X ∑ (X
2
MM
n
. 2
i − nX 2 i − X)2
= i =1
= i =1
.
n n
58
Exercício 5.4 - Seja uma AAS

• Momentos x Máxima Verossimilhança
de tamanho n de uma população
N(µ,σ2), em que µ é conhecido.
O método dos momentos consiste em
Obtenha o estimador igualar os momentos populacionais
de momentos de σ2. aos momentos amostrais. A lógica é
que os momentos amostrais são
n
∑ ( X i − µ) estimadores não viciados e, pela LGN,
2
R : σˆ 2
MM = i =1
= σˆ 2MV . consistentes dos momentos populacionais.
n
A vantagem do método da máxima Um caso em que o método dos momentos

verossimilhança é a garantia de não conduz ao estimador de máxima
importantes propriedades em verossimilhança é apresentado a seguir.
grandes amostras, já enunciadas.
Exercício 5.5 - Seja uma AAS de tamanho Exercício 5.6 - Seja uma AAS de
n de uma população referenciada pela tamanho n de uma população Gama (α,β).
distribuição: f(x) = αxα-1, 0<x<1, α>0.
Obtenha o estimador de momentos de α.

Determine os estimadores
X
R : αˆ MM = . de momentos de α e β.
1− X
Obs − passo intermediário :
α
verificar que E(X) = .
α +1
59
Exemplo 6.1 - Seja uma AAS de tamanho

n de uma população Unif(-θ,θ), θ>0.
Ache o estimador de momentos de θ.
6. MÉTODOS Solução:
DE ESTIMAÇÃO Note que, neste caso, o primeiro
(PARTE 2 - CASOS ESPECIAIS) momento populacional é zero.
Nesta situação, resta apenas igualar
o segundo momento populacional
ao segundo momento amostral.
Assim: Outro caso especial surge quando se

quer aplicar o método da máxima
n n
verossimilhança e o domínio da
= zero
∑ X i2 ∑X 2
i
distribuição que referencia a população
E(X ) =
2 i =1
⇒ V (X) + E (X) =
2 i =1 depende do parâmetro de interesse.
n n
n n Neste caso, a função de verossimilhança é
θ
2 ∑X 2
i ∑X 2
i ilimitada, logo não possui ponto de máximo!
⇒ = i =1
⇒ θˆ MM = 3 i =1
.
3 n n
Para a solução do problema, será utilizado
o conceito de estatística de ordem.
• Estatísticas de Ordem • Estimadores Baseados

em Estatísticas de Ordem
Uma estatística de ordem é definida como
X(r) = r-ésimo menor valor da amostra.
Ou seja, se ordenarmos a amostra do menor Quando o domínio da v.a. que define

para o maior valor, teremos: X(1), X(2), ..., X(n). a população depende do parâmetro de
interesse (exemplo: Unif(0,θ)), não será
As estatísticas de ordem mais importantes são: possível obter a solução da forma usual.
X(1) = mínimo e X(n) = máximo.
60
Exemplo 6.2 - Seja uma AAS de tamanho

n de uma população Unif(0,θ), θ>0.
Obtenha o EMV de θ. L(θ) é ilimitada, logo não
possui ponto de máximo.
Solução - começando pelo cálculo de L(θ):
n
1 1
L(θ) = ∏ = n . Em casos como este, o estimador adequado
i =1 θ θ baseia-se em estatísticas de ordem.
Antes de começar a fazer contas, é
importante olhar para o gráfico de L(θ).
Finalmente, como L(θ) é

Retomando o exemplo 6.2: decrescente, o valor de θ que
maximiza L(θ) no conjunto de valores
possíveis é o máximo da amostra. Daí:
Note que X1, X2, ..., Xn têm que ser todos
θˆ MV = X ( n ) .
menores do que θ. Usando o conceito de
estatística de ordem, podemos sintetizar
todas estas restrições em uma única: θ≥X(n). Que propriedades pode-se
garantir para este estimador?
Ele é consistente? É não viciado?
Distribuição de Probabilidade do Máximo:

O fato de ser o EMV garante que o estimador
possui boas propriedades assintóticas. F.D.A. do máximo : FX( n ) ( x ) = P(X ( n ) ≤ x ).
Se X ( n ) ≤ x , então todos os X i `s também são.

Para investigar as propriedades de amostra Daí : P(X ( n ) ≤ x ) = P(X1 ≤ x , X 2 ≤ x ,..., X n ≤ x ).
finita (como ausência de vício), é necessário
deduzir a sua distribuição amostral, o que
pode ser feito usando o conceito de F.D.A. Como os X i `s são independentes :
P(X1 ≤ x , X 2 ≤ x ,..., X n ≤ x ) =
P(X1 ≤ x )P(X 2 ≤ x )...P(X n ≤ x ).
61
Distribuição de Probabilidade do Máximo No caso do exemplo 6.2:

(cont.):
n
Como os X i `s são identicamente distribuídos : x x
FX ( x ) = ⇒ FX( n ) ( x ) =   .
P( X1 ≤ x )P( X 2 ≤ x )...P(X n ≤ x ) = [P(X ≤ x )]n . θ θ
nx n −1
Daí : f X( n ) ( x ) = , 0 < x < θ.
Logo, a F.D.A. do máximo pode ser escrita como : θn
FX( n ) ( x ) = [P(X ≤ x )]n = [FX ( x )]n , Agora estamos aptos a obter E(X(n)), e
verificar que o estimador de máxima
cuja derivada conduz à distribuição de X (n) . verossimilhança é viciado para θ.
Exercício 6.1 - Seja uma AAS de uma

Calculando-se o vício, verifica-se facilmente população Unif(θ,1), θ<1. Ache o EMV de θ.
que X(n) é assintoticamente não viciado,
como não poderia deixar de ser (por que?). Solução - começando pelo cálculo de L(θ):
n
1 1
A consistência poderia ser demonstrada L(θ) = ∏ = .
i =1 1 − θ (1 − θ) n
calculando a variância do estimador, e
verificando que tende a zero, todavia Neste caso, X1, X2, ..., Xn têm que ser
esta propriedade é garantida para todo todos maiores do que θ. A restrição que
estimador de máxima verossimilhança. sintetiza estas condições é: θ ≤ X(1).
Distribuição de Probabilidade do Mínimo:

Como L(θ) é crescente:
FX(1) ( x ) = P( X (1) ≤ x ) = 1 − P( X (1) > x )
θˆ MV = X (1) .
Se X (1) > x , então todos os X i `s também são.
Daí : P( X (1) > x ) = P (X1 > x, X 2 > x ,..., X n > x ).
O EMV de θ é o mínimo da amostra!
Como os X i `s são independentes :

Que propriedades pode-se garantir para P(X1 > x, X 2 > x,..., X n > x ) =
este estimador? Ele é não viciado?
P( X1 > x ) P( X 2 > x )...P (X n > x ).
62
Distribuição de Probabilidade do Mínimo No caso do exercício 6.1:

(cont.):
1− x 1 − x 
n
Como os X i `s são identicamente distribuídos : P(X > x ) = ⇒ FX(1) ( x ) = 1 −   .
P(X1 > x )P(X 2 > x )...P(X n > x ) = [ P(X > x )]n . 1− θ 1− θ 
n (1 − x ) n −1
Daí : f X(1) ( x ) = , θ < x < 1.
Logo, a F.D.A. do mínimo pode ser escrita como : (1 − θ) n
FX(1) ( x ) = 1 − [P(X > x )]n , Neste caso, a integral para o cálculo de E[X(1)]
é um pouco mais chata, mas pode ser resolvida
pelo método da substituição (faça u = (1-x)).
cuja derivada conduz à distribuição de X (1) .
De forma geral, sempre que o domínio da Exemplo 6.3 - Seja uma AAS de
distribuição que referencia a população tamanho n de uma população
depender do parâmetro θ, o estimador de referenciada pela distribuição:
θ será função de estatísticas de ordem.
Se θ aparece apenas em um dos limites do 3 2
domínio, uma regra útil a ser aplicada é: f(x) = x , se 0 ≤ x ≤ 2θ.
8θ 3
- X(n) será o estimador para
o limite superior do domínio. Ache a estimativa de máxima
- X(1) será o estimador para verossimilhança de θ, com base
o limite inferior do domínio. na amostra : {1, 2, 3}. R: 1,5.
Exemplo 6.4 - Seja uma AAS de

• Estimadores Baseados
tamanho n de uma população Gama (α,β).
em Soluções Numéricas
a) Tente determinar os EMV`s de α e β.
b) Determine agora o EMV de β,
Em alguns casos, não é possível obter considerando que α é conhecido.
analiticamente os estimadores de Solução
máxima verossimilhança. Neste caso, é a ) as equações (abaixo) não têm solução fechada :
necessário recorrer a soluções numéricas. Γ`(α) n n
−n + n ln(β) + ∑ ln(X i ) = 0 e nα / β − ∑ X i = 0.
Γ (α ) i =1 i =1
b) resolvendo a segunda equação (pois a primeira

não faz mais sentido), tem - se : βˆ = α / X.
MV
63
Para introduzir a definição de IC,

7. INTERVALOS formula-se a seguinte questão:
DE CONFIANÇA O que a estimativa pontual de µ permite

concluir acerca do real valor deste parâmetro?
(PARTE 1 - CONCEITOS BÁSICOS,
IC´S P/ MÉDIA E PROPORÇÃO, Por exemplo, pode-se afirmar
TAMANHO DE UMA AMOSTRA) que µ é igual à sua estimativa?
R: Não. Podemos então afirmar que a estimativa

esteja, ao menos, próxima do valor de µ?
Porque pode (e deve) haver
o chamado erro de estimação:
Sim, se estivermos adotando um estimador
x − µ. com boas propriedades e a amostra não for
muito pequena, esta suposição é razoável.
Este erro não é calculável, uma vez que

não conhecemos o valor do parâmetro µ. Porém, o quão próxima?
Como não conhecemos µ, também não

é possível responder a esta questão. Intervalo de Confiança (IC)
No entanto, é possível obter um intervalo
numérico em torno da estimativa, dentro do Um intervalo de confiança (IC) é um
qual se pode confiar que o parâmetro esteja. intervalo numérico, construído a partir
(o sentido preciso do termo “confiar” da estimativa pontual, no qual podemos
será estabelecido mais adiante) confiar que o parâmetro esteja contido.
Esta importante ferramenta

Por ora, entenda o termo confiar em seu
estatística é denominada estimativa
sentido corriqueiro (isto é, o de crença).
intervalar ou intervalo de confiança.
64
• Grau de Confiança De forma genérica, representaremos o grau

de confiança como 100(1-α)%, sendo que:
É o quanto se confia que o IC contenha µ.
Usualmente fixado em 90%, 95% ou 99%. α = 0,1 corresponde ao grau de confiança 90%.
α = 0,05 corresponde ao grau 95%.
Algumas vezes chamado coeficiente
de confiança ou nível de confiança. α = 0,01 corresponde ao grau 99%.
Este α possui uma interpretação específica,

Como veremos mais adiante, o grau de que está relacionada com testes de hipóteses,
confiança não é uma probabilidade! assunto que será estudado mais adiante.
• Construção de um IC para a
 X −µ 
Média de uma População Normal P − z α ≤ ≤ z α  = (1 − α)
 2 σ/ n 2 
Parte-se do seguinte resultado (conhecido):
z α é o valor da v.a. Z ~ N(0,1)
2
σ2 X −µ α
X ~ N (µ , ) ⇒ Z = ~ N(0,1). tal que : P(Z ≥ z α ) = .
n σ 2 2
n
O passo seguinte é manipular esta probabilidade
a partir do qual, pode-se escrever: de tal forma que µ situe-se no centro do evento.
X −µ
P( − z α ≤ ≤ z α ) = (1 − α) O que esta última probabilidade nos informa?
2 σ/ n 2
σ σ Informa que, se considerarmos todas as

P (− z α ≤ X − µ ≤ zα ) = (1 − α)
n n amostras de tamanho n possíveis e para
2 2
cada uma delas calcularmos o intervalo:
σ σ
P (− z α − X ≤ −µ ≤ z α − X ) = (1 − α) estimativa
n n
σ σ
2 2
P( X + z α
σ
≥ µ ≥ X − zα
σ
) = (1 − α)
[x − z α ; x + zα ],
n n 2 n 2 n
2 2
σ σ
P( X − z α ≤ µ ≤ X + zα ) = (1 − α) µ estará contido em 100(1-α)% destes intervalos.
2 n 2 n
65
Suponha agora que, com base em uma única Resposta: não! Embora tenhamos visto que:
amostra observada (a qual, note, é só o que
temos na prática) seja calculado o intervalo: P( X − ε ≤ µ ≤ X + ε) = (1 − α), (I)
σ σ
[x − z α ;x + zα ]. é completamente errado afirmar que:
2 n 2 n
P( x − ε ≤ µ ≤ x + ε) = (1 − α ). (II)
Pergunta: está correto afirmar que:
σ σ Justificativa: não há nenhuma v.a. em (II),
P( x − z α ≤ µ ≤ x + zα ) = (1 − α) ? somente números, e assim não podemos
2 n 2 n falar em probabilidade, como em (I).
O intervalo numérico calculado Obs - intervalo teórico x intervalo observado

a partir da amostra observada:
σ σ σ σ
[x − z α ;x + zα ]. [X − z α ;X + zα ] é - às vezes -
n n 2 n 2 n
2 2
denominado intervalo de confiança teórico
é o que se chama intervalo de ou, mais formalmente: estimador intervalar.
confiança (de 100(1-α)%) para µ.
Todavia, o que se define como intervalo
100(1-α)% é o grau de confiança deste IC. de confiança é a realização deste intervalo
teórico na amostra, ou a estimativa intervalar.
• IC p/ a Média µ de uma População Normal • Significado de “Confiança”

(considerando σ conhecido)
1 - Sabemos que, se calculássemos o IC
σ σ
[x − z α ; x + zα ]
 σ σ n n
IC100(1−α )% (µ) =  x − z α ; x + zα . 2 2
 2 n 2 n  para todas as amostras de tamanho
grau de confiança do IC n possíveis, o parâmetro µ estaria
(90, 95 ou 99 %). em 100(1-α)% dos intervalos calculados.
2 - Na prática, temos apenas uma amostra

A semi-amplitude do IC é chamada
margem de erro, usualmente denotada por ε. (aquela que selecionamos pra observar).
66
5 - Nada mais razoável do que

3 - Esta amostra pode ser uma das
confiarmos que nossa amostra seja
100(1-α)% cujo IC contém o valor de µ.
uma daquelas 95% cujo IC contém µ.
4 - Esta amostra também pode ser uma das

100α% cujo IC não contém o valor de µ.
O grau com que confiamos é o
“grau de confiança”, no caso 95%.
No que você confiaria mais: “3” ou “4”?
• Grau de Confiança x Probabilidade • Como Escolher o Grau de Confiança?
Já foi dito que os graus de confiança

Não é correto dizer que a probabilidade usuais são: 90%, 95% e 99%. Porém,
de que o parâmetro (digamos µ) pertença como escolher entre estas opções?
ao IC é 0,95, mas sim que: temos um grau Diretriz: há uma relação direta entre o
de confiança de 95% - ou 95% de .
grau de confiança e a amplitude do IC:

confiança - de que µ pertença ao IC. quanto maior o grau de confiança
escolhido, mais amplo será o IC.
(e um IC amplo é, obviamente, péssimo)
Desta forma: Valores Importantes da Normal para IC`s:

Um IC de 99% é bastante confiável,
mas em compensação, pode ser amplo Para o IC de 95% (α = 0,05) ⇒ z0,025 = 1,96.
demais, comprometendo sua precisão.
Um IC de 90% é mais estreito (= preciso), Para o IC de 90% (α = 0,1) ⇒ z0,05 = 1,645.
mas em compensação estamos expostos a
um percentual de erro elevado (1 em 10). Para o IC de 99% (α = 0,01) ⇒ z0,005 = 2,575.
O grau de 95% é um bom “trade-off” entre
as duas situações acima sendo, por esta O procedimento para achar cada um
razão, adotado com bastante frequência. destes valores é ilustrado a seguir:
67
Achando z0,025 = valor de k tal que P(Z>k) = 0,025: Achando z0,05 = valor de k tal que P(Z>k) = 0,05:
k 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 k 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
Assim: z0,025 = 1,96. Interpolando: z0,05 = 1,645.
Achando z0,005 = valor de k tal que P(Z>k) = 0,005: Exemplo 7.1 - Na situação do exemplo
k 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 2.1, considere que o desvio padrão das
alturas de toda a turma (populacional)
seja σ = 6. A altura média na amostra
de tamanho 5 fornecida naquele exemplo
resultou 180 cm. Determine o IC95%(µ).
Solução:
Para um grau de confiança de 95%, o valor

? da Normal a ser usado é z α = z 0, 025 = 1,96.
Interpolando: z0,005 = 2,575. 2
Substituindo na fórmula do IC, temos: • Interpretação Errada
 6 6  A probabilidade de que µ, a altura média

IC95% (µ) = 180 − 1,96 ;180 + 1,96 
 5 5 de todos os alunos da turma, esteja entre
174,74 e 185,26 é igual a 0,95.
= [174,74;185,26].
µ não é v.a., e sim uma constante, cujo
valor não conhecemos. Ou µ está ou não
Qual a interpretação deste IC? está no intervalo calculado (não faz
sentido atribuir probabilidade a isto!).
68
• Interpretação Correta • IC`s em Amostras Repetidas
Se selecionássemos todas as amostras de

Temos 95% de confiança de que µ tamanho 5 possíveis da população, e para
esteja no intervalo [174,74;185,26]. cada uma delas calculássemos o IC:
 σ σ
IC95% (µ) = x − 1,96 ; x + 1,96 ,
Esta interpretação é fundamentada pelo  5 5
que ocorreria em amostras repetidas.
µ estaria em 95% dos intervalos.
Erros conceituais comuns:
1 - Temos 95% de confiança de que

a estimativa esteja no intervalo. Problema: σ na prática não é conhecido,
portanto não há como calcular este intervalo.
2. A probabilidade de que o parâmetro

pertença ao intervalo é 0,95.
Solução: substituir σ por seu estimador S. • Distribuição t de Student
Problema: quando σ é desconhecido - Distribuição contínua proposta por William

e utilizamos S no lugar de σ em: Gosset, funcionário da cervejaria Guiness,
sob o pseudônimo de Student (estudante).
X−µ
,
σ/ n - Assim como a distribuição Normal,
a distribuição t possui média zero,
a distribuição não é mais é simétrica e possui forma de sino.
N(0,1), e sim t de Student.
69
Gráfico da Distribuição t de Student: A distribuição da média amostral, considerando

a população Normal com o desvio padrão σ
desconhecido, é, após a devida padronização:
X −µ
~ t n −1.
S/ n
distribuição t de Student
com n-1 graus de liberdade
(demonstração a seguir)
Parâmetro: υ = número de graus de liberdade.
Demonstração: Fazendo:
Uma v.a. com distribuição t com υ graus
de liberdade é obtida da seguinte forma: X−µ
Z=
σ/ n
Z Z~N(0,1). υ = n-1
T= e
Q
Q ~ χ 2υ S2
υ (qui-quadrado Q = (n − 1)
σ2
com υ g.l.),
independente de Z. temos:
X−µ X−µ X−µ

σ/ n X−µ
T= = σ/ n = σ/ n = . Obs - A Média e a Variância de uma AAS
S2 S2 S S/ n de uma População Normal são independentes.
(n − 1) 2 σ
σ σ2
(n − 1)
Isto pode ser provado sem muita dificuldade, e é
Conclui-se que esta estatística segue, de fato, necessário para validar a demonstração anterior.
distribuição t com n-1 graus de liberdade, e
portanto, quando σ é desconhecido, o IC deve
basear-se nesta distribuição, e não na N(0,1).
70
• IC p/ a Média µ de uma População Normal • Tabela t

(considerando σ desconhecido e estimado)
A distribuição t também é tabelada, mas
 s s  a tabela t é diferente da tabela Normal.
IC100(1−α )% (µ) =  x − t α ;x + t α .
 n −1;
2 n n −1;
2 n 
grau de confiança do
IC (90, 95 ou 99 %).
Todavia, no que diz respeito a intervalos de
T é uma v.a. com distribuição
t de Student com n-1 g.l..
confiança (e também a testes de hipóteses,
como veremos adiante), a tabela t é mais
t α é o valor k tal que: P(T>k) = α/2. fácil de utilizar do que a tabela Normal.
n−1;
2
Exemplo 7.2 – No exemplo 7.1, considere

Valores da Tabela t x Tabela Normal agora que σ é desconhecido, estimado a
partir da amostra: x1 = 174, x2 = 186, x3 =
186, x4 = 180 e x5 = 174 cm. Ache o IC95%(µ).
Solução - obtendo a estimativa de
σ a partir da amostra observada:
n
∑ (x i − x) 2
s =
2 i =1
=
n −1
valor da Normal que (174 − 180) 2 + (186 − 180) 2 + (186 − 180) 2 + (180 − 180) 2 + (174 − 180) 2
valor da t que deixa 4
deixa (α/2) pra cima
(α/2) para cima = 36 ⇒ s = 36 = 6.
Consultando a Tabela t: Substituindo na fórmula do IC, temos:
t 4;0, 025 = 2,776.  6 6 

IC95% (µ) = 180 − 2,776 ;180 + 2,776 
 5 5
= [172,55;187,45].
Interpretação: temos 95% de confiança

Porque a diferença é tão grande neste caso? (2,776 >> 1,96) de que µ esteja no intervalo acima.
71
Exemplo 7.3 - Foi tomada uma amostra

de 25 trabalhadores de uma fábrica. • Consultando a Tabela t:
Esta amostra forneceu salário médio de
R$ 400,00 e desvio padrão R$ 450,00.
Considerando a população Normal,

obtenha o IC de 90% p/ o salário médio
dos trabalhadores da fábrica. Interprete.
Obs - como seria este enunciado para o

caso em que o desvio padrão é conhecido?
Solução:
Exemplo 7.4 - Suponha que a vida
x = 400; s = 450. útil de uma marca de tv`s de LED seja
O valor na tabela t é t 24;0,05 = 1,711. normalmente distribuída. A partir de
uma amostra de 16 tv`s, estimou-se
uma vida útil média de 8.900 horas e
O IC solicitado é : um desvio padrão igual a 500 horas.
 450 450 
IC 90% (µ) = 400 − 1,711 ;400 + 1,711 =
 25 25  Construa IC`s de 95% e 99% para o
[ 246,01;553,99]. tempo médio de vida útil das tv desta
Interpretação: com 90% de confiança, o salário médio µ de
marca. Interprete estes intervalos.
todos os trabalhadores da fábrica encontra-se neste intervalo.
Solução (95%):
• Consultando a Tabela t: x = 8.900; s = 500.
O valor na tabela é t 15;0,025 = 2,131.
O IC de 95% é :
 500 500 
IC95% (µ) = 8.900 − 2,131 ;8.900 + 2,131 =
 16 16 
[8.633,6;9.166,4].
Interpretação: com 95% de confiança, o tempo médio de
vida útil de tv`s de LED desta marca encontra-se neste intervalo.
72
Solução (99%):
Exercício 7.1 - Os índices de endividamento
O que muda é só o valor na tabela t, de empresas de um certo setor da economia
que agora é : t 15;0,005 = 2,947. seguem distribuição Normal.
A média de uma amostra de tamanho 9 foi

O IC de 99% é :
45 e o desvio padrão foi 30. Calcule os
 500 500  ICs de 90, 95 e 99% para o índice µ de
IC99% (µ) = 8.900 − 2,947 ;8.900 + 2,947 =
 16 16  endividamento médio das empresas do setor.
[8.531,6;9.268,4]. Obs - como seria este enunciado para o

caso em que o desvio padrão é conhecido?
O intervalo aumentou, como tinha que ser!
Solução (99%):
• Consultando a Tabela t para 99%:
x = 45, s = 30.
t 8; 0 , 005 = 3,355. O valor na tabela é t 8;0,005 = 3,355.
O IC de 99% é :
 30 30 
IC99% (µ) = 45 − 3,355 ;45 + 3,355 =
 9 9 
[11,5;78,5].
Interpretação: com 99% de confiança, o índice médio de
endividamento das empresas deste setor está entre 11,5 e 78,5.
Solução (95%):
t 8; 0 , 025 = 2,306.
O IC de 95% é :
 30 30 
IC95% (µ) = 45 − 2,306 ;45 + 2,306 =
 9 9 
[21,9;68,1].

73
Solução (90%):
t 8; 0 , 05 = 1,86.
O IC de 90% é :
 30 30 
IC90% (µ) = 45 − 1,86 ;45 + 1,86 =
 9 9 
[26,4;63,6].

• Relação entre a Distribuição t e a Normal Por isso a tabela t que vocês receberam
vai só até 30 e depois começa a “pular”.
Para 30 ou mais graus de liberdade,
À medida que o número de graus de costuma-se usar a Normal como aproximação.
liberdade υ aumenta, o comportamento da Note, em particular, que a última linha da tabela
distribuição t aproxima-se do da Normal t (graus de liberdade = ∞) corresponde aos
valores usados nos IC para σ conhecido!
(isto permite evitar aquele procedimento chato
para extrair esses valores da tabela Normal)
No caso do IC para a média com σ • IC Aproximado (n > 30) para a Média de

desconhecido, vimos a distribuição a ser uma População Normal com Desvio
utilizada é a t com υ = n-1 graus de liberdade. Padrão Desconhecido e Estimado
Desta forma, quando o tamanho da amostra

n for grande (>30), um IC aproximado pode  s s 
IC100(1−α )% (µ) ≅  x − z α ; x + zα .
ser obtido utilizando a distribuição Normal
 2 n 2 n
(e o ponto é: mesmo com σ desconhecido!).
74
Uso das Tabelas - Resumo: Exemplo 7.5 - A estimativa de µ com base

em uma amostra foi 5, com IC de 95% dado
Se o desvio padrão da população (σ) por [2;8]. Atribua verdadeiro (V) ou falso
é conhecido, usa-se a tabela (F) à cada afirmativa abaixo, justificando:
Normal para qualquer valor de n.
a) A probabilidade de que µ
Se, por outro lado, σ é desconhecido esteja entre 2 e 8 é 0,95 ( )
(como ocorre na prática):
b) Temos 95% de confiança de que
Usa-se a tabela t, para n ≤ 30.
o intervalo [2;8] contém µ ( )
Pode-se usar a tabela Normal, para n > 30.
c) Se considerássemos todas as amostras

(de mesmo tamanho n) possíveis, em 95% • Método do Pivot
delas o intervalo [2;8] conteria µ ( )
d) Se considerássemos todas as amostras O método que foi adotado para
(de mesmo tamanho n) possíveis, 95% construir o IC para a média µ é
delas levariam a ICs que conteriam µ ( ) denominado método do pivot.
.
e) O erro cometido na estimação de

µ é de, no máximo, 3 unidades ( ) Apresenta-se a seguir o conceito
de pivot e a formalização do método.
f) O erro de estimação é de, no máximo, 3
unidades, com grau de confiança 95% ( )
Um pivot é uma estatística cuja distribuição Seja então P um pivot e θ um parâmetro de

não depende do parâmetro de interesse. interesse, para o qual se deseja obter um IC.
Logo, esta distribuição pode ser usada para Os passos do método são:
estabelecer a probabilidade que conduz ao IC. Passo 1 - escrever a expressão da probabilidade
Onde: de um intervalo contendo P ser igual a 1-α.
Os pivots utilizados para obter o IC
Passo 2 - reescrever a probabilidade de tal
para µ foram: Z = X − µ e T = X − µ .
. .
forma que θ fique isolado no meio do evento

σ/ n S/ n
(temos neste ponto o intervalo teórico).
Embora a distribuição do pivot não possa
Passo 3 - substituir as variáveis aleatórias nos
depender do parâmetro, o pivot em si depende!
extremos pelas realizações correspondentes.
75
A seguir, aplica-se o método do pivot para Padronizando:

construir um IC para uma proporção
populacional p, partindo do resultado:
p̂ − p
Z= ≈ N(0,1).
Distribuição Amostral de p̂ : p(1 − p)
n
 p(1 − p) 
p̂ ≈ N p, .
 n 
Este é o pivot que conduzirá ao IC para p, a
aproximada para n grande, pelo TCL. ser construído seguindo os passos seguintes.
Passo 2 - “isolar” p no meio do evento:

Passo 1 - escrever a probabilidade:
 p(1 − p) p(1 − p) 
P − z α ≤ p̂ − p ≤ z α  = (1 − α).
   2 n 2 n 
 
p̂ − p  p(1 − p) p(1 − p) 
P − z α ≤ ≤ z α  = (1 − α). P − p̂ − z α ≤ −p ≤ −p̂ + z α
n 
 = (1 − α).
 2 p(1 − p)   2 n 2
 2
  p(1 − p) p(1 − p) 
 n  P p̂ + z α ≥ p ≥ p̂ − z α  = (1 − α).
 2 n 2 n 
 p(1 − p) p(1 − p) 
P p̂ − z α ≤ p ≤ p̂ + z α  = (1 − α).
 2 n 2 n 
Assim, chegamos a: • Intervalo de Confiança para

uma Proporção (Grandes Amostras)
 p̂(1 − p̂) p̂(1 − p̂) 
 p(1 − p) p(1 − p)  IC100(1−α )% (p) = p̂ − z α ; p̂ + z α .
P p̂ − z α ≤ p ≤ p̂ + z α =  n n 
n 
2 2
 2 n 2
Exemplo 7.6 - 70 peças são selecionadas ao
(1 − α). acaso de um lote, e observa-se que 49 são
defeituosas. Um IC de 95% para a
proporção de peças defeituosas no lote é:
Para que seja possível calcular um IC,  0,7 * 0,3 
pode-se substituir p por sua estimativa. IC95% (p) = 0,7 m 1,96  = [0,5927;0,8073].
 70 
76
• Margem de Erro Pode-se calcular trivialmente o valor de ε:
É o valor máximo ε que o erro de estimação

pode assumir, com determinada probabilidade. σ
ε = zα .
Assim, na estimação da média µ de uma 2 n
população Normal e considerando uma
probabilidade (1-α), ε é o valor que satisfaz:
Esta é a margem de erro para estimar
P( −ε ≤ X − µ ≤ ε) = (1 − α). a média de uma população Normal.
• Determinando o Tamanho
Já no caso da estimação de p, a
de uma Amostra
condição para determinar ε é:
Um aspecto importante da estatística é a
P( −ε ≤ p̂ − p ≤ ε) = (1 − α).
determinação do número de unidades a
serem selecionadas = tamanho da amostra.
Assim, a margem de erro para
estimar uma proporção é: A partir da especificação da margem de erro ε
(erro máximo considerado tolerável, com uma
p(1 − p) probabilidade 1-α), chega-se ao tamanho de
ε = zα . amostra necessário, invertendo-se a fórmula da
n
margem de erro para obter n em função de ε.
2
• Tamanho de Amostra para Estimar µ Note que não faz sentido usar a estimativa
de σ nesta fórmula, uma vez que ainda não
No caso da média de uma população Normal: temos a amostra (a fórmula é para definir
o tamanho da amostra que será coletada!).
σ z 2α σ 2 Há 2 soluções “paliativas”:
ε = zα ⇒ n= 2 .
n ε2
2
1 - Utilizar a estimativa do σ em uma
pesquisa anterior com característica similar.
Problema: σ na prática não é conhecido,
2 - Utilizar estimativa do σ
portanto não há como obter o valor de n.
em uma amostra “piloto”.
77
• Tamanho de Amostra para Estimar p

Porém, neste caso (estimação de p), há um
Neste caso, temos: procedimento simples e bastante elegante
para contornar e resolver este problema.
p(1 − p) z 2α p(1 − p)
ε = zα ⇒
n n= 2
.
2
ε2
O ponto é que, embora p seja
desconhecido, a função p(1-p)
Problema: o valor de p é desconhecido! assume valor máximo em p = 1/2.
Gráfico da função p(1-p): Fazendo p(1-p) = 1/4 na fórmula de n:
p(1-p) z 2α cota superior para n,

1/4 denominado tamanho
n= 2
4ε 2 de amostra conservador.
Se p for diferente de 1/2, a fórmula acima

P
p = 0,5 fornece um n maior do que o necessário.
0
0,06
0,12
0,18
0,24
0,36
0,42
0,48
0,54
0,66
0,72
0,78
0,84
0,96
0,3
0,6
0,9
0
Portanto, esta fórmula garante uma margem

p
de erro igual ou menor que a especificada.
Exemplo 7.7 - Qual o tamanho de amostra E se reduzirmos esta margem para 5%?
necessário para estimar uma proporção 1
com uma margem de erro de 10% (a 95% Solução: n ≅ = 400.
ε2
de confiança), com base em uma AAS? Conclusão: para reduzir a margem
de erro pela metade, é necessário
quadruplicar o tamanho da amostra!
Solução (considerando zα/2 ≅ 2):
Questão: Pesquisas eleitorais, cuja margem
2
2 1 1 de erro usual é 2%, costumam trabalhar
n≅ = 2 = = 100.
4ε 2
ε (0,1) 2 com amostras em torno de 2.500 pessoas.
Este tamanho de amostra é adequado?
78
A seguir, apresenta-se o IC para a variância

σ2 de uma população Normal. O ponto de
partida é o seguinte resultado do capítulo 2:
8. INTERVALOS Q é o pivot
para este IC.
DE CONFIANÇA Q = (n − 1)
S2
~ χ n2 −1 .
σ2
(PARTE 2 - IC`S PARA VARIÂNCIA E
PARÂMETROS DE 2 POPULAÇÕES)
Os passos do método do pivot para obter
o IC para σ2 são apresentados a seguir.
Passo 1 - escrever a expressão da Passo 2 - “isolar” σ2 no meio do evento:

probabilidade de um intervalo
contendo Q ser igual a 1-α:
 S2 
P  χ 2  α  ≤ (n − 1) 2 ≤ χ 2 α  = (1 - α)
 n −1, 1−  σ n −1, 
 2 S2    2 2 
P χ  α  ≤ (n − 1) 2 ≤ χ 2 α  = (1 - α)
 n −1, 1− 
 2 σ n −1,
2 
 
valor k1 na tabela valor k 2 na tabela  1 σ2 1 
qui - quadrado tal que : qui - quadrado tal que : P 2 ≥ ≥ 2  = (1 - α)
 χ  α  (n − 1)S
2
χ α 
α α n −1, 1−  n −1,
P(X < k1 ) = P(X > k 2 ) =   2 2 
2 2
 
 1 σ2 1 
P 2 ≤ ≤ 2  = (1 - α)
 χ α (n − 1)S
2
χ  α  Passo 2 - Substituindo agora S2
n −1, n −1,  1−  
 2  2 
pela estimativa correspondente
s2, obtém-se o IC a seguir.
 
 (n − 1)S 2 (n − 1)S 2 
P 2 ≤ σ2 ≤ 2  = (1 - α)
 χ α χ  α 
n −1, n −1, 1− 
 2  2 
79
• IC para a Variância de
uma População Normal Exemplo 8.1 - Uma amostra de 30 alunos
de uma universidade apresenta variância
  amostral das notas dada por: s2 = 132,7.
 s2 s2 
IC 100(1−α)% (σ ) = (n − 1) 2 ; (n − 1) 2
2
.
 χ α χ  α 
 n −1,
2
n −1,
 2 
 1− 

Supondo que a população é Normal,
valor k 2 na tabela valor k1 na tabela obtenha o IC de 95% para σ2.
qui - quadrado tal que : qui - quadrado tal que :
α α
P(X > k 2 ) = . P(X < k1 ) = .
2 2
Consultando a Tabela Qui-Quadrado: Solução - os valores da qui-quadrado são:
χ 229;0,975 = 16 e χ 229;0,025 = 45,7.

Onde:
.
Substituindo na fórmula do IC:
 132,7 132,7 
IC 95% (σ 2 ) =  29 ;2 9 = [84,21;240 ,52].
χ 229;0,975 = 16 e χ 229;0,025 = 45,7.  45,7 16 
Intervalos Ótimos
Quando a distribuição do pivot é Porém, nos casos estudados no capítulo 6,

assimétrica, como no caso anterior, não em que a distribuição do pivot é simétrica, o
há nada que obrigue a deixar metade da intervalo ótimo é justamente aquele que se
área das caudas (α/2) para cada lado, obtém quando se deixa α/2 para cada lado.
Rigorosamente, o mais correto seria buscar

o intervalo de mínima amplitude, que é
denominado intervalo de confiança ótimo.
80
A seguir, deduziremos o IC para a diferença Estimador não viciado para µ1-µ2:

das médias de 2 Populações Normais.
. X1 − X 2
Sejam 2 populações Normais com médias
µ1 e µ2 e desvios padrão σ1 e σ2. Sejam 2
Onde: (diferença das médias amostrais).
AAS`s independentes de tamanhos n1 e n2.
.
Considere o problema de estimar a diferença Pr ova : E(X1 − X2 ) = E(X1 ) − E(X2 ) = µ1 − µ 2 .

entre as médias destas 2 populações: µ1-µ2.
Distribuição Amostral de X1 − X 2 :
Variância do Estimador de µ1-µ2:
σ12 σ22
(X1 − X2 ) ~ N(µ1 − µ2 , + ).
n1 n2
amostras são independentes!
V(X1 − X 2 ) = V(X1 ) + V (X 2 ) Padronizando, obtemos o pivot para µ1-µ2:

σ12 σ 22 (X − X ) − (µ: − µ )
= + . Z= 1 2 1 2
~ N(0,1).
n1 n 2 σ1 σ22 2
+
n1 n 2
Esta estatística Z pode ser usada para obter o IC,

A estatística resultante é:
se σ12 e σ22 forem conhecidas. Porém, na prática,
σ12 e σ22 são desconhecidas e devem ser estimadas.
(X 1 )
− X 2 − (µ1 − µ 2 )
,
1 1
Neste caso, a solução usual é assumir que Sp +
n1 n 2
σ = σ22 = σ2 , e substituir σ2 por seu estimador
2
1
não viciado S2p , cuja fórmula é apresentada a seguir : com Sp = S2p . Esta estatística segue
(n 1 − 1)S12 + (n 2 − 1)S22 distribuição t de Student com n1 + n 2 - 2

S2p = .
“pooled” n1 + n 2 − 2 g.l., conformedemonstrado a seguir.
81
Demonstração Usando os seguintes resultados:

Primeiramente, devemos lembrar que
uma v.a. com distribuição t com υ graus 1) Z =
(X − X ) − (µ − µ ) ~ N(0,1)
1 2 1 2
σ σ 2 2
de liberdade é obtida da seguinte forma: + 1 2
n1 n 2
Z~N(0,1).
Z (n1 − 1)S12 (n 2 − 1)S22
T= 2) + ~ χ 2n + n 2 −2
σ12 σ 22 1
Q
Q ~ χ υ,
2
υ independente de Z
(soma de qui-quadrados independentes segue
uma qui-quadrado com os g.l. somados.)
Podemos agora tentar Daí a necessidade de considerar a hipótese:

construir uma estatística T:
σ12 = σ 22 = σ 2 .
(X 1 )
− X 2 − (µ1 − µ 2 )
σ σ 22
2 Aplicando a hipótese acima, temos:
+ 1
T=
Z
=
n1 n 2 (X − X ) − (µ − µ )
1 2 1 2
(X 1 )
− X 2 − (µ1 − µ 2 )
Q ( n1 − 1)S (n 2 − 1)S
2 2
σ σ
+
2 2
1 1
σ2  + 
+ 1 2 1 2
n1 + n 2 − 2 σ12 σ 22 n1 n 2  n1 n 2 
=
n1 + n 2 − 2 ( n1 − 1)S12 (n 2 − 1)S22 1
+ [(n1 − 1)S12 + (n 2 − 1)S22 ]
σ12 σ22 σ2
Problema : não conseguimo s cancelar σ12 e σ 22 ! n1 + n 2 − 2 n1 + n 2 − 2
(X 1 )
− X 2 − (µ1 − µ 2 ) Passo 1 - escrever a probabilidade:
1 1 
σ  + 
 n1 n 2 
=
(X 1 )
− X 2 − (µ1 − µ 2 )




.  ( X1 − X 2 ) − (µ1 − µ 2 ) 
1 ( n1 − 1)S12 + ( n 2 − 1)S22 1 1  P − t α ≤ ≤t α 
Sp  +  n1 + n 2 − 2 ; 1 1 n1 + n 2 − 2 ;
σ n1 + n 2 − 2  n1 n 2   2
Sp + 2 
 n n 
 1 2 
A estatística T acima segue distribuição t
com n1+n2-2 graus de liberdade, C.Q.D.. Esta = (1 − α).
estatística é o pivot usado para obter o IC.
82
Passo 2 - isolar µ1-µ2 no meio do evento: • IC para a Diferença das Médias

de Duas Populações Normais
 1 1
P ( X1 − X 2 ) − t S
α p
+ ≤ (µ1 − µ 2 ) ≤
n + n −2;
 1 2
2 n1 n 2 IC100(1−α)% (µ1 − µ2 ) =
1 1   1 1 1 1
( X1 − X 2 ) + t Sp +  = (1 − α). (x1 − x2 ) − t n +n −2;αsp + ; (x1 − x2 ) + t α sp + ,
n 1 n 2 
α + −
n1 + n 2 − 2 ;
2  1 2
2 n1 n2 n n 12 ;2
2 n1 n2 
O IC é obtido substituindo, acima, os (n1 −1)s12 + (n 2 −1)s22

estimadores pelas respectivas estimativas. sp = .
n1 + n 2 − 2
Exemplo 8.2 - Para uma AAS de 8

Pressupostos para o IC para µ1-µ2: lâmpadas de uma marca A, a vida
média estimada foi de 4.600 horas,
1 - As populações são Normais. com s1 = 250 horas. Para uma AAS de
10 lâmpadas de uma marca B, a vida
Onde:
média estimada foi de 4.000 horas, com
2 - As amostras são independentes, de
.
s2 = 200 horas. Supondo que a duração
tamanhos n1 e n2 (não necessariamente iguais).
das lâmpadas de ambas as marcas siga
distribuição Normal, obtenha um IC de
3 - As variâncias das populações 99% para a diferença entre a vida média
são iguais: σ12 = σ 22 = σ 2 . das lâmpadas das 2 marcas.
Interprete este intervalo.
Solução:
• Consultando a Tabela t:
(n1 − 1)s12 + (n 2 − 1)s 22 7 * (250) 2 + 9 * (200) 2

sp = =
n1 + n 2 − 2 16
= 49.843,75 = 223,26.
[
IC 99% (µ1 − µ 2 ) = ( x1 − x 2 ) m t 16;0 , 005s p 1
n1 ]
+ n12 =
[
= ( 4.600 − 4.000) m t 16;0 , 005s p 1
8 + 101 ]
= [(600) m 2,921 * 223,26 * 0,4743]
= [(600 ) m 309,33] = [290,67;909,33].
83
Interpretação: temos 99% de confiança

Exercício 8.1 - 2 amostras independentes de
de que a diferença entre os tempos
médios de duração das duas marcas duas turmas apresentam as seguintes notas:
esteja entre 290,67 e 909,33.
Turma 1 - 5.0, 6.0, 3.5, 9.0, 8.5.
Obs - analogia com testes de hipóteses:
Turma 2 - 4.0, 10.0, 7.0, 5.0.
O IC fornece bastante evidência de que as
médias das duas populações sejam diferentes.
Ache o IC de 95% para µ1- µ2.
O teste de hipóteses como esta
(µ1 = µ2) será estudado mais à frente.
Solução: A seguir, será construído um IC

para a diferença de proporções.
4 * 5,425 + 3 * 7
sp = = 2,4698.
7 Sejam 2 populações com proporções p1 e p2,
e 2 AAS`s independentes de tamanhos n1 e n2,
[
IC95% (µ1 − µ 2 ) = (6,4 − 6,5) m t 7 ;0, 025s p 1
5
+ 14 ] selecionadas de forma independente destas
populações. O estimador não viciado de p1-p2 é:
= [− 0,1 m ( 2,365 * 2,4698 * 0,6708) ]
p̂1 − p̂ 2 .
= [− 0,1 m 3,9182] = [− 4,0182;3,8182].
(diferença das proporções amostrais)
Interpretação?
É fácil verificar que: Distribuição Amostral de p̂1 − p̂ 2 :

E(p̂1 − p̂ 2 ) = p1 − p 2 .
Logo, o estimador é não viciado para p1-p2.  p (1 − p1 ) p2 (1 − p2 ) 
p̂1 − p̂2 ≈ N p1 − p2 , 1 + .
 n1 n2 
A variância do estimador proposto
(supondo amostras independentes) é:
p1 (1 − p1 ) p 2 (1 − p 2 ) aproximada para n1 e n2 grandes, portanto

V(p̂1 − p̂ 2 ) = + . o IC só será válido sob esta condição.
n1 n2
84
Padronizando, obtemos o pivot para p1-p2: • Intervalo de Confiança p/ a Diferença

de Proporções (Grandes Amostras)
Z=
(p̂ − p̂ 2 ) − (p1 − p 2 )
1
≈ N(0,1).
p1 (1 − p1 ) p 2 (1 − p 2 )  p̂ (1− p̂1 ) p̂2 (1− p̂2 ) 
+ IC100(1−α)%(p1 − p2 ) = (p̂1 − p̂2 ) m zα 1 + .
n1 n2  2 n1 n2 
Os passos para obter o IC não apresentam Obs - deve ser ressaltado que este IC demanda
nenhuma novidade em relação ao que já foi que as duas amostras sejam grandes.
visto, e resultam no seguinte IC para p1-p2:
Exemplo 8.3 - Duas financeiras aplicam Solução:

diferentes critérios para concessão de
crédito. No banco de dados da financeira 1,  140 220 
IC90% (p1 − p 2 ) =  − m
foram selecionados ao acaso 180 clientes,  180 300 
dos quais 140 eram inadimplentes. No
banco de dados da financeira 2, foram 140  140  220  220  
1 −  1 − 
selecionados ao acaso 300 clientes, dos 180  180  300  300  
1,645 +
quais 220 eram inadimplentes. Com base 180 300 
nestes dados, obtenha o IC de 90% para a 
diferença entre as proporções de clientes 
inadimplentes nas duas corretoras. R: [-0.0216;0.1105].
Exercício 8.2 - Suponha que queiramos • Distribuição F

comparar a proporção de aposentados no
Sudeste com a proporção de aposentados O próximo IC a ser estudado baseia-se
no Nordeste. 2 amostras de tamanho 36 de em uma distribuição contínua chamada
cada uma das regiões forneceram as F, que tem como parâmetros υ1 e υ2.
seguintes proporções de aposentados:
p̂ SE = 0,18 e p̂ NE = 0,168. A notação é:
Ache o IC de 99% para a diferença entre as graus de

liberdade do
proporções de aposentados nas 2 regiões. F ~ Fυ1 ,υ2 . numerador
graus de liberdade
do denominador
R: [-0,218;0,242].
85
S12 σ 22
O IC para a razão das variâncias de A demonstração de que ~ Fn1 −1,n 2 −1
S22 σ12
2 populações Normais é obtido
a partir do seguinte resultado: parte da regra de formação da distribuição F:
Q1
pivot S12 σ 22 υ1 Q1 ~ χ 2υ1 e Q 2 ~ χ 2υ2 ,
~ Fn1 −1,n 2 −1 , F= .
S22 σ12 Q2 Q1 e Q 2independentes.
υ2
em que S12 e S22 são as variâncias das amostras e n1 e S2
Usando agora que: (n − 1) 2
~ χ n2 −1 , temos que:
n 2 são os tamanhos destas amostras, respectivamente. σ
S12
(n1 − 1) 2
σ1 S12 Distribuição F - Gráfico:
(n1 − 1) σ 2
Sσ
2 2
F= = 1
= 1
.2
S2
S 2
Sσ
2 2
(n 2 − 1) 2 2 2 1
σ2 σ 22
2 α/2
(n 2 − 1)
Portanto, esta estatística f α

υ1 , υ 2 ;
segue distribuição Fn1-1,n2-1. 2
Passo 1 - escrever a probabilidade

de um intervalo contendo F ser 1-α:
σ 22
Os passos para obter o IC para 2
σ1  S12 σ 22 
são apresentados a seguir: P f ≤ ≤ f  = (1 - α).
 n1 −1, n 2 −1; 1− α  S22 σ12 n 1 −1, n 2 −1; 
α
  2 2 
Obs - como no IC para σ2, consideramos as

probabilidades iguais em cada cauda (α/2) .
Esta é a solução usual (embora não seja ótima).
86
Passo 2 - isolar
σ 22 no meio do evento:
σ12 Substituindo, como em todos os outros IC`s,
os estimadores pelas estimativas, ou seja:
 S12 σ 22 
P f ≤ ≤f  = (1 - α); S22 s 22
 n1 −1, n 2 −1; 1−  S 2 σ1
 α 2 2 n 1 −1, n 2 −1; 
α por 2 ,
  2 2  S12 s1
 S2 σ 22 S 22 
P  22 f ≤ ≤ f  = (1 - α).
 S1 n1 −1, n 2 −1; 1− α  σ12 S12 n1 −1, n 2 −1; α2 
  2  obtemos a fórmula do IC para uma amostra
observada, apresentada no slide seguinte:
• IC p/ a Razão de Variâncias
de Duas Populações Normais Problema:
s2  A distribuição F só é tabelada para a cauda

σ 22 s 22
IC100(1−α)% ( 2
) =  2
2
f  α
; 2 n −1,n −1; α 
f . superior. Entretanto, como a distribuição F não
σ1  s1 n1 −1,n 2 −1;1− 2  s1 1 2 2  é simétrica, o valor da cauda inferior não é o
α negativo do valor da cauda superior, como
valor k 2 tal que : P(F > k 2 ) = .
valor k1 tal que : 2 ocorre com a Normal e com a t de Student.
α
P(F < k1 ) = .
2 α/2 Como obter o valor da cauda inferior?
k2
Demonstração: sai da própria regra de

Solução - para obter o valor da cauda
formação da F. De fato, por construção:
inferior da distribuição F, usa-se a fórmula:
Q2
1 1 υ2 Q 2 ~ χ 2υ2 e Q1 ~ χ 2υ1 .
f = . = .
 α F Q1
υ1 , υ 2 ; 1− 
 2 f α υ1
υ 2 , υ1 ;
2
segue distribuição F com υ2 graus de liberdade

no numerador e υ1 graus no denominador.
87
Assim:
 
 1 1 
P ≥F≥  = (1 - α).
 f υ ,υ ; 1- α  f α 
 2 1
 2
υ ,υ ;
2 1
2 
 1 
P  f  α  ≤ ≤ f α  = (1 - α).
 υ ,υ ; 1− 2  F
2 1 υ ,υ ;
2 1
2  f  α
, c.q.d..
υ1 , υ 2 ; 1− 
 2
 
 1 1 
Invertendo: P ≤F≤  = (1 - α).
 f α
f  α 
 υ ,υ ; 2 2 1
 2 
υ , υ ; 1- 
2 1
Exemplo 8.4 - (dados do exercício 8.1) Achando o valor da cauda superior da F:

2 amostras aleatórias simples independentes
de duas turmas apresentam as notas:
Turma 1 - 5.0, 6.0, 3.5, 9.0, 8.5.

Turma 2 - 4.0, 10.0, 7.0, 5.0.
f4,3;0,025 =
σ 22 15,10.
Ache o IC de 95% para 2 .
σ1
Achando o valor da cauda inferior da F:

E o intervalo solicitado é:
 σ 22 
IC95%  2  = [0,1293;19,4839].
 σ1 
f3,4;0,025 = Há alguma evidência contra o pressuposto

Invertendo: f4,3;0,975 =
9,98.
1/9,98 = 0,1002.
necessário ao cálculo do IC para µ1- µ2?
88
Exemplo 8.5 - 2 amostras independentes

Erros mais Comuns no Cálculo
de tamanho 6, de 2 populações Normais,
do IC para Razão de Variâncias:
forneceram médias 8 e 12 e variâncias
iguais a, respectivamente, 40 e 37.
1 - Consultar a tabela errado, trocando
o numerador com o denominador. Ache o IC de 90% para a razão entre a
variância da população 2 e a da população 1.
2 - Obter o valor da cauda inferior da F
dividindo 1 pelo valor da cauda superior,
O slide seguinte ilustra a consulta à
sem inverter os graus de liberdade.
tabela F, agora para cauda superior = 5%.
Achando o valor da cauda superior da F:

O valor da cauda inferior da F é:
f 5 , 5; 0 , 95 = 1 / 5,05 = 0,198.
E o intervalo solicitado é:
 σ2 
f5,5;0,05 =
IC90%  22  = [0,1831;4,6713].
5,05.
 σ1 
• IC`s Assintóticos
Exercício 8.3 - Enuncie as hipóteses necessárias
ao cálculo de cada IC estudado nos capítulos
1. baseados na aproximação da t pela Normal 7 e 8 quanto aos seguintes aspectos:
(resultado de convergência em distribuição).
Onde:
a) distribuição que referencia a população

2. baseados no TCL (média de população não
. .
normal com variância conhecida ou proporção). b) tamanho da amostra

c) independência entre as amostras
3. baseados no EMV (e suas propriedades d) variâncias populacionais iguais
assintóticas, já enunciadas no capítulo 5).
89
• Testes de Hipóteses
Uma hipótese estatística é uma conjectura

9. TESTES a respeito de uma população. Supondo um
modelo pré-estabelecido, esta conjectura
DE HIPÓTESES diz respeito a parâmetros populacionais.
(PARTE 1 - CONCEITOS BÁSICOS E Exemplo 9.1 - No exemplo das alturas dos

TESTES PARA MÉDIA E PROPORÇÃO) alunos, podemos formular a seguinte
hipótese: “µ (que é a altura média dos
alunos da turma inteira) é igual a 175 cm”.
Se a amostra fornecer evidência contra

H0 (por exemplo, uma média amostral
Esta hipótese de igualdade é chamada muito grande ou pequena), então deve-se
hipótese nula, e representada por H0. tomar a decisão de rejeitar esta hipótese.
Neste caso, aceitamos uma hipótese que é

chamada de alternativa, denotada por H1.
Ela será investigada a partir da amostra.
H1 contradiz o que se afirma em H0.
No exemplo, H1 poderia ser µ ≠ 175.
Caso contrário, isto é, se a amostra não Em resumo, diante das hipóteses:

fornecer evidência contra H0, deve-se
H0: µ = 175 (hipótese nula)
tomar a decisão de não rejeitar H0.
e
Obs - embora não seja rigorosamente correto, H1: µ ≠ 175 (hipótese alternativa),
algumas vezes “aceitar H0” é empregado,
até em provas de concurso (inclusive Anpec). tomamos uma das seguintes decisões:
Veremos que a formulação usual de um teste não rejeitar H0

de hipóteses não permite obter evidência para ou
concluir - isto é, aceitar - que H0 é verdadeira. rejeitar H0 (e, neste caso, aceitar H1).
90
Importante: embora o ponto de partida seja • Analogia com um Julgamento

a hipótese nula, é a hipótese alternativa
que um teste permite (ou não) evidenciar.
Em nosso sistema judiciário, um júri
É ela, portanto, que queremos tentar só decide condenar um réu caso haja
“comprovar”, ao conduzirmos um teste. evidência de que ele seja culpado.
Esta é uma primeira diretriz para formular Isto porque o sistema considera mais
hipóteses: H1 representa aquilo que se quer grave condenar um eventual inocente
tentar evidenciar e H0 é a premissa que se quer do que absolver um eventual culpado.
contestar, colocar em xeque, ou ainda, julgar.
Isto nada mais é do que • Erros em Testes de Hipóteses

um teste de hipóteses.
Um teste de hipóteses não leva
necessariamente à decisão correta.
Então, qual a hipótese nula e
qual a hipótese alternativa? Qualquer que seja nossa decisão,
sempre existe a possibilidade de erro.
R: H0: réu inocente Existem 2 tipos de erro que podemos

H1: réu culpado. cometer ao testar hipóteses: tipo I e tipo II.
Uma questão que pode surgir é: por que

O erro tipo I é o erro que consiste em
não trabalhar com um valor de α muito
rejeitar H0, quando ela é verdadeira.
pequeno, ainda bem menor do que 0,01?
A probabilidade de cometer este erro é Pense no que seria um julgamento com

denotada por α, e tem um nome específico: esta característica: provas e mais provas
contundentes e nada de condenar o réu...
nível de significância do teste.
Um α muito pequeno aumenta muito a
exposição ao erro oposto, o de não rejeitar
α é pré-especificado por quem vai fazer o
H0 quando ela é falsa, e assim pode acabar
teste. Os valores usuais são: 0,01, 0,05 e 0,1.
conduzindo a cometer este outro tipo de erro.
91
Obs - α e β não têm uma relação exata. Por

O erro tipo II é o erro que consiste em
exemplo, não se pode afirmar que α+β = 1.
não rejeitar H0, quando ela é falsa.
A única coisa que se garante é que

A probabilidade do erro quando um diminui, o outro aumenta.
tipo II é denotada por β (ela
não tem um nome específico).
Na verdade, há uma única forma de
Como já vimos, quanto reduzir α e β simultaneamente:
menor for o valor de α, aumentando o tamanho da amostra.
maior será o valor de β.
Resumo - Erros em um Teste de Hipóteses: • Diretrizes para Formular Hipóteses

Agora, com um entendimento melhor
H0 Verdadeira H0 Falsa sobre as hipóteses de um teste e os tipos
possíveis de erro, devemos estar aptos a
Rejeitar H0 Erro Tipo I entender que a formulação das hipóteses
deve levar em consideração o seguinte:
Não Rejeitar Erro Tipo II 1) H0 deve ser definida de tal forma
H0 que o erro de rejeitá-la quando ela for
verdadeira (isto é, o tipo I) seja mais
a probabilidade α de cometer este
erro é o nível de significância.
grave do que o erro contrário (tipo II).
• Hipóteses Simples x Compostas

Isto porque o erro tipo I tem uma
probabilidade pré-especificada como
Embora não seja a formulação usual, um
um valor pequeno (isto é, controlada).
teste pode ser feito com duas hipóteses de
igualdade (na formulação usual, apenas a
2) H1, por outro lado, é a hipótese nula pode ser formulada como igualdade).
da qual um teste é capaz de fornecer
evidência estatística (= conclusão de Este tipo de hipótese é chamada simples.
que a hipótese é verdadeira, sujeita a Uma hipótese que contempla mais de um
uma probabilidade de erro controlada). parâmetro, como H1: µ ≠ 175, é composta.
92
Exercício 9.1 - Uma amostra de tamanho 16

Obs - Embora testes de hipóteses simples é selecionada de um lote de lâmpadas, e
não possuam aplicação prática, são muito úteis deseja-se saber se as lâmpadas são da marca
para ilustrar os conceitos de testes de hipóteses. A (cuja duração média é 3.000 horas) ou da
(e costumam cair em concursos e na Anpec) marca B (cuja duração média é 5.000 horas).
O parâmetro de interesse é µ e as hipóteses

de interesse são: H0: µ = 3 x H1: µ = 5.
O exercício a seguir tem
justamente esse objetivo. Suponha que a população (dos tempos de
duração) seja Normal com variância 4.
a) Uma pessoa resolve utilizar a média Determine:

da amostra para conduzir este teste,
estipulando a seguinte regra de decisão: a1) o nível de significância do teste.
a2) a probabilidade do erro tipo II do teste.
Se a média amostral for menor que 4,
considera-se que as lâmpadas são da marca A. Obs - a partir das definições, note que:
α = PH0 (X ≥ 4) e β = PH1 (X < 4) .
Se a média amostral for maior ou igual a 4,
considera-se que as lâmpadas são da marca B. considerando
considerando
H0 verdadeira H1 verdadeira
O desenho abaixo ilustra porque a

R: α = β = 0,0228. redução de α implica no aumento de β:
Comente o resultado. Como você faria

para reduzir o valor de α em relação a β?
Por exemplo, recalcule α se o ponto de corte

é 4,5, ao invés de 4. O que explica a redução?
93
b) Suponha que queiramos fixar o nível

Vimos que a formulação usual de um de significância do teste em 0,05.
teste de hipóteses estipula o erro tipo
Determine:
I como sendo o mais grave, e assim fixa
a probabilidade deste erro em um valor b1) a nova regra de decisão.
baixo, usualmente: 0,01, 0,05 ou 0,1. b2) a nova probabilidade do erro tipo II.
R: b1) X ≥ 3,8225.
Em seguida é que a regra de rejeição
b2) β = 0,0094.
é especificada, de tal forma que a
probabilidade de erro tipo I seja α. Esta configuração parece fazer sentido?
De que forma parece natural proceder?
c) Recalcule o valor de β, para α = 0,01.

Obs - Na prática, H1 é composta, não é
Espera-se uma redução ou aumento de β? possível determinar β, a não ser que se
considere um valor específico para µ
R: β = 0,078. (voltaremos a este ponto no capítulo 11).
Esta parece ser a configuração mais razoável

para o teste, com α < β e ambos moderados.
• Testando uma Hipótese a partir

• Métodos para Testar Hipóteses de um Intervalo de Confiança
O teste de H0: µ = k contra H1: µ ≠ k,
Há três métodos para testar hipóteses: ao nível de significância α, pode ser
feito usando o IC de 100(1-α α)% (daí
1. Método do Intervalo de Confiança a notação 100(1-α)% que adotamos!).
A regra de decisão é a seguinte:
2. Método da Região Crítica
• Se k não pertence ao IC, rejeitamos H0
3. Método do P-Valor
• Caso contrário, ou seja, se k
pertence ao IC, não rejeitamos H0
94
Exemplo 9.1 (cont.)

• IC`s e Testes de Hipóteses (Bilaterais)
Vamos usar o método do IC
O IC com grau permite testar ao para conduzir o seguinte teste:
de confiança:: nível de significância:
H0: µ = 175
90% 0,1 x
95% 0,05
H1: µ ≠ 175,
99% 0,01 ao nível de significância α = 0,05.

(considere σ conhecido, igual a 6)
Solução: As hipóteses de interesse são:

H0: µ = 175 (hipótese nula);
Erro conceitual comum:
H1: µ ≠ 175 (hipótese alternativa).
O IC95%(µ) (calculado no exemplo Não rejeitar H0 ao nível α porque a

7.2) foi: [174,74;185,26]. estimativa de µ pertence ao IC de 100(1-α)%.
Basta verificar se este intervalo contém
o 175. De imediato, vemos que sim. Por que isto está errado?
Conclusão:
não rejeitamos H0, ao nível α = 0,05.
Erro conceitual comum:

Resposta: a estimativa está sempre
Rejeitar (ou não) H0 com
dentro do intervalo, por construção.
grau de confiança 90%.
Por que isto está errado: embora se esteja

O correto seria: não rejeitar H0 ao nível usando um IC para testar uma hipótese, esta
α se k (isto é, o valor de µ contemplado hipótese é testada ao nível correspondente.
em H0) pertencer ao IC de 100(1-α)%.
Grau de confiança e nível de significância são
conceitos distintos (para não restar dúvida,
lembre-se que um é probabilidade e outro não).
95
Exemplo 9.2 - (exemplo 7.3) Uma AAS Solução: As hipóteses de interesse são:
de 25 trabalhadores de uma fábrica foi H0: µ = 600 (hipótese nula);
selecionada, fornecendo salário médio H1: µ ≠ 600 (hipótese alternativa).
de R$ 400,00 e desvio padrão R$ 450,00.
O IC90%(µ) foi (exemplo 7.3):
[246,01;553,99].
Considerando a população Normal, teste
a hipótese de que o salário médio dos Basta verificar se este intervalo contém
empregados da fábrica seja R$ 600,00, o 600. De imediato, vemos que não.
ao nível de significância α = 0,1.
Assim, rejeitamos H0, ao nível α = 0,1.
Obs - Note que o enunciado fala Exemplo 9.3 - (exemplo 7.4) Suponha que a
em “testar a hipótese de que o vida útil de uma marca de tv`s de LED seja
salário médio seja R$ 600,00”. normalmente distribuída. A partir de uma
amostra de 16 tv`s, estimou-se uma vida
Isto é consistente com o que foi dito útil média de 8.900 horas, e um
anteriormente: o ponto de partida, desvio padrão igual a 500 horas.
a referência, é a hipótese nula. É ela
que queremos testar. Porém, é da sua
Teste se o tempo médio das tv`s desta marca
contrapartida - a hipótese alternativa -
é igual a 9.000, ao nível de significância 0,05.
que o teste poderá fornecer evidência.
Solução: As hipóteses de interesse são: Obs - Pode parecer estranho falar em

H0: µ = 9.000 (hipótese nula); não rejeitar H0 ao nível α, uma vez que
α está associado ao erro tipo I, que só
H1: µ ≠ 9.000 (hipótese alternativa).
pode ser cometido quando rejeitamos H0.
O IC95%(µ) foi (exemplo 7.4):
O ponto aqui é que o nível de
[8.633,6;9166,4]. significância é, na verdade, um
“parâmetro” do teste, anterior à sua
Basta verificar se este intervalo contém realização. Assim, podemos pensar na
o 9.000. De imediato, vemos que sim. conclusão da seguinte forma: não
rejeitamos H0 por meio de um teste
Assim, não rejeitamos H0, ao nível α = 0,05.
cuja probabilidade do erro tipo I é α.
96
A estatística de teste é o pivot do

• O Método da Região Crítica
IC para o parâmetro correspondente,
Embora o método do IC seja bem substituindo o valor do parâmetro pelo
simples, o método da região crítica é o valor k que está sendo testado em H0.
procedimento formal para testar hipóteses. estatística = qualquer função de variáveis aleatórias
Seja µ a média de uma população
Para a explicação deste método, é Normal com σ conhecido. A estatística
necessário definir 2 quantidades: do teste de H0: µ = k contra H1: µ ≠ k é:
- Estatística de teste valor testado X−k
- Região crítica Z= . erro padrão
σ/ n
Obtendo a Região Crítica O valor observado de Z é:

Quando H0 é verdadeira
(µ = k), sabemos que: x−k
z0 = .
X−k σ/ n
Z= ~ N (0,1).
σ/ n
Portanto, se houver evidência de que o Se z0 é um valor que teria baixa probabilidade
resultado acima não seja válido, então caso Z seguisse uma N(0,1), isto representa
é porque H0 não deve ser verdadeira. evidência contra Z ~ N(0,1) e, assim, contra H0.
A região crítica RC (ou região de rejeição)

Quais valores de z0 são pouco prováveis é o conjunto dos valores de z0 que
se H0 é verdadeira, isto é, se Z ~ N(0,1)? conduzem à decisão de rejeitar H0.
Para o teste de H0: µ = k contra
H1: µ ≠ k (σ conhecido):
RC = (-∞,-zα/2]∪[zα/2,∞).
Ora, os valores que correspondem
às “caudas” da distribuição N(0,1), Isto garante probabilidade de erro tipo I - que
aos quais chamamos região crítica. é a probabilidade de Z∈RC sob H0 - igual a α.
zα/2 é denominado valor crítico.
97
Resumo do Método da Região Crítica: Se o valor observado da estatística de

teste não pertencer à RC, a amostra não
fornece evidência para rejeitar H0.
Se o valor observado da estatística de
teste pertencer à RC, a amostra fornece
evidência estatística para rejeitar H0.
Nesta situação, tomamos a
decisão de não rejeitar H0.
Nesta situação, tomamos a

decisão de rejeitar H0. O método é equivalente ao método do IC,
conduzindo, portanto, às mesmas conclusões
“Intuição” para o fato da RC ser nos extremos Exemplo 9.1 (cont.) - Vamos agora aplicar o
método da RC para conduzir o teste H0: µ = 175
Quanto maior for a distância entre a média da
x H1: µ ≠ 175, ao nível de significância α = 0,05.
amostra e o valor testado, maior será a
evidência contra H0 (e a favor de H1). Considere σ = 6. A amostra observada é a
do exemplo 7.2 (n = 5 e média = 180 cm.).
Porém, o desvio padrão populacional e o Solução - os valores críticos possíveis são os
tamanho da amostra também influenciam. mesmos dos respectivos IC`s de 100(1-α)%:
Uma certa diferença entre x e k pode não Para α = 0,01 ⇒ z0,005 = 2,575.
significar nada se a população tiver um desvio Para α = 0,05 ⇒ z0,025 = 1,96.
padrão grande e/ou a amostra for pequena. Para α = 0,1 ⇒ z0,05 = 1,645.
Como α = 0,05, usamos z0,025 = 1,96, Se σ é desconhecido, deve ser

e assim: RC = (-∞,-1,96]∪[1,96,∞). substituído por seu estimador S,
e a estatística do teste torna-se:
Cálculo de z0:
X−k
T= .
x − 175 180 − 175 S/ n
z0 = = = 1,8634.
6/ 5 6/ 5
cujo valor observado é:
Este valor não pertence à RC. x−k estimativa

t0 = . do erro
s/ n padrão
Conclusão: não rejeitamos H0, ao nível 0,05.
98
Neste caso, a região crítica baseia-se na No exemplo 9.1, vamos agora considerar σ
distribuição t com n-1 graus de liberdade: desconhecido e testar as mesmas hipóteses:
H0: µ = 175
RC = (-∞,-tn-1;α/2]∪[tn-1;α/2,∞).
x
H1: µ ≠ 175,
valor crítico
A estimativa de σ foi obtida no exemplo

Assim como no caso do IC, se a amostra é grande 7.2: s = 6. O valor da tabela é o mesmo
(>30), pode-se usar a Normal como aproximação. usado naquele exemplo: t4;0,025 = 2,776.
Assim: RC = (-∞,-2,776]∪[2,776,∞),
x − 175 180 − 175 Erro conceitual comum:
e t0 = = = 1,8634.
s/ 5 6/ 5
Rejeitar H0 ao nível α porque o valor
A conclusão é a mesma do caso com calculado da estatística de teste (t0 ou z0)
σ conhecido. Todavia, note que a RC não pertence ao IC de 100(1-α)%.
obtida aqui é bem mais conservadora, ou
seja, rigorosa com a decisão de rejeitar H0.
Isto é razoável, dado que estamos
introduzindo incerteza por meio da Por que isto está errado?
estimação de σ, e a amostra é pequena.
Resposta: o valor calculado da estatística

Exemplo 9.2 (cont.) - Aplique o método
de teste não tem nada a ver com IC.
da RC para testar a hipótese de que o
Estariam sendo misturados 2 métodos. salário médio dos empregados da fábrica
seja igual a R$ 600,00, ao nível α = 0,1.
Formas corretas seriam:
Rejeitar H0 porque k não pertence ao IC

ou
Rejeitar H0 porque a estatística pertence à RC.
99
Solução:
3 - Cálculo de t0:
1 - As hipóteses de interesse são:
x − 600 400 − 600 200
H0: µ = 600 (hipótese nula); t0 = = =− = −2,2222.
s / 25 450 / 5 90
H1: µ ≠ 600 (hipótese alternativa).
O nível de significância pedido é α = 0,1.
4 - Verifica-se que t0 pertence à RC.
2 - A região crítica do teste é:
RC = (-∞,-t24;0,05]∪[t24;0,05,∞). 5 - Conclusão: rejeitamos H0, ao nível 0,1.
No exemplo 7.3, vimos que t24;0,05 = 1,711.
• Testes Unilaterais/Unicaudais
Em algumas situações específicas, não
estaremos preocupados em evidenciar Exemplo 9.4 - Um fabricante afirma
se o parâmetro de interesse (µ, nos que seus cigarros contém, em média, no
exemplos até aqui) é diferente de k, e máximo 30mg de nicotina. Queremos
sim se ele é maior ou menor do que k. verificar a partir de uma amostra se
existe evidência contra esta afirmação.
Isto conduz ao estudo de testes unilaterais. Neste caso, H1, a hipótese que se quer
evidenciar não é µ ≠ 30, e sim µ > 30.
Assim, as hipóteses apropriadas são: Valores Críticos da Normal

H0: µ ≤ 30 x H1: µ > 30. para Testes Unilaterais:
Para α = 0,01 ⇒ z0,01 = 2,33.

A região crítica é definida com base na
hipótese alternativa, e será, neste caso: Para α = 0,05 ⇒ z0,05 = 1,645.
RC = [zα;∞), se σ for conhecido ou Para α = 0,1 ⇒ z0,1 = 1,28.

RC = [tn-1;α;∞), se σ for desconhecido.
não dividimos α por 2!
100
Exemplo 9.4 (cont.) - Foi coletada uma Considere agora o desvio padrão σ
amostra de 25 cigarros, fornecendo média desconhecido e estimado, com s = 3 mg.
31,5 mg. O desvio padrão populacional é
conhecido, e igual a 3 mg. Ao nível α = 0,05, Da tabela t, t24;0,05 = 1,711,
os dados refutam a afirmação do fabricante? e assim: RC = [1,711;∞).
t0 = 2,5, que pertence à RC acima,

Solução: RC = [1,645;∞) e z0 = 2,5, que portanto a conclusão permanece.
pertence à RC. Desta forma, rejeita-se H0,
ao nível de significância α = 0,05. Os dados Obs - O método do IC não pode
refutam a afirmação do fabricante, a este nível. ser aplicado para testes unilaterais!
Exercício 9.2 - Um economista afirma que

o índice de endividamento médio das
empresas de certo setor é superior a 30. Obs - para H1: µ < k, a RC é: (-∞;-zα], para σ
Você decide verificar esta hipótese, a partir conhecido, e (-∞;-tn-1,α], para σ desconhecido.
de uma AAS de 9 empresas. Se os índices de
endividamento seguem distribuição Normal
com desvio padrão 30 e a média da amostra
foi 45. Há evidência estatística nesta amostra
que corrobore a afirmação do economista?
Resposta: z0 = 1,5. Rejeita-se H0 -
corroborando, assim, a afirmação do
economista - apenas ao nível 0,1.
Exercício 9.3 - Especula-se que, próximo às Obs - Quando a hipótese nula é composta,
eleições, a rentabilidade média dos fundos de como nestes exemplos mais recentes, a
investimento mais alavancados do mercado definição de nível de significância deve
seja negativa. Uma amostra aleatória de 16 ser substituída pela de tamanho do teste.
fundos deste tipo forneceu rentabilidade
média de -1% e desvio padrão de 2%. Voltaremos a este ponto no capítulo 12,
Existe evidência de que proceda a mas observe que o problema é que
especulação acima, a algum nível usual? passamos a não ter um único valor do
parâmetro sob H0, e assim não faz sentido
Resposta: t0 = -2 ⇒ assim, há evidência definir de forma única a probabilidade
de que µ < 0 apenas aos níveis 0,05 e 0,1. de rejeitar H0 quando ela é verdadeira.
101
• Teste para uma Proporção A estatística baseia-se no pivot do IC para p e

(Grandes Amostras) sua distribuição em grandes amostras, que são:
As hipóteses de interesse são:
proporção amostral.
p̂ − p
H0: p = k Z= ≈ N(0,1).
H1: p ≠ k, p(1 − p)
n
sendo p uma proporção populacional
(por exemplo, de eleitores que
pretendem votar em um certo candidato). O teste, portanto, é assintótico.
O teste consiste em calcular o valor da

A estatística do teste é obtida substituindo estatística Z para a amostra observada:
em Z o valor considerado em H0 (p = k):
p̂ − k
z0 = ,
p̂ − k k (1 − k )
Z= .
k (1 − k ) n
n
e verificar se z0 pertence à RC, que
é baseada na distribuição Normal.
Exemplo 9.5 - Uma corretora afirma Solução:

que 30% dos seus clientes são avessos
ao risco. Uma AAS de 64 clientes As hipóteses de interesse são:
revela que 20 são avessos ao risco.
H0: p = 0,3
H1: p ≠ 0,3,
Teste a afirmação da corretora, ao
nível de significância α = 0,1. sendo p a proporção do total de clientes
da corretora que são avessos ao risco.
102
α = 0,1 ⇒ z0,05 = 1,645, e assim:

Erro mais comum no teste para proporções:
RC = (-∞,-1,645]∪[1,645,∞).
Colocar dentro da raiz do denominador
0,3125 − 0,3 o valor de “p-chapéu”, ao invés de k.
z0 = = 0,2182.
0,3(1 − 0,3)
64 Esta confusão ocorre porque, no IC para p, é de
fato a proporção amostral que fica dentro da raiz.
Como z0 não pertence à RC, não
rejeitamos H0 ao nível α = 0,1.
Exercício 9.4 - Uma corretora faz

contato com uma AAS de 100 clientes Resposta do exercício 9.4:
e verifica que 40% dos clientes desta
amostra se dizem avessos ao risco. Se IC90%(p) = [0,3194;0,4806].
p é a proporção de clientes que se
consideram avessos ao risco, use o método
do intervalo de confiança para testar as 0,5 não pertence ao IC.
hipóteses H0: p = 0,5 x H1: p ≠ 0,5,
ao nível de significância correspondente. Rejeita-se H0 ao nível 0,1.
Exemplo 9.6 - Uma emissora de TV Solução:

afirma que o índice de audiência de seu
programa “carro chefe”, em determinada As hipóteses de interesse são:
localidade e horário, é de 60%. Um
instituto de pesquisa entrevista 400 H0: p = 0,6
pessoas naquela localidade. Se 220
entrevistados assistem ao programa no H1: p < 0,6,
horário em questão, existe evidência
estatística contra a afirmativa feita pela sendo p a proporção de audiência do
emissora, ao nível de significância 0,05? programa na população em estudo.
103
Obs - um teste unilateral em que a hipótese

nula é de igualdade é equivalente ao teste Para α = 0,05:
correspondente com H0 composta, ou seja, o RC = (-∞,-1,645].
teste H0: p = 0,6 x H1: p < 0,6 equivale ao teste
H0: p ≥ 0,6 x H1: p < 0,6. O que define qual a 0,55 − 0,6
forma mais adequada para H0 é o contexto do z0 = = −2,04.
0,6(1 − 0,6)
problema. Aqui, a emissora não afirma que a
proporção de audiência é pelo menos 60%, e sim 400
que é igual a 60%. Por outro lado, a emissora
nunca mentiria contra seus interesses, e assim Portanto, z0 pertence à RC, e assim
descartamos que essa proporção possa ser maior rejeitamos H0 ao nível α = 0,05.
do que 60%, restringindo o espaço paramétrico.
Conclusão: • Decisão x Nível de Significância
No exemplo 9.6, rejeitamos H0 aos

A amostra fornece evidência contra a níveis 0,05 e 0,1, mas não ao nível 0,01.
afirmativa da emissora, ao nível 0,05.
Isto conduz à seguinte conclusão:

E aos outros níveis usuais? a decisão em um teste depende do
nível de significância estabelecido!
Note que:
Se uma hipótese é rejeitada a um certo Podemos definir um “ponto de corte”, isto é,
nível de significância, também o será a um valor de α abaixo do qual não rejeitamos
níveis superiores (pois a RC aumentará). H0, e a partir do qual passamos a rejeitar H0.
Por outro lado:

Se uma hipótese não é rejeitada a um Este ponto é chamado p-valor do teste.
certo nível de significância, também não
o será a níveis inferiores (a RC diminuirá).
104
P-Valor Testando Hipóteses Usando o P-Valor
O p-valor permite testar hipóteses de

O p-valor de um teste é o menor forma direta (sem precisar usar tabelas).
valor de α que nos leva a rejeitar H0.
A regra de decisão é a seguinte:
O p-valor também é chamado de nível se p-valor ≤ α ⇒ rejeitamos H0

descritivo ou probabilidade de significância. se p-valor > α ⇒ não rejeitamos H0
Exemplo 9.7 - O p-valor obtido para um

• Cálculo do P-Valor
teste foi 0,07. Qual a conclusão do teste
para os 3 níveis de significância usuais?
O p-valor de um teste é dado pela
Solução: probabilidade, calculada sob H0,
de que a estatística de teste assuma
Para α = 0,01 ou 0,05, não rejeitamos H0 um valor igual ou “mais extremo”
(pois o p-valor é maior do que ambos); do que o valor calculado na amostra.
Para α = 0,1, rejeitamos H0 Mais extremo = mais “dentro” da RC.

(pois o p-valor é menor do que 0,1).
Para elucidar o cálculo, vamos utilizar o α = P(Z ≥ zα)

teste de H0: µ = k contra H1: µ > k.
p-valor = P(Z ≥ zo)
Seja z0 o valor observado da estatística de
teste e zα o valor crítico do teste, a nível α.
Considere, inicialmente, que z0 > zα.
A figura a seguir ilustra Conclusão: se z0 é maior que zα (situação em

como fica o p-valor. que o método da região crítica nos conduz a
rejeitar H0), o p-valor é, de fato, menor que α.
105
α = P(Z ≥ zα)
Considere, agora, z0 < zα (situação
p-valor
em que o método da RC nos
= P(Z ≥ zo)
conduz a não rejeitar H0).
A figura a seguir ilustra

como fica o p-valor. Conclusão: se z0 < zα (situação em que o
método da região crítica nos conduz a não
rejeitar H0), o p-valor é, de fato, maior que α.
Exemplo 9.8 - Calcule o p-valor do teste

do exemplo 9.4, e utilize-o para formular
sua conclusão aos três níveis usuais.
Obs - se z0 = zα, o p-valor é
igual a α, e (por definição) Solução:
toma-se a decisão de rejeitar H0. conclusão?
p - valor = PH0 (Z ≥ 2,5) = 0,5 − 0,49379 = 0,00621.
indica que a probabilidade é calculada sob H0
Em um teste bilateral, o p-valor

Exercício 9.5 (p-valor para teste de é obtido aplicando-se a fórmula:
proporção) - No exemplo 9.6, calcule o
p-valor do teste, e use-o para formular a
P-valor bilateral = 2*P(Z≥|z0|).
conclusão do teste aos três níveis usuais.
R: 0,0207.
No exemplo 9.8, se H1: µ ≠ 30:
p-valor = 2*0,00621 = 0,01242.
106
Obs - a formulação das hipóteses do teste

Para entender o porquê do módulo de z0,
não pode levar em consideração o valor
considere que, no exemplo 9.4, a amostra de
observado na amostra. Esta formulação
cigarros tivesse fornecido um nível médio de
tem que preceder a coleta da amostra.
nicotina igual a 28,5 (ao invés de 31,5). Note
o que aconteceria se você simplesmente (de fato, tal procedimento sempre
fizesse 2*P(Z ≥ z0) (resultado maior que 1). conduziria a um teste unilateral...)
O que deve nortear a escolha entre um teste

bilateral e um teste unilateral é o contexto
do problema e o interesse do pesquisador.
P-Valor para o Teste t
Quando a variância é desconhecida, e

usamos o teste t, a tabela t não permite 10. TESTES DE
determinar o p-valor com exatidão.
O cálculo pode ser feito via

HIPÓTESES
função DIST.T do excel. (PARTE 2 - TESTES PARA VARIÂNCIA
E PARA COMPARAR 2 POPULAÇÕES)
O comando é DIST.T.CD(t0;g.l.), se o teste é
unilateral e DIST.T.BC(t0;g.l.) se é bilateral.
• Teste para a Variância de uma Normal Relembrando o pivot do IC

para σ2 e sua distribuição:
N é muito grande, é comum
2 fazer: n = n0.
S
Considere uma população Normal com Q = (n − 1) ~ χ 2n −1 .
média µ (desconhecida) e variância σ2. σ2
A estatística do teste é obtida
As hipóteses de interesse são: S2
fazendo σ2 = k: Q = (n − 1) .
H0: σ2 = k contra H1: σ2 ≠ k. k
Sob H0, Q segue distribuição

qui-quadrado com n-1 g.l..
107
O teste consiste em calcular o valor da Região Critica:

estatística do teste na amostra observada:
RC = (0, χ 2  α
] ∪ [χ 2 α
, ∞ ).
n −1,  1−  n −1,
 2 2
s2 valor k1 tal que :

q0 = (n −1) , α
k P(X < k1 ) = valor k 2 tal que :
2
ou : α
P(X > k 2 ) =
 α 2
e verificar se q0 pertence ou não P(X > k1 ) = 1 − 
 2
à RC, definida no slide a seguir.
Exemplo 10.1 - Seja uma AAS de Solução:

tamanho n = 30 de uma população s2 (3,63) 2
Normal. Média e desvio padrão amostrais q 0 = (n − 1) = 29 = 23,88.
k 16
foram, respectivamente: 32 e 3,63.
RC = (0,16] ∪ [45,7, ∞).
Conduza o teste: Conclusão: não rejeitamos H0.
H0: σ2 = 16 contra H1: σ2 ≠ 16,
Exercício 10.1 - Teste H0: σ2 = 16
ao nível α = 0,05. contra H1: σ2 < 16, ao nível 0,05.
Obs - neste caso : RC = (0, χ n2 −1,1−α ].
• Teste de Diferença de Médias
Considere 2 populações Normais com Assim como no caso do IC para

médias µ1 e µ2 e desvios padrão σ1 e σ2. µ1-µ2, serão consideradas 2 AAS`s
independentes das duas populações.
O objetivo aqui é testar:
H0: µ1 = µ2 contra H1: µ1 ≠ µ2.
Estas hipóteses podem ser reescritas como:
H0: µ1-µ2 = 0 contra H1: µ1-µ2 ≠ 0.
108
Caso 1 - σ1 e σ2 são conhecidos. Estatística do Teste
Relembrando o pivot do IC para µ1-µ2 É obtida substituindo em Z o valor do

(variâncias conhecidas) e sua distribuição: parâmetro testado (que no caso é µ1-µ2)
quando H0 é verdadeira (µ1-µ2 = 0):
(X1 − X2 ) − (µ1 − µ2 ) (X1 − X2 )

Z= ~ N(0,1). Z= .
σ12 σ22
+ σ12 σ22
n1 n 2 +
n1 n 2
O teste consiste em calcular o valor

da estatística Z na amostra observada:
Caso 2 - σ1 e σ2 são
(x1 − x 2 ) desconhecidos e estimados.
z0 =
σ12 σ22
+
n1 n 2
e verificar se z0 pertence ou não

à RC, baseada na distribuição Normal.
Relembrando o pivot do IC para µ1-µ2 Estatística do Teste:

(variâncias desconhecidas) e sua distribuição
(válida se considerarmos σ12 = σ 22 ) : X1 − X 2
T= .
T=
(X 1 − X 2 ) − (µ1 − µ 2 )
~ t n1+n 2 −2 Sp
1 1
+
n1 n 2
1 1
Sp +
n1 n 2
Região Crítica (teste bilateral):
(n − 1)S12 + (n 2 − 1)S22
Sp = S2p , sendo S2p = 1
n1 + n 2 − 2 RC = (-∞,-tn1+n2-2,α/2]∪[tn1+n2-2,α/2,∞).
109
O teste consiste em calcular o valor Exemplo 10.2 - Seja a situação do exemplo

da estatística T na amostra observada: 8.2: “Para uma AAS de 8 lâmpadas de
uma marca A, a vida média estimada foi de
x1 − x 2
t0 = , 4.600 horas, com s1 = 250 horas. Para uma
1 1 AAS de 10 lâmpadas de uma marca B, a
sp + vida média estimada foi de 4.000 horas,
n1 n 2
com s2 = 200 horas. Suponha que a
(n1 − 1)s12 + (n 2 − 1)s 22 duração das lâmpadas de ambas as marcas
sp =
n1 + n 2 − 2 siga distribuição Normal”. Teste, ao nível
0,01, a hipótese de que o tempo médio de
e verificar se t0 pertence ou não à RC. duração das marcas A e B seja o mesmo.
Solução: primeiramente, achemos a região

crítica RC do teste. Consultando a tabela t: (n1 − 1)s12 + (n 2 − 1)s 22 7 * (250) 2 + 9 * (200) 2
sp = =
n1 + n 2 − 2 16
= 49.843,75 = 223,26.
x1 − x 2 4.600 − 4.000
t0 = = = 5,67.
1 1 1 1
sp + 223,26 +
n1 n 2 8 10
Portanto: t0 ∈ RC, e assim

rejeitamos H0 ao nível 0,01.
Portanto: RC = (-∞,-2,921]∪[2,921,∞).
Exercício 10.2 (dados do exercício 8.1) Solução Parcial:

- 2 amostras independentes de 2
turmas apresentam as seguintes notas:
RC = (-∞,-2,365]∪[2,365,∞).
Turma 1 - 5.0, 6.0, 3.5, 9.0, 8.5.
Turma 2 - 4.0, 10.0, 7.0, 5.0. t 0 = 0,0604.
Conduza o teste de diferença

de médias, ao nível 0,05. Conclusão?
110
• Teste para Diferença de Proporções

Implementação no Excel
Considere 2 populações com proporções
Função TESTE.T(caudas = 2;tipo = 2). p1 e p2 a serem comparadas.
O resultado obtido é o p-valor do teste. As hipóteses do teste são

H0: p1 = p2 contra H1: p1 ≠ p2,
No caso do exercício 10.2 ⇒ 0,9536. o que pode ser reescrito da forma:
H0: p1-p2 = 0 contra H1: p1-p2 ≠ 0.
Substituindo p1 e p2 no denominador
Relembrando o pivot do IC para p1-p2 e sua por suas respectivas estimativas, a
distribuição (aproximada para n1 e n2 grandes): aproximação permanece válida. Assim:
(p̂1 − p̂ 2 ) − (p1 − p 2 )
Z=
(p̂1 − p̂ 2 ) − (p1 − p 2 ) ≈ N(0,1).
Z= ≈ N(0,1)
p̂1 (1 − p̂1 ) p̂ 2 (1 − p̂ 2 )
p1 (1 − p1 ) p 2 (1 − p 2 ) +
+ n1 n2
n1 n2
Finalmente, fazendo p1-p2 = 0,
obtemos a estatística do teste.
O teste consiste em calcular o valor Exemplo 10.3 - Duas financeiras aplicam

da estatística Z na amostra observada: diferentes critérios para concessão de
crédito. No banco de dados da financeira 1,
p̂1 − p̂ 2 foram selecionados ao acaso 180 clientes,
z0 = , dos quais 140 eram inadimplentes. No banco
p̂1 (1 − p̂1 ) p̂ 2 (1 − p̂ 2 )
+ de dados da financeira 2, foram selecionados
n1 n2 ao acaso 300 clientes, dos quais 220 eram
inadimplentes. Teste, ao nível 0,1, se existe
evidência de diferença entre as proporções
e verificar se z0 pertence ou não à RC,
de inadimplência nas duas financeiras.
que é baseada na distribuição Normal.
111
Solução: Exemplo 10.3 (cont.) - Teste, ao nível 0,1,

se a proporção de inadimplentes na primeira
A região crítica, para o nível α = 0,1,
financeira é maior do que na segunda.
é: RC = (-∞,-1,645]∪[1,645,∞).
(14 / 18) − (22 / 30) Solução:

z0 = = 1,1064.
(14 / 18)(4 / 18) (22 / 30)(8 / 30)
+ Neste caso, as hipóteses são:
180 300
H0: p1 = p2 contra H1: p1 > p2,
Como z0 não pertence à RC, não que podem ser reescritas como:
rejeitamos H0 ao nível α = 0,1. H0: p1-p2 = 0 contra H1: p1-p2 > 0.
O valor de z0 permanece o mesmo,

mas a região crítica passa a ser: • Teste de Razão de Variâncias
RC = [z0,1,∞) = [1,28,∞). Um dos pressupostos para realizar

o teste de diferença de médias de
2 populações Normais é que as
variâncias das populações sejam iguais.
Como z0 não pertence à RC, não
rejeitamos H0 ao nível α = 0,1.
Ou seja, a decisão não mudou Esse pressuposto pode ser testado, por
(mas poderia ter mudado). meio de um teste chamado teste F.
As hipóteses de interesse do teste F são: Relembrando o pivot do IC para

H 0 : σ1 = σ 2
2 2 razão de variâncias e sua distribuição:
H1 : σ12 ≠ σ 22
S12 σ 22
que podem ser reescritas como: ~ Fn1−1,n 2 −1.
S22 σ12
σ12
H0 : =1
σ 22
Substituindo acima o valor da razão
σ2
de variâncias contemplado em H0
H1 : 1
≠1
σ2
2
(isto é, 1), obtemos a estatística do teste.
112
Estatística do teste: O teste consiste em calcular o valor da

estatística F para a amostra observada:
S12
F= .
S22 s12
f0 = 2
s2
Sob H0, a estatística acima segue

distribuição F com n1-1 e n2-1 graus. e verificar se f0 pertence ou não à RC.
Região Crítica (teste bilateral): Exemplo 10.4 - Na situação do

exercício 10.2, conduza o teste de
RC = (0; f  α
] ∪ [f α ; ∞). razão de variâncias, ao nível 0,05.
n1 −1, n 2 −1; 1−  n1 −1, n 2 −1;
 2 2
Solução:
valor k 2 na tabela F tal que
P(F > k 2 ) =
α
, ou seja :
Valor da estatística F: f0 = 0,775.
2
1
f  α
= . O processo para obter os valores da tabela F é
υ1 , υ 2 ; 1− 
 2
f α α/2
υ 2 , υ1 ;
2
o mesmo do exemplo 8.4, repetido a seguir.
k2
Achando o valor da cauda superior da F: Achando o valor da cauda inferior da F:
f4,3;0,025 = f3,4;0,025 =
Invertendo: f4,3;0,975 =
15,10. 9,98.
1/9,98 = 0,1002.
113
Implementação no Excel
Região Crítica:
O teste F pode ser implementado no

RC = (0; f 4,3; 0,975 ] ∪ [f 4,3; 0,025 ; ∞ ) Excel por intermédio da função
= (0;0,10] ∪ [15,10; ∞). TESTE.F. É só entrar com dados em
colunas, e a função retorna o p-valor.
Conclusão? No caso do exemplo 10.4,

o p-valor é 0,7844 (interprete!).
Exemplo 10.5 - 2 AAS`s independentes Achando os valores da Tabela F:

de tamanho 6, de 2 populações Normais,
forneceram médias 8 e 12 e variâncias 40 e
37, respectivamente. Teste, ao nível α = 0,1,
a hipótese de variâncias iguais.
Solução:
Valor da estatística F: f0 = 40/37 = 1,08.

f5,5;0,05 =
O processo para obter os valores da tabela F é 5,05.
o mesmo do exemplo 8.5, repetido a seguir.
f 5 ,5;0 , 95 = 1 / 5,05 = 0,198.
Exemplo 10.6 - Na situação do exemplo

RC = (0; f 5,5;0,95 ] ∪ [f 5,5;0, 05 ; ∞). 10.5, teste, ao nível α = 0,05, se a
variância da população 1 é maior
do que a variância da população 2.
5,05. 0,198.
Solução: as hipóteses agora passam a ser:

Conclusão: f0 não pertence à RC e, σ12 σ12
assim, não rejeitamos, ao nível 0,1, H0 : ≤ 1 x H : > 1.
σ 22 σ 22
1
a hipótese de variâncias iguais.
114
Erros conceituais comuns:

f0 = 40/37 = 1,08 (igual ao exemplo 10.5).
1 - Não rejeitar H0 porque
o 1 não pertence à RC.
RC = [f 5,5;0,05 ; ∞) = [5,05; ∞). 2 - Não rejeitar H0 porque f0

pertence ao IC de 100(1-α)%.
3 - Inverter as variâncias amostrais

Conclusão?
no cálculo de f0 (confusão com IC).
Erros conceituais comuns (cont.):
4 - Consultar a tabela errado, trocando

o numerador com o denominador.
11. TESTES DE
5 - Obter o valor da cauda inferior da F
HIPÓTESES
dividindo 1 pelo valor da cauda superior, (PARTE 3 - PODER DE UM TESTE,
sem inverter os graus de liberdade. CURVA DE PODER E C.C.O.)
Poder de um Teste
Temos então que o poder de um teste é
a probabilidade de uma decisão correta.
O poder π de um teste de
hipóteses é a probabilidade de
rejeitar H0 quando ela é falsa. A idéia é que um bom teste deve - ao
menos na maioria das vezes - conduzir
à rejeição de H0 quando ela for falsa.
Obs - o poder também é
chamado potência do teste.
115
Erros em um Teste de Hipóteses x Poder: Relação entre o Poder e a

Probabilidade do Erro Tipo II:
H0 Verdadeira H0 Falsa
Seja β a probabilidade do erro tipo II,
Rejeitar H0 Erro Tipo I Decisão conforme apresentada no capítulo 9.
Correta Da definição de poder, é imediato que:
Não Rejeitar Erro Tipo II
H0 π = 1-β.
a probabilidade desta decisão correta é o poder do teste
• Cálculo do Poder de um Teste • Testes Envolvendo Hipóteses Simples
Teoricamente, é possível (embora não usual)

O poder de um teste é
conduzir testes com ambas as hipótese simples.
calculado da seguinte forma:
Por exemplo: H0: θ = k1 x H1: θ = k2.
π = PH1(Estatística do Teste ∈ RC). Entretanto, este teste (estatística e região
crítica) é exatamente o mesmo usado para:
H0: θ = k1 x H1: θ > k1, se k1 < k2,
indica que a probabilidade será calculada sob H1
ou H0: θ = k1 x H1: θ < k1, se k1 > k2.
Por exemplo, o teste de H0: µ = 3 Passo 1 − Reescrever a RC em termos de X.

x H1: µ = 2 é rigorosamente igual O formato dela é : X ≥ c, em que c
ao teste H0: µ = 3 x H0: µ < 3. deve satisfazer : PH 0 ( X ≥ c) = 0,1.
c−µ
Exemplo 11.1 - Considere o teste Padronizando : PH 0 ( X ≥ c) = PH 0 ( Z ≥ )
2 / 16
H0: µ = 3 x H1: µ = 5, c−3
= P( Z ≥ ), que é igual a 0,1 se
sendo µ a média de uma população 2 / 16
Normal com variância 4, baseado em uma c−3
= 1,28, e portanto c = 3,64.
AAS de tamanho 16 e conduzido ao nível 2 / 16
de significância 0,1. Determine o poder.
Assim, a RC é dada por X ≥ 3,64.
116
Passo 2 − Aplicar a definição de π e calcular

Na prática, H1 costuma ser composta,
a probabilidade correspondente, usando contemplando mais de um valor para µ.
para a padronização o valor de µ sob H1 :
O problema é que π é função do

π = PH1 ( X ≥ 3,64) = valor de µ quando H1 é verdadeira.
3,64 − 5
PH1 ( Z ≥ )=
2 / 16
Portanto, faz mais sentido construir
PH1 ( Z ≥ −2,72) = uma função poder ou curva de poder.
0,9967.
Exemplo 11.2 - esboce a

• Curva de Poder
curva de poder do teste:
H0: µ = 75 contra H1: µ > 75,
O poder de um teste, como função dos
valores possíveis de µ contemplados em ao nível α = 0,05. Considere σ = 10 e n = 25.
H1, é chamado de curva de poder do teste.
Solução:
Verifique primeiro (passo 1) que a RC é X ≥ 78,29.
(outros nomes: função poder, função Daí, calcule : π(µ) = PH1 ( X ≥ 78,29) =
potência ou curva de potência)
78,29 − µ
PH1 ( Z ≥ ), para todo µ > 75.
2
Calculamos a seguir o valor de π(µ) A figura a seguir ilustra o gráfico da

para alguns valores específicos de µ: curva de poder para o teste do ex. 11.2:
1
π(µ)
π(77) = 0,2595. 0,9
0,8
0,7
π(78) = 0,4424. 0,6
0,5
O limite da curva de
poder quando µ tende a 75
0,4
π(80) = 0,8037. 0,3
0,2 é o nível de significância.

µ
0,1
À medida que nos afastamos de k = 75, 0

75,1
75,6
76,1
76,6
77,1
77,6
78,1
78,6
79,1
79,6
80,1
80,6
81,1
81,6
82,1
82,6
83,1
83,6
84,1
84,6
85,1
85,6
o poder do teste aumenta. Por que?
117
O mesmo problema que ocorre com • Curva Característica de Operação

o poder ocorre com a probabilidade
do erro tipo II, que também depende
do valor do parâmetro sob H1 A curva β(µ
µ) = 1- π(µµ) é chamada
curva característica de operação.
(de fato, lembre-se que β = 1-π)
Faz sentido, portanto, que assim como Exemplo 11.2 (cont.) - Esboce a curva
foi feito para π, defina-se uma curva característica de operação do teste.
de valores possíveis para β.
Curva Característica de Operação (ex. 11.2):

Exemplo 11.3 - Esboce as curvas de poder
1 β(µ) e característica de operação para o teste:
0,9
0,8
O que ocorre com esta
0,7 curva se mudarmos o valor
0,6 de α para 0,1? E para 0,01?
0,5 H0: µ = 75 contra H1: µ < 75,
0,4
0,3 ao nível α = 0,05 (σ = 10 e n = 25).

0,2
µ
0,1
0
75,1
75,6
76,1
76,6
77,1
77,6
78,1
78,6
79,1
79,6
80,1
80,6
81,1
81,6
82,1
82,6
83,1
83,6
84,1
84,6
85,1
85,6
Curva de Poder (ex. 11.3): Curva Característica de Operação (ex. 11.3):

π(µ)
1
0,9
1
β(µ)
0,9
0,8
0,8
0,7
0,7
0,6
0,6
0,5 0,5
0,4 0,4
0,3 0,3
0,2 0,2
µ
0,1 0,1
µ
0 0
64
64,5
65
65,5
66
66,5
67
67,5
68
68,5
69
69,5
70
70,5
71
71,5
72
72,5
73
73,5
74
74,5
64
64,5
65
65,5
66
66,5
67
67,5
68
68,5
69
69,5
70
70,5
71
71,5
72
72,5
73
73,5
74
74,5
118
Exemplo 11.4 - Esboce as curvas de poder Curva de Poder (ex. 11.4):

π(µ)
e característica de operação para o teste: 1
0.9
0.8
0.7
H0: µ = 75 contra H1: µ ≠ 75, 0.6
ao nível α = 0,05 (σ = 10 e n = 25). 0.5
0.4
0.3
0.2
0.1
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
Curva Característica de Operação (ex. 11.4):
Exercício 11.1 - Calcule o poder a
1
β(µ) probabilidade do erro tipo II associados
0.9
ao teste do exemplo 11.3, se o valor real

de µ é 74, e identifique-os nas curvas que
0.8
0.7
0.6 foram esboçadas no referido exemplo.

0.5
0.4
0.3 R: 0,1261 e 0,8739.

0.2
0.1
0
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
π(74) situado na curva de poder: β(74) situado na C.C.O.:

π(µ)
1
0,9
1
β(µ)
0,9
0,8
0,8
0,7
0,7
0,6
0,6
0,5 0,5
0,4 0,4
0,3 0,3
0,2 0,2
µ
0,1 0,1
µ
0 0
64
64,5
65
65,5
66
66,5
67
67,5
68
68,5
69
69,5
70
70,5
71
71,5
72
72,5
73
73,5
74
74,5
64
64,5
65
65,5
66
66,5
67
67,5
68
68,5
69
69,5
70
70,5
71
71,5
72
72,5
73
73,5
74
74,5
119
π(74) situado na curva de poder:
Exercício 11.2 - Calcule o poder a π(µ)

1
probabilidade do erro tipo II associados 0.9
ao teste do exemplo 11.4, se o valor real 0.8
de µ é 74, e identifique-os nas curvas que 0.7
0.6
foram esboçadas no referido exemplo. 0.5 Converter um

0.4 teste unilateral
em bilateral
R: 0,0721 e 0,9279.
0.3
0.2 reduz o
seu poder!
µ
0.1
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
β(74) situado na C.C.O.:
1
β(µ)
0.9
0.8
0.7
12. TESTES DE
HIPÓTESES
0.6
0.5
0.4
(PARTE 4 – TÓPICOS AVANÇADOS)

0.3
0.2
0.1
µ
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
• Tamanho de um Teste • Teste Não-Viciado (ou Não-Viesado)
Quando a hipótese nula é composta, define-se

o tamanho de um teste da seguinte forma: Um teste é chamado não viciado se
α = sup P(Re jeitar H0 ), π > α, ou seja: α + β < 1

θ∈Θ0
sendo Θ0 o subspaço paramétrico gerado por H0.

para todo θ∈Θ1, em que Θ1 é o
subespaço paramétrico gerado por H1.
Um facilitador é que este valor corresponde à
probabilidade do erro tipo I na fronteira de H0.
120
• Teste Ótimo ou Uniformemente • Lema de Neyman e Pearson

Mais Poderoso (T.U.M.P.)
O T.U.M.P. é aquele cuja região crítica
É o teste de tamanho α que possui maior é definida de modo que a razão das funções
poder do que qualquer outro, de de verossimilhança calculadas sob H0 (θ=k)
mesmo tamanho, para todo θ∈Θ1. e sob qualquer valor de θ em H1, digamos
Isto significa que, para o tamanho α k*, é menor ou igual a uma constante > 0:
considerado, é o melhor teste possível.
L( k )
Obs - no caso de H0 e H1 simples, define-se ≤ cte.
L(k*)
simplesmente o teste mais poderoso (T.M.P.).
H1 mais “plausível”
Exemplo 12.1 - Obtenha o T.U.M.P. para Solução:

testar H0: λ = k contra H1: λ < k, sendo λ o n
parâmetro de uma população exponencial. −k ∑xi < k.

L( k ) = k e n i =1
n
−k * ∑ xi
L( k ) = k e
* *n i=1
n
−k ∑ xi n n
 k  ( k −k ) ∑ x
n
L( k ) ke i =1 *
= = * e
i
n . i =1
k 
*
L( k ) −k ∑ x *
i
*n
k e i =1
 k  (k
n *
−k ) ∑ xi
 * e i =1
≤ cte
k  Conclui-se que a forma da RC do T.U.M.P. é
n
( k −k )
*
∑ xi
e i =1
≤ cte * n
∑ X i ≥ c ou X ≥ c.
n i =1
(k * − k ) ∑ x i ≤ cte * *
i =1
< 0, pois k > k*.

n
∑ x i ≥ cte * * *
i =1
121
Exercício 12.1 Exercício 12.1 (cont.)

a) Obtenha a forma da região crítica do b) baseado em uma AAS de tamanho 30,
T.U.M.P. de tamanho α = 0,05, para testar obtenha a região crítica exata para testar
H0: λ = k contra H1: λ > k, sendo λ o H0: λ = 1,2 contra H1: λ > 1,2, considerando
parâmetro de uma população Poisson, a soma como estatística de teste (use o TCL).
considerando a soma como estatística de teste.
n
R : ∑ X i ≥ 45,87
n
i =1
R : ∑ X i ≥ c.
i =1 ou (se quiser usar a média) : X ≥ 1,2741.
Obs1 - Os testes unilaterais apresentados

aqui são uniformemente mais poderosos.
Obs2 - Para hipóteses bilaterais, não existem

testes uniformemente mais poderosos!
Obs3 - O teste sugerido por Neyman

e Pearson é também conhecido como
teste de razão de verossimilhanças.
122

Apostila Estatística

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apostila Estatística

Enviado por

Direitos autorais:

Formatos disponíveis

FGV/EPGE - Graduação em Ciências Econômicas

Disciplina: Estatística - Professor: Eduardo Campos

• O Que é Estatística? A estatística divide-se

ESTATÍSTICA: - Inferência Estatística

Cálculo do coeficiente de rendimento

Pesquisa eleitoral → estimação dos

• Tipos de Dados 1 - Dados Populacionais x Amostrais

2 - Dados Primários x Secundários 3 - Corte x Séries Temporais x Painel

4 - Dados Qualitativos x Quantitativos

• Dados em painel consistem no registro de • Dados qualitativos são aqueles que

Dados qualitativos podem estar

• Escala nominal é aquela na qual a ordem dos

Dados quantitativos podem estar

• Dados em escala contínua são

Outro tipo de escala é a métrica, que

Exemplo 1.1 - Faturamento bruto no mês

1. ESTATÍSTICA 11,8 3,6

O que se pode concluir sobre esses dados?

Esses dados estão na chamada forma Distribuição de Frequências

• Distribuição de Frequências Absolutas Limitações da distribuição

• Distribuição de Frequências Relativas • Distribuição de Frequências Acumuladas

Histograma (Frequências Absolutas) - ex. 1.1:

Como obter o histograma? 2

• Histograma com Classes

Se o histograma desconsiderar as diferenças

Seguindo o procedimento recomendado, vê-se

Representação gráfica apropriada para

Consiste de barras verticais centradas

A confusão de uma com a outra pode

Exemplo 1.4 - Análise dos tipos de defeito nas

O gráfico de Pareto é um gráfico de

Em geral, é sobreposta a ele uma curva de

O gráfico de pizza, ou de setores, é um

É apropriado quando o objetivo

R: Não, pois está bem acima

A média é uma medida de posição

O “6,0” é um valor atípico ou discrepante, Neste caso, é recomendável utilizar outra

Exemplo 1.6 (cont.):

Se n for ímpar: Md = observação central. Md = 3,0.

Se n for par: 3,0 é mais representativo da posição ou

Em algumas situações, nem a média nem Moda

A moda é o valor que ocorre com

Exemplo 1.8 - Em uma pequena empresa,

Calcule o salário médio dos

Aplicação: Índice de Preço de Laspeyres:

A média ponderada, µp, é definida como: n p it

peso do j-ésimo valor distinto de x (no

Resposta do exemplo 1.8: R$ 3.291,67.

O índice de Laspeyres é a média aritmética • Média para Dados Agrupados

Exercício 1.2 - Obtenha o peso médio da

Exemplo 1.9 - Seja um investimento com

Para ilustrar, considere um capital de

fator de capitalização fator de capitalização

O fator de capitalização equivalente No exemplo 1.9:

(1+Req)n = (1+R1)(1+R2)...(1+Rn) de tal forma que Req = 14,8913%.

Outro bom exemplo de aplicação do conceito

Aplicação: Índice de Preço de Paasche:

Paasche como Média Harmônica:

• Medidas de Dispersão Exemplo 1.10 - Dois fornecedores, A e

Naturalmente, você escolheria o fornecedor B Seja (xi-µ) o desvio de xi em relação à média.

A medida de dispersão mais simples n

em torno de uma medida de posição. ∑ (x − µ) = 0, sempre!

Note que este problema é resolvido • Desvio (Absoluto) Médio

É a média dos quadrados dos desvios: