Você está na página 1de 13

INSTITUTO SUPERIOR DE CONTABILIDAD E AUDITORIA DE

E S T A T Í S T I C A II

FOLHA TEORICA 1 – TEORIA DE ESTIMAÇÃO

1. DISTRIBUÍÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL DE PARÂMETROS


1.1. Inferência Estatística

O campo da inferência estatística consiste nos métodos usados para tomar decisões ou tirar conclusões acerca de
uma população. Esses métodos utilizam a informação contida em uma amostra da população para extrair
conclusões.

A inferência estatística pode ser dividida em duas grandes áreas: teoria de estimação e testes de hipóteses.

1.2. Técnicas de Amostragem (Revisão)


São procedimentos a ser adoptado na selecção dos elementos da amostra e tem como objectivo central obter uma
amostra representativa de uma determinada população
Uma amostra é representativa se representa toda a população da melhor maneira possível. Essa representatividade
depende de:

 Metodologia adoptada para a selecção da amostra


 Tamanho da amostra

1.3. Erro Amostral


É a diferença entre um resultado amostral e o verdadeiro resultado populacional.
Decorre da própria noção de amostra. Quando se recolhe uma amostra, alguma coisa se perde da população de
onde foi retirada, pelo que, embora cuidadosamente recolhida, uma amostra pode não ser representativa da
população.
Do mesmo modo, não se pode esperar que duas amostras, independentemente retiradas da mesma população,
forneçam resultados iguais. Porque existe esta variabilidade nas estimativas e porque a amostra não é uma perfeita
representação da população, os resultados que ela fornece são de alguma forma errados.
O erro amostral pode ser controlável com acções do tipo:

 Técnica de amostragem - optando por aquela que, no caso concreto, se revela mais eficiente; mediante a
escolha de um processo de amostragem aleatório e do aumento do tamanho da amostra, pode-se assegurar
a representatividade e associar os resultados com grau de confiança elevado.
 Estimadores - optando por aquele que seja mais eficiente, isto é, com menor variabilidade.
O erro amostral é um erro aleatório, pois as estimativas comportam-se aleatoriamente em torno do verdadeiro valor
do parâmetro. Ou seja, não coincidem com o parâmetro, estando umas estimativas acima e outras abaixo deste -
daí o erro, mas concentram-se em torno de um valor central que coincide com o verdadeiro valor do parâmetro.

1.4. Erro Não-Amostral


É a incorrecção na colecta, registo ou análise de dados amostrais, isto é:
 Colecta tendeciosa de amostra
 Utilização de instrumento descalibrado
 Registo incorrecto de dados amostrais

1
1.5. Estimação de Parâmetros

Estimação é o processo que consiste em utilizar dados amostrais para estimar valores para a média, desvio padrão
e proporção de uma população de parâmetros desconhecidos. Essencialmente, qualquer característica de uma
população pode ser estimada a partir de uma amostra aleatória. Entre os mais comuns as estatísticas amostrais são
utilizadas como estimativas de parâmetros populacionais que podem ser classificadas em pontual ou intervalar.

1.6. Conceitos Fundamentais

1.6.1. Amostra aleatória


As variáveis aleatórias 𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑛 são uma amostra aleatória de tamanho n se:
 Forem independentes
 Cada 𝑋𝑖 tiver mesma distribuição de probabilidades

1.6.2. Parâmetro

É a quantidade de interesse da população, onde em geral são desconhecidas a média (𝜇), desvio padrão (𝜎) e
proporção (𝜋) dessa população.

∑𝑛𝑖=1 𝑋𝑖 ∑𝑛𝑖=1(𝑋𝑖 − 𝜇)2 𝑋


𝜇= 𝑒 𝜎2 = 𝜋=
𝑁 𝑁 𝑁
1.6.3. Estatísticas

É qualquer função da amostra que não depende de parâmetros desconhecidos

11.1. Exemplo (Estatísticas de amostra aleatória)

∑𝑛𝑖=1 𝑋𝑖 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 𝑋
𝑋̅ = 2
𝑆 = 𝑝=
𝑛 𝑛−1 𝑛
1.6.4. Distribuição amostral
É a distribuição de probabilidades de uma medida estatística baseada em uma amostra aleatória. Distribuições
amostrais são importantes porque fornecem uma grande simplificação, usada para inferência estatística. Mais
especificamente, elas permitem considerações analíticas serem baseadas na distribuição amostral de uma estatística,
em vez de na distribuição conjunta.
O conceito de distribuição de probabilidade de uma variável aleatória será agora utilizado para caracterizar a
distribuição dos diversos valores de uma variável em uma população.
Ao retirar uma amostra aleatória de uma população estaremos considerando cada valor da amostra como um valor
de uma variável aleatória cuja distribuição de probabilidade é a mesma da população no instante da retirada
desse elemento para a amostra.
Em consequência do fato de os valores de amostra serem aleatórios, decorre que qualquer quantidade calculada
em função dos elementos da amostra também será uma variável aleatória.
A distribuição amostral de uma estatística depende da distribuição da população, do tamanho da amostra e do
método de selecção da amostra.

1.6.5. Espaço paramétrico

Um parâmetro (𝜃) estatístico é uma função definida sobre os valores numéricos de uma população. Trata-se,
portanto, de um valor representativo que permite modelizar a realidade.

A utilidade dos parâmetros estatísticos prende-se com a dificuldade de trabalhar com uma grande quantidade de
dados individuais de uma mesma população. Este tipo de parâmetros permite obter um panorama geral da
população e realizar comparações e previsões.

2
1.6.6. Estimador

Um estimador (𝜃̂) é uma regra para calcular uma estimativa de uma determinada quantidade baseada em dados
observados: assim a regra e seu resultado (a estimativa) são distinguidos.

Um "estimador" ou "ponto estimado" é uma estatística (isto é, uma função dos dados) que é utilizada para inferir o
valor de um parâmetro desconhecido em um modelo estatístico. O parâmetro a ser estimado por vezes é chamado
estimando. Ele pode ser de dimensão finita ou infinita.
Sendo uma função dos dados, o estimador é em si uma variável aleatória, uma realização particular desta variável
aleatória chamada "estimativa". Às vezes, as palavras "estimador" e "estimativa" são usados alternadamente. A
definição coloca, praticamente sem restrições, sobre quais funções dos dados podem ser chamadas de " estimadores
". A atractividade de diferentes estimadores pode ser julgada ao olhar para as suas propriedades, tais como viés,
erro quadrático médio, consistência, distribuição assimptótica, etc.. A construção e comparação de estimadores são
os temas da teoria da estimação. No contexto da teoria da decisão, um estimador é um tipo de regra de decisão, e
seu desempenho pode ser avaliado através do uso de funções de perda.
Os estimadores podem ser:

 Estimativa de parâmetro populacional: é um valor específico, ou um intervalo de valores, usado para


estimar parâmetro populacional.
 Estimativa pontual: é um valor numérico de uma estatística 𝜃̂.
1.7. Teorema do Limite Central
O Teorema central do limite é um importante resultado da estatística e a demonstração de muitos outros teoremas
estatísticos dependem dele. Em teoria das probabilidades, esse teorema afirma que quando o tamanho da amostra
aumenta, a distribuição amostral da sua média aproxima-se cada vez mais de uma distribuição normal. Este resultado
é fundamental na teoria da inferência estatística.
Na inferência estatística a utilidade do teorema central do limite vai desde estimar os parâmetros como a média
populacional ou o desvio padrão da média populacional, a partir de uma amostra aleatória dessa população, ou
seja, da média amostral e do desvio padrão da média amostral até calcular a probabilidade de um parâmetro
ocorrer dado um intervalo, sua média amostral e o desvio padrão da média amostral.

Seja 𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑛 uma amostra aleatória de tamanho n de uma população (finita ou infinita), com média 𝜇 e
𝑥̅ −𝜇
variança finita 𝜎 2 . Então: 𝑍 = 𝜎/ 𝑛 ~𝑁(0,1) 𝑞𝑢𝑎𝑛𝑑𝑜 𝑛 → ∞

Comentários Gerais

 A aproximação normal para a média amostral depende do tamanho da amostra;


 Com população contínua, unimodal e simétrica, na maioria dos casos, o teorema de limite central trabalha
bem para pequenas amostras
 Em muitos casos de interesse prático, a aproximação normal será satisfatória para 𝑛 ≥ 30;
 Se 𝑛 < 30, o teorema de limite central funcionará se a distribuição da população não for muito diferente
da normal

1.8. Propriedades de um estimador


Os estimadores devem ser escolhidos de forma adequada, isto é, devem satisfazer as seguintes características:

 Centtrado ou não Viciado


 Suficiente
 Consistente
 Eficiente

a) Estimador não viciado ou não tendecioso


Um estimador 𝜃̂ é centrado ou não viciado (não enviesado ou naõ tendecioso), ou seja, auando antigrm o valor do
paramentro. 𝐸(𝜃̂) = 𝜃

A esperança de um estimador está relaciona com sua exactidão. Ex: E[ X ] =  ; E[S2] = 
2

A diferença entre o valor do estimador e do parâmetro é denominada erro amostral.

3
b) Suficiente
̂ é suficiente, se utilizar toda informação disponível na amostra, relevante para a estimação  .
O estimador 𝛉

c) Eficiente
̂ ̂
𝜃1 𝑒 𝜃2 estimadores não viciados de 𝜃 de varianças diferentes.
Se 𝑉𝑎𝑟(𝜃̂1 ) < 𝑉𝑎𝑟(𝜃̂2 ) é mais provável que 𝜃̂1 produza uma estimativa mais próxima do valor verdadeiro de 𝜃.
De entre todos estimadores centrados para o mesmo parâmetro, é eficiente aquele que tiver menor variância;
𝑉𝑎𝑟(𝜃̂1 ) < 𝑉𝑎𝑟(𝜃̂2 )
Se considerarmos todos os estimadores não tendenciosos de 𝜃, aquele com menor variança será chamado de
estimador não tendencioso de variança mínima.
d) Consitente

𝜃̂ é um estimador consistente de  se E(𝜃̂)   quando n  ∞, onde n é o tamanho da amostra.

Um estimador 𝜃̂ é consistente se á medida em que o tamanho amostral aumenta, o seu valor esperado converge
para o parâmetro de interesse e sua variança converge para zero.

lim 𝐸[𝜃̂] = 𝜃 lim 𝑉𝑎𝑟[𝜃̂] = 0


𝑛→∞ 𝑛→∞

 A média amostral é cosintente para estimar a média verdadeira;


Este estimador é o mais provável, dentre todos os não viciados, para produzir uma estimativa que seja próxima do
valor verdadeiro.

1.9. Erro padrão


O erro padrão de um estimador 𝜃̂ é o seu desvio padrão:

𝜎𝜃̂ = √𝑉𝑎𝑟(𝜃̂)

 O erro padrão (ou de variança) do estimador está relacionado com sua precisão.
 Se o erro padrão envolver parâmetros desconhecidos que possam ser estimados, então a substituição
daqueles valores produz um erro padrão estimado.

 O erro padrão da média amostral é:


𝜎
𝜎𝑥̅ =
√𝑛
 Se não conhecemos 𝜎, mas substituímos pelo desvio padrão amostral, então o erro padrão amostral
estimado da média média amostral é:
𝑆
𝜎𝑥̅ =
√𝑛
 Quando o estimador seguir uma distribuíção normal, podemos estar confiantes que o valor verdadeiro do
parâmetro estará entre dois erros-padrão da estiomativa (para grandes valores de n este é um resultado
útil)

4
2. INTERVALO DE CONFIANÇA

Um intervalo de confiança para um parâmetro populacional é um intervalo com uma proporção associada p gerada
por uma amostra aleatória de uma população subjacente, de tal forma que se o experimento for repetido várias
vezes e o intervalo de confiança for recalculado para cada experimento com mesmo procedimento, uma proporção
p dos intervalos de confiança conteria o parâmetro estatístico em questão.
Os intervalos de confiança são usados para indicar a confiabilidade de uma estimativa.

2.1. Estimação por intervalo


Normalmente, no processo de investigação de um parâmetro θ, necessitamos ir além da sua estimativa pontual θ̂. O
fato de não se conhecer o valor de θ pode causar uma “insegurança” e levar a um questionamento:

 Quão próximo estamos do valor real de 𝜃 quando obtemos sua estimativa?


A resposta depende da precisão (ou variância) do estimador e, também, do valor real do parâmetro. Uma maneira
de contornar esse problema consiste em se encontrar um intervalo em torno de θ̂ que tenha alta probabilidade de
englobar θ.
Um intervalo de confiança ou estimativa intervalar é uma amplitude ou um intervalo de valores que tem
probabilidade de conter o verdadeiro valor da população.

𝜃̂ − 𝑒𝑟𝑟𝑜 ≤ 𝜃 ≤ 𝜃̂ + 𝑒𝑟𝑟𝑜 Onde 𝜃 ∈ [𝜃̂ − 𝑒𝑟𝑟𝑜; 𝜃̂ + 𝑒𝑟𝑟𝑜]


2.2. Nível de confiança
O grau de confiança ou nível de confiança é a frequência ou probabilidade 1 − 𝛼 com a qual o intervalo observado
contém o parâmetro real de interesse quando o experimento é repetido várias vezes. Em outras palavras, o nível de
confiança seria a proporção de intervalos de confiança construídos em experimentos separados da mesma população
e com o mesmo procedimento que contém o parâmetro de interesse real.

São escolhas comuns para grau de confiança: 90% (𝑐𝑜𝑚 𝛼 = 0.10); 95% (𝑐𝑜𝑚 𝛼 = 0.05)𝑒 99% (𝑐𝑜𝑚 𝛼 = 0.01).

Dentre essas, a mais utilizada é 95%.

2.3. Valor crítico


É um número na fronteira que separa os valores das estatísticas amostrais prováveis de ocorrerem, dos valores que
têm pouca chance de ocorrer. O número 𝑍𝛼/2 é um valor crítico que é um escore Z com a propriedade de separar
𝛼
uma área de 2 na cauda direita da distribuição normal padrão. Há uma área de 1 − 𝛼 entre as fronteiras verticais
−𝑍𝛼/2 𝑒 𝑍𝛼/2 .

2.4. Margem do erro


É a diferença entre a média amostral observada 𝒙
̅ e a verdadeira média populacional 𝝁. A margem do erro 𝜀 é
chamada também do erro máximo da estimativa e pode ser obtida multiplicando se o valor crítico pelo desvio
padrão das médias amostrais.

2.5. Intervalo de confiança para uma média


2.5.1. Intervalo de confiança para uma média quando a variança é conhecida
Seja 𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑛 uma amostra aleatória de tamanho n, de uma população com média 𝜇 (desconhecida) e
𝜎2
variança 𝜎 2 (conhecida). A média amostral 𝑥̅ , tem distribuição normal com média 𝜇 e variança 𝑛
. Isto é:

5
𝑥̅ − 𝜇
𝑍= ~𝑁(0; 1)
𝜎/√𝑛
Logo, fixando um nível de confiança (1 − 𝛼), pode –se determinar 𝑍𝛼/2 de tal forma:
𝑥̅ − 𝜇
𝑃 (−𝑍𝛼 ≤ 𝑍 ≤ 𝑍𝛼 ) = 1 − 𝛼 → 𝑃 (−𝑍𝛼 ≤ ≤ 𝑍𝛼 ) = 1 − 𝛼
2 2 2 𝜎/√𝑛 2

Logo, intervalo de 100 (1- α )% de confiança para 𝜇 é dado por:


𝝈 𝝈
̅ − 𝒁𝜶 ∗
𝒙 ̅ + 𝒁𝜶 ∗
≤𝝁≤𝒙
𝟐 √𝒏 𝟐 √𝒏
Para populações finitas o intervalo será dado por:

𝜎 𝑁−𝑛 𝜎 𝑁−𝑛
𝐼𝐶 (𝜇, 1 − 𝛼) = 𝑥̅ − 𝑍𝛼 ∗ ∗√ ≤ 𝜇 ≤ 𝑥̅ + 𝑍𝛼 ∗ ∗√
2 √𝑛 𝑁−1 2 √𝑛 𝑁−1

Onde
𝑁−𝑛
vé o factor de correcção.
𝑁−1

Exemplo (Intervalo de confiança para uma média)


Em uma indústria de cerveja, a quantidade de cerveja inserida em latas tem-se comportado como uma distribuição
normal com desvio padrão 3 ml. Após alguns problemas na linha de produção, suspeita-se que houve alteração na
média. Uma amostra de 20 latas acusou uma média 346 ml. Obtenha um intervalo de 95% para a quantidade
média de cerveja inserida em latas, supondo que não tenha ocorrido alteração na variabilidade.
Solução
Pelos dados temos:
𝑥̅ − 𝜇
𝑍= ~𝑁(0; 1)
𝜎/√𝑛
Já que 1 − 𝛼 = 0.95, temos da tabela normal padrão 𝑍0.975 = 1.96
𝜎 = 3 ; 𝑛 = 20; 𝑥̅ = 346

σ σ
IC (μ, 1 − α) = x̅ − 1.96 ∗ ≤ μ ≤ x̅ + 1.96 ∗ →
√n √n
3 3
IC (μ, 0.95) = 346 − 1.96 ∗ ≤ μ ≤ 346 + 1.96 ∗ = (346.69; 347.31)
√20 √20
Interpretação

𝜇 ∈ [346.69; 347.31]: Isto significa que se colectássemos um número infinito de amostras, a verdadeira media a
95% de nível de condianca, situaria-se entre 345.69ml a 347.31ml

6
Nota:

 O comprimento do intervalo de confiança está associado à precisão, quanto menor for o comprimento
mais precisa é a média.
 Se diminuímos 𝛼 , isto é, aumentarmos 1 − 𝛼 (grau de confiança), mantendo 𝑛 fixo, a vai aumentar e
consequentemente o comprimento do intervalo. Não é possível fazer 𝛼 = 0 pois nesse caso
𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 = +∞.

2.5.2. Intervalo de confiança para uma média quando a variança é desconhecida (n grande)
Seja 𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑛 uma amostra aleatória de tamanho n, de uma população não normal com média 𝜇
(desconhecida) e variança 𝜎 2 (conhecida). Se assumirmos que (𝑛 ≥ 30), pelo teorema de limite central diz-se que:
𝑥̅ − 𝜇
𝑍= ~𝑁(0; 1)
𝜎/√𝑛

á medida que 𝑛 → ∞. Pode-se mostrar que esse resultado continua valendo se substituirmos 𝜎 por 𝑆.

A conclusão dessas duas observações é a seguinte:

Dada uma amostra aleatória simples 𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑛 de uma população 𝑋 com média 𝜇 e variança 𝜎 2 , então:
𝑥̅ − 𝜇
𝑍= ≈ 𝑁(0; 1)
𝑆/√𝑛

Para 𝑛 suficientemente grande. Nesse caso, o intervalo de confiança aproximado de nível de confiança 1 − 𝛼 para
𝜇 é:
𝑺 𝑺
𝐼𝐶 (𝜇, 1 − 𝛼) = (𝒙 ̅ − 𝒁𝜶 ∗ ≤𝝁≤𝒙 ̅ + 𝒁𝜶 ∗ )
𝟐 √𝒏 𝟐 √𝒏

2.5.2.1. Margem do erro


Note, mais uma vez a fórmula do intervalo de confiança, fornece a seguinte fórmula da margem do erro:
𝑆
𝜀 = 𝑍𝛼 ∗
2 √𝑛
Exemplo (Intervalo de confiança para uma média)

A partir de uma amostra aleatória simples de tamanho 𝑛 = 100, os seguintes valores foram obtidos: 𝑥̅ = 12,36 e
𝑆 2 = 132,56. Obtenha um intervalo de confiança de nível de confiança 90% para a média populacional µ.
Solução

Como o tamanho amostral é grande, podemos usar a aproximação normal. Como 1 − 𝛼 = 0.90, em cada cauda temos
que ter 5% e,assim, devemos procurar no corpo da tabela da distribuição normal o valor mais próximo de 0,45. Resulta
que
𝑍0.05 = 1,64; o que nos dá o seguinte intervalo de confiança:
𝑆 𝑆
𝑥̅ − 𝑍𝛼 ∗ ≤ 𝜇 ≤ 𝑥̅ + 𝑍𝛼 ∗ →
2 √𝑛 2 √𝑛

11.51 11.51
12.36 − 1.64 ∗ ≤ 𝜇 ≤ 12.36 + 1.64 ∗
√100 √100

10.472 ≤ 𝜇 ≤ 14.248

Interpretação: A um nível de confiança de 90% pode-se concluir que o intervalo [10.472; 14.248] contém o
verdadeiro valor médio populacional.

7
2.5.3. Intervalo de confiança para uma média quando a variança é desconhecida (n pequeno)
O intervalo de confiança para a média de uma população normal com variância desconhecida é obtido com base
no seguinte resultado:

Se 𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑛 é uma amostra aleatória simples de uma população 𝑋~𝑁(𝜇; 𝜎 2 ), então:


𝑥̅ − 𝜇
𝑡= ~ 𝑡𝑛−1
𝑆/√𝑛

Onde t é a distribuição t de Student, 𝑛 − 1 graus de liberdades e:

∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑆2 =
𝑛−1
O intervalo de confiança para 𝜇 de nível de confiança 1 − 𝛼 é:
𝑺 𝑺
̅ − 𝒕𝜶;𝒏−𝟏 ∗
𝒙 ̅ + 𝒕𝜶;𝒏−𝟏 ∗
≤𝝁≤𝒙
𝟐 √𝒏 𝟐 √𝒏
𝛼
Onde t α;n−1 é o valor crítico da distribuição t-student com 𝑛 − 1 graus de liberdade que deixa a área 2 acima dele.
2

2.5.3.1. Margem do erro


Note, mais uma vez a fórmula do intervalo de confiança, fornece a seguinte fórmula da margem do erro:
𝑆
𝜀 = 𝑡𝛼;𝑛−1 ∗
2 √𝑛
Exemplo (Intervalo de confiança para uma média)

De uma população normal com média e variância desconhecidas, extrai-se uma amostra de tamanho 15 obtendo-
se: 𝑥̅ = 12 e 𝑆 2 = 49. Obtenha um intervalo de confiança de para a verdadeira média populacional, utilizando um
nível de confiança 95%.
Solução
Os seguintes requisitos para o IC para µ são satisfeitos: a população é normal e a amostra é pequena. Dessa forma,
temos que usar a distribuição 𝑡 com 𝑛 − 1 = 14 graus de liberdade. Como o nível de confiança é de 95%, em cada
cauda da distribuição temos que ter 2,5%. Assim, devemos procurar a abscissa 𝑡 procurando na linha correspondente
a 14 graus de liberdade e na coluna correspondente à área de 0,025. Encontramos

𝑡0.025;14 = 2.145

Então o intervalo de confiança é dada por:


𝑆 𝑆
𝑥̅ − 𝑡𝛼;𝑛−1 ∗ ≤ 𝜇 ≤ 𝑥̅ + 𝑡𝛼;𝑛−1 ∗
2 √𝑛 2 √𝑛
7 7
12 − 2.145 ∗ ≤ 𝜇 ≤ 12 + 2.145 ∗
√15 √15
8.1231 ≤ 𝜇 ≤ 15.8769

Interpretação: Temos 95% de certeza de que o intervalo [8.1231; 15.8769] contém o verdadeiro valor médio
populacional.

8
2.5.4. Intervalo de confiança para a diferença entre duas médias quando as variâncias são conhecidas

Sejam 𝑋1 𝑒 𝑋2 duas variáveis aleatórias normais com médias 𝜇1 𝑒 𝜇2 desconhecidas e variâncias 𝜎1 2 𝑒 𝜎2 2


conhecidas.

Um intervalo de confiança 1 − 𝛼 para a diferença entre as médias pode ser construído a partir dos resultados de
amostras aleatórias de cada uma dessas populações.
Pode ser demonstrada que a variança das diferenças entre as médias vem dada por:

𝜎1 2 𝜎2 2
𝜎2 = +
𝑛1 𝑛2

Assim o intervalo de confiança bilateral de 1 − 𝛼 será:

𝝈𝟏 𝟐 𝝈𝟐 𝟐 𝝈𝟏 𝟐 𝝈𝟐 𝟐
(𝒙 ̅𝟐 ) − 𝒁𝜶 ∗ √
̅𝟏 − 𝒙 + ≤ 𝝁𝟏 − 𝝁𝟐 ≤ (𝒙 ̅𝟐 ) + 𝒁𝜶 ∗ √
̅𝟏 − 𝒙 +
𝟐 𝒏𝟏 𝒏𝟐 𝟐 𝒏𝟏 𝒏𝟐

Caso não se conhça as variâncias e pelos menos uma das amostras é maior ou igual que 30, pode se substituir
𝜎1 2 𝑝𝑜𝑟 𝑆1 2 𝑒 𝜎2 2 𝑝𝑜𝑟 𝑆2 2 obtendo-se:

𝑺𝟏 𝟐 𝑺𝟐 𝟐 𝑺𝟏 𝟐 𝑺𝟐 𝟐
(𝒙 𝒙𝟐 ) − 𝒁𝜶 ∗ √
̅𝟏 − ̅ + (𝒙
̅ ̅ )
≤ 𝝁𝟏 − 𝝁𝟐 ≤ 𝟏 − 𝒙𝟐 + 𝒁 ∗
𝜶 √ +
𝟐 𝒏𝟏 𝒏𝟐 𝟐 𝒏𝟏 𝒏𝟐

2.5.5. Intervalo de confiança para a diferença entre duas médias quando as variâncias são desconhecidas e
iguais

Sejam 𝑋1 𝑒 𝑋2 duas variáveis aleatórias normais com médias 𝜇1 𝑒 𝜇2 desconhecidas e variâncias 𝜎1 2 𝑒 𝜎2 2 também
desconhecidas.

Se for possível assumir que as variânças sejam iguais, ou seja, 𝜎1 2 = 𝜎2 2 uma estimativa da variança pode ser
obtida como:

(𝑛1 − 1) ∗ 𝑆1 2 + (𝑛2 − 1) ∗ 𝑆2 2 1 1
𝑆𝑃 = √ ∗√ +
𝑛1 + 𝑛2 − 2 𝑛1 𝑛2

Com graus de liberdade 𝑣 = 𝑛1 + 𝑛2 − 2.

De modo que o intervalo de confiança bilateral 1 − 𝛼 será:

(𝑥̅1 − 𝑥̅2 ) − 𝑡𝛼;𝑣 ∗ 𝑆𝑃 ≤ 𝜇1 − 𝜇2 ≤ (𝑥̅1 − 𝑥̅2 ) + 𝑡𝛼;𝑣 ∗ 𝑆𝑃


2 2

Exemplo (Intervalo de confiança para a diferença entre duas médias)


Um eixo deve ser montado no interior de um rolamento. Uma amostra de doze unidades indicou para o diâmetro
inteiro do rolamento 𝑥̅1 = 2.538𝑐𝑚 𝑒 𝑆1 = 0.008𝑐𝑚; e para o diâmetro do eixo 𝑥̅2 = 2.520𝑐𝑚 𝑒 𝑆2 = 0.006𝑐𝑚.
Calcule o intervalo de confiança de 99% para a folga de montagem.
Solução
Supondo que as variânças são iguais têm-se:

(𝑛1 − 1) ∗ 𝑆1 2 + (𝑛2 − 1) ∗ 𝑆2 2
𝑆𝑝 2 =
𝑛1 + 𝑛2 − 2

9
(12 − 1) ∗ 0.0082 + (12 − 1) ∗ 0.0062 1 1
𝑆𝑝 = √ ∗ √( + ) =
12 + 12 − 2 12 12

𝐺𝑟𝑎𝑢𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑑𝑎𝑑𝑒 = 𝑣 = 𝑛1 + 𝑛2 − 2 = 22

𝑡0.005;22 = 2.82

(𝑥̅1 − 𝑥̅2 ) − 𝑡𝛼;𝑣 ∗ 𝑆𝑃 ≤ 𝜇1 − 𝜇2 ≤ (𝑥̅1 − 𝑥̅2 ) + 𝑡𝛼;𝑣 ∗ 𝑆𝑃


2 2

1 1
(2.538 − 2.52) ± 2.82 ∗ √0.000050 ∗ √( + ) ∈ 𝜇1 − 𝜇2
12 12

0.00986 ≤ 𝐹𝑜𝑙𝑔𝑎 ≤ 0.026

2.5.6. Intervalo de confiança para a diferença entre observações


No caso em que se deseja comparar dois sistemas é possível, e as vezes necessário, trabalhar com a diferença entre
as observações.
Por exemplo, para comparar dois métodos de tratamento contra corrosão, pode-se escolher diversos blocos de
terreno, colocar dois tubos (de marcas diferentes) em cada bloco e observar as diferenças.
Seja:
 𝑋1 os resultados do sistema 1;
 𝑋2 os resultados do sistema 2;
 𝑑 = 𝑋1 − 𝑋2 as diferenças medidas bloco a bloco.

A partir dos resultados de n blocos, calcula-se e usa-se a distribuição 𝑡 para construír o intervalo de confiança para
a média da diferença 𝜇𝑑 :
𝑆𝑑 𝑆𝑑
𝑑̅ − 𝑡𝛼 ∗ ≤ 𝜇𝑑 ≤ 𝑑̅ − 𝑡𝛼 ∗
2 √𝑛 2 √𝑛
Se o valor zero estiver contido neste intervalo, então não pode ser descartada a hipótese que o desempenho dos
dois sistemas seja o mesmo.

Exemplo (Intervalo de confiança para a diferença entre as observações)


Uma empresa quer verificar se o conhecimento de seus alunos a respeito de um determinado assunto melhorou após
30 horas de treinamento. Para isso foi realizado com os quinze alunos do treinamento um teste antes e após o
treinamento. Os dados a seguir representam as notas obtidas pelos alunos. Conclua a respeito da eficiência do
treinamento com 95% de confiança.

Alunos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Antes 6.5 6.7 7.0 7.0 6.5 7.3 7.8 6.9 6.7 7.2 7.5 7.5 7.2 7.0 6.8
Depois 7.5 7.7 7.9 8.0 7.4 8.3 8.8 8.9 7.7 8.2 8.5 8.5 8.2 8.0 8.8
Diferença 1.0 1.0 0.9 1.0 0.9 1.0 1.0 2.0 1.0 1.0 1.0 1.0 1.0 1.0 2.0

Solução
Pelos dados temos:
𝑑̅ = 1.12 ; 𝑆𝑑 = 0.36; 𝑡0.025;14 = 2.145
𝑆𝑑 𝑆𝑑
𝑑̅ − 𝑡𝛼 ∗ ≤ 𝜇𝑑 ≤ 𝑑̅ − 𝑡𝛼 ∗
2 √𝑛 2 √𝑛
0.36 0.36
1.12 − 2.145 ∗ ≤ 𝜇𝑑 ≤ 1.12 + 2.145 ∗
√15 √15
0.92 ≤ 𝜇𝑑 ≤ 1.32

Conclusão: Como o valor zero não está incluído no intervalo, rejeita-se a hipótese de que as notas antes e depois
sejam as mesmas, logo conclui-se que o treinamento foi eficiente.

10
2.5.7. Intervalo de confiança para uma proporção
Seja que uma amostra de n observações, 𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑛 , é extraída de um processo de Bernoulli, com
probabilidade de sucesso constante igual a 𝑝. Então, a soma das observações seguirá o modelo Binomial com
parâmetros 𝑛 e 𝑝. Além disso, como cada 𝑥𝑖 pode ser 0 ou 1, a média:
𝑛
1
𝑋̅ = ∗ ∑ 𝑥𝑖
𝑛
𝑖=1
1 2
Será uma variável discreta contida no espaço {0, 𝑛 , 𝑛 , … , 1}.
A distribuição pode ser obtida a partir da Binomial, uma vez que:
𝑎𝑛
𝑛
𝑃(𝑋̅ ≤ 𝑎) = 𝑃(𝑋 ≤ 𝑎𝑛) = ∑ ( ) ∗ 𝑝𝑘 ∗ (1 − 𝑝)𝑛−𝑘
𝑘
𝑘=0
Onde [𝑎𝑛] é o maior inteiro menor que 𝑎𝑛. A média e a variança de 𝑋̅ são:
𝑝 ∗ (1 − 𝑝)
𝜇𝑋̅ = 𝑝 𝑒 𝜎 2𝑋̅ =
𝑛
Logo se n é grande (𝑛 ≥ 30) 𝑒 𝑝 ≥ 0.1, então a aproximação Normal para a Binomial pode ser usada, resultando
no seguinte intervalo de confiança de 1 − 𝛼:
𝒑−𝝅
𝒁= ~𝑵(𝟎; 𝟏)
√ 𝝅 ∗ (𝟏 − 𝝅)
𝒏
𝒑 ∗ (𝟏 − 𝒑) 𝒑 ∗ (𝟏 − 𝒑)
𝒑 − 𝒁𝜶 ∗ √ ≤ 𝝅 ≤ 𝒑 + 𝒁𝜶 ∗ √
𝟐 𝒏 𝟐 𝒏
Se 𝑛 é pequeno o problema deve ser resolvido usando tabelas de distribuição binomial. Se 𝑝 é pequeno, é possível
usar a distribuição de Poisson.
Para as populações 𝑁 finitas e conhecidas, o intervalo será dado por:
𝑝 ∗ (1 − 𝑝) 𝑁−𝑛 𝑝 ∗ (1 − 𝑝) 𝑁−𝑛
𝑝 − 𝑍𝛼 ∗ √ ∗√ ≤ 𝜋 ≤ 𝑝 + 𝑍𝛼 ∗ √ ∗√
2 𝑛 𝑁−1 2 𝑛 𝑁−1

E para as populações finitas:


𝑝 ∗ (1 − 𝑝) 𝑁−𝑛
𝜀 = 𝑍𝛼 ∗ √ ∗√
2 𝑛 𝑁−1

Exemplo (Intervalo de confiança para uma proporção)


Um empresário deseja conhecer a satisfação de seus clientes em relação aos serviços prestados por sua empresa.
Em uma amostra aleatória de 100 clientes entrevistados, 4 pessoas demonstraram insatisfação com os serviços
prestados. Construa um intervalo de 95% de confiança para a proporção de clientes insatisfeitos.
Solução
Pelos dados temos:
𝑝−𝜋
𝑍= ~𝑁(0; 1)
√ 𝜋 ∗ (1 − 𝜋)
𝑛
Já que 1 − 𝛼 = 0.95, temos da tabela normal padrão 𝑍0.975 = 1.96
4
𝑝= = 0.04 ; 𝑛 = 20
100
Substituindo na fórmula temos:
𝑝 ∗ (1 − 𝑝) 𝑝 ∗ (1 − 𝑝)
𝑝 − 𝑍𝛼 ∗ √ ≤ 𝜋 ≤ 𝑝 + 𝑍𝛼 ∗ √
2 𝑛 2 𝑛

0.04 ∗ (1 − 0.04) 0.04 ∗ (1 − 0.04)


0.04 − 1.96 ∗ √ ≤ 𝜋 ≤ 0.04 + 1.96 ∗ √
100 100
0.03 ≤ 𝜋 ≤ 0.05

2.5.8. Intervalo de confiança para a diferença entre as proporções


Seja 𝑋1 𝑒 𝑋2 variáveis aleatórias simples que representam o número de sucessos contidos nas amostras independentes
retiradas, respectivamente, da População 1 e da População 2; e
 𝑛1 : Tamanho da amostra da População 1;
 𝑛2 : Tamanho da amostra da População 2;
11
𝑋1 𝑋2
Se 𝑝1 = 𝑒 𝑝2 =
𝑛1 𝑛2
Para estimar π1 − π2 pontualmente, usamos o valor do estimador pontual 𝑝1 − 𝑝2 .
Tem-se: 𝑋1 ~𝐵(𝑛1 ; 𝜋1 )𝑒 𝑋2 ~𝐵(𝑛2 ; 𝜋2 )
Se 𝑛1 > 30 𝑒 𝑛2 > 30 𝑒𝑛𝑡ã𝑜:
𝑋1 ~𝑁(𝑛1 𝜋1 ; 𝑛1 𝜋1 (1 − 𝜋1 ) 𝑒 𝑋1 ~𝑁(𝑛2 𝜋2 ; 𝑛2 𝜋2 (1 − 𝜋2 ))
𝜋1 (1 − 𝜋1 𝜋2 (1 − 𝜋2 )
𝑝1 ~𝑁 (𝜋1 ; ) 𝑒 𝑝2 ~𝑁 (𝜋2 ; )
𝑛1 𝑛2
𝑝1 ∗ 𝑞1 𝑝2 ∗ 𝑞2
(𝑝1 − 𝑝2 )~𝑁 (𝜋1 − 𝜋2 ; + )
𝑛1 𝑛2
O o intervalo de confiança a 1 − 𝛼, para π1 − π2 será dado por:
𝒑𝟏 ∗ 𝒒𝟏 𝒑𝟐 ∗ 𝒒𝟐 𝒑𝟏 ∗ 𝒒𝟏 𝒑𝟐 ∗ 𝒒𝟐
(𝒑𝟏 − 𝒑𝟐 ) − 𝒁𝟐 𝜶 ∗ √ + ≤ 𝛑𝟏 − 𝛑𝟐 ≤ (𝒑𝟏 − 𝒑𝟐 ) + 𝒁𝟐 𝜶 ∗ √ +
𝟐 𝒏𝟏 𝒏𝟐 𝟐 𝒏𝟏 𝒏𝟐

2.5.9. Intervalo de confiança para a variança


Outra distribuição importante, definida a partir da distribuição Normal é a distribuição do Chi-quadrado 𝜒 2 .
Seja 𝑋 → 𝑁(0; 1) e seja 𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑛 é uma amostra aleatória deste processo.
Então, a variável aleatória 𝜒𝑛 2 = 𝑥1 2 + 𝑥2 2 + ⋯ + 𝑥𝑛 2 distribui-se de acordo com a distribuição Chi-quadrado
cuja a distribuição amostral é:
(𝑛 − 1) ∗ 𝑆 2
≈ 𝜒𝑛−1 2
𝜎2
Ou seja, a distribuição 𝜒 2 é a base para inferências a respeito da variança 𝜎 2 .
É uma distribuição assimétrica á direita, com média e variança dadas por:
𝜇 = 𝑛 𝑒 𝜎 2 = 2𝑛

Suponha que X é uma variável aleatória Normal com média e variança desconhecida. Seja que a variança amostral
𝑆 2 é calculada para uma amostra de n observações. Então, um intervalo bilateral de confiança 1 − 𝛼 é obtido
usando-se a distribuição do Chi-quadrado:
(𝑛 − 1) ∗ 𝑆 2 2
(𝑛 − 1) ∗ 𝑆 2
≤ 𝜎 ≤
𝜒 2 𝛼;𝑛−1 𝜒 21−𝛼;𝑛−1
2 2

No caso do interesse residir em intervalos unilaterais de 1 − 𝛼 teremos:

Exemplo (Intervalo de confiança para a variança)


De uma população normal com média e variância desconhecidas, extrai-se uma amostra de tamanho 15 obtendo-se
𝑥̅ = 12 𝑒 𝑆 2 = 49. Obtenha um intervalo de confiança para a variância populacional, utilizando o nível de
confiança de 95%.

Solução

12
O requisito para o IC 𝜎 2 para é satisfeito, uma vez que a população é normal. Temos que usar a distribuição 𝜒 2 com
𝑛 − 1 = 14 graus de liberdade. Como o nível de confiança é de 95%, em cada cauda da distribuição temos que ter
2,5%. Assim, para a cauda superior, devemos usar o valor crítico 𝜒 2 0.025;14 , procurando na linha correspondente a
14 graus de liberdade e na coluna correspondente à probabilidade de 0,025. Encontramos que 𝜒 2 0.025;14 = 26.119
Para a cauda inferior, devemos usar o valor crítico 𝜒 2 0.975;14, procurando na linha correspondente a 14 graus de
liberdade e na coluna correspondente à probabilidade de 0,975.

Encontramos que χ

𝜒 2 0.025;14 = 26.119. Logo, o intervalo de confiança é:


14 ∗ 49 14 ∗ 49
≤ 𝜎2 ≤
26.119 5.629

2.5.10. Intervalo de confiança para quociente entre duas varianças


Seja 𝑋1 → 𝑁(𝜇1 ; 𝜎1 )𝑒 𝑋2 → 𝑁(𝜇2 ; 𝜎2 ). Se 𝑆1 𝑒 𝑆2 são varianças amostrais, medidas em amostras de tamanho
𝑛1 𝑒 𝑛2 , teremos:
𝑆 21 /𝜎 21
≈ 𝐹𝑛1 −1;𝑛2 −1
𝑆 2 2 /𝜎 2 2
Assim, a distribuição F pode ser usada para fazer inferências sobre a variança de duas distribuições Normais.
Para comparar duas varianças, 𝜎 21 𝑒 𝜎 2 2, oriundas de populações com distribuição Normal, é vantajoso trabalhar
com o quociente 𝜎 21 /𝜎 2 2 uma vez que este se distribui conforme a distribuição F.
O intervalo de confiança para este quociente virá dado por:
𝑆 21 𝜎 2 1 𝑆 21
∗ 𝐹 𝛼 ≤ ≤ ∗ 𝐹𝛼; 𝑛 −1;𝑛 −1
𝑆22 1− ; 𝑛1 −1;𝑛2 −1
2 𝜎 2 2 𝑆 22 2 1 2

Onde 𝐹𝛼;𝑢;𝑣 são os pontos percentuais da distribuição F com u e v graus de liberdade, tais que 𝑃{𝐹 ≥ 𝐹𝛼;𝑢;𝑣 } = 𝛼

Se o valor um estiver contido neste intervalo, então não pode ser descartada a hipótese de que a variânça das duas
populações seja a mesma.
Os valores da distribuição F costumam fornecer apenas os valores de 𝐹𝛼 , mas 𝐹1−𝛼 pode ser obtido a partir da
seguinte relação:
1
𝐹1−𝛼;𝑢;𝑣 =
𝐹𝛼;𝑣;𝑢

Exemplo (Intervalo de confiança para a razão entre duas varianças)


Os valores a seguir representam os tempos de produção de duas máquinas. Analise os dados e conclua a respeito
da variabilidade das máquinas A e B a um nível de confiança de 95%.

A 91.0 90.3 90.2 92.1 91.8 91.3 89.3 91.0 91.2 89.6
B 91.8 91.2 89.4 89.2 90.7 92.6 91.3 91.2

Solução:
𝑆 2𝐴 = 0.8307 𝑒 𝑆 2 𝐵 = 1.316
1 1
𝐹0.025;9;7 = 4.82 𝑒 𝐹0.925;9;7 = = = 0.238
𝐹0.025;7;9 4.20
0.8307 𝜎 21 0.8307
∗ 0.238 ≤ 2 ≤ ∗ 4.82
1.316 𝜎 2 1.316
Conclusão: O intervalo inclui o valor 1, assim não pode ser descartada a hipótese de que a variabilidade das duas
máquinas seja a mesma.
Nota: Além de servir para a comparação de duas varianças, a distribuição F é a chave para a comparação de
vários grupos, o que é feito usando o procedimento conhecido como Análise de Variança.

13

Você também pode gostar