Você está na página 1de 21

INSTITUTO SUPERIOR DE CONTABILIDAD E

AUDITORIA DE MOÇAMBIQUE

Teoria de Estimação
Introdução
Estatística é a ciência que se ocupa em organizar, descrever, analisar e interpretar dados para que
seja possível a tomada de decisões e/ou a validação científica de uma conclusão. Os dados são
coletados para estudar uma ou mais características de uma POPULAÇÃO: conjunto de elementos
que tem pelo menos uma característica em comum => conjunto das medidas da(s) característica(s)
de interesse em todos os elementos que a(s) apresenta(m).

Os dados necessários para a obtenção do modelo podem ser obtidos através de um CENSO
(pesquisa de toda a população), ou através de uma AMOSTRA (subconjunto finito) da população

Por que usar uma AMOSTRA?


- economia;
- rapidez;
- para evitar a exaustão/extinção da população (em testes destruitivos).
A AMOSTRA deve ser: representativa da população, suficiente (para que o resultado tenha
confiabilidade), e aleatória (retirada por sorteio não viciado).

A Inferência Estatística consiste em fazer afirmações probabilísticas sobre as características do


modelo probabilístico, que se supõe representar uma população, a partir dos dados de uma amostra
aleatória (probabilística) desta mesma população.

Fazer uma afirmação probabilística sobre uma característica qualquer é associar à declaração feita
uma probabilidade de que tal declaração esteja correta (e portanto a probabilidade complementar de
que esteja errada). Quando se usa uma amostra da população SEMPRE haverá uma probabilidade de
estar cometendo um erro (justamente por ser usada uma amostra): a diferença entre os métodos
estatísticos e os outros reside no fato de que os métodos estatísticos permitem calcular essa
probabilidade de erro. E para que isso seja possível a amostra da população precisa ser aleatória.
1
As afirmações probabilísticas sobre o modelo da população podem ser basicamente:

1. Estimar quais são os possíveis valores dos parâmetros (Estimação de Parâmetros):


- Qual é o valor da média de uma variável que segue uma distribuição normal?
- Qual é o valor da proporção de um dos 2 resultados possíveis de uma variável que segue uma
distribuição binomial.
2. Testar hipóteses sobre as características do modelo: parâmetros, forma da distribuição de
probabilidades, etc. (Testes de Hipóteses).
- O valor da média de uma variável que segue uma distribuição é maior do que um
certo valor?
- O modelo probabilístico da população é uma distribuição normal?
- O valor da média de uma variável que segue uma distribuição normal em uma população é
diferente da mesma média em outra população?

Os valores dos parâmetros do modelo populacional calculados em uma amostra são chamados de
estatísticas:

Medidas População (parâmetros) Amostra (estatísticas)


Média  x
Desvio padrão  S
Proporção P ou  p̂
Número de elementos N n

A Inferência estatística é o processo pelo qual são utilizados os resultados de amostras para tirar
conclusões sobre as características de uma população.

A inferência estatística ou indução estatística, baseada em distribuições de probabilidades


conhecidas, resolve dois tipos de problemas: A estimação de parâmetros e o teste de hipóteses.

A estimação é o processo que consiste em utilizar dados amostrais para estimar os valores de
parâmetros populacionais desconhecidos, podendo ser pontual ou intervalar. As estimativas mais
comuns são a média e o desvio-padrão (ou variância) e a proporção populacional.

No Teste de Hipóteses admite-se um valor hipotético para um parâmetro populacional e com base
nas informações da amostra realiza-se um teste estatístico para rejeitar ou não rejeitar o valor
hipotético.

2
Graus de liberdade: É o número de variáveis livres que são utilizadas para o cálculo de uma
estatística, ou seja, o número de valores independentes que serão utilizados na estimativa de um
parâmetro. Em geral, o número de graus de liberdade de uma estimativa é igual ao número de
valores utilizados no seu cálculo menos o número de parâmetros estimados no cálculo intermediário
para a sua obtenção. Assim para calcular a média de uma amostra de tamanho "n", são necessários
as "n" observações fazendo com que esta estatística tenha "n" graus de liberdade. Já a estimativa da
variância através de uma amostra de tamanho "n" terá "n - 1" graus de liberdade, pois para a
obtenção da variância amostral é necessário antes o cálculo da média amostral.

População - Conjunto de entes portadores de pelo menos uma característica em comum e que são
passíveis de ser observados, sob as mesmas condições, formando o universo de estudo. É o conjunto
total de unidades elementares de pessoas, objetos ou coisas, sobre as quais se deseja obter
informações.
Amostra - Um subconjunto finito de elementos extraído de uma população. Para ser representativa,
a amostra tem que possuir as mesmas características da população de origem. A amostra é Aleatória,
quando todos os elementos da população têm a mesma chance de serem escolhidos.

Amostragem - O processo de seleção de uma amostra da população.

Amostragem Aleatória – O processo de seleção de uma amostra (normalmente por sorteio) que
permite que todos os elementos da população tenham a mesma chance de serem escolhidos, e que
também todo subconjunto de n elementos tenha a mesma chance de fazer parte da amostra.

Geralmente não interessa saber tudo o que se passa numa população quando já conhecemos as
características da amostra, mas só algumas características “parâmetros” a partir de distribuições
amostrais.
É suficientemente claro que o objectivo da amostragem e o da inferência estatística é estimar
parâmetros da população, conhecidas as estatísticas amostrais revestidas de certo grau de segurança.
Trata-se de estimar as quantidades desconhecidas da média, desvio padrão e proporção das
distribuições populacionais.
A estimação é feita com auxílio de um estimador, ou seja de uma fórmula que descreve o modo de
calcular o valor do parâmetro populacional. O valor de um estimador.
A inferência estatística inclui três grandes tipos de aplicação nomeadamente: Estimação pontual,
estimação por intervalo e ensaio de hipóteses.

3
Estimação pontual
Uma vez tendo decidido que modelo probabilístico é mais adequado para representar a variável de
interesse na População resta obter os seus parâmetros. Nos estudos feitos com base em amostras é
preciso escolher qual das estatísticas da amostra será o melhor estimador para cada parâmetro do
modelo.

Estimativa pontual é um valor singular que é usado para estimar qualquer parâmetro populacional
desconhecido. O objectivo da estimação por pontos é usar toda informação disponível a partir da
amostra, para produzir um valor que melhor se pode adiantar para um certo parâmetro do universo
(população).

Dada uma população de tamanho N, normalmente distribuída, se dela for extraída uma amostra
aleatória de tamanho n, é de esperar que a amostra esteja também normalmente distribuída. Se não
conhecer os valores dos parâmetros populacionais a média  , a variância  2 e a proporção de
sucessos p(s), então eles podem ser substituídos pelos estimadores pontuais obtidos na amostra.

 Estimador pontual da média populacional  é: x 



x i
;
n

é: s 2   ( xi  x) ;
2
 Estimador pontual da variância populacional  2

n 1
x
 Estimador pontual da proporção na população p é: p  ;
n

Um estimador para um certo parâmetro  designa-se genericamente por  ( X 1 , X 2 ,..., X n ) e é uma

variável aleatoria da função da amostra. Pretende-se que o mesmo forneça, para cada amostra
observada, uma aproximação concreta ao valor do parâmetro que lhe está associado.

A Estimação por Ponto consiste em determinar qual será o melhor estimador para o parâmetro de
interesse. Como os parâmetros serão estimados através das estatísticas (estimadores) de uma
amostra aleatória, e como para cada amostra aleatória as estatísticas apresentarão diferentes valores,
os estimadores também terão valores aleatórios. Em outras palavras um Estimador é uma variável
aleatória que segue uma distribuição de probabilidades.

Há basicamente três critérios para a escolha de um estimador: o estimador precisa ser justo,
consistente e eficiente.

4
Um Estimador T é um estimador justo (não tendencioso) de um parâmetro q quando o valor
esperado de T é igual ao valor do parâmetro q a ser estimado: E(T) = q .

Um Estimador T é um estimador consistente de um parâmetro q quando além ser um estimador justo


a sua variância tende a zero à medida que o tamanho da amostra aleatória aumenta

Se há dois Estimadores justos de um parâmetro o mais eficiente é aquele que apresentar a menor
variância.
Consistente porque se o tamanho da amostra n tender ao infinito a variância da média amostral (do
Estimador) tenderá a zero.

Após retirar todas as amostras aleatórias possíveis daquela população, calcularmos a média de cada
amostra, e posteriormente calcularmos a média dessas médias constatou-se que o valor esperado das
médias amostrais (média das médias) é IGUAL ao valor da média populacional da variável e a
variância das médias amostrais é IGUAL ao valor da variância populacional da variável dividida
pelo tamanho da amostra:

Exemplo 1: Uma amostra de cinco medidas de diâmetros de esferas foi registada por um cientista
com os valores: 6.33, 6.37, 6.36, 6.32, 6.37 cm. Determinar as estimativas não tendenciosas e
eficientes de:
a) Média verdadeira;
b) Variância verdadeira.

a) x  x i

31.75
 6.35 Logo  = 6.35
n 5

b) s 2

 (x i  x) 2
 0.00055 cm 2 logo   0.00055 cm
2 2

n 1

Distribuições Amostrais
Considere todas as possíveis amostras de tamanho n que se pode extrair de uma determinada
população. Se para cada uma das amostras for calculado o valor de uma medida (ou estimador),
tem-se uma distribuição amostral desta medida ou estimador.

5
Exemplo da distribuição amostral da média
Considere uma população formada por 5 pessoas de uma turma da disciplina Estatística e os pontos
obtidos pelos alunos, numa escala de 0 a 5.

Nome Grau Pontos


José B 3
Maria C 2
Simão B 3
Carla A 4
Paula C 2

Os parâmetros da população são: =2.8 e =0.7483. Se uma amostra com dois elementos for
selecionada, a tabela que se segue é obtida, contendo a distribuição amostral para a média.
Distribuição Amostral Para a Média da Amostra
Média Possível Probabilidade
(x) Combinações Possíveis de Estudantes P(X=xi)
2 (Maria, Paula) 0.1
(José, Maria), (Maria, Simão), (Simão, Paula), (José,
2.5 Paula) 0.4
3 (José, Simão), (Maria, Carla), (Carla, Paula) 0.3
3.5 (José, Carla), (Simão, Carla) 0.2

As probabilidades foram calculadas, sabendo-se que existem 10 pares no total. Então, para um par,

1 4
tem-se: 10 , que é a probabilidade da média ser igual a 2, 10 que é a probabilidade da média ser igual
a 2.5 e assim sucessivamente.
O valor esperado e a variância da média são calculados por:

E ( X )   X P ( X  xi)
x

(1)
Var ( X )  E ( X 2 )  [ E ( X )] 2
(2)
Média
Possível Probabilidade    

6
Xi P (X=xi) X*P(xi) X^2*P(xi)
2 0.1 0.2 0.4
2.5 0.4 1 2.5
3 0.3 0.9 2.7
3.5 0.2 0.7 2.45
  1 2.8 8.05

Com base nos dados da tabela anterior e aplicando as fórmulas de valor esperado e variância, fica-se

E ( X )   X P ( X  xi )  2.8
e Var ( X )  E ( X )  [ E ( X )]  8.05  (2.8)^ 2  0.21 .
2 2
x
com:

O desvio-padrão de X , também conhecido como erro padrão, é igual a:  X = 0.21 = 0,458.

Percebe-se então que o valor esperado de X é igual à média populacional.

Observe que há uma variação na estatística média, e esta variação precisa ser considerada
quando são realizadas as inferências sobre os parâmetros.

TEOREMA DAS COMBINAÇÕES LINEARES

Se a variável de interesse segue uma distribuição normal na população a distribuição amostral das
médias de amostras aleatórias retiradas desta população também será normal, independentemente do
tamanho destas amostras.

TEOREMA DO LIMITE CENTRAL

Se a variável de interesse não segue uma distribuição normal na população (ou não se sabe qual é a
sua distribuição) a distribuição amostral das médias de amostras aleatórias retiradas desta população
será normal se o tamanho destas amostras for suficientemente grande, com uma média igual à média
populacional e uma variância igual à variância populacional dividida pelo tamanho da amostra.


X~N(  ; )
n

Ou
“ Se a variável de interesse não segue uma distribuição normal na população (ou não se sabe qual é
a sua distribuição) a distribuição amostral das médias de amostras aleatórias retiradas desta
população será normal se o tamanho destas amostras for suficientemente grande, com uma média

7
igual a média populacional  e uma variância igual à variância populacional dividida pelo tamanho

2
 2
X 
da amostra n ”.
Este teorema permite aproximar a distribuição amostral para X por uma curva normal apropriada,
independente da forma da distribuição de freqüência da população

Uma outra maneira de calcular o desvio-padrão da amostra é a partir do desvio-padrão da


população, tendo-se então:

X 
(3) n para populações grandes

 N n
X 
(4) n N 1 para populações pequenas

N n
onde o termo N  1 é o factor de correção para população finita. Este factor deve ser usado

quando n é pequeno.

Quando a média amostral é calculada para uma amostra de tamanho n, obtida a partir de uma
população normalmente distribuída, tendo parâmetros  e , a distribuição amostral de X é também


x 
normalmente distribuída, com média  e desvio-padrão n , facto que se verifica mesmo

quando a população não é normalmente distribuída, como assegura o Teorema do Limite Central.

Estimação por Intervalo de Parâmetros

Geralmente uma inferência estatística é feita com base em uma única amostra: na maior parte dos
casos é totalmente inviável retirar todas as amostras possíveis de uma determinada população.

Intuitivamente percebemos que as estatísticas calculadas nessa única amostra, mesmo sendo os
melhores estimadores para os parâmetros de interesse, terão uma probabilidade infinitesimal de

8
coincidir exatamente com os valores reais dos parâmetros. Então a Estimação por Ponto dos
parâmetros é insuficiente, e as estimativas assim obtidas servirão apenas como referência para a
Estimação por Intervalo.

“A Estimação por Intervalo consiste em colocar um Intervalo de Confiança (I.C.) em torno


da estimativa obtida através da Estimação por Ponto”.

O Intervalo de Confiança terá uma certa probabilidade chamada de Nível de confiança (que costuma
ser simbolizado como 1 -  ) de conter o valor real do parâmetro: fazer uma Estimação por
Intervalo de um parâmetro é efetuar uma afirmação probabilística sobre este parâmetro, indicando
uma faixa de possíveis valores, e a probabilidade de que esta faixa realmente contenha o valor real
do parâmetro. A probabilidade de que o Intervalo de Confiança não contenha o valor real do
parâmetro é chamada de Nível de Significância (  ), e o valor desta probabilidade será o
complementar do Nível de Confiança. É comum definir o Nível de Significância como uma
probabilidade máxima de erro, um risco máximo admissível.

A determinação do Intervalo de Confiança para um determinado parâmetro resume-se basicamente a


definir o Limite Inferior e o Limite Superior do intervalo, supondo um determinado Nível de
Confiança (ou Significância). A definição dos limites dependerá também da distribuição amostral da
estatística usada como referência para o intervalo e do tamanho da amostra utilizada.

Para os dois parâmetros em que temos maior interesse (média populacional  e proporção
populacional P) a distribuição amostral dos estimadores (média amostral x e proporção amostral
p̂ , respectivamente) pode ser aproximada por uma distribuição normal: o Intervalo de Confiança
será então simétrico em relação ao valor calculado da estimativa (média ou proporção amostral),
com base na amostra aleatória coletada

Li <parâmetro<Ls

Onde: Li é o limite inferior e Ls é o limite superior do Intervalo de Confiança e 1 -  é o Nível de


Confiança estabelecido, observando que o valor do Nível de Significância  é dividido igualmente
entre os valores abaixo de Li e acima de Ls.

Para obter os limites em função do Nível de Confiança devemos utilizar a distribuição normal
padrão (variável Z com média zero e variância um): fixar um certo valor de probabilidade, obter o
valor de Z correspondente. O ponto central 0 (zero) corresponde ao valor calculado da Estimativa.
9
Como a variável Z tem distribuição normal com média igual a zero (lembrando que a distribuição
normal é simétrica em relação à média) os valores de Z1 e Z2 serão iguais em módulo (Z1 será
negativo e Z2 positivo)

Estimação por Intervalo da Média Populacional 


Lembrando das expressões anteriores:


Li = x  Z  . = x  Erro
2 n


Li = x  Z  . = x  Erro
2 n

P( x  Erro    x  Erro )  1  

 
P( x  Z  .    x  Z . )  1
2 n 2 n

O valor do Erro dependerá de outros aspectos.

a) Se a variância populacional  2 da variável (cuja média populacional queremos estimar)


for
conhecida.

Neste caso a variância amostral da média poderá ser calculada através da expressão:

2  
V(x)= e por conseguinte, o “desvio padrão” será e o Erro será dado por Z  . ou Erro=
n n 2 n


e = Z critico .
n

Bastará então fixar o Nível de Confiança (ou de Significância) para obter Zcrítico e calcular o valor
do Erro (e).

b) Se a variância populacional  2 da variável for desconhecida.

10
Naturalmente este é o caso mais encontrado na prática. Como se deve proceder? Dependerá do
tamanho da amostra.

b.1 - Grandes amostras (mais de 30 elementos)

Nestes casos procede-se como no item anterior, apenas fazendo com que  = s, ou seja
considerando que o desvio padrão da variável na população é igual ao desvio padrão da variável na
amostra (suposição razoável para grandes amostras).

b.2 - Pequenas amostras (até 30 elementos)

Nestes casos a aproximação do item b.1 não será viável. Terá que ser feita uma correção na
distribuição normal padrão (Z) através da distribuição t de Student.

A distribuição T de Student é uma distribuição de probabilidades que apresenta média igual a zero

n
(como a normal padrão), é simétrica em relação à média, mas apresenta uma variância igual a
n2
, ou seja seus valores dependem do tamanho da amostra, apresentando maior variância para menores
valores de amostra. Quanto maior o tamanho da amostra mais a variância de t aproxima-se de 1,00
(variância da norma l padrão). A distribuição t de Student depende de graus de liberdade

Quando a variância amostral é calculada supõe-se que a média já seja conhecida, assim apenas um
determinado número de elementos da amostra poderá ter seus valores variando livremente, este
número será igual a n - 1, porque um dos valores não poderá variar livremente, pois terá que ter um
valor tal que a média permaneça a mesma calculada anteriormente. Assim, a estatística terá n - 1
graus de liberdade. A distribuição t de Student tem uma tabela apropriada.

Quando a variância populacional da variável é desconhecida e a amostra tem até 30 elementos


substitui-se  por s e Z por tn-1 em todas as expressões para determinação dos limites do intervalo
de confiança, obtendo:

s
Erro = e = t t n 1,critico x
n

Os valores de tn-1,crítico podem ser obtidos de forma semelhante aos de Zcrítico, definindo o
Nível de Confiança (ou de Significância), mas precisam também da definição do número de graus
de liberdade (n - 1): tendo estes valores basta procurar o valor em uma tabela
11
_
x μ
t 
A distribuição da variável s tem a DISTRIBUIÇÃO DE STUDENT com n-1 graus de
n

liberdade. Dessa forma, temos que:

Ou seja:
  
P  t  t  t   1 
 2 2

Substituindo o valor de t e resolvendo as ineqüações, temos então:

_  S _
 S 
P x  t .    x  t .   1 
(população infinita)  2 n 2 n 

ou então:

_  S Nn _
 S N  n 
P x  t . .    x  t . .  1 
(população finita)  2 n N1 2 n N  1 

d
onde t  t n 1 .

Considerando que os valores das abscissas (tα/2) da DISTRIBUIÇÃO “T” dependem agora do
tamanho da amostra (n) e do desvio padrão amostral, podemos calcular referido valor para alguns
níveis de confiabilidade de interesse e para alguns tamanhos usuais de amostra, conforme indicado
abaixo:

IC ( 1 - α ) 90,00% 95,00% 95,50% 97,50% 99,00%


α 10,00% 5,00% 4,50% 2,50% 1,00%
tα/2, n=10,gl=9 1,83 2,26 2,33 2,69 3,25
tα/2, n=20,gl=19 1,73 2,09 2,15 2,43 2,86
tα/2, n=30,gl=29 1,70 2,05 2,10 2,36 2,76
12
tα/2, n=50,gl=49 1,68 2,01 2,06 2,31 2,68
tα/2, 1,66 1,98 2,03 2,28 2,63
n=100,gl=99

Exemplo: A amostra: 9; 8; 12; 7; 9; 6; 11; 6; 10; 9 foi extraída de uma população normal. Construir
o intervalo de confiança para a média ao nível de 95%.
Solução: Calculando a média aritmética e o desvio padrão da amostra, obtemos os seguintes
resultados:
_
x  8,7 e s=2
Considerando que (1-α) = 95% e g.l.= 9 (graus de liberdade=n-1) , da tabela acima retiramos o valor
2,26 para a abscissa tα/2. Com tais valores, o erro de estimativa (ou margem de erro) é 1,43 e o
intervalo de confiança 8,7±1,43 torna-se [7,27 ; 10,13], o qual contém a média da população com
95% de confiança.

13
Estimação por Intervalo da Proporção Populacional P

O melhor estimador para a proporção populacional p é a proporção amostral p e esta proporção

P (1  P ) PQ
amostral tem média igual a p e variância igual a  n é o tamanho da amostra
n n
aleatória. A distribuição da proporção amostral p é binomial, e sabe-se que a distribuição binomial
pode ser aproximada por uma normal se algumas condições forem satisfeitas

SE e SOMENTE SE estas duas condições forem satisfeitas poderemos usar as expressões


Abaixo

PQ PQ
pˆ  Z critico x < P < pˆ  Z critico x
n n

Em suma a Estimação por Intervalo da média e da proporção populacional consiste basicamente em


calcular a amplitude do semi- intervalo (o e0), de acordo com as condições do problema sob análise.

- Para a média, observar se é viável considerar que a distribuição da variável na população é normal,
ou que a amostra seja suficientemente grande para que a distribuição das médias amostrais possa ser
considerada normal. Se isso for verificado, identificar se a variância populacional da variável é
conhecida: caso seja deverá ser usada a variável Z da distribuição normal padrão, para qualquer
tamanho de amostra. Se variância populacional da variável é desconhecida há duas possibilidades:
para amostras com mais de 30 elementos usar a variável Z, e fazer a variância populacional igual à
variância amostral da variável; se a amostra tem até 30 elementos usar a variável tn-1 da
distribuição de Student.

- Para a proporção, observar se é possível fazer a aproximação pela distribuição normal

O melhor estimador da média populacional m é a média amostral x , pois trata-se de um estimador


justo e consistente:
- Justo porque o valor esperado da média amostral será a média populacional;

Os intervalos de confiança que são habitualmente usados são os de 90, 95 % e 99 %. Um intervalo


de confiança de 95 % significa que cerca de 95 % dos intervalos construídos similarmente conterão

14
o parâmetro que está sendo estimado. Outra interpretação do intervalo de confiança de 95 %, é que
95 % das médias amostrais para um tamanho de amostra especificado se encontrarão a uma
distância máxima de 1,96 desvios padrões da média populacional. Para o intervalo de confiança de
99 %, 99 % das médias amostrais para um tamanho amostral especificado cairão a uma distância
máxima de 2,58 desvios padrões da média populacional.
 
Os intervalos de confiança para 95 % e 99 % são construídos como segue:

O IC de 90 % para a média populacional  é dado por:

S
x  1.64
   n
O IC de 95 % para a média populacional  é dado por:

S
x  1.96
   n
O IC de 99 % para a média populacional  é dado por:
 

S
x  2.58
n
Em geral, um intervalo de confiança para a média, é calculado por:

S
xZ
n
onde Z é obtido da tabela de distribuição normal padrão.

15
Portanto, em 95,45% das vezes em que repetirmos a amostragem aleatória e calcularmos sua média,
a média populacional estará incluída no intervalo de mais ou menos 2 desvios padrão ao redor da
média amostral. Reciprocamente, em 4,55% das vezes, a média populacional não estará incluída no
intervalo definido por dois desvios padrão.

A tabela que segue resume os valores críticos de Z para alguns níveis de confiança
IC ( 1 - α ) 90,00% 95,00% 95,50% 97,50% 99,00%
α 10,00% 5,00% 4,50% 2,50% 1,00%
( 1 - α/2 ) 95,00% 97,50% 97,75% 98,75% 99,50%
Zα/2 1,64 1,96 2,00 2,24 2,58

Exemplo
Uma universidade quer estimar o número médio de horas trabalhadas por semana por seus
estudantes. Uma amostra de 49 estudantes mostrou uma média de 24 horas com um desvio padrão
de 4 horas.
A estimativa de ponto do número médio de horas trabalhadas por semana é 24 horas (média
amostral).
Qual é o intervalo de confiança de 95 % para o número médio de horas trabalhadas por semana ?

s 4
x  1.96
n temos 24  1.96x 49

Exemplo 2: Em uma superfície de terra molhada foram medidos os comprimentos de 36 minhocas


em cm. Assumindo que as medidas populacionais são normalmente distribuídas com variância 4,
calcule a 95% o intervalo de confiança para o comprimento médio se da amostra se obteve a média
de 10.39 cm.
Resolução:

Dados: n = 36;  2  4    2 ;   95%  z  1.96 ;  x  x  10.39
    2 2
x  zcr *    x  zcr *  10.39  1.96 *    10.39  1.96 *
n n 36 36

9.74    11 .04

IC μ(9.74 ; 11.04)
Resposta: com 95% de confiança pode-se afirmar que a verdadeira média dos comprimentos da
população das minhocas está entre 9.74 e 11.04.

16
Exemplo 3: construir o intervalo de confiança da média populacional, a partir das estatísticas
amostrais: média igual a 26.2 e o desvio padrão igual a 5.15, a um nível de confiança de 95%,
sabendo que a amostra tem 32 unidades.

Resolução:

Dados: n = 32; s  5.15 ;   95%  z  1.96 ; x  26.2
 s  s 5.15 5.15
x  z cr *    x  z cr *  26.2  1.96 *    26.2  1.96 *
n n 32 32
24.4    28.0

IC. μ (24.4; 28.0)

Exemplo 4: Um medicamento novo foi experimentado em 2500 indivíduos, tendo-se revelando


eficaz em 80% dos casos. Determine o intervalo de confiança da proporção do medicamento ser
eficaz num nível de confiança de 95%.

Dados: n = 2500; p  80%  08  1  p  0.2 ;   95%  z  1.96 ;


p * (1  p ) p * (1  p ) 0.8 * 0.2 0.8 * 0.2
p  z cr *  P  p  z cr *  0.8  1.96 *  P  0.8  1.96 *
n n 2500 2500
0.78  P  0.82
IC. P (0.78 ; 0.82)

Resposta: com um erro de 5% pode-se afirmar que o intervalo de confiança de que o medicamento
seja eficaz é de 78% à 82%.

Exemplo 5: os pacotes de um determinado tipo de biscoitos são empacotados por um processo


automático. As massas desses pacotes em gramas são os seguintes: 397.3, 399.6, 401.0, 392.9,
696.8, 400.0, 397.6, 392.1, 400.8 e 400.6. assumindo que esta amostra foi obtido numa população
normalmente distribuída com média μ, calcule a 95% e a 99% de confiança o intervalo de confiança.
Resolução:
Da amostra


x
x i

4278.7
 427.87 ; s   ( x1  x)2 80450.9010
n 10   8938.9890  94.5462
n 1 9
  0.95    0.05 ; e para   0.99    0.01

17
Consultando na tabela da distribuição t de Student’s para k = n -1 = 10 -1 =9 graus de liberdade e
usando t = t (k;  ) temos a) t0.05 = t(9;0.05) = 2.26 e b) t0.01 = t(9;0.01) = 3.25
 s  s 94.5462 94.5462
x  t *    x  t *  427.87  2.26 *    427.87  2.26 *
a) n n 10 10
360.3002    495.4398

IC: μ(360.3002 ; 495.4398)

 s  s 94.5462 94.5462
x  t *   x  t *  427.87  3.25 *    427.87  3.25 *
b) n n 10 10
330.7011    525.0389

IC: μ(330.7011; 525.0389)

Tamanho Mínimo de Amostra para Estimação por Intervalo de


parâmetros
Como foi observado a determinação dos limites de um Intervalo de Confiança (determinação do e0)
dependem do tamanho da amostra aleatória coletada, além do Nível de Confiança e da distribuição
amostral do estimador utilizado. Nada podemos fazer quanto à distribuição amostral do estimador, o
Nível de Confiança nós podemos controlar, seria interessante definir então uma precisão (um valor
para e0) para o Intervalo de Confiança: é muito comum querermos estabelecer previamente qual
será a faixa de variação de um determinado parâmetro, com uma certa confiabilidade.

Contudo, para um mesmo tamanho de amostra:


- se aumentarmos o Nível de Confiança (reduzirmos o Nível de Significância) teremos um valor
crítico maior, o que aumentará o valor do Erro (e), resultando em um Intervalo de Confiança mais
“largo”, com menor precisão.
- se resolvermos aumentar a precisão (menor valor de Erro), obter um Intervalo de Confiança mais
“estreito”, teremos uma queda no Nível de Confiança.
A solução para o dilema acima é obter um tamanho mínimo de amostra capaz de atender
simultaneamente ao Nível de Confiança (ou de Significância) e à precisão (e0) especificados. Como
as expressões de e0 são em função do tamanho de amostra (n), seria razoável pensar em reordena las
de forma a fazer com que o tamanho de amostra seja função do Nível de Confiança e da precisão
(e0).

1) Determinação do tamanho da amostra para médias

18
Na estimação da média populacional, podemos determinar o tamanho mínimo necessário da amostra
considerando-se um erro de estimação, e um nível de confiança desejados, e conhecendo ou
estimando um valor para , através das seguintes fórmulas:

 z c2 *  2
Erro= e = Z critico . isolando o n teremos o tamanho da amostra n 
n e2
Se a população for infinita

N * Z c2 *  2
n Se a população for finita
e 2 ( N  1)  Z c2 *  2
Onde: e é o erro de estimação (máximo permitido);
s2 é Nível de confiança escolhido, expresso em número de desvios-padrão;
N é Tamanho da população;
Z c2 é o valor da média amostral reduzido (abcissa da distribuição normal reduzida).

2) Determinação do tamanho da amostra para proporção

É necessário especificar o Nível de Confiança (ou de Significância) que será usado para encontrar o
Zcrítico, e o valor de e0 (tomando o cuidado de que tanto e0 quanto p e 1- p estejam todos como
proporções adimensionais ou como percentuais) para que seja possível calcular o valor do tamanho
mínimo de amostra.

Da mesma forma que no caso da Estimação da média quando a variância populacional é


desconhecida teremos que recorrer à uma amostra piloto, procedendo de forma semelhante à letra b)
do item 9.5.1. No cálculo do tamanho mínimo de amostra para a Estimação por Intervalo da
proporção populacional há porém uma solução alternativa: utiliza-se uma estimativa exagerada20 da
amostra, supondo o máximo valor possível para o produto p ´ (1 - p), que ocorrerá quando ambas
as proporções forem iguais a 0,5 (50%).

Pq
Erro  e  Z criticox isolando o n teremos
n

Z c2 * p * q
n Se a população for infinita
e2

19
N * Z c2 * p * q
n Se a população for finita
e 2 ( N  1)   2 * p * q

onde:
n =Tamanho da amostra.
s2 = Nível de confiança escolhido, expresso em número de desvios-padrão.
p = Percentagem com a qual o fenômeno se verifica.
q = Percentagem complementar (100-p).
N = Tamanho da população.
d2 = Erro máximo permitido.

Nota: Para casos em que a proporção de sucesso é desconhecido, considera-se que a mesma é igual
a do fracasso, isto é p = q = 0.5.

População Finita
Exemplo 6: Uma pesquisa que tenha por objetivo verificar quantos dos 10.000 empregados de uma
fábrica são sindicalizados. Presume-se que esse número não seja superior a 30% do total, deseja-se
um nível de confiança de 95% (dois desvios) e tolera-se um erro de até 3%. Então:
Resolucão
N = 10000; p = 30%; q = 1 – p =1-0.3 = 0.7; d = 3% ,   0.95    0.05  Z c  1.96

N * Z c2 * p * q 10000 * 1.96 2 * 0.3 * 0.7 8067.36


n    8227.7131  8228
d ( N  1)   * p * q 0.03 * (10000  1)  1.96 * 0.3 * 0.7
2 2 2 2
9.8058

População Infinita
Exemplo 7: Verificar o número de protestantes residentes em determinada cidade com uma
população superior a 100.000 habitantes. A percentagem com que o fenômeno se verifica é de 10%.
O nível de confiança é de 95%, e o erro máximo tolerado de 2%.
Assim, tem-se a equação:
N = 10000; p = 30%; q = 1 – p =1-0.3 = 0.7; d = 3%.

20
Z c2 * p * q 1.962 * 0.1 * 0.9 0.3457
n    864.25  865
d2 0.022 0.0004
Exemplo
Um grupo de consumidores deseja estimar a média de gasto mensal em eletricidade para um
agregado familiar num certo mês. Baseado em estudos similares o desvio padrão é estimado como
sendo 20,00 Meticais. Deseja-se construir um intervalo de confiança de 99 % com um erro máximo

admissível de  5,00 Mts . Qual deve ser o tamanho da amostra?


2
 (2.58) x(20) 
n   106.5  107
    5 

Tamanho Amostral para Estimativa de Proporções


A fórmula para determinar o tamanho amostral no caso de estimativa de proporções é:
2
Z 
n  pˆ (1  pˆ ) 
  e

onde
p̂ é a proporção estimada, baseada na experiência passada ou em uma amostra piloto

 Z   é o valor da variável normal padrão associado ao grau de confiança adotado.


 E - é o máximo erro permissível que o pesquisador tolera.
 
Exemplo
Um clube deseja estimar a proporção de crianças que tem um animal de estimação. Se o clube
deseja que a estimativa esteja no máximo afastada 3 % da proporção populacional, quantas crianças
devem conter a amostra? Assuma um intervalo de confiança de 95 % e que o clube estimou, com
base em experiência anterior, que aproximadamente 30 % das crianças têm um animal de estimação.
2
Z 
n  pˆ (1  pˆ ) 
  e
2
 1.96 
n  (0.30)(0.70)   893.4  894
 0.03 

21

Você também pode gostar