Você está na página 1de 25

Capítulo 7

Intervalo de Confiança para a Média de


uma População

Objetivos do Capítulo

Este capítulo inicia o estudo de estatística inferencial. Aqui examinaremos métodos para
estimar a média de uma população. Como a estimativa está sujeita a um erro, necessitamos
fornecer informações sobre a acuracidade da estimativa. Isto nos leva ao conceito de
intervalos de confiança, que é o tópico principal deste capítulo. Após o término deste
capítulo, você deverá ser capaz de:

1. Entender os termos amostra e amostragem.


2. Entender os termos estatística e parâmetro.
3. Entender e aplicar o teorema do limite central.
4. Estimar a média de uma população.
5. Entender o conceito de erro padrão.
6. Calcular o intervalo de confiança para a média de uma população.
7. Determinar o tamanho da amostra conhecida a precisão.

133
7.1 Populações

Como já visto no capítulo 2, uma população inclui todas as possíveis observações que
possam ser feitas sobre uma característica específica, tal como altura de estudantes de uma
universidade ou pressão sanguínea de trabalhadores da construção civil do estado de São Paulo e
assim por diante. No mundo real da pesquisa, uma população é usualmente constituída por um
grupo que é muito grande para permitir uma observação ou medida direta em cada indivíduo.

No exemplo acima dos trabalhadores da construção civil, é obvio que não temos
condições de conhecer a pressão sanguínea exata de cada trabalhador por causa do elevado
número de pessoas trabalhando nesta área. O melhor que nós podemos fazer é estimar a pressão
média sanguínea dos trabalhadores.

Felizmente, existem métodos estatísticos que nos permite fazer afirmações limitadas
porem úteis, sobre uma população a partir de dados derivados de uma porção relativamente
pequena da população em estudo. Esta pequena porção é denominada amostra.

7.2 - Amostras e amostragens

Para que uma amostra possa produzir informações confiáveis sobre uma população da
qual ela é retirada, ela deve representar uma espécie de seção transversal daquela população. Isto
é, a amostra deve ser representativa daquela população.

Suponha, por exemplo, que nós estivéssemos interessados em conhecer a renda média de
pais de alunos cursando o segundo grau. Assuma que os dados coletados fossem relativos a uma
amostra de 500 alunos cursando escolas públicas. Obviamente, esta amostra não é representativa
da população em estudo, pois sabemos que alunos da rede privada de ensino provêm de famílias
com maior poder aquisitivo. Dessa forma, a média calculada com a amostra de 500 alunos não
seria confiável e, neste caso, a amostra é dita tendenciosa.

Logicamente, nós nunca estaremos seguros de que uma amostra retirada de uma
população seja realmente representativa daquela população. Para estar seguro disso, seria
necessário que nós conhecêssemos a natureza exata da população, o que significa que nós não
teríamos um problema para lidar. Na prática, podemos aumentar a probabilidade de obtermos
uma amostra não tendenciosa pela forma que nós a selecionamos.

Embora haja diversos procedimentos para se obter amostras não tendenciosas, para os
nossos propósitos neste estudo introdutório de estatística, consideraremos somente o
procedimento denominado amostragem aleatória simples, ou simplesmente, amostragem
aleatória.

Definição 7.1 – Amostragem aleatória e amostra aleatória simples

Um procedimento de amostragem aleatória é um procedimento de amostragem no


qual cada possível amostra de um dado tamanho tem a mesma probabilidade de ser
selecionada. Uma amostra, obtida pelo procedimento de amostragem aleatória, é denominada
amostra aleatória simples.

134
Para ilustrar a definição, tomemos um simples exemplo. Suponha que nós desejamos
obter uma amostra aleatória de 10 pessoas de um grupo de 100 pessoas. Se nós colocarmos o
nome de cada pessoa em um pedaço de papel, colocarmos todos os papéis em uma urna e,
depois, solicitarmos a uma pessoa, com os olhos vendados, que ela retire 10 pedaços de papel da
urna, então teremos obtido uma amostra aleatória. Note que cada pessoa teve igual chance de ser
escolhida.

Outro ponto importante em amostragem refere-se ao tamanho da amostra. Teoricamente,


quanto maior a amostra, mais acurado é o nosso resultado, isto é, mais perto da população
estamos. Assim, quanto maior a amostra melhor, desde que ela seja representativa da população
em estudo. Entretanto, uma amostra pequena pode dar o mesmo resultado que uma amostra
grande desde que ela seja representativa e seja retirada da população utilizando-se um
procedimento aleatório adequado.

7.3 – Estatísticas de amostras como estimativas de parâmetros.

Valores tais como médias, variâncias e desvios padrões que sejam derivados de amostras
são denominados estatísticas da amostra. Valores da população são, por outro lado,
denominados parâmetros. Dessa forma, em inferência estatística nós retiramos amostras da
população, computamos as estatísticas da amostra e, então, as usamos para estimar os parâmetros
desconhecidos da população.

Recordemos que os estatísticos usam letras gregas para designar os parâmetros da


população e letras do nosso alfabeto para designar as estatísticas da amostra. Por exemplo, a
média da população é indicada por µ e o desvio padrão é indicado por σ. A média da amostra
pode ser representada por x e o desvio padrão por s.

Suponha que sejam retiradas aleatoriamente (de uma dada população) todas as possíveis
amostras, cada uma de tamanho n. Se calcularmos a média de cada amostra e, depois
calcularmos a média das médias das amostras, esta será igual à média da população µ. Realmente
nós não necessitamos retirar todas as possíveis amostras para verificar que a média das médias
das amostras se aproxima da média µ da população de onde as amostras foram retiradas. A
tabela 7.1 mostra os resultados de uma simulação por computador onde somente 1000 amostras
(cada uma com n=30) foram retiradas de uma população. Podemos observar que a média da
população de onde as amostras foram retiradas é 67,48 e a média das 1000 médias das amostras
se aproxima fortemente de µ, embora 1000 amostras ainda estejam longe de se aproximar de
“todas as amostras possíveis”.

Fato importante 7.1

Se todas as possíveis amostras de um dado tamanho n são retiradas aleatoriamente de


uma população com média µ, a média das médias das amostras será igual a µ. A média da
amostra x é, então, uma estimativa não tendenciosa de µ.

135
Tabela 7.1 – Resultados de seleção aleatória de 1000 amostras retiradas de uma população.

Valores da população
Média → µ= 67,48
Variância → σ2 = 59,77
Desvio padrão → σ = 7,73
Amostra
Número de amostras → t = 1000
Tamanho de cada amostra → n = 30
Média → x = 67,38

Variância da população

Do capítulo 2, recordemos que a variância de uma população é calculada dividindo-se a


soma dos desvios quadráticos por n, como mostrado abaixo.

∑ (x − µ )
2

σ 2
=
n

Observemos também que a variância da amostra é calculada dividindo-se a soma dos


quadrados por (n-1). Nós usamos (n-1) porque a variância da amostra calculada com n no
denominador tende a subestimar σ2. Usando um valor menor no denominador, n-1, nós
aumentamos o valor do quociente obtendo uma estimativa da variância mais próxima do valor
verdadeiro.

7.4 – Distribuição de amostragens

A figura 7.1 mostra a distribuição de uma população com média µ e desvio padrão σ.
Suponha agora que selecionemos, aleatoriamente, todas as possíveis amostras (todas do mesmo
tamanho) desta população. Vamos ainda supor que, para cada amostra, seja calculada a média da
amostra. A distribuição das médias de todas as possíveis amostras é denominada distribuição da
amostragem. Assumindo que o tamanho da amostra seja ≥ 30, e analisando os valores obtidos
para as médias concluiríamos que as médias das amostras seriam normalmente distribuídas,
como mostrado na figura 7.1. Antes de prosseguirmos com a distribuição de amostragens, nós
necessitamos entender um importante conceito conhecido como Teorema do Limite Central
(TLC), que pode ser enunciado como:

Teorema do Limite Central

Se todas as possíveis amostras com n ≥ 30 forem retiradas aleatoriamente de uma


população, a distribuição das médias daquelas amostras será aproximadamente normal,
mesmo quando os dados na população estudada não forem normalmente distribuídos.

136
Figura 7.1 – Uma população normalmente distribuída (acima) e a distribuição das médias das
amostras retiradas da população (abaixo).

Note que se os dados da população não forem normalmente distribuídos, então o teorema
do limite central é verdadeiro somente quando n é grande, isto é, quando n ≥ 30. A figura 7.2
ilustra este fato. Em (a), tem-se uma população normalmente distribuída e mesmo para pequenos
tamanhos de amostra a distribuição das médias também é normal. Nos casos (b) e (c) tem-se
duas populações com distribuições não normais. Nestes dois casos, para amostras pequenas, a
distribuição das médias não é normal (veja n=2). Porém, à medida que o tamanho da amostra
cresce, a distribuição das médias se aproxima de uma distribuição normal (veja n=10 e n=30).

Lembre-se, entretanto, que n ≥ 30 não é uma regra rígida. O teorema não deixa de ser
válido se n for 29, 28, etc., contanto que n não se torne muito pequeno. Uma demonstração do
teorema foge do escopo deste curso introdutório de estatística.

137
Figura 7.2 - Distribuições de populações e médias das amostras.
(a) população normal (b) e (c) populações não normais

Erro da amostragem

Na seção anterior vimos que a média de todas as médias das amostras possíveis de serem
retiradas da população será igual a µ. Assim, segue-se que a média da população e a média da
distribuição das médias das amostras retiradas daquela população são iguais – isto é µ. Por isso,
o símbolo µ pode se referir à média da população ou à média da distribuição baseada em todas as
amostras retiradas daquela população.

Nós sabemos, entretanto, que não é suficiente descrever uma distribuição em termos da
média somente. Nós também necessitamos conhecer (ou ser capaz de estimar) o grau de
dispersão das médias das amostras em torno de µ. Em outras palavras, se desejamos trabalhar
com a distribuição das médias das amostras, nós devemos nos preocupar com ambos, a média e o
desvio padrão da distribuição.

138
Se retirássemos todas as possíveis amostras de uma dada população com média µ, então
cada vez que nós retirássemos uma amostra, seria duvidoso que a média da amostra x fosse
igual a µ. Uma dada amostra teria uma média que provavelmente se desviaria de µ de um certo
valor, por puro acaso. Algumas médias se desviariam mais, enquanto que outras se desviariam
menos. Este possível desvio de uma dada média de uma amostra do valor real µ é
freqüentemente denominado erro da amostragem. Isto não significa que um engano foi
cometido. É simplesmente um fato da estatística que, por acaso apenas, nós podemos retirar uma
amostra cuja média difere, em uma certa extensão, da média real µ.

Conseqüentemente nós podemos esperar que todas as possíveis médias das amostras
retiradas da população sejam distribuídas com uma certa variância denominada variância das
médias e indicada por :

σ2 _
x

A variância das médias pode ser calculada pela fórmula:

σ2
σ =2
_
x n
onde o numerador, é a variância da população da qual as amostras foram hipoteticamente
retiradas, e n é o tamanho da amostra.

Efeitos de n e de σ2

Vamos observar a fórmula anterior e verificar se podemos entendê-la intuitivamente.


Primeiro, podemos ver que a variância das médias aumenta à medida que a variância da
população σ2 aumenta, assumindo que n seja mantido constante. Isto faz sentido porque uma
população mais variável produzirá uma distribuição mais variável das médias. Podemos também
ver da fórmula que se σ2 for mantido constante, a variância das médias diminuirá à medida que
n crescer. Isto também tem sentido porque se formos aumentando n, nós nos aproximaremos da
própria população. Resumindo, nós temos o seguinte:

Fato Importante 7.2

A variância de uma distribuição de médias de amostras é diretamente proporcional à


variância da população, da qual as médias foram retiradas, e é inversamente proporcional ao
tamanho da amostra n.

139
A figura 7.3 mostra como a forma da distribuição das médias difere daquela da
população. A figura 7.3a representa a população com uma certa média µ e uma variância σ2 =
120. A figura 7.3b mostra a forma de uma distribuição de amostragem baseada em todas as
possíveis amostras de tamanho n = 30, retiradas da população. A distribuição da amostragem é
muito mais fechada do que a da população porque a variação das médias das amostras em torno
de µ é menor que aquela da população. O valor da variância das médias pode ser calculado pela
fórmula dada.

σ2 120
σ =
2
_ = =4
x n 30

(a) População (b) Distribuição das médias


Figura 7.3 - Variância da população comparada à variância da distribuição das amostras.

Mais uma vez, é aparente pela fórmula que a variância da distribuição da amostragem
diminui à medida que o tamanho da amostra aumenta (assumindo que σ2 permanece constante).
A figura 7.4 abaixo ilustra este fato.

Figura 7.4 – A variância da distribuição da amostragem diminui com o aumento de n.


140
7.5 – O erro padrão

Na última seção nós discutimos a variância de uma distribuição de médias de amostras.


Nós já sabemos que a raiz quadrada da variância de uma distribuição é o desvio padrão daquela
distribuição. Assim, o desvio padrão da distribuição das médias é dado por:

σ
σ =
_
x n

Uma vez que o desvio padrão de uma distribuição de amostragens de médias descreve a
extensão com que a média de uma dada amostra pode se desviar de µ, ele é mais comumente
chamado erro padrão da média.

Definição 7.2

O erro padrão da média é o desvio padrão de uma distribuição de amostragens das


médias das amostras

A fórmula acima do erro padrão das médias assume que nós conhecemos o valor do
desvio padrão da população (σ). Na maioria das situações, entretanto, nós não conhecemos σ e
necessitamos substituir σ por s, usando s como uma estimativa (ou estimador) de σ. Neste caso,
devemos deixar claro que estamos usando uma estimativa de σ e não o valor de σ. Para isso,
basta reescrevermos a fórmula de cálculo do desvio padrão como sendo:

s
s_ =
x n
Note que esta fórmula para o desvio padrão é a mesma, exceto que nós estamos indicando
que não conhecemos o valor real de σ e estamos usando uma estimativa s de uma amostra
retirada da população.

Exercícios – Sequência 7.1

1) Suponha que retiremos uma amostra n=36 de uma população. A amostra produz uma
variância de s2 = 49. Calcule uma estimativa do desvio padrão real da distribuição da
amostragem.

2) Uma amostra de tamanho n = 50 produz um desvio padrão da amostra igual a 9 (s=9).


Calcule uma estimativa do verdadeiro desvio padrão da distribuição da amostragem.

3) Uma amostra contendo n=30 elementos é retirada de uma população e outra com n=200 é
retirada da mesma população. Assumindo que os desvios padrões das amostras sejam
similares em valores, como se espera que a forma das duas distribuições de amostragens
difira entre si?

141
7.6 – Intervalo de confiança para a média – grandes amostras

Como discutido no item anterior, não é razoável esperar que a média de uma amostra seja
exatamente igual à média da população µ; algum erro deve ser esperado, Assim, além de
calcularmos uma estimativa de µ, nós necessitamos fornecer informações que indiquem a
precisão da estimativa. Isto pode ser feito definindo um intervalo de confiança para µ. Usando a
média da amostra coletada podemos construir um intervalo de números e afirmar com que
confiança a média da população µ estará dentro deste intervalo. Este conceito pode ser resumido
como mostrado abaixo.

Definição 7.3 – Intervalo de confiança e nível de confiança

Um intervalo de confiança de um parâmetro consiste de um intervalo de números,


obtido de uma estimativa de um parâmetro junto com uma porcentagem que especifica a
nossa confiança de que o parâmetro está no intervalo. A porcentagem de confiança é
denominada nível de confiança.

Para facilitar o entendimento do procedimento de determinação do intervalo de confiança


assumiremos que a população em estudo seja normal com média µ e desvio padrão conhecido e
igual a σ e que queremos determinar um intervalo com 95% de confiança para a média.
Assumindo também que estamos trabalhando com amostras aleatórias sabemos que a média da
amostra x é uma variável aleatória com uma distribuição normal com média e desvio padrão
dados por

σ
µ =µ
_ e σ = _
x x n
Isto implica que a variável z, definida como
_
x− µ
z=
σ n

tem uma distribuição normal, resultado da normalização da variável x. Já havíamos visto que
uma área de 0,95 sob a curva normal padrão corresponde à área entre os valores z = -1,96 e z =
1,96 e nos permite escrever a expressão abaixo.

 _

 x−µ 
P − 1,96 ≤ ≤ 1,96  = 0,95
 σ n 
 

Esta expressão é formada por duas desigualdades simultâneas, com µ figurando no


centro. Queremos obter uma outra desigualdade do tipo A ≤ µ ≤ B onde os extremos são dados
em função dos outros elementos. Aplicando propriedades das desigualdades, a Sequência a
seguir mostra como isto é possível.
142
σ _
σ
− 1,96 ⋅ ≤ x − µ ≤ 1,96 ⋅ (após multiplicar os 3 membros por σ n)
n n

_
σ _
σ _
− x − 1,96 ⋅ ≤ − µ ≤ − x + 1,96 ⋅ (após subtrair x de cada termo)
n n

_
σ _
σ
x − 1,96 ⋅ ≤ µ ≤ x + 1,96 ⋅ (após multiplicar tudo por − 1)
n n

Uma vez que as 3 desigualdades acima são equivalentes à desigualdade original, a


probabilidade associada com cada uma delas é igual a 0,95 e, portanto, para a última delas
podemos escrever

_ σ _
σ 
P x − 1,96 ⋅ ≤ µ ≤ x + 1,96 ⋅  = 0,95
 n n

A expressão entre parênteses pode ser interpretada como definindo um intervalo aleatório
com limites:

_
limite inferior = x − 1,96 σ n e

_
limite superior = x + 1,96 σ n

Usando a notação de intervalos, esse intervalo aleatório poderia ser indicado como

 _ _

 x − 1,96 σ n , x + 1,96σ n
 

Observemos que o intervalo é centrado em x e os limites do intervalo são variáveis,


dependendo da amostra coletada, isto é, da média da amostra calculada. O comprimento do
intervalo, por outro lado, é fixo e é calculado por

σ
2 ⋅ 1,96 ⋅
n

mostrando que somente a localização do intervalo é aleatória. O intervalo acima indica que a
existe uma probabilidade de 0,95 de que o intervalo aleatório assim calculado inclua o
verdadeiro valor da média µ.

143
Exemplo 7.1 – Ilustra intervalo de confiança

Suponha que uma amostra aleatória de 40 novas casas populares resulte na tabela de
preços abaixo. Determine um intervalo de confiança com nível de confiança de 95,44% para o
preço médio µ de todas as novas casas populares. Assuma que o desvio padrão da população dos
preços seja igual a σ= R$7.200,00 Reais. (Nota: Este valor do desvio padrão pode ser conhecido de estudos
anteriores. O caso mais usual onde o desvio padrão é desconhecido será considerado mais adiante neste capítulo)

Tabela 7.2 – Amostra aleatória de 40 preços de casas populares (x1000).


24,4 30,6 26,4 26,8 33,5 32,2 32,4 13,9
24,4 29,3 26,2 14,1 21,4 20,0 33,0 17,6
24,8 27,0 22,8 18,8 35,1 26,7 22,1 37,2
31,9 24,0 28,4 15,8 29,3 31,4 22,8 8,4
24,7 16,6 31,1 13,9 16,8 29,5 17,0 9,9

Solução:
Podemos estimar a média da população, isto é, o preço médio µ, através da média dos 40
preços coletados na amostra. Assim, o valor médio da amostra será dado por

_
x=
∑ x = 972,2 = 24,31
n 40

Portanto, baseado nos dados da amostra, estimamos que o preço médio de todas as casas
novas é, aproximadamente, R$24.310,00. Se o desvio padrão dos preços de casas novas foi
fornecido como sendo igual a σ=R$7.200,00, então o desvio padrão da distribuição das amostras
de tamanho n=40 pode ser calculado por

σ 7200
σ =_ = = 1140
x n 40

A figura abaixo mostra a distribuição das médias das amostras de tamanho n = 40 e a


correspondente curva normal padrão.

Figura 7.5 – Correspondência entre a distribuição normal das médias das amostras e a curva
normal padrão.

144
Queremos determinar os valores de x1 e x2 que definem uma área sob a curva normal
igual a 0,9544. Para tanto, identificamos na curva padrão à direita, os valores z1 e z2 de modo
que a área seja a mesma, como ilustrado na figura. Como o valor da área entre 0 e z2 é igual a
0,4722 (0,9544/2), pela tabela 6.1, do capítulo 6, o valor de z2 é 2. E, portanto, o valor de z1 é –2.
O cálculo de x1 e x2 pode ser feito como mostrado abaixo.

_
x1 − x _
z1 = ⇒ x1 = x + z1 ⋅ σ _ = 24310 + (− 2 ) ⋅ 1140 = 22030
σ _ x
x

_
x2 − x _
z2 = ⇒ x2 = x + z 2 ⋅ σ _ = 24310 + (2 ) ⋅ 1140 = 26590
σ _ x
x

Assim, o intervalo de confiança com nível de confiança igual a 95,44%, é de 22030 a


26590. Isto significa que temos uma confiança de 95,44% de que o preço médio, µ, de todas as
casas novas é um valor entre 22030 e 26590.

É necessário enfatizar que o intervalo de confiança depende da amostra selecionada


aleatoriamente. Por exemplo, se tivéssemos uma amostra com média igual a 26580, o intervalo
de confiança seria

_
σ 7200
_
σ 7200
x− 2 ⋅ = 26580 − 2 ⋅ = 24300 x+ 2 ⋅ = 26580 + 2 ⋅ = 28860
n 40 n 40

Isto significa que se para cada amostra fosse possível determinarmos um correspondente
intervalo de confiança com nível de confiança de 95,44%, da totalidade desses intervalos
poderíamos afirmar que 95,44% desses intervalos conteriam a média µ da população.

Podemos agora generalizar o procedimento para a determinação de um intervalo de


confiança com nível de confiança igual a 1-α.

Procedimento 7.1 – Intervalo de confiança para uma média de uma população µ


Hipótese: Tamanho da amostra n ≥ 30.

Passo 1 – Para um nível de confiança de 1-α, use a tabela 6.1 para encontrar zα/2.
Passo 2 – O intervalo de confiança para µ é de

_
s _
s
x − z α/2 ⋅ a x + z α/2 ⋅
n n

onde zα/2 é determinado no passo 1, e x e s são computados dos dados da amostra obtida.

145
Nota: No passo 2 do procedimento 7.1 nós usamos o desvio padrão da amostra, s, na fórmula do
intervalo de confiança. Teoricamente, deveríamos usar o desvio padrão da população σ.
Entretanto, raramente se conhece σ e assim temos de usar s no lugar de σ. Isto é aceitável porque
para amostras grandes (n ≥ 30), o desvio padrão da amostra s nos dá uma boa aproximação do
desvio padrão da população σ.

Exemplo 7.2 – Ilustra o procedimento 7.1

O Departamento de Estatística do Trabalho dos EUA coleta informações sobre as idades


de pessoas na força de trabalho civil e publica os resultados no Employment and Earnings.
Suponha que 50 pessoas da força de trabalho civil sejam aleatoriamente selecionadas e que suas
idades sejam as mostradas na tabela abaixo.

Tabela 7.3 – Idades de 50 pessoas selecionadas aleatoriamente.


22 58 40 42 43 32 34 45 38 19
33 16 49 29 30 43 37 19 21 62
60 41 28 35 37 51 37 65 57 26
27 31 33 24 34 28 39 43 26 38
42 40 31 34 38 35 29 33 32 33

Determine um intervalo de 90% de confiança para a idade média µ, de todas as pessoas


na força civil de trabalho.

Solução:
Uma vez que o tamanho da amostra é 50, portanto maior que 30, podemos aplicar o
procedimento 7.1 para obter o intervalo de confiança.

Passo 1 – Para um nível de confiança 1-α, use a tabela 6.1 para obter zα/2.

Nós queremos um intervalo de confiança de 90%. Assim, o nível de confiança é de


0,90=1-0,10. Isto significa que α=0,10. Consultando a tabela 6.1, vemos que

zα/2 = z0,10/2 = z0,05 = 1,645

Passo 2 – O intervalo de confiança para a média é dado por

_
s _
s
x − z α/2 ⋅ a x + z α/2 ⋅
n n
Para calcular x e s com os dados da tabela 7.3, aplicamos as fórmulas usuais:

_
x=
∑ x = 1819 = 36,38
n 50

146
s=
( )
n ∑ x 2 − (∑ x )
2

=
50(72179 ) − (1819 )
2
= 11,07
n(n − 1) 50(50 − 1)

Conseqüentemente, o intervalo de confiança de 90% é

11,07 11,07
36,38 − 1,645 ⋅ a 36,38 + 1,645 ⋅
50 50

Ou seja, 33,80 a 38,96

Podemos ter uma confiança de 90% de que a média das idades, µ, de todos os
trabalhadores civis é um valor entre 33,8 e 39,0.

Relação entre o nível de confiança e o tamanho do intervalo de confiança

Para entender a relação entre o nível de confiança e o tamanho do intervalo de confiança


vamos determinar um intervalo de confiança de 95% usando os dados do exemplo 7.2 acima.
Neste caso, se 1-α = 0,95 então α = 0,05 e z0.05/2 = z0.025 = 1,96 (tabela 6.1). O intervalo de
confiança resultante é

11,07 11,07
36,38 − 1,96 ⋅ a 36,38 + 1,96 ⋅
50 50

ou seja, de 33,3 a 39,4 anos. Para uma visão mais clara do que ocorre quando aumentamos o
nível de confiança, desenhamos os dois intervalos na figura 7.6.

Estamos 90% confiantes


de que µ está aqui (Intervalo de confiança de 90%)

33,8 39,0

Estamos 95% confiantes


de que µ está aqui (Intervalo de confiança de 95%)

33,3 39,4

Figura 7.6 – Intervalos de confiança de 90% e 95% para µ usando os dados da tabela 7.3.

147
Observamos que aumentando o nível de confiança, o comprimento do intervalo também
aumenta. Isto nos leva à seguinte afirmação:

Fato importante 7.3

Para um tamanho fixado da amostra, quanto maior o nível de confiança, maior o


comprimento do intervalo de confiança.

Máximo erro da estimativa da média

Já vimos que uma estimativa do intervalo de confiança da média de uma população


corresponde a um intervalo de números reais dentro do qual estará a média µ da população.
Portanto devemos assumir que sempre existirá um erro quando estimamos a média da população
µ através da média da amostra x. Este erro varia de zero a um valor máximo que será chamado
erro máximo da estimativa. Este erro máximo depende do nível de confiança com que estamos
trabalhando assim como do tamanho da amostra n.

Isto pode ser facilmente entendido através da figura 7.7. Esta figura se refere ao exemplo
7.2 e corresponde ao intervalo de confiança da média µ para um nível de confiança de 90%.

σ
zα / 2 ⋅
n

2,58 2,58

33,80 36,38 38,96


(36,38 – 2,58) (36,38 + 2,58)

_
σ _
σ
x − zα / 2 ⋅ x + zα / 2 ⋅
n n

Figura 7.7 – Intervalo de confiança de 90% para a idade µ.

148
Estudando a figura 7.7, encontramos que o comprimento do intervalo de confiança é
determinado pela quantidade

σ
E = zα / 2 ⋅
n

Que é exatamente a metade do comprimento do intervalo de confiança. Neste caso, E =


2,58. Esta quantidade é denominada máximo erro da estimativa, pois o máximo erro feito,
usando-se x para estimar µ, é E = 2,58.

Assim, se estamos interessados em aumentar a precisão da estimativa, podemos diminuir


o valor de E. Uma vez que o tamanho da amostra n se encontra no denominador da expressão
que define E, podemos diminuir E aumentando o tamanho da amostra n. Isto faz sentido porque
nós esperamos obter informação mais acurada de amostras maiores.

Determinação do tamanho da amostra

Freqüentemente, a precisão (o máximo erro da estimativa) e o nível de confiança do


intervalo são especificados com antecedência. Nós precisamos, então, determinar o tamanho da
amostra que satisfaça as especificações dadas. A fórmula para determinar o tamanho requerido
da amostra pode ser obtida isolando-se n na expressão que define E. Isto nos dá a seguinte
fórmula para o tamanho da amostra n.

2
σ  z ⋅σ 
E = zα / 2 ⋅ ⇒ n =  α /2 
n  E 
Exemplo 7.3 –Ilustra a determinação do tamanho da amostra

Considerando os dados do exemplo 7.2,


a) Determinar o tamanho requerido da amostra para assegurar que, com uma confiança de 95%,
teremos uma estimativa, x, distante no máximo 0,50 de µ.
b) Obtenha um intervalo de confiança de 95% para µ se a amostra determinada em (a) tiver uma
média igual a 37,02.

Solução:
a) Para determinar o tamanho da amostra vamos empregar a fórmula acima. O máximo erro foi
especificado como E = 0,50. Como o nível de confiança desejado é de 0,95 concluímos que
α=0,05 e zα/2 = z0,025 = 1,96(tabela 6.1). Finalmente, como o valor de σ não foi dado,
usaremos uma estimativa de σ calculada com base na amostra selecionada. Este valor
calculado no exemplo 7.2 foi de s = 11,07. Com estes dados, o tamanho da amostra pode ser
calculado.

2 2
 z ⋅s  1,96 ⋅ 11,07 
n =  α /2  =   = 1883
 E   0,5 

149
b) O intervalo de confiança é facilmente determinado por

37,02 – 0,5 a 37,02 + 0,5 ou

36,52 a 37,52

Exercícios – Sequência 7.2

1) Um engenheiro do controle de qualidade, de uma fábrica produtos alimentícios, necessita


estimar o peso médio, µ, de saquinhos de batata frita, empacotados por uma máquina. Ele
sabe por experiência que σ = 2,84g para esta máquina. Ele toma uma amostra aleatória de 36
saquinhos e determina a média da amostra como sendo 454g.
a) Determine um intervalo com 99% de confiança para µ.
b) Interprete o resultado da parte (a) em palavras.

2) Uma pesquisa deve ser conduzida no sentido de determinar a idade média de pessoas com
diabetes. Para isso, tomou-se uma amostra de 35 pessoas portadoras da doença e obteve-se a
tabela abaixo.
a) Determine um intervalo de confiança, com nível de confiança de 95%, para a média µ, da
população de idades de pessoas com diabetes.
b) Repita o item (a) para um nível de confiança de 99%.
c) Interprete os resultados obtidos em (a) e (b) em palavras. Qual intervalo de confiança é
maior?

48 41 57 83 41 55 59
61 38 48 79 75 77 7
54 23 47 56 79 68 61
64 45 53 82 68 38 70
10 60 83 76 21 65 47

3) Explique como aplicar a fórmula

2
 z ⋅σ 
n =  α /2 
 E 
se σ é desconhecido.

4) Assuma que em uma pesquisa foi determinado um intervalo de confiança de 90% para a
média µ, da população sob estudo. O intervalo resultante vai de 617,3 a 668,7.
a) Determine o máximo erro E da estimativa da média.
b) Explique o significado de E com relação à estimativa de µ.
c) Determine o tamanho necessário da amostra para ter o mesmo erro máximo da estimativa
como na parte (a) , mas com um nível de confiança de 95%.(Assuma que σ=247).

150
7.7 – Intervalo de Confiança para a média de uma população normal

Na seção anterior mostramos como determinar o intervalo de confiança para a média de


uma população, µ, quando o tamanho da amostra é grande (n ≥ 30). O procedimento para se
obter o intervalo de confiança para uma amostra grande é baseado no Teorema do Limite Central
que trata da distribuição das médias para populações genéricas. Esse fato afirma que, para
grandes amostras, a variável aleatória x é normalmente distribuída com parâmetros

σ
µ =µ
_ e σ = _
x x n

Ou ainda, que a variável aleatória normalizada

_
x− µ
z=
σ
n

tem aproximadamente uma distribuição normal padrão, quando o tamanho da amostra é grande.

Entretanto, pode ocorrer que retirar uma amostra grande de uma população seja
inadequado, ou mesmo impossível. Por exemplo, testes de colisão com carros normalmente
resultam em perda do carro e, por isso, é mais adequado utilizar pequenas amostras. Existem
diversos métodos para obtermos um intervalo de confiança com base em pequenas amostras.
Veremos a seguir um desses métodos que pode ser aplicado quando a população em estudo for
normalmente distribuída. O método utiliza a distribuição t de Student proposta por W. S. Gosset
em 1908.

Distribuição t de Student

Substituindo-se σ na expressão acima pelo desvio padrão s da amostra podemos definir


uma nova variável aleatória dada por

_
x− µ
s
n

Gosset mostrou que esta variável aleatória possui uma distribuição de probabilidades que
é muito próxima de uma curva normal para grandes valores de n (n ≥ 30 ) e que se afasta da
curva normal à medida que n se torna pequeno. Em outras palavras, existe uma curva t para cada
tamanho de amostra. Se o tamanho da amostra for n então a curva correspondente será
identificada como uma curva t com (n-1) graus de liberdade. Por simplicidade definiremos
graus de liberdade simplesmente como o número que identifica a curva t ou distribuição t
apropriada.

Da mesma forma que determinamos probabilidades para variáveis aleatórias com


distribuição normal a partir de áreas sob a curva normal, também as probabilidades para

151
variáveis com distribuição t são iguais às áreas sob a curva t adequada. Os fatos discutidos até
aqui podem ser resumidos no quadro abaixo.

Fato Importante 7.4

Assuma que uma amostra aleatória com n elementos X1, X2, ..., Xn seja retirada de
uma população normalmente distribuída com média µ resultando em uma média e um desvio
padrão dados por:

2
 −


∑X i
∑  X i − x
 
x= e s2 =
n n −1

_
x− µ
Então, a distribuição da variável aleatória t=
s
n
é denominada distribuição t de Student com n-1 graus de liberdade. Assim, as probabilidades
para essa variável são iguais às áreas sob a curva t com GL = n-1.

F (0)
A distribuição t é dada por F (t ) = n
 t2 2
1 + 
 n −1

onde F(0) é uma constante que depende de n, de modo que a área sob a curva seja igual a 1. A
figura 7.8 mostra duas curvas t e uma curva normal. Observemos que a curva com GL = 6 é mais
próxima da curva normal que a curva t com GL = 1. Para valores de n próximos de 30 a curva t
e a curva normal padrão praticamente coincidem.

Figura 7.8 – Distribuição de Student t para vários graus de liberdade.

152
As propriedades da curva t podem ser resumidas no Fato Importante 7.5 a seguir.

Fato Importante 7.5 – Propriedades básicas das curvas t

P1) A área total sob a curva é igual a 1.


P2) Uma curva t se estende indefinidamente em ambas as direções, se aproximando do eixo
horizontal.
P3) Uma curva t é simétrica em relação ao 0.
P4) À medida que o número de graus de liberdade cresce, a curva t se aproxima da curva
normal padrão.

Cálculo de probabilidades usando uma curva t

A tabela 7.4 fornece os valores de t para cinco valores de áreas, definidas sob a curva, à
direita do valor t. Essas áreas são as mais comumente usadas em estatística para a determinação
de intervalos de confiança e, por isso, não há necessidade de apresentarmos tabelas completas
para cada grau de liberdade.

A coluna da esquerda dá o número de graus de liberdade. O símbolo tα define o valor t


com área α a sua direita, sob a curva. Dessa forma, a coluna identificada por t0,10 contém valores
de t com área 0,10 à sua direita, a coluna t0,05 contém valores de t com área 0,05 à sua direita e
assim por diante. Daremos a seguir um exemplo de uso da tabela.

Exemplo 7.4 – Ilustra como encontrar o valor de t para uma dada área

Determinar o valor t0,05 para uma curva t com 13 graus de liberdade.

Solução:

Determinar t0,05 significa determinar o valor de t de modo que a área à direita de t seja
igual a 0,05. Na tabela 7.4 procuramos na primeira coluna o valor 13 , uma vez que queremos
trabalhar com uma curva com 13 graus de liberdade. Agora, percorrendo a linha correspondente
ao valor 13, vamos até a coluna t0,05 onde encontramos o valor 1,771. A interpretação gráfica é
dada na figura 7.9.

Figura 7.9 – Curva t com 13 GL e valor t0,05.

153
Tabela 7.4 - Valores de tα

GL t0,10 t0,05 t0,025 t0,01 t0,005


1 3,078 6,314 12,706 31,821 63,657
2 1,886 2,920 4,303 6,965 9,925
3 1,638 2,353 3,182 4,541 5,841
4 1,533 2,132 2,776 3,747 4,604
5 1,476 2,015 2,571 3,365 4,032
6 1,440 1,943 2,447 3,143 3,707
7 1,415 1,895 2,365 2,998 3,499
8 1,397 1,860 2,306 2,896 3,355
9 1,383 1,833 2,262 2,821 3,250
10 1,372 1,812 2,228 2,764 3,169
11 1,363 1,796 2,201 2,718 3,106
12 1,356 1,782 2,179 2,681 3,055
13 1,350 1,771 2,160 2,650 3,012
14 1,345 1,761 2,145 2,624 2,977
15 1,341 1,753 2,131 2,602 2,947
16 1,337 1,746 2,120 2,583 2,921
17 1,333 1,740 2,110 2,567 2,898
18 1,330 1,734 2,101 2,552 2,878
19 1,328 1,729 2,093 2,539 2,861
20 1,325 1,725 2,086 2,528 2,845
21 1,323 1,721 2,080 2,518 2,831
22 1,321 1,717 2,074 2,508 2,819
23 1,319 1,714 2,069 2,500 2,809
24 1,318 1,711 2,064 2,492 2,797
25 1,316 1,708 2,060 2,485 2,787
26 1,315 1,706 2,056 2,479 2,779
27 1,314 1,703 2,052 2,473 2,771
28 1,313 1,701 2,048 2,467 2,763
29 1,311 1,699 2,045 2,462 2,756
∞ 1,282 1,645 1,960 2,326 2,576

Podemos agora discutir o procedimento para determinar um intervalo de confiança para a


média µ de uma população normal. Assumindo que uma amostra aleatória de tamanho n foi
retirada de uma população normal, sabemos que a variável aleatória

_
x− µ
t=
s
n

tem uma distribuição t com n-1 graus de liberdade e que probabilidades para essa variável
aleatória podem ser determinadas com base nas áreas sob a curva t com GL = n-1. A
probabilidade de que t esteja entre dois valores -tα/2 e tα/2 é dada por

154
 − 
 x− µ 
P − tα / 2 < < tα / 2  = 1 − α
 s 
 n 

Com uma pequena manipulação algébrica, a expressão acima pode ser reescrita como

− s − s 
P x − tα / 2 ⋅ < µ < x + tα / 2 ⋅  = 1−α
 n n 
Esta última expressão mostra que o intervalo com extremos

− s − s
x − tα / 2 ⋅ e x + tα / 2 ⋅
n n

será o intervalo de confiança para a média com nível de confiança (1-α). Para facilitar e
sistematizar o cálculo, colocamos o procedimento 7.2 abaixo.

Procedimento 7.2 – Determinando um intervalo de confiança para uma média de uma


população µ
Hipótese: População normal.

Passo 1 – Para um nível de confiança de 1-α, use a tabela 7.4 para encontrar tα/2 com
GL=n-1, onde n é o tamanho da amostra.
Passo 2 – O intervalo de confiança para µ é de

_
s _
s
x − tα/2 ⋅ a x + tα/2 ⋅
n n

onde tα/2 é determinado no passo 1, e x e s são computados dos dados da amostra obtida.

O procedimento acima se aplica para qualquer tamanho de amostra, desde que a


população sendo amostrada seja normal.

Exemplo 7.5 – Ilustra como aplicar o procedimento 7.2

Um estudo sobre cães domésticos mostra que os períodos de gestação são normalmente
distribuídos. Para estimar o período médio de gestação, 15 cadelas foram selecionadas
aleatoriamente e seus períodos observados. Os resultados estão na tabela dada abaixo.

155
62,0 61,4 59,8 62,2 60,3
60,4 59,4 60,2 60,4 60,8
61,8 59,2 61,1 60,4 60,9

Determine um intervalo de confiança para o período médio de gestação, µ, de cães


domésticos, com nível de confiança de 95%.

Solução:

Para determinar o intervalo de confiança vamos necessitar os valores da média e do


desvio padrão da amostra. Esses valores podem ser obtidos com as fórmulas já vistas no capítulo
2.


x=
∑ x = 910,3 = 60,69
n 15
e

s=
( )
n ∑ x 2 − (∑ x )
2

= 0,81 = 0,90
n(n − 1)

Agora, podemos aplicar o procedimento 7.2 na obtenção do intervalo de confiança.

Passo 1 – Para um nível de confiança de 1-α, use a tabela 7.4 para encontrar tα/2 com
GL=n-1, onde n é o tamanho da amostra.

Para um nível de confiança de 0,95 temos um valor de α igual a 0,05 e, portanto α/2 =
0,025. Da tabela 7.4, com GL = 15-1 =14, obtemos t0,025 = 2,145.

Passo 2 - O intervalo de confiança para µ será dado por

0,90 0,90
60,69 − 2,145 ⋅ a 60,69 + 2,145 ⋅
15 15

ou

60,19 a 61,18

156
Exercícios – Sequência 7.3

1) Uma marca de computadores de mão funciona com quatro pilhas AAA de 1,5V. Para
estimar a vida média das baterias, 50 computadores são testados. A vida média das
baterias para os 50 computadores foi determinada como sendo igual a 60,1 horas.
Assuma que o desvio padrão seja de 4,3 horas.
a) Obtenha um intervalo com 99% de confiança para a vida média das baterias, µ,
para esta marca de computador.
b) Interprete seu resultado da parte (a) em palavras.

2) Em uma fábrica de automóveis, 38 pessoas foram treinadas por duas semanas e então
testadas para verificar quanto tempo levavam para realizar uma particular operação de
montagem. A média e o desvio padrão dos tempos que eles levaram para realizar a tarefa
foram 68 e 12 segundos, respectivamente. Calcule um intervalo de confiança, com 95%
de nível de confiança, para a verdadeira média dos tempos para trabalhadores com duas
semanas de treinamento.

3) De uma grande amostra de uma população sabe-se que a estimativa da média da


população é x = 126,7 e que o máximo erro da estimativa é de 5,8 para um nível de
confiança de 95%. Usando esses dados determine:
a) O intervalo de confiança com nível igual a 95%.
b) O intervalo de confiança com nível igual a 90%.

4) Para uma curva t com GL = 18, obtenha os seguintes valores de t e ilustre seus resultados
graficamente.
a) O valor de t com área 0,025 à sua direita.
b) t0,05.
c) O valor de t com área 0,10 à sua esquerda
d) Os dois valores de t que dividem a área sob a curva em uma área central de 0,99 e
duas áreas laterais de 0,05.

5) Uma nova liga foi desenvolvida para ser utilizada em veículos espaciais. Testes de
resistência foram feitos em 15 corpos de prova e a média e o desvio padrão das medidas
resultaram em 39,3 e 2,6, respectivamente.
a) Determine um intervalo com 95% de confiança para a resistência média à tração
da liga.
b) A média está incluída neste intervalo?

157

Você também pode gostar