Você está na página 1de 101

Pós-graduação “lato sensu”

Curso de Matemática

Estatı́stica Aplicada
Profa . Ms. Daniela Carine Ramires de Oliveira
Prof. Ms. Marcos Santos de Oliveira
Profa . Ms. Luciane Teixeira Passos Giarola
Profa . Ms. Rejane Corrêa da Rocha

UFSJ
MEC / SEED / UAB
2009

1
Sumário

Pra começo de conversa... 3

Unidade I - Estimação 4
Aula 1 - Estimação de uma Proporção Populacional . . . . . . . . . . . . . . . . 5
Aula 2 - Estimação da Média Populacional com Desvio Padrão Populacional
Conhecido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Aula 3 - Estimação da Média Populacional com Desvio Padrão Populacional
Desconhecido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Aula 4 - Estimação da Variância Populacional ou Desvio Padrão Populacional . 32

Unidade II - Testes de Hipóteses 43


Aula 1 - Fundamentos do Teste de Hipótese e Teste sobre a Proporção Populacional 44
Aula 2 - Teste sobre a Média Populacional com Desvio Padrão Populacional
Conhecido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Aula 3 -Teste sobre a Média Populacional com Desvio Padrão Populacional Des-
conhecido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Aula 4 - Teste sobre a Variância Populacional ou Desvio Padrão Populacional . 68

Unidade III - Correlação e Regressão 75


Aula 1 - Diagrama de Dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
Aula 2 - Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
Aula 3 - Equação de Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
Aula 4 - Coeficiente de Determinação . . . . . . . . . . . . . . . . . . . . . . . . 92

Pra final de conversa... 97

Referências Bibliográficas 98

Apêndice 99

2
Pra começo de conversa...

A elaboração deste livro nasceu da vontade de produzir um material didático adequado ao


Ensino a Distância (EAD) de Estatı́stica Aplicada para o curso de Pós-Graduação Lato
Sensu de Matemática da Universidade Federal de São João del-Rei (UFSJ). O livro foi
escrito com o objetivo de apresentar, de forma resumida e didática, os conceitos mı́nimos
que são considerados essenciais no estudo do tema. Isso não significa que o estudante
deva se limitar ao estudo deste volume. Ao contrário, ele é o ponto de partida para busca
de um conhecimento mais amplo e aprofundado sobre o assunto.
O livro está dividido em três unidades, contendo quatro aulas cada uma. Ao final de cada
aula incluı́mos exercı́cios que visam à aplicação imediata dos conceitos discutidos. Ao final
de cada unidade apresentamos uma revisão da teoria e outros exercı́cios de revisão, com o
objetivo de reforçar ainda mais os conceitos estudados em cada unidade. Esses exercı́cios
de revisão serão parte de sua avaliação. O conteúdo a ser trabalhado nesse livro, requer o
uso das distribuições: Normal Padrão, t de Student e Qui Quadrado, as quais serão vistas
de forma detalhada nas aulas subsequentes. As respectivas tabelas destas distribuções se
encontram dispostas no Apêndice deste livro.
Esperamos que o(a) prezado(a) Estudante sinta o prazer de estudar este livro na mesma
proporção que os autores sentiram ao elaborar cuidadosamente cada conteúdo apresen-
tado.
Como este é um curso de pós-graduação, acreditamos que você já tenha visto boa parte
deste conteúdo na graduação. Selecionamos alguns livros textos da área de Estatı́stica
e procuramos manter os conceitos, notações, propriedades e exemplos utilizados pelos
autores. Fizemos boa parte deste módulo utilizando o livro do Triola (2005).
Atenção! Recomendamos insistentemente que você estude uma unidade a cada 20 dias.
Faça todos os exercı́cios propostos antes de iniciar o estudo da unidade seguinte e tire suas
dúvidas com os tutores. Lembre-se de que o ensino a distância tem suas peculiaridades
e que você é o principal responsável pelo seu sucesso no curso. Por isso, é necessário
que você tenha disciplina, dedicação e empenho. Não deixe acumular matéria. Caso
isso aconteça, aproveite os fins de semana para colocar a matéria em dia e finalizar cada
unidade proposta.
Nós, professores-autores, bem como os tutores, estamos à sua disposição para atendê-lo(a)
da melhor maneira possı́vel.
Agradecemos à equipe do NEAD/UFSJ pelo apoio na produção deste material. As crı́ticas
e sugestões de colegas e estudantes serão muito bem-vindas e auxiliarão a melhoria da
próxima versão.

Os Autores

3
Unidade I

Estimação

A Unidade I está dividida em 4 aulas da seguinte forma:

Na primeira aula, você irá estudar os conceitos de estimativa pontual, estimativa inter-
valar (também conhecido como intervalo de confiança), nı́vel de confiança, valor crı́tico,
margem de erro e obtenção do tamanho amostral, quando se quer estimar uma Proporção
Populacional (p).

Na segunda aula, você irá estudar os conceitos de estimativa pontual, intervalo de


confiança e obtenção do tamanho amostral, quando se quer estimar a Média Populacional
(µ), mas com Desvio Padrão Populacional (σ) conhecido.

Na terceira aula, você irá estudar os conceitos de estimativa pontual e intervalar, quando
se quer estimar µ, mas σ é desconhecido.

Na quarta aula, você irá estudar os conceitos de estimativa pontual e intervalo de


confiança, quando se quer estimar o Desvio Padrão Populacional (σ).
Aula 1 - Estimação de uma Proporção Populacional

Objetivos

Ao final desta aula você deverá ser capaz de:

1. Estimar um valor para a proporção populacional.


2. Determinar um intervalo de confiança para a proporção populacional.
3. Aplicar os conceitos de grau de confiança, valor crı́tico e margem de erro.
4. Obter o tamanho amostral, quando se quer estimar a proporção populacional.

Introdução

Baseando na idéia de Triola (2005, Cap. 6) montamos o conteúdo a ser trabalhado


e uma sugestão de estudo para esta Unidade I. Esta aula contém muita informação e
introduz muitos conceitos. O tempo dedicado a esta aula deverá ser bem empregado,
pois introduzimos o conceito de intervalo de confiança, que será usado nas aulas seguintes
desta Unidade I. Sugerimos que você use esta estratégia de estudo: primeiramente, leia
esta aula para entender o que são os intervalos de confiança, o que fazem e por que são
necessários. Em segundo lugar, procure desenvolver a habilidade de construir estimativas
de intervalos de confiança de proporções populacionais. Em terceiro lugar, observe como
interpretar corretamente um intervalo de confiança. Em quarto lugar, leia a aula de novo
para entender a teoria subjacente. Você terá muito mais sucesso se entender o que está
fazendo, em vez de aplicar cegamente passos mecânicos para obter uma resposta que pode
ou não ter algum sentido.

Eis o objetivo desta aula: dada uma proporção amostral, estimar o valor da proporção
populacional p. Por exemplo, considere uma pesquisa em que o objetivo era estimar a
proporção p de todos os adultos de Minas Gerais que se opõem a legislação do radar
fotográfico (câmeras para registrar e depois multar motoristas que desrespeitam o sinal
vermelho). Para estimar essa proporção p, foram entrevistados 829 adultos e 51% deles se
opõem ao radar fotográfico. A estatı́stica amostral de 51% pode ser representada como a
proporção amostral de 0,51. Logo, usando o tamanho amostral de n = 829 e a proporção
amostral de 0,51, prosseguiremos para estimar p.

5
Suposições

1. A amostra de tamanho n é uma amostra aleatória simples, isto é, toda amostra
possı́vel de tamanho n tem a mesma chance de ser escolhida.

2. A distribuição normal pode ser usada para aproximar a distribuição das proporções
amostrais.

Esta exigência de seleção aleatória significa que os métodos desta aula não podem ser
usados com qualquer outro tipo de amostragem, como estratificada, por conglomerado ou
de conveniência.

Atenção! Dados coletados sem cuidado podem ser absolutamente sem valor, mesmo que
a amostra seja muito grande.

Sabemos que diferentes amostras produzem resultados diferentes. Os métodos desta aula
supõem que essas diferenças amostrais sejam devidas a flutuações aleatórias do acaso,
e não a algum método infundado de amostragem. Se você fosse realizar uma pesquisa
acerca da legislação que trata de dirigir alcoolizado e selecionasse uma amostra de donos
de bar, não deveria usar os resultados para fazer qualquer estimativa da proporção de
todos os adultos brasileiros. A amostra de donos de bar é, provavelmente, uma amostra
tendenciosa, no sentido de que não é representativa de todos os brasileiros.

Considerando que tenhamos uma amostra aleatória simples e que a outra suposição acima
seja satisfeita, podemos agora prosseguir em direção ao nosso maior objetivo: usar a
amostra como base para estimar o valor da proporção populacional p. Introduzimos a
nova notação pb (lê-se p chapéu) para a proporção amostral. Por exemplo, se é relatado que
829 adultos de Minas Gerais foram pesquisados e 51% deles se manifestaram contrários à
legislação do radar fotográfico, então pb = 0,51.

Se desejamos estimar a proporção populacional p com um único valor, a melhor estimativa


é pb. Como pb consiste em um único valor, é chamado de estimativa pontual.

Definição 1 Uma estimativa pontual é um único valor usado para estimar um parâmetro
populacional.

Definição 2 Um parâmetro populacional é uma caracterı́stica de interesse da população,


por exemplo, uma proporção, uma média, uma variância ou um desvio padrão.

6
Exemplo 1. Vimos que 829 adultos de Minas Gerais foram pesquisados, e que 51%
deles se opunham ao uso das câmeras para se aplicarem multas de trânsito. Usando os
resultados da pesquisa, ache a melhor estimativa pontual da proporção de todos os adultos
de Minas Gerais que se opõem ao uso das câmeras.

Solução: Como a proporção amostral é a melhor estimativa pontual da proporção


populacional, concluı́mos que a melhor estimativa de p é 0,51. Ao usar os resultados da
pesquisa para estimar a porcentagem de todos os adultos de Minas Gerais que se opõem
ao uso das câmeras, nossa melhor estimativa é 51%. 

Por que precisamos dos Intervalos de Confiança?

No Exemplo 1, vimos que 0,51 era nossa melhor estimativa pontual da proporção popula-
cional p, mas não temos qualquer indicação de quão boa era nossa melhor estimativa. Se
tivéssemos uma amostra de apenas 20 adultos de Minas Gerais e 12 se opusessem ao uso de
câmeras, nossa melhor estimativa pontual seria a proporção amostral de pb = 12/20 = 0,6,
mas não esperarı́amos que essa estimativa pontual fosse muito boa porque se baseou em
uma amostra muito pequena. Como a estimativa pontual tem a falha de não revelar quão
boa ela é, os estatı́sticos desenvolveram outro tipo de estimativa chamada estimativa in-
tervalar ou intervalo de confiança, que consiste em uma faixa (ou intervalo) de valores em
vez de apenas um único valor.

Definição 3 Uma estimativa intervalar ou um intervalo de confiança (IC) é um intervalo


de valores usado para estimar o verdadeiro valor de um parâmetro populacional.

A cada intervalo de confiança está associado um nı́vel de confiança, o qual pode assumir
valores tais como 0,90 (ou 90%), 0,95 (ou 95%) ou 0,99 (ou 99%). O nı́vel de confiança
fornece a taxa de sucesso do procedimento usado para construir o intervalo de confiança,
ao qual é, muitas vezes, expresso como uma probabilidade ou uma área igual a 1 − α. O
valor de α é o complemento do nı́vel de confiança. Para um nı́vel de confiança de 0,90
(ou 90%), α = 0,10. Para um nı́vel de confiança de 0,95 (ou 95%), α = 0,05. Para um
nı́vel de confiança de 0,99 (ou 99%), α = 0,01.

Definição 4 O nı́vel de confiança é a probabilidade 1 − α (em geral, expresso em porcen-


tagem) representando a proporção de vezes que o intervalo de confiança realmente contém
o parâmetro populacional, supondo que o processo de estimação seja repetido um grande
número de vezes. O nı́vel de confiança é também chamado grau de confiança ou coeficiente
de confiança).

7
As escolhas mais comuns para o nı́vel de confiança são 90%, 95% e 99%. A escolha de 95%
é mais comum porque resulta em um bom equilı́brio entre precisão (conforme refletido
na largura do intervalo de confiança) e confiabilidade (conforme expresso pelo nı́vel de
confiança).

Figura 1: Encontrando zα/2 para um nı́vel de confiança de 95%.

Após fixar um nı́vel de confiança, você deverá associar um valor crı́tico para calcular um
intervalo de confiança. O valor crı́tico é um escore padrão z, que pode ser usado para
distinguir entre estatı́sticas amostrais que têm chance de ocorrer e aquelas que não têm.

Valores crı́ticos se baseiam nas seguintes observações:

1. A distribuição amostral das proporções amostrais pode ser aproximada por uma
distribuição normal, como na Figura 1.

2. Proporções amostrais têm uma chance relativamente pequena (com probabilidade


representada por α de cair em uma das caudas sombreadas da Figura 1.

3. Representando a área de cada cauda sombreada por α/2, vemos que há uma pro-
babilidade total α de que uma proporção amostral caia em uma das duas caudas
sombreadas.

8
4. Pela regra dos complementos, há uma probabilidade 1 − α de que uma proporção
amostral caia na região central (em branco) da Figura 1.

5. O escore z que separa a região da cauda à direita é comumente denotado por zα/2 e
é chamado de valor crı́tico porque está na fronteira que separa proporções amostrais
que têm chance de ocorrer das que não têm.

6. Para determinar o valor do valor crı́tico (zα/2 ) é necessário utilizar a tabela da


Distribuição Normal Padrão, procurando no seu interior a área à esquerda do valor
crı́tico (1 − α2 ).

Essas observações podem ser formalizadas com a definição seguinte.

Definição 5 Um valor crı́tico é um número na fronteira que separa estatı́sticas amostrais


que têm chance de ocorrer daquelas que não têm. O número zα/2 é um valor crı́tico que
é um escore z com a probabilidade de separar uma área de α/2 na cauda à direita da
distribuição normal padronizada. (Veja Figura 1).

Exemplo 2. Ache o valor crı́tico zα/2 correspondente ao nı́vel de confiança de 95%.

Solução: Cuidado! Para achar o valor crı́tico zα/2 para um nı́vel de confiança de 95%,
não procure 0,95 no interior da tabela da Normal Padrão. Um nı́vel de confiança de 95%
corresponde a α = 0,05. Veja a Figura 1, onde mostramos que a área em cada cauda
sombreada é α/2 = 0,025. Vemos que zα/2 = 1,96, observando que toda a área à sua
esquerda deve ser 1 − 0,025 ou 0,975. Podemos recorrer à tabela da Normal Padrão e
encontrar que a área de 0,9750 (encontrada no interior da tabela) corresponde exatamente
ao escore z de 1,96. Para um nı́vel de confiança de 95%, o valor crı́tico é, portanto,
zα/2 = 1,96. 

O Exemplo 2 mostrou que um nı́vel de confiança de 95% resulta em um valor crı́tico de


zα/2 = 1,96. Este é o valor crı́tico mais comum e está listado junto com dois outros valores
comuns na Tabela 1.

Quando coletamos um conjunto de dados amostrais, tais como os dados da pesquisa do


radar fotográfico (com 51% dos 829 respondentes se opondo às câmeras), podemos calcular
a proporção amostral pb, e essa proporção amostral é tipicamente diferente da proporção
populacional p. A diferença entre a proporção amostral e a proporção populacional pode
ser encarada como um erro. Definimos, agora, a margem de erro como segue.

9
Tabela 1: Listagem de nı́veis de confiança mais utilizados e seus respectivos valores
crı́ticos.

Nı́vel de Confiança α Valor Crı́tico (zα/2 )


90% 0,10 1,645
95% 0,05 1,960
99% 0,01 2,575

Definição 6 Quando os dados de uma amostra aleatória simples são usados para estimar
uma proporção populacional p, a margem de erro, representada por E, é a diferença
máxima provável (com probabilidade 1 − α) entre a proporção amostral observada pb e o
verdadeiro valor da proporção populacional p. A margem de erro E é também chamada
de erro máximo da estimativa e pode ser encontrada pela multiplicação do valor crı́tico
pelo desvio padrão das proporções amostrais, conforme a fórmula a seguir.

r
pb(1 − pb)
E = zα/2 (1)
n

Definição 7 O intervalo de confiança para a proporção populacional p com um nı́vel de


confiança 100(1 − α)% é dado por:
IC [p ; 100(1 − α)%] = [b p − E ; pb + E],
onde E é como a fórmula (1).

Exemplo 3. Vimos que 829 adultos de Minas Gerais foram entrevistados e que 51%
deles se opunham ao uso das câmeras para aplicação de multas de trânsito. No Exemplo
1, constatamos que a melhor estimativa pontual da proporção populacional é 0,51. Use
esses mesmos resultados da pesquisa para responder as questões a seguir.

a) Ache a margem de erro E que corresponde ao nı́vel de confiança de 95%.

b) Ache a estimativa do intervalo de confiança de 95% de confiança da proporção popu-


lacional p.

c) Com base nos resultados, podemos concluir com segurança que a maioria dos adultos
de Minas Gerais se opõe ao uso de câmeras no policiamento do trânsito?

Solução: a) Para um nı́vel de confiança de 95%, temos que zα/2 = 1,96. Sabemos
também que pb = 0,51 e n = 829. A margem de erro expressa na fórmula (1) fica

10
r r
pb(1 − pb) 0,51(1 − 0,51) ∼
E = zα/2 = 1,96 = 0,034.
n 829

b) A construção do intervalo de confiança é, agora, muito fácil, uma vez que temos os
valores de pb e de E. Simplesmente substituı́mos esses valores para se obter este resultado:

IC[p; 95%] = [0,510 − 0,034; 0,510 + 0,034] = [0,476; 0,544].

Esse mesmo resultado poderia ser expresso no formato de 0,51 ± 0,034. Se desejássemos o
intervalo de confiança de 95% de confiança para a verdadeira porcentagem populacional,
poderı́amos expressar o resultado como [47,6%; 54,4%]. Esse intervalo de confiança é, em
geral, apresentado com uma alternativa como: ”Estima-se que 51% dos adultos de Minas
Gerais se opunham ao uso de câmeras no policiamento do trânsito, com uma margem de
erro de mais ou menos 3,4 pontos percentuais”. Essa afirmativa, muito comum em meios
de comunicação em épocas de eleição, é uma expressão verbal do seguinte formato para
o intervalo de confiança: 51% ± 3,4%. O nı́vel de confiança deve, também, ser informado,
mas raramente a mı́dia o faz. A mı́dia usa comumente o intervalo de confiança de 95%
de confiança, mas omite qualquer referência a ele.

c) Com base nos resultados da pesquisa, estamos 95% confiantes de que os limites de
47,6% e 54,4% contém a verdadeira porcentagem dos adultos de Minas Gerais que se
opõem ao uso de câmeras. É provável que essa porcentagem seja algum valor entre 47,6%
e 54,4%. No entanto, a maioria exige uma porcentagem maior do que 50%, de modo que
não podemos concluir com segurança que a maioria seja contra o uso de câmeras (porque
o limite inferior do intervalo não é maior do que 50%). 

Interpretação de um Intervalo de Confiança

Devemos ser cuidadosos para interpretar corretamente os intervalos de confiança. Há uma
interpretação correta e muitas, diferentes e criativas, interpretações erradas do intervalo
de confiança [0,476; 0,544].

Correta: “Estamos 95% confiantes de que o intervalo de 0,476 a 0,544 realmente contém
o verdadeiro valor de p”. Isto significa que, se selecionássemos muitas diferentes amostras
de tamanho 829 e construı́ssemos os intervalos de confiança correspondentes, 95% deles
realmente conteriam o valor da proporção populacional p. (Note que nesta interpretação
correta o nı́vel de 95% se refere à taxa de sucesso do processo em uso para estimar a
proporção populacional, e não se refere à própria proporção populacional).

11
Errada: “Há uma chance de 95% de que o verdadeiro valor de p estará entre 0,476 e
0,544”.

Em qualquer ponto especı́fico no tempo, há um valor de p fixo e constante, que representa
a proporção de adultos de Minas Gerais que se opõe ao uso das câmeras. Se usamos
dados amostrais para determinar limites especı́ficos, tais como 0,476 e 0,544, esses limites
incluirão ou não a proporção populacional p, e não podemos dizer se incluem ou não sem
conhecermos o verdadeiro valor de p. Mas é errado dizer que p tem uma chance de 95%
de estar entre os limites especificados de 0,476 e 0,544, porque p é uma constante fixa
(embora desconhecida), não uma variável aleatória. Não há probabilidade envolvida do p
estar entre os limites ou não. Esse parece ser um conceito confuso, no entanto, considere
um exemplo mais simples, no qual queremos achar a probabilidade de um bebê ser uma
menina. Se o bebê já nasceu, mas o médico ainda não anunciou o sexo, não podemos dizer
que haja uma probabilidade 0,5 de que o bebê seja uma menina, porque o bebê já é, ou não,
uma menina. Não há chance envolvida, porque o sexo já foi determinado. Analogamente,
uma proporção populacional p já está determinada, e os limites do intervalo de confiança
contêm p ou não, de modo que é errado dizer que há uma chance de 95% de que p esteja
entre 0,476 e 0,544.

Determinação do Tamanho Amostral

Suponha que desejamos coletar dados amostrais com o objetivo de estimar alguma pro-
porção populacional. Como saberemos quantos itens amostrais devem ser obtidos?

Quando se conhece uma estimativa de pb, então

2
zα/2
n= pb (1 − pb), (2)
E2
caso contrário, temos que

2
zα/2
n= 0,25. (3)
E2
As fórmulas (2) e (3) foram obtidas através da fórmula para a margem de erro E (fórmula
(1)). Isto é, se fixarmos um valor para E e um nı́vel de confiança para a pesquisa (para
encontramos o valor crı́tico zα/2 ), teremos o valor de n, isolando-o como na fórmula (2). A
fórmula (2) exige pb, uma estimativa da proporção populacional p, mas se não se conhece
qualquer estimativa (como é usualmente o caso), substituı́mos pb por 0,5, com o resultado
dado na fórmula (3).

12
Para garantir que o tamanho amostral exigido seja no mı́nimo tão grande como deve ser,
se o tamanho amostral calculado não for um número inteiro, arredonde-o para o inteiro
maior mais próximo.

Use a fórmula (2) quando for possı́vel fazer estimativas razoáveis de pb com o auxı́lio de
amostras prévias, de um estudo piloto, ou do conhecimento de alguma pessoa perita.
Quando tal estimativa não puder ser feita, atribuı́mos o valor 0,5 para pb, de modo que
o tamanho amostral resultante será, no mı́nimo, tão grande quanto deva ser. A razão
para a atribuição do valor 0,5 é que o produto de pb(1 − pb) é máximo quando pb = 0,5.
(Faça experiência com diferentes valores de pb para verificar que pb(1 − pb) tem 0,25 como
seu maior valor possı́vel).

Exemplo 4. As maneiras pelas quais nos comunicamos têm sido drasticamente afetadas
pelo uso de secretárias eletrônicas, fax, correio por voz e email. Suponha que um sociólogo
queira determinar a porcentagem atual das famı́lias que usa o email. Quantas famı́lias de-
vem ser entrevistadas para que tenhamos 95% de confiança e que a porcentagem amostral
não tenha erro maior do que quatro pontos percentuais?

a) Use este resultado de um estudo anterior: Em 1997, 16,9% das famı́lias americanas
usavam email (com base em dados do The World Almanac and Book of Facts).

b) Suponha que não tenhamos qualquer informação que sugira um possı́vel valor para pb.

Solução: a) O estudo anterior sugere que pb = 0,169. Com um nı́vel de confiança de


95%, temos α = 0,05, de modo que zα/2 = 1,96. Também a margem de erro é E = 0,04
(o equivalente decimal de “quatro pontos percentuais”). Como temos um valor estimado
de pb, usamos a fórmula (2) como segue:

1,962
n= ∗ 0,169 ∗ 0,831 = 337,194 ∼
= 338
0,042

Devemos entrevistar, pelo menos, 338 famı́lias selecionadas aleatoriamente.

b) Como na parte (a), usamos novamente zα/2 = 1,96 e E = 0,04. Sem qualquer conheci-
mento prévio de pb usamos a fórmula (3) como segue:

1,962
n= ∗ 0,25 = 600,25 ∼
= 601
0,042


13
Interpretação

Para se ter 95% de confiança de que nossa porcentagem amostral esteja a, no máximo,
quatro pontos percentuais da verdadeira porcentagem de todas as famı́lias, devemos sele-
cionar 601 famı́lias. Comparando esse resultado com o tamanho amostral encontrado na
parte (a), podemos ver que, se não temos qualquer conhecimento de um estudo anterior, é
necessária uma amostra maior para se obter os mesmos resultados de quando um valor de
pb pode ser estimado. Mas, usemos agora um pouco de bom senso: sabemos que o uso de
emails está crescendo tão rapidamente que a estimativa de 1997 está muito defasada para
ser de alguma utilidade. Hoje, substancialmente mais de 16,9% das famı́lias usam email.
Assim, na verdade, precisamos de uma amostra maior do que 338 famı́lias. Supondo
que não conheçamos realmente a taxa atual de uso do email, devemos selecionar aleato-
riamente 601 famı́lias. Com 601 famı́lias, estaremos 95% confiantes de que estaremos a
quatro pontos percentuais da verdadeira proporção das famı́lias que usam o email.

Erros Comuns
Ao usar as fórmulas (2) ou (3) para calcular o tamanho da amostra, certifique-se de
substituir zα/2 pelo escore z crı́tico. Por exemplo, se você está trabalhando com 95% de
confiança, substitua zα/2 por 1,96. Não cometa o erro de substituir zα/2 por 0,95 ou 0,05.
Não cometa, também, o erro de usar E = 4 como a margem de erro correspondente a
quatro pontos percentuais. Ao usar as fórmulas (2) ou (3), o valor E nunca excede 1. O
erro de usar E = 4 em vez de E = 0,04 faz com que o tamanho da amostra seja 1/10.000
do que deveria ser, de tal forma que você terminaria com um tamanho de amostra de
apenas 1 quando a resposta fosse arredondada. Você realmente não pode calcular uma
proporção populacional entrevistando apenas uma pessoa (mesmo havendo pessoas que
afirmam saber de tudo).

Tamanho da População
A parte (b) do Exemplo 4 envolveu a aplicação da fórmula (3), a mesma fórmula frequente-
mente usada por grandes empresas que fazem pesquisas, tais como, Nielsen, Gallup, entre
outras. Algumas pessoas acreditam, incorretamente, que o tamanho da amostra deve-
ria ser alguma porcentagem da população, mas a fórmula (3) mostra que o tamanho da
população é irrelevante. A maioria das pesquisas feitas por jornais, revistas e mı́dia em
geral envolvem tamanhos amostrais na faixa de 1000 a 2000. Mesmo envolvendo uma por-
centagem tão pequena da população, tais pesquisas podem oferecer resultados confiáveis.
Quando a empresa Nielsen pesquisa 4000 famı́lias de telespectadores de uma população de
104 milhões de famı́lias, apenas 0,004% das famı́lias são entrevistadas; ainda assim, pode-
mos estar 95% confiantes em que a porcentagem amostral estará a um ponto percentual
da verdadeira porcentagem populacional.

14
Fundamentos

O intervalo de confiança é construı́do através do seguinte fundamento:

p − p| ≤ E) = 1 − α,
P (|b
isto é, a probabilidade da diferença entre a proporção amostral (b
p) e a verdadeira pro-
porção populacional (p) ser menor ou igual a uma certa margem de erro (E) é igual a
1 − α. Esse 1 − α passou a ser chamado de nı́vel de confiança, ou seja, é uma probabili-
dade de confiança desta diferença entre pb e p ser menor ou igual a esta margem de erro.
Trabalhando um pouco mais com esta expressão, ou seja, retirando o módulo e isolando
o p, temos

P (−E ≤ pb − p ≤ E) = 1 − α
P (−E ≤ p − pb ≤ E) = 1 − α
p − E ≤ p ≤ pb + E) = 1 − α
P (b

Por isso, escrevemos o intervalo de confiança da forma

IC[p; (1 − α) ∗ 100%] = [b
p − E; pb + E],
pois este intervalo fornece a região em que p está limitada com probabilidade 1 − α.

O Teorema Central do Limite apresentado em Bussab e Morettin (2006) nos garante que
a proporção amostral (b
p) tem, para um tamanho depamostra grande, uma distribuição
normal com média igual a p e desvio padrão igual a p(1 − p)/n ou

pb − p
p ∼ N (0, 1)
p(1 − p)/n
Logo, pela Figura 1, temos que

 
pb − p
P −zα/2 ≤ q ≤ zα/2  = 1 − α
p(1−p)
n
r r !
p(1 − p) p(1 − p)
P −zα/2 ∗ ≤ pb − p ≤ zα/2 ∗ =1−α
n n
r !
p(1 − p)
P |b
p − p| ≤ zα/2 ∗ =1−α
n

15
q
p(1−p)
Com isso, podemos observar que E = zα/2 ∗ n
e E é obtido substituindo p por pb.

Exercı́cios
1. Pesquisa sobre Pena de Morte - Triola (2005, exercı́cio 28, p. 242). Em
uma pesquisa do Gallup, foi perguntado a 491 adultos selecionados aleatoriamente
se eram ou não a favor da pena de morte para uma pessoa condenada por assassinato
e 65% deles responderam que eram a favor.

a) Obtenha a estimativa pontual da porcentagem de adultos que são a favor dessa


pena de morte.

b) Determine a estimativa intervalar de 95% de confiança da porcentagem de adultos


que são a favor dessa pena de morte.

c) Podemos concluir com segurança que a maioria dos adultos é a favor dessa pena
de morte? Explique.

2. Telefones Celulares e Câncer - Triola (2005, exercı́cio 39, p. 243). Um


estudo com 42000 dinamarqueses usuários de telefones celulares descobriu que 135
deles tinham desenvolvido câncer no cérebro ou no sistema nervoso. Anteriormente
a esse estudo do uso do telefone celular, a taxa desse tipo de câncer era de 0,034%
para aqueles que não usavam o telefone celular. Os dados são do Journal of the
National Cancer Institute.

a) Use os dados amostrais para construir uma estimativa de intervalo de confiança de


99% de confiança da porcentagem de usuários de telefone celular que desenvolveram
câncer no cérebro ou no sistema nervoso.

b) Os usuários de telefones celulares parecem ter uma taxa de câncer no cérebro ou


no sistema nervoso que seja diferente da taxa de tais cânceres entre os que não usam
telefones celulares? Por que sim ou por que não?

3. Alturas de Mulheres - Adaptado de Triola (2005, exercı́cio 51, p. 245).


As alturas de mulheres possuem distribuição Normal com média 165 cm e desvio
padrão de 10 cm. Quantas mulheres devem ser entrevistadas se desejamos estimar
a porcentagem das que são mais altas do que 180 cm? Foi pedido que se tenha 90%
de confiança e que o erro não seja maior que 2,5 pontos percentuais.

16
Aula 2 - Estimação da Média Populacional com Desvio
Padrão Populacional Conhecido

Objetivos

Ao final desta aula você deverá ser capaz de:

1. Estimar um valor para a média populacional.

2. Determinar um intervalo de confiança para a média populacional, quando o desvio


padrão populacional é conhecido.

3. Obter o tamanho amostral, quando se quer estimar a média populacional.

Na Aula 1, introduzimos a estimativa pontual e o intervalo de confiança como ferra-


mentas para se usar uma proporção amostral para estimar uma proporção populacional.
Mostramos, também, como determinar o tamanho mı́nimo da amostra necessário para
estimar uma proporção populacional. Nesta Aula 2, discutiremos novamente a estimativa
pontual, o intervalo de confiança e a determinação do tamanho amostral, mas considera-
remos agora o objetivo da determinação da média populacional µ.

Suposições
1. A amostra é uma amostra aleatória simples. (Todas as amostras do mesmo tamanho
têm possibilidade igual de serem selecionadas).

2. O valor do desvio padrão populacional, σ, é conhecido.

3. Uma ou ambas as condições seguintes são satisfeitas: A população é normalmente


distribuı́da ou n > 30.

Nas suposições acima, vimos que queremos estimar uma média populacional desconhecida
µ, mas devemos saber o valor do desvio padrão populacional σ. Seria um conjunto bas-
tante não usual de circunstâncias que nos permitiria conhecer σ sem conhecer µ. Afinal
de contas, a única maneira de encontrarmos o valor de σ é calculá-lo a partir de outros
valores populacionais conhecidos, de modo que o cálculo de µ também seria possı́vel; e se
podemos achar o verdadeiro valor de µ, não há necessidade de que o estimemos. Embora
os métodos de intervalo de confiança desta Aula 2 dificilmente são utilizados na prática,
eles revelam os conceitos básicos de importantes raciocı́nios estatı́sticos e formam a base
para a determinação do tamanho amostral discutido mais adiante, nesta Aula 2.

17
Nesta Aula 2 usaremos as suposições de que temos uma amostra aleatória simples, de que
o valor de σ é conhecido e de que ou a população é normalmente distribuı́da ou n > 30.
Tecnicamente, a população não precisa ter uma distribuição exatamente normal, mas
deve ser aproximadamente normal, o que significa que a distribuição é, de alguma forma,
simétrica, com uma única moda e nenhum outlier (ou ponto discrepante). Examine a
normalidade construindo um histograma a partir dos dados amostrais e então determine
se tem a forma aproximada de sino. Em geral, podemos considerar que uma população
é normalmente distribuı́da depois de usar os dados amostrais para confirmar que não há
outliers e que o histograma tem uma forma que não se afasta muito de uma distribuição
normal.

Uma outra suposição importante desta Aula 2 é que a distribuição das médias amostrais
é normal. Se a população original é em si normalmente distribuı́da, então as médias
de amostras de qualquer tamanho serão normalmente distribuı́das (isto é garantido pelo
Teorema Central do Limite). Se a população original não é em si normalmente distribuı́da,
então dizemos que as médias de amostras de tamanho n > 30 têm uma distribuição que
é aproximada por uma distribuição normal. A condição de que o tamanho da amostra
seja n > 30 é comumente usada como uma diretriz, mas não é possı́vel identificar um
tamanho amostral mı́nimo especı́fico que seja suficiente para todos os casos. O tamanho
amostral mı́nimo, na verdade, depende de como a distribuição populacional se afasta de
uma distribuição normal. Tamanhos amostrais de 15 a 30 são adequados se a população
parece ter uma distribuição que não se afasta muito da distribuição normal, mas algumas
outras populações têm distribuições que são extremamente distantes da normal, e então
tamanhos amostrais de 50, ou mesmo 100, podem ser necessários. Usaremos o critério
simplificado de n > 30 como justificativa para tratar a distribuição das médias amostrais
como uma distribuição normal.

Na Aula 1, vimos que a proporção amostral pb é a melhor estimativa pontual da proporção


populacional p. Por razões análogas, a média amostral x é a melhor estimativa pontual
da média populacional µ.

Embora pudéssemos usar uma outra estatı́stica, como a mediana ou a moda, como uma
estimativa da média populacional µ, estudos mostraram que a média amostral x, em geral,
resulta na melhor estimativa pelas duas razões seguintes:

1. Para muitas populações, a distribuição das médias amostrais x tende a ser mais con-
sistente (com menos variação) do que outras estatı́sticas amostrais. (Isto é, se você
usa médias amostrais para estimar a média populacional µ, essas médias amostrais
terão um desvio padrão menor do que teriam outras estatı́sticas amostrais, como a
mediana ou a moda. As diferenças entre x e µ tendem a ser, portanto, menores do
que as diferenças obtidas com qualquer outra estatı́stica, como a mediana).

18
2. Para todas as populações, a média amostral x é um estimador não viesado da média
populacional µ, o que significa que a distribuição das médias amostrais tende a se
centralizar em torno do valor da média populacional µ, isto é, as médias amostrais
não tendem sistematicamente a superestimar ou a subestimar o valor da média
populacional µ. Ao contrário, tendem a atingir o alvo do próprio valor de µ.

Exemplo 5. Foi coletada a temperatura corporal de 106 indivı́duos, no horário de meio


dia. Eis as estatı́sticas para esta amostra: n = 106, x = 36,70 C e s = 17,20 C. Use esta
amostra para achar a melhor estimativa pontual da média populacional µ de todas as
temperaturas do corpo.

Solução: Para os dados amostrais, x = 36,70 C. Como a média amostral x é a melhor


estimativa pontual da média populacional µ, concluı́mos que a melhor estimativa pontual
da média populacional µ de todas as temperaturas do corpo é 36,70 C. 

Intervalo de Confiança para a Média Populacional com Desvio


Padrão Populacional Conhecido

Vimos na Aula 1 que, embora uma estimativa pontual seja o melhor valor para estimar
um parâmetro populacional, ela não nos fornece qualquer indicação de quão boa é essa
melhor estimativa. Os estatı́sticos desenvolveram o intervalo de confiança ou estimativa
intervalar, que consiste em uma faixa (ou intervalo) de valores, em vez de apenas um
único valor. O intervalo de confiança está associado a um nı́vel de confiança, tal como
0,95 (ou 95%). O nı́vel de confiança nos dá a taxa de sucesso do procedimento usado para
construir o intervalo de confiança. Conforme descrito na Aula 1, o nı́vel de confiança se
expressa, em geral, como a probabilidade ou área 1 − α, onde α é o complemento do nı́vel
de confiança. Para um nı́vel de confiança de 0,95 (ou 95%), α = 0,05. Para um nı́vel de
confiança de 0,99 (ou 99%), α = 0,01.

Margem de Erro

Quando coletamos um conjunto de dados amostrais, como o conjunto de 106 temperaturas


do corpo ao meio dia, podemos calcular a média amostral x, e essa média amostral é
tipicamente diferente da média populacional µ. A diferença entre a média amostral e a
média
√ populacional √ é um erro. O desvio padrão das médias amostrais é definido como
σ/ n. Usando σ/ n e a notação zα/2 , introduzida na Aula 1, usamos agora, a margem
de erro E, que se expressa como segue.

19
Definição 8 Quando os dados de uma amostra aleatória simples são usados para estimar
uma média populacional µ, a Margem de Erro, representada por E, é a diferença máxima
provável (com probabilidade 1−α) entre a média amostral observada x e o verdadeiro valor
da proporção populacional µ. A margem de erro E é também chamada de erro máximo
da estimativa e pode ser encontrada pela multiplicação do valor crı́tico pelo desvio padrão
das médias amostrais, conforme a fórmula a seguir.

σ
E = zα/2 √ (4)
n

Sempre que a população tiver uma distribuição normal com média µ e desvio padrão
σ, o Teorema Central do Limite garante que a distribuição das médias amostrais √ x é
exatamente uma distribuição normal com média igual a µ e desvio padrão igual a σ/ n.
Este resultado é refletido na fórmula (4), conforme os fundamentos apresentados na Aula
1. Se a população não for normalmente distribuı́da, amostras grandes resultam em médias
amostrais com uma distribuição que é aproximadamente normal.

Dada a definição da margem de erro E, há uma probabilidade 1 − α de que a média


amostral esteja em erro (seja diferente da média populacional) não superior a E, e há
uma probabilidade α de que a média amostral esteja em erro superior a E. O cálculo da
margem de erro E, conforme apresentado na fórmula (4), exige que conheçamos o desvio
padrão populacional σ. Um método para o cálculo da margem de erro E quando σ não
for conhecido será apresentado na Aula 3.

Definição 9 O intervalo de confiança para a média populacional µ, quando o desvio


padrão populacional σ é conhecido, com confiança 100(1 − α)% é dado por:
IC [µ ; 100(1 − α)%] = [x − E ; x + E],
onde E é como na fórmula (4).

Exemplo 6. Para o estudo sobre a temperatura do corpo ao meio dia mencionado


anteriormente, temos n = 106 e x = 36,70 C. Suponha que a amostra seja uma amostra
aleatória simples e que σ, conhecido de alguma maneira, seja 17,20 C. Usando um nı́vel
de confiança de 95%, obtenha:

a) A margem de erro E.

b) O intervalo de confiança para µ.

20
Solução: Primeiro, verifique se as suposições exigidas são satisfeitas. O valor de σ é
considerado conhecido (17,20 C) e o tamanho da amostra n = 106 é maior do que 30.
Considere que também não há outliers. Como n > 30, não há necessidade de verificar
se a amostra provém de uma população normalmente distribuı́da. As suposições exigidas
são satisfeitas, portanto podemos prosseguir com os métodos desta Aula 2.

a) O nı́vel de confiança de 95% implica que α = 0,05, de modo que zα/2 = 1,96 (conforme
mostrado no Exemplo 2 da Aula 1). A margem de erro E é calculada pela fórmula (4),
como segue.

σ 17,2 ∼
E = zα/2 √ = 1,96 √ = 3,27.
n 106

b) Com x = 36,70 C e E ∼
= 3,27, construı́mos o intervalo de confiança como segue:

IC[µ; 95%] = [36,70 − 3,27; 36,70 + 3,27] ∼


= [33,43; 39,97].


Interpretação

Esse resultado poderia ser expresso, também, como 36,7 ± 3,27. Com base na amostra
com n = 106, x = 36,70 C e σ com valor suposto de 17,20 C, o intervalo de confiança
para a média populacional µ é [33,430 C; 39,970 C], com um nı́vel de confiança de 95%.
Isso significa que, se selecionássemos muitas amostras diferentes de tamanho 106 e con-
struı́ssemos os intervalos de confiança como fizemos aqui, 95% deles conteriam realmente
o valor da média populacional µ. Note que os limites do intervalo de 33,430 C e 39,970 C
contêm 370 C, geralmente considerado como a temperatura média do corpo.

Interpretação de um Intervalo de Confiança para a Média Popu-


lacional com Desvio Padrão Populacional Conhecido

Como na Aula 1, devemos ser cuidadosos para interpretar corretamente os intervalos de


confiança. Depois de obter uma estimativa de um intervalo de confiança para a média po-
pulacional µ, tal como um intervalo de confiança de 95% de confiança de [33,430 C; 39,970 C],
há uma interpretação correta e várias erradas.

21
Correta: “Estamos 95% confiantes em que o intervalo de 33,430 C a 39,970 C realmente
contenha o verdadeiro valor de µ.” Isso significa que, se selecionássemos muitas amostras
diferentes de mesmo tamanho e construı́ssemos os intervalos de confiança correspondentes,
95% deles realmente conteriam o valor de µ. (Como na Aula 1, essa informação correta
se refere à taxa de sucesso do processo usado para estimar a média populacional).

Errada: Como µ é uma constante fixa, seria errado dizer “há uma chance de 95% de que µ
esteja entre 33,430 C e 39,970 C.” O intervalo de confiança não descreve o comportamento
de valores amostrais individuais, de modo que também seria errado dizer que “95% de
todos os valores amostrais estão entre 33,430 C e 39,970 C.” Também, o intervalo de
confiança não descreve o comportamento de médias amostrais individuais, de modo que
também seria errado dizer que “95% das médias amostrais estão entre 33,430 C e 39,970 C.”

Uma caracterı́stica essencial dos métodos que estamos usando nesta Aula 2 é o fato de
que queremos estimar uma média populacional desconhecida µ sendo conhecido o desvio
padrão populacional σ. Na Aula 3 seguinte, apresentaremos um método para estimar
uma média populacional desconhecida µ quando não se conhece o desvio padrão popu-
lacional. As condições da Aula 3 seguinte têm mais chance de ocorrer em circunstâncias
reais. Embora os métodos desta Aula 2 não sejam rotineiros por se basearem no conhe-
cimento do desvio padrão populacional σ, eles nos possibilitam entender o método básico
para a construção de uma estimativa de intervalo de confiança para µ usando a mesma
distribuição normal usada na Aula 1. Além disso, os métodos discutidos até agora nesta
Aula 2 levam a um método muito prático para a determinação do tamanho amostral.

Determinação do Tamanho Amostral necessário para Estimar µ

Desejamos abordar agora a seguinte questão chave: quando desejamos coletar uma amostra
aleatória simples de dados que será usada para estimar uma média populacional µ, quantos
valores amostrais devem ser obtidos? Em outras palavras, vamos encontrar o tamanho
amostral n necessário pra estimar o valor de uma média populacional. Por exemplo,
suponha que queiramos estimar o peso médio das bagagens dos passageiros de um avião
(um valor importante por razões de segurança). Quantos passageiros devem ser seleciona-
dos aleatoriamente? A determinação do tamanho de uma amostra aleatória simples é um
problema muito importante, pois amostras desnecessariamente grandes gastam tempo e
dinheiro, e amostras muito pequenas podem levar a resultados pobres. Em muitos casos,
podemos encontrar o tamanho amostral mı́nimo necessário para estimar algum parâmetro,
como média populacional µ.

22
Se começamos com a expressão para margem de erro E (fórmula (4)) e resolvemos em
relação ao tamanho amostral n, obtemos o seguinte:

2
zα/2
n= σ2, (5)
E2

onde zα/2 é o escore z crı́tico com base no nı́vel de confiança desejado, E é a margem de
erro desejada e σ é o desvio padrão populacional.

Note que na fórmula (5) o tamanho amostral não depende do tamanho da população (N );
o tamanho amostral depende do nı́vel de confiança desejado, da margem de erro desejada
e do valor do desvio padrão populacional σ.

O tamanho amostral deve ser um número inteiro, porque representa o número de valores
amostrais que devem ser obtidos. No entanto, quando usamos a fórmula (5) para calcular o
tamanho n, obtemos, em geral, um número não inteiro. Nesses casos, o tamanho amostral
procurado deve ser arredondado para cima.

Exemplo 7. Um economista deseja determinar a renda média para o primeiro ano de


trabalho de graduados de faculdades que tiveram a sabedoria de fazer uma disciplina de
estatı́stica. Quantas dessas rendas devem ser encontradas se desejamos 95% de confiança
em que a média amostral estará a menos de 500 reais da verdadeira média populacional?
Suponha que um estudo prévio tenha revelado que, para tais rendas, σ = 6250 reais.

Solução: Os valores exigidos pela fórmula (5) são encontrados como segue: zα/2 =
1,96 (Isto é encontrado convertendo-se o nı́vel de 95% de confiança para α = 0,05 e
encontrando-se a seguir o escore z crı́tico na tabela da Normal Padrão, conforme descrito
na Aula 1).

E = 500 (Como desejamos que a média amostral esteja a menos de 500 reais de µ, a
margem de erro desejada é 500).

σ = 6250 (Valor do desvio padrão populacional obtido em um estudo anterior a este).

Aplicando a fórmula (5) temos


2
zα/2 1,962
n= σ2 = 62502 ∼
= 601 rendas.
E2 5002


23
Interpretação

Entre os milhares de graduados, precisamos obter uma amostra aleatória simples de pelo
menos 601 deles, e em seguida precisamos obter suas rendas. Com uma amostra aleatória
simples de 601 graduados, teremos 95% de confiança de que a média amostral x estará a
menos de 500 reais da verdadeira média populacional µ.

Exercı́cios

1. Controle da Temperatura de uma Câmara Compressora - Adaptado de


Farias et al. (2003, exercı́cio 5, p. 173). Sempre que o aumento médio
da temperatura da água em uma câmara compressora superar 50 C, o processo de
resfriamento deve ser recalibrado. Sabe-se que o desvio padrão dos aumentos de
temperatura da água nesta câmara é de 0,50 C. Em oito experimentos independentes
com a câmara, foi obtido uma média dos aumentos da temperatura de 5,50 C.

(a) Obtenha a estimativa pontual do aumento médio de temperatura da água. Esse


resultado sugere a necessidade de recalibração da câmara?

(b) Determine um intervalo de 99% de confiança para o aumento médio de temper-


atura da água e interprete o resultado.

2. Estudo da Vida Média de Válvulas de Televisão - Adaptado de Farias et


al. (2003, exercı́cio 9, p. 174). Se o desvio padrão das durações das válvulas de
televisão é de 100 horas, que tamanho de amostra deveria ser tomado para que se
estivesse confiante 90% de que o erro da estimativa da duração média não exceda
20 horas?

24
Aula 3 - Estimação da Média Populacional com Desvio
Padrão Populacional Desconhecido

Objetivos

Ao final desta aula você deverá ser capaz de:

1. Usar a tabela da distribuição t de Student.

2. Determinar um intervalo de confiança para a média populacional, quando o desvio


padrão populacional é desconhecido.

Na Aula 2, apresentamos métodos para a construção de uma estimativa de intervalo de


confiança para uma média populacional desconhecida µ, mas consideramos apenas casos
nos quais se conhecia o desvio padrão da população, σ. Notamos que a hipótese de
um σ conhecido não é muito realista, porque o cálculo de σ requer que saibamos todos os
valores populacionais; mas, se sabemos todos os valores populacionais, podemos facilmente
calcular o valor da média populacional µ, de modo que não há necessidade de estimá-la.
Nesta Aula 3, apresentamos um método para a construção de estimativas de intervalos de
confiança de µ sem a exigência de que σ seja conhecido. O procedimento usual é coletar
dados amostrais e achar os valores das estatı́sticas n, x e s. Como os métodos desta Aula
3 se baseiam nestas estatı́sticas e não se exige conhecimento de σ, esses métodos são bem
realistas, práticos e muito usados. Note que as hipóteses seguintes para os métodos desta
Aula 3 não incluem a exigência de que σ seja conhecido.

Suposições

1. A amostra é uma amostra aleatória simples.

2. A amostra provém de uma população normalmente distribuı́da ou n > 30.

25
Como na Aula 2, a exigência de uma população normalmente distribuı́da não é uma
exigência estrita. Em geral, podemos considerar que uma população seja normalmente
distribuı́da depois de usar os dados amostrais para confirmar que não há outliers e que o
histograma tem uma forma que não se afasta muito de uma distribuição normal. Ainda,
como visto na Aula 2, a exigência de que o tamanho amostral seja n > 30 é, em geral,
uma diretriz, mas o tamanho mı́nimo da amostra depende, na verdade, de quanto a
distribuição se afasta de uma distribuição normal. Usaremos o critério simplificado de
n > 30 como justificativa para tratar a distribuição das médias amostrais como uma
distribuição normal. A distribuição amostral das médias
√ amostrais x é exatamente uma
distribuição normal com média µ e desvio padrão σ/ n, sempre que a população tiver uma
distribuição normal, com média µ e desvio padrão σ. Se a população não for normalmente
distribuı́da, grandes amostras resultarão √ sempre em uma distribuição aproximadamente
normal, com média µ e desvio padrão σ/ n.

Como na Aula 2, a média amostral x é a melhor estimativa pontual (ou estimativa de um


só valor) da média populacional µ. Ainda na Aula 2, a distribuição das médias amostrais
x tende a ser mais consistente (com menos variação) do que as distribuições de outras
estatı́sticas amostrais, e a média amostral x é um estimador não viesado que tende para
a média populacional µ.

Nas Aulas 1 e 2, notamos que há uma séria limitação para o uso de uma estimativa pontual:
o valor único de uma estimativa pontual não revela quão boa é a estimativa. Intervalos de
confiança nos dão informações muito mais significativas ao oferecer um intervalo de valores
associado a um nı́vel de confiança de que o intervalo realmente contenha o verdadeiro valor
de µ.

Eis aqui o ponto chave desta Aula 3: Se σ não é conhecido, mas as condições acima são
satisfeitas, usamos a distribuição t de Student, desenvolvida por William Gosset (1876-
1937), em vez de usarmos a distribuição normal. Gosset era empregado da Cervejaria
Guinness e precisava de uma distribuição que pudesse ser usada com amostras pequenas.
A cervejaria irlandesa na qual ele trabalhava não permitia publicação de resultados de
pesquisa, de modo que Gosset publicou sob o pseudônimo de Student.

Como não conhecemos o valor de σ, fazemos a sua estimação com o valor do desvio padrão
amostral s, mas isso introduz uma outra fonte de incerteza, especialmente com amostras
pequenas. Para manter o intervalo de confiança em algum nı́vel desejado, tal como 95%,
compensamos essa incerteza adicional fazendo o intervalo de confiança um pouco mais
largo: usamos valores crı́ticos maiores do que os valores crı́ticos de zα/2 que foram usados
na Aula 2, onde σ era conhecido. Estes valores crı́ticos maiores são fornecidos pela
distribuição t de Student.

26
Definição 10 Se a distribuição de uma população é essencialmente normal (aproxima-
damente em forma de sino), então a distribuição de

x−µ
t=
√s
n

é essencialmente uma
pPdistribuição t de Student, onde x é a média amostral, µ é a média
n 2
populacional, s = i=1 (xi − x) /(n − 1), representa o desvio padrão amostral e n é o
tamanho amostral utilizado para calcular x e s. A distribuição t de Student, em geral, é
chamada de distribuição t e é usada para achar valores crı́ticos denotados por tα/2 .

Em breve discutiremos algumas das importantes propriedades da distribuição t, mas apre-


sentaremos primeiro os componentes necessários para a construção de intervalos de con-
fiança. Comecemos pelo valor crı́tico representado por tα/2 . Um valor de tα/2 pode ser
encontrado na tabela t de Student. Para achar um valor crı́tico tα/2 na tabela t de Stu-
dent, localize o número apropriado de graus de liberdade na primeira coluna à esquerda
e cruze com a primeira linha, com o valor correspondente ao α (o complementar do nı́vel
de confiança).

Definição 11 O número de graus de liberdade para uma coleção de dados amostrais é o


número de valores amostrais que podem variar depois que certas restrições tiverem sido
impostas aos dados amostrais.

Por exemplo, se com 10 estudantes obtivemos suas 10 respectivas notas em provas e a


média dessas notas foi 80, podemos livremente atribuir valores as nove primeiras notas,
mas a 10a nota está, então, determinada. A soma das 10 notas deve ser 800, de modo que
a 10a nota deve ser 800 menos a soma das 9 primeiras notas. Como estas 9 primeiras notas
podem ter valores escolhidos livremente, dizemos que há 9 graus de liberdade disponı́veis.
Para as aplicações desta Aula 3, o número de graus de liberdade (gl) é simplesmente o
tamanho amostral menos 1, isto é,

gl = n − 1. (6)

Exemplo 8. Considere uma amostra aleatória simples de tamanho n = 15, selecionada


de uma população normalmente distribuı́da. Ache o valor crı́tico tα/2 correspondente a
um nı́vel de confiança de 95%.

27
Solução: Como n = 15, o número de graus de liberdade é dado por n − 1 = 14. Pela
tabela t de Student, localizamos a 14a linha com referência à coluna na extrema esquerda.
Como na Aula 1, um nı́vel de confiança de 95% corresponde a α = 0,05, de modo que
achamos a coluna que lista valores para uma área de 0,05 nas duas caudas. O valor
correspondente à linha para 14 graus de liberdade e à coluna para uma área de 0,05 nas
duas caudas é 2,145, de modo que tα/2 = 2,145. 

Agora que sabemos como achar valores crı́ticos denotados por tα/2 , podemos prosseguir
para determinar a margem de erro E e o intervalo de confiança.

Definição 12 A margem de erro E para estimar uma média, quando o desvio padrão
populacional σ é desconhecido é dado por:

s
E = tα/2 √ . (7)
n

Note que o cálculo da margem de erro E, conforme apresentado na fórmula (7), não exige
que conheçamos o desvio padrão populacional σ.

Definição 13 O intervalo de confiança para a média populacional µ, quando o desvio


padrão populacional σ é desconhecido, com um nı́vel de confiança 100(1 − α)% é dado
por:

IC [µ ; 100(1 − α)%] = [x − E ; x + E],

onde E é como na fórmula (7).

Exemplo 9. Na Aula 2, incluı́mos um exemplo que ilustrava a construção de um intervalo


de confiança para estimar µ. Usamos as amostras de temperatura do corpo, com n = 106
e x = 36,70 C, e admitimos, também, que a amostra fosse uma amostra aleatória simples e
que σ fosse “conhecido de alguma maneira como 17,20 C”. Na verdade, σ não é conhecido.
Usando as estatı́sticas n = 106, x = 36,70 C, s = 17,20 C (com σ desconhecido) obtido de
uma amostra aleatória simples e um nı́vel de confiança de 95%, ache o seguinte:

a) A margem de erro E.

b) O intervalo de confiança para µ.

28
Solução: Devemos primeiro verificar se as duas suposições para esta Aula 3 são satis-
feitas. Temos, de fato, uma amostra aleatória simples e n > 30. Como n > 30, não há
necessidade de verificar se a amostra provém de uma população normalmente distribuı́da.
Assim, passamos à construção de um intervalo de confiança de 95% de confiança usando
a distribuição t.

Em seguida, achamos o valor crı́tico de tα/2 = 1,984. Esse valor se encontra na tabela t
de Student como o valor crı́tico correspondente a n − 1 = 105 graus de liberdade (coluna
à esquerda da tabela t de Student) e uma área nas duas caudas de 0,05. (Lembre-se que
um nı́vel de confiança de 95% corresponde a α = 0,05, que é dividido igualmente entre as
duas caudas). Esta tabela t de Student não possui 105 graus de liberdade, de modo que
selecionamos o número de graus de liberdade mais próximo, que é 100. O valor correto
de tα/2 para 105 graus de liberdade é 1,983, de modo que usando o valor mais próximo
na tabela t de Student de 1,984 resulta em um erro desprezı́vel, aqui.

a) A margem de erro E é calculada pela fórmula (7), conforme mostrado abaixo.


s 17,2 ∼
E = tα/2 √ = 1,984 √ = 3,31.
n 106
b) O intervalo de confiança pode, agora, ser encontrado usando x = 36,70 C e E ∼
= 3,31,
como segue:

IC[µ; 95%] = [x − E; x + E] = [36,70 − 3,31 ; 36,70 + 3,31] ∼


= [33,39 ; 40,01].

Interpretação

Esse resultado poderia também ser expresso no formato de 36,7 ± 3,31. Com base nestes
resultados amostrais, estamos 95% confiantes de que os limites de 33,390 C e 40,010 C
realmente contêm o valor da média populacional µ.

O intervalo de confiança encontrado no Exemplo 9 parece ser o mesmo que o encontrado


na Aula 2, onde usamos a distribuição normal e a hipótese de σ ser conhecido, com
valor de 17,20 C. Na verdade, os dois intervalos de confiança são bem parecidos após
o arredondamento. Nos casos em que n não é um valor muito grande, a diferença dos
resultados serão bem maiores.

29
Figura 2: Gráfico com a forma das densidades da distribuição normal padrão, t de student
com 3 e 12 graus de liberdade, respectivamente.

Propriedades da distribuição t

1. A distribuição t de Student é diferente para tamanhos de amostra diferentes. (Veja


a Figura 2 para os casos n = 4 e n = 13).

2. A distribuição t de Student tem a mesma forma geral simétrica em sino que a


distribuição normal padrão, mas para pequenas amostras ela possui caudas mais
elevadas.

3. A distribuição t de Student tem média t = 0 (assim como a distribuição normal


padrão tem média z = 0).

30
4. O desvio padrão da distribuição t de Student varia com o tamanho amostral, mas é
maior do que 1 (diferentemente da distribuição normal padrão, que tem σ = 1).

5. À medida que o tamanho amostral n se torna maior, a distribuição t de Student se


aproxima da distribuição normal padrão.

Exercı́cios

1. Controle da Temperatura de uma Câmara Compressora - Adaptado de


Farias et al. (2003, exercı́cio 5, p. 173). Sempre que o aumento médio da
temperatura da água em uma câmara compressora superar 50 C, o processo de res-
friamento deve ser recalibrado. Em oito experimentos independentes com a câmara,
obtiveram-se os seguintes resultados:

6,4 4,3 5,7 4,9 6,5 5,9 6,4 5,1

Determine um intervalo de 90% de confiança para o aumento médio de temperatura


da água e interprete o resultado.

2. Teste de Sensitividade - Farias et al. (2003, exercı́cio 5, p. 151). Em um


teste de sensitividade levado a efeito em 18 válvulas de certa marca, obtiveram-se
média de 3,2 microvolts e variância de 0,20 microvolt. Determinar um intervalo de
95% de confiança para a sensitividade média da população de vávulas e interprete
o resultado.

31
Aula 4 - Estimação da Variância Populacional ou Desvio
Padrão Populacional

Objetivos

Nesta Aula 4, vamos considerar novamente os conceitos de estimativa pontual e intervalo


de confiança. Enquanto as Aulas 1, 2 e 3 aplicavam esses conceitos à estimativas dos
parâmetros populacionais: proporção e média, esta Aula 4 irá aplicá-los ao parâmetro
desvio padrão populacional σ (também podendo ser utilizado à variância populacional
σ 2 ). Eis os principais objetivos desta Aula 4:

1. Usar a tabela da distribuição Qui Quadrado.

2. Dados os valores amostrais, estimar o desvio padrão populacional σ ou a variância


populacional σ 2 de maneira pontual e intervalar.

Muitas situações reais, tais como controle de qualidade em processo de produção, exigem
que estimemos valores de variâncias ou de desvios padrões populacionais. Além de fabricar
produtos com medidas que resultem em uma média desejada, o fabricante deve fazer
produtos de qualidade consistente, que não percorram uma gama de extremamente bons
ou extremamente ruins. Como essa consistência pode ser medida pela variância ou pelo
desvio padrão, estas se tornam estatı́sticas vitais na manutenção da qualidade de produtos
e serviços.

Suposições

1. A amostra é uma amostra aleatória simples.

2. A população deve ser normalmente distribuı́da (mesmo que a amostra seja grande).

A suposição de uma população normalmente distribuı́da já foi feita em Aulas anteriores,
mas essa exigência é mais crı́tica aqui. Para os métodos desta Aula 4, afastamentos das
distribuições normais podem levar a erros grosseiros. Consequentemente, a exigência de
se ter uma distribuição normal é mais estrita, e devemos verificar a distribuição dos dados
pela construção de histogramas.

32
Quando consideramos estimativas de proporções e médias, usamos a distribuição normal e
t de Student. Ao desenvolvermos estimativas de variâncias ou desvios padrões, usaremos
uma outra distribuição, denominada distribuição Qui Quadrado. Examinaremos carac-
terı́sticas importantes desta distribuição antes de prosseguirmos com o desenvolvimento
de intervalos de confiança.

Definição 14 De uma população normalmente distribuı́da com variância σ 2 , selecionamos


aleatoriamente amostras independentes de tamanho n e calculamos a variância amostral
s2 para cada amostra. A estatı́stica amostral

(n − 1)s2
χ2 =
σ2

tem uma distribuição chamada Qui Quadrado. A distribuição Qui Quadrado é usada para
achar valores crı́ticos denotados por χ2α/2 e χ21−α/2 .

Para você compreender melhor as propriedades descritas a seguir, observe a Figura 3.

Figura 3: Gráfico com a forma das densidades da distribuição Qui Quadrado, com 4, 12
e 30 graus de liberdade, respectivamente.

33
Propriedades da Distribuição Qui Quadrado
1. A distribuição Qui Quadrado não é simétrica, diferentemente das distribuições nor-
mal e t de Student. A medida que o número de graus de liberdade aumenta, a
distribuição se torna mais simétrica.

2. Uma variável aleatória com distribuição Qui Quadrado só assume valores nos reais
positivos, excluindo o zero.

3. A distribuição Qui Quadrado é diferente para cada número de graus de liberdade.


O número de graus de liberdade é dado por gl = n − 1. À medida que o número de
graus de liberdade aumenta o formato da distribuição Qui Quadrado se aproxima
do formato da distribuição normal.

Como a distribuição Qui Quadrado é assimétrica em vez de simétrica, o intervalo de


confiança não se ajusta ao formato s2 ± E e devemos fazer cálculos separados para os
limites superior e inferior do intervalo de confiança. Há um procedimento diferente para
se achar os valores crı́ticos, ilustrado pelo Exemplo 10 a seguir. Na tabela Qui Quadrado,
cada valor crı́tico de χ2 corresponde a cruzar o grau de liberdade (n − 1), localizado na
primeira coluna à esquerda da tabela com uma área dada na primeira linha do alto da
tabela, correspondente a região total localizada à direita do valor crı́tico. Logo, na tabela
da Normal Padrão procuramos a àrea acumulada à esquerda do valor crı́tico, para enfim
encontrar o valor crı́tico (zα/2 ); na t de Student procuramos o valor crı́tico cruzando os
graus de liberdade (n−1) com a área das caudas (α) e na tabela Qui Quadrado procuramos
os valores crı́ticos cruzando os graus de liberdade (n−1) com as áreas acumuladas à direita
dos valores crı́ticos.
Exemplo 10. Ache os valores crı́ticos de χ2 que determinam regiões que contêm uma
área de α = 0,05 nas caudas, isto é, 0,025 em cada cauda. Suponha que o tamanho
amostral seja 10, de modo que o número de graus de liberdade é igual a 10 − 1 = 9.
Solução: O valor crı́tico à direita (χ2α/2 = χ20,025 = 19,023) é obtido de modo direto, isto
é, faça o cruzamento do valor do grau de liberdade (gl = n − 1 = 9) na primeira coluna a
esquerda com o valor de p = 0,025, localizado na primeira linha da tabela. O valor crı́tico
à esquerda χ21−α/2 = χ20,975 = 2,700 é obtido utilizando novamente o gl = 9 com p = 0,975.
Para uma melhor compreensão do Exemplo 10, observe a Figura 4 a seguir. 

Ao obter valores crı́ticos de χ2 da tabela Qui Quadrado, note que os números de graus
de liberdade são inteiros consecutivos de 1 a 20, seguidos por 30, 40, 50, 60, 70, 80, 90 e
100. Quando um número de graus de liberdade (como 52) não se encontra na tabela, você
pode, em geral, usar o valor crı́tico mais próximo. Por exemplo, se o número de graus
de liberdade é 52, consulte a tabela Qui Quadrado e use 50 graus de liberdade. (Se o
número de graus de liberdade está exatamente a meio caminho entre valores da tabela, tal
como 55, simplesmente ache a média dos dois valores de χ2 ). Para números de graus de
liberdade maiores do que 100, use uma tabela mais detalhada, ou um software estatı́stico.

34
Figura 4: Valores Crı́ticos da Distribuição Qui Quadrado.

Estimadores de σ 2 e σ

A variância amostral s2 não tende, sistematicamente, a superestimar nem a subestimar


σ 2 . Ao contrário, ela tende ao próprio valor de σ 2 . Também o valor de s2 tende a produzir
erro menor, por estar mais próximo de σ 2 do que outras medidas de variação. Por estas
razões, o valor de s2 é, em geral, o melhor valor único (ou estimativa pontual) das várias
estatı́sticas possı́veis que poderı́amos usar para estimar σ 2 .

Como s2 é um estimador não viesado de σ 2 , poderı́amos esperar que s fosse um estimador


não viesado de σ, mas esse não é o caso. No entanto, se o tamanho amostral é grande,
o viés é pequeno, de modo que podemos usar s como uma estimativa razoavelmente boa
de σ. Mesmo sendo uma estimativa viesada, s é, em geral, usada como uma estimativa
pontual de σ.

Embora s2 seja a melhor estimativa pontual de σ 2 , não há qualquer indicação de quão boa
seja essa estimativa. Para compensar essa deficiência, foi desenvolvido uma estimativa
intervalar (ou intervalo de confiança) que fornece mais informação.

Definição 15 O intervalo de confiança para a variância populacional σ 2 , com um nı́vel


de confiança 100(1 − α)% é dado por:

35
" #
2 2
(n − 1)s (n − 1)s
IC[σ 2 ; 100(1 − α)%] = ; .
χ21−(α/2) χ2α/2

Com uma área total de α dividida igualmente entre as duas caudas da distribuição Qui
Quadrado, χ2α/2 representa o valor crı́tico da cauda esquerda e χ21−α/2 representa o valor
crı́tico da cauda direita (conforme ilustrado na Figura 4).

A expressão apresentada na definição 15 é usada para encontrar um intervalo de confiança


para a variância populacional σ 2 . No entanto, para o desvio padrão populacional σ, o
intervalo de confiança (ou estimativa intervalar) é encontrado tomando-se a raiz quadrada
de cada componente, como mostrado abaixo:

Definição 16 O intervalo de confiança para o desvio padrão populacional σ, com um


nı́vel de confiança 100(1 − α)% é dado por:

"s s #
(n − 1)s2 (n − 1)s2
IC[σ; 100(1 − α)%] = ; .
χ21−(α/2) χ2α/2

Podemos resumir o procedimento para a construção de um intervalo de confiança para σ


ou σ 2 como segue.

1. Verifique se as suposições requeridas são satisfeitas, isto é, verifique se a amostra é


uma amostra aleatória simples e se o histograma sugere que a população tem uma
distribuição muito próxima de uma distribuição normal.
2. Usando n − 1 graus de liberdade, consulte a tabela Qui Quadrado e ache os valores
crı́ticos χ21−α/2 e χ2α/2 que correspondem ao nı́vel de confiança desejado.

3. Calcule os limites inferior e superior do intervalo de confiança: (n − 1)s2 /χ21−α/2 e


(n − 1)s2 /χ2α/2 , respectivamente.
4. Se desejamos uma estimativa intervalar de σ, tome a raiz quadrada positiva dos
limites inferior e superior do intervalo de confiança e troque σ 2 por σ.
5. Arredonde os limites do intervalo de confiança resultantes. Se usar o conjunto
original de dados, arredonde para uma casa decimal a mais do que as usadas para
o conjunto original de dados. Se usar o desvio padrão amostral ou a variância
amostral, arredonde os limites do intervalo de confiança para o mesmo número de
casas decimais.

36
Exemplo 11. Considere os dados das 106 temperaturas do corpo (ao meio dia) obtidas
pelos pesquisadores da Universidade de Maryland mencionadas nos Exemplos 5, 6 e 9.
Use as caracterı́sticas seguintes do conjunto de dados para construir uma estimativa in-
tervalar de 95% de confiança para σ, o desvio padrão das temperaturas do corpo de toda
a população:

1. Foi feito um histograma dos dados amostrais e eles apresentam ter uma distribuição
normal.

2. A média amostral é 36,70 C.

3. O desvio padrão amostral é s = 17,20 C.

4. O tamanho amostral é n = 106.

5. Não há outliers.

Solução: Começamos pela determinação dos valores crı́ticos de χ2 . Com uma amostra
de 106 valores, temos 105 graus de liberdade. Esse não é um valor muito distante de 100
graus de liberdade encontrado na tabela Qui Quadrado, de modo que nós o usaremos.
Para um nı́vel de confiança de 95%, dividimos α = 0,05 igualmente entre as duas caudas
da distribuição Qui Quadrado e procuramos pelos valores 0,975 e 0,025 ao longo do topo
da tabela Qui Quadrado. Os valores crı́ticos de χ2 são χ20,975 = 129,561 e χ20,025 = 74,222.
Usando esses valores crı́ticos, o desvio padrão amostral de s = 17,20 C e o tamanho
amostral de 106, construı́mos um intervalo de confiança de 95% de confiança, através do
cálculo seguinte:

(106 − 1)17,22 (106 − 1)17,22


 
2
IC[σ ; 95%] = ;
129,561 74,222

Isso se torna IC[σ 2 ; 95%] = [239,757; 418,517]. Extraindo a raiz quadrada de cada membro
resulta em IC[σ; 95%] = [15,50 C; 20,50 C]. 

37
Interpretação

Com base no resultado temos 95% de confiança em que os limites de 15,50 C e 20,50 C
contêm o verdadeiro valor de σ, ou seja, estamos 95% confiantes em que o desvio padrão
das temperaturas do corpo de todas as pessoas saudáveis está entre 15,50 C e 20,50 C.

Note que o intervalo de confiança [15,50 C; 20,50 C] não tem o formato s2 ± E, porque o
intervalo de confiança não tem s2 como seu centro.

Em vez de aproximar os valores crı́ticos usando 100 graus de liberdade, poderı́amos ter
usado um programa de computador, e o intervalo de confiança se tornaria [15,20 C; 19,90 C],
que é muito próximo do resultado obtido aqui.

Fundamentos

Explicaremos agora por que os intervalos de confiança para σ e σ 2 têm as formas que
acabamos de dar. Se obtivermos amostras de tamanho n de uma população com variância
σ 2 , a distribuição dos valores (n − 1)s2 /σ 2 será conforme mostrado na Figura 4.

Para uma amostra aleatória simples, há uma probabilidade 1 − α de que a estatı́stica
(n − 1)s2 /σ 2 fique entre os valores χ21−(α/2) e χ2α/2 . Em outras palavras (e sı́mbolos), há
uma probabilidade 1 − α de que ambas as desigualdades abaixo sejam verdadeiras:

(n − 1)s2 (n − 1)s2
< χ2α/2 e > χ21−(α/2) .
σ2 σ2

Se multiplicarmos ambas as desigualdades precedentes por σ 2 e dividirmos cada desigual-


dade pelo valor crı́tico apropriado de χ2 veremos que as duas desigualdades podem ser
expressas nas seguintes formas equivalentes:

(n − 1)s2 (n − 1)s2
< σ2 e > σ2.
χ2α/2 χ21−α/2

Essas duas últimas desigualdades mostram dentro de que espaço a variância populacional
σ 2 deve ser limitada, isto é,

38
" #
(n − 1)s2 (n − 1)s2
IC[σ 2 ; 100(1 − α)%] = ; .
χ21−(α/2) χ2α/2

Há uma probabilidade 1 − α de que esses limites do intervalo de confiança contenham


a variância populacional σ 2 . Lembre-se de que devemos ser muito cautelosos na inter-
pretação de tal intervalo de confiança. É errado dizer que há uma probabilidade 1 − α de
que σ 2 esteja entre os dois limites do intervalo de confiança. Em lugar disso, devemos dizer
que temos confiança de 1 − α de que os limites contenham σ 2 . Lembre-se também de que
as suposições requeridas são muito importantes. Se os dados amostrais forem coletados
de maneira não apropriada, o intervalo de confiança resultante poderá estar errado.

Exercı́cios

1. Testes Destrutivos - Adaptado de Triola (2005, exercı́cio 13, p. 264).


Com testes destrutivos, itens amostrais são destruı́dos no processo de teste. Teste
de batidas de carros é um exemplo dispendioso de teste destrutivo. Doze carros (com
preço de tabela 59300 reais) são testados em relação a batidas, sob uma variedade de
reparos que tinham uma distribuição aparentemente em forma de sino, com média
de 26227 reais e um desvio padrão de 15873 reais. Ache uma estimativa intervalar
de 95% de confiança para σ, o desvio padrão dos custos de reparo para todos os
carros envolvidos em colisões e interprete o resultado.

2. Comparando Filas de Espera - Adaptado de Triola (2005, exercı́cio 19,


p. 275). (a) Os valores listados são tempos de espera (em minutos) de clientes do
Banco Jefferson Valley, onde os clientes fazem uma única fila que leva a três caixas:
6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7

Construa um intervalo de confiança de 95% para o desvio padrão populacional.

(b) Os valores listados são tempos de espera (em minutos) de clientes do banco
Providence, onde os clientes fazem 3 filas diferentes para cada um dos três caixas:
4,2 5,4 5,8 6,2 6,7 7,7 7,7 8,5 9,3 10,0

Construa um intervalo de confiança de 95% para o desvio padrão populacional.

(c) Interprete os resultados encontrados nas partes (a) e (b). Os intervalos de


confiança sugerem uma diferença na variação entre os tempos de espera? Que
arranjo parece ser melhor: o de fila única ou o de múltiplas filas?

39
Revisão

As duas principais atividades da inferência estatı́stica são a estimação de parâmetros po-


pulacionais e o teste de afirmativas feitas sobre parâmetros populacionais. Nesta Unidade
I, introduzimos os métodos básicos para a determinação de estimativas de proporções
populacionais, médias, variâncias e desvios padrão. Para cada um destes parâmetros
populacionais desenvolvemos procedimento de

• estimativa pontual,

• intervalo de confiança e

• tamanho amostral requerido.

Discutimos a estimativa pontual (ou estimativa de valor único) e tiramos as seguintes


conclusões:

• Proporção: A melhor estimativa pontual de p é pb.

• Média: A melhor estimativa pontual de µ é x.

• Variação: O valor de s é comumente usado como uma estimativa pontual de σ,


mesmo sendo uma estimativa viesada. Também s2 é a melhor estimativa de σ 2 .

Como as estimativas pontuais acima consistem em valores únicos, elas têm a séria desvan-
tagem de não revelar quão boas são, de modo que os intervalos de confiança (ou estimativas
intervalares) são comumente usados como estimativas mais reveladoras e úteis. Consider-
amos, também, maneiras de determinar os tamanhos amostrais necessários para estimar
parâmetros a menos de margens de erro dadas. Introduzimos também na Unidade I as dis-
tribuições t de Student e Qui Quadrado. Devemos ser cuidadosos para usar a distribuição
correta para cada conjunto de circunstâncias. Os seguintes critérios para a escolha da
distribuição apropriada são:

• Intervalo de confiança para a proporção p: use a distribuição normal.

• Intervalo de confiança para a média µ: se você conhecer o desvio padrão populacional


σ, use a distribuição normal. Se você não conhecer o desvio padrão populacional σ,
isto é, apenas conhece o desvio padrão amostral s, use a distribuição t de Student.

• Intervalos de confiança para σ ou σ 2 : use a distribuição Qui Quadrado.

40
Para os procedimentos de intervalo de confiança e tamanhos amostrais desta Unidade é
muito importante verificar se as hipóteses exigidas são satisfeitas. Se não forem, então não
podemos usar os métodos desta Unidade. Nestes casos, deve-se recorrer a métodos alter-
nativos, que não serão tratados nesta disciplina, tais como os métodos não paramétricos.
Uma referência clássica para os métodos não paramétricos é o livro de Siegel e Castellan
(2006).

Exercı́cios de Revisão

1. Analisando Peso de Modelos - Adaptado de Triola (2005, exercı́cio 1, p.


277). As modelos são, às vezes, criticadas por seu baixo peso, que encoraja hábitos
não saudáveis de alimentação entre jovens. Foram selecionadas aleatoriamente 9
modelos e anotados os respectivos pesos (em kg):
56,7 54,0 58,1 58,1 54,0 57,6 47,6 55,8 52,2

a) Obtenha uma estimativa pontual para o peso médio de todas as modelos.

b) Obtenha uma estimativa pontual para a variância dos pesos de todas as modelos.
(Não esqueça de colocar a unidade de medida no seu resultado final.)

c) Obtenha uma estimativa pontual para o desvio padrão dos pesos de todas as
modelos.

d) Se um estilista precisa estimar pontualmente a variação dos pesos das modelos,


qual resultado você indicaria: o do item b) ou o do item c)? Justifique sua resposta.

e) Construa um intervalo de confiança de 95% de confiança para o peso médio de


todas as modelos.

f ) Construa um intervalo de confiança de 95% de confiança para o peso médio de


todas as modelos, supondo que o desvio padrão (σ) de todos os pesos das modelos
seja de 3,417029 kg.

g) Qual a diferença entre os resultados dos itens e) e f )?

h) Construa um intervalo de confiança de 90% de confiança para o desvio padrão


dos pesos de todas as modelos.

41
i) Ache o tamanho de amostra necessário para estimar o peso médio de todas as
modelos de modo que haja 99% de confiança de que a média amostral esteja em
erro não superior a 1 kg. Suponha que o desvio padrão (σ) de todos os pesos das
modelos seja de 3,417029 kg.

2. Estimando a Frequência a Parques Temáticos - Adaptado de Triola (2005,


exercı́cio 1, p. 276). A cada ano bilhões de dólares são gastos em parques
temáticos de propriedade da Disney, Estúdios Universal, Sea World, Busch Gardens
e outros. Uma pesquisa com 1233 pessoas que fizeram viagens revelou que 111 delas
incluı́ram uma visita a um parque temático (com base em dados da Associação da
Indústria de Viagem da América).

a) Ache a estimativa pontual da porcentagem de pessoas que visitam um parque


temático quando viajam.

b) Ache uma estimativa intervalar com 95% de confiança da porcentagem de pessoas


que visitam um parque temático quando viajam.

c) A pesquisa foi feita com pessoas que viajaram, mas nenhuma informação foi dada
sobre a porcentagem de pessoas que viajam por prazer. Se você deseja estimar a
porcentagem de adultos que viajam por prazer uma vez por ano, quantas pessoas
você deve entrevistar, se você deseja 99% de confiança de que sua porcentagem
amostral esteja a menos de 2,5 pontos percentuais da porcentagem populacional
correta?

42
Unidade II

Testes de Hipóteses

A Unidade II está dividida em 4 aulas, da seguinte forma:

Na primeira aula, você irá estudar os principais termos utilizados em um teste de


hipóteses e já se introduzirá na metodologia do teste de hipóteses para a proporção.

Na segunda aula, você irá estudar os conceitos de teste sobre a média populacional,
quando o desvio padrão populacional é conhecido.

Na terceira aula, você irá estudar os conceitos de teste sobre a média populacional,
quando o desvio padrão populacional é desconhecido.

Na quarta aula, você estudará o teste sobre a variância populacional ou o desvio padrão
populacional.
Aula 1 - Fundamentos do Teste de Hipótese e Teste
sobre a Proporção Populacional
Objetivos
Ao final desta aula você deverá ser capaz de:

1. Dada uma afirmativa sobre uma proporção populacional, determinar a hipótese nula
e a hipótese alternativa para testar essa afirmação.

2. Dados os valores amostrais e a informação a ser testada, calcular o valor da es-


tatı́stica de teste para a proporção.

3. Dado um nı́vel de significância, identificar o(s) valor(es) crı́tico(s) e a região crı́tica.

4. Dado um valor da estatı́stica de teste e o(s) valor(es) crı́tico(s), estabelecer a con-


clusão de um teste de hipótese.

Introdução
As duas principais atividades da inferência estatı́stica são a estimação de parâmetros
populacionais (introduzida na Unidade I) e o teste de hipótese, ao qual será introduzido
nesta Unidade II. Baseando na idéia de Triola (2005, Cap. 7) montamos o conteúdo a ser
trabalhado nesta unidade. Na prática, quando não se tem informação alguma sobre algum
parâmetro populacional, utilizamos as técnicas apresentadas na Unidade I para se obter
alguma informação sobre este parâmetro. Agora, se alguém te fornece alguma informação
sobre um parâmetro populacional e pede para você investigar se é verdadeiro ou não essa
informação, então você deverá utilizar as técnicas apresentadas nesta Unidade II.
Na Unidade I, usamos resultados de pesquisa para estimar a proporção de pessoas de
Minas Gerais que se opunham ao sistema de “radar fotográfico”, que usa câmeras para
multar motoristas que ultrapassam sinais vermelhos. Os dados amostrais consistiam em
829 adultos de Minas Gerais, selecionados aleatoriamente, 51% dos quais se opunham à
legislação que implementaria o sistema de radar fotográfico em seu estado. Embora 51%
dos 829 entrevistados se opusessem à legislação do radar fotográfico, um jornal publicou a
manchete: “Entrevistados divididos sobre a proposta do radar fotográfico”. A manchete
do jornal afirmava que os entrevistados estavam divididos, mas 51% deles se opunham
e, assim, por que não podemos dizer que a maioria dos habitantes de Minas Gerais se
opunha? Em uma pesquisa separada, de nı́vel nacional, com 880 motoristas selecionados
aleatoriamente, 56% admitiram que passavam com sinal vermelho. Ao escrever um artigo,
um repórter escreveu: “Praticamente todos os brasileiros admitem que passar com sinal
vermelho é perigoso, mas mais da metade admitiu que já o fez, em geral porque estava
com muita pressa.” Essa frase inclui a afirmativa de que a maioria (mais de 50%) de todos
os brasileiros passa com o sinal vermelho. Os resultados da pesquisa realmente confirmam
essa afirmativa?

44
Nesta Aula 1, apresentamos um método padrão para teste de afirmativas tais como as
duas seguintes, construı́das a partir das informações descritas aanteriormente:

• Há suficiente evidência amostral para apoiar a afirmativa de que a proporção de


todos os adultos de Minas Gerais que se opõem à legislação do radar fotográfico
é maior do que 0,5? Isto é, uma amostra de n = 829 adultos de Minas Gerais
selecionados aleatoriamente, com 51% (ou pb = 0,51) se opondo à legislação do radar
fotográfico, fornece evidência suficiente para apoiar a afirmativa de que p > 0,5?

• Há suficiente evidência amostral para apoiar a afirmativa de que a proporção de


todos os motoristas brasileiros adultos que admitem passar com o sinal vermelho
seja maior do que 0,5? Isto é, uma amostra de n = 880 motoristas adultos brasileiros
selecionados aleatoriamente, com 56% (ou pb = 0,56) deles admitindo que passam
com o sinal vermelho, constitui evidência suficiente para apoiar a afirmativa de que
p > 0,5?

Um teste de hipótese é um procedimento padrão para testar alguma afirmativa.

Definição 17 Em estatı́stica, uma Hipótese é uma afirmativa sobre um parâmetro da


população. Um teste de hipótese (ou teste de significância) é um procedimento padrão
para testar uma afirmativa sobre um parâmetro da população.

Fundamentos do Teste de Hipóteses

Os componentes formais usados no teste de hipóteses são: hipótese nula, hipótese alter-
nativa, estatı́stica de teste, região crı́tica, nı́vel de significância, valor crı́tico, regra de
decisão, erro tipo I, erro tipo II e poder do teste. Descrevemos a seguir cada um destes
componentes de forma detalhada.

Definição 18 A Hipótese Nula (representada por H0 ) é uma afirmativa de que o valor


de um parâmetro populacional (como proporção, média, variância ou desvio padrão) é
igual a algum valor especificado.

Eis algumas hipóteses nulas tı́picas, do tipo considerado nesta Unidade II:

H0 : p = 0,5 H0 : µ = 98,6 H0 : σ 2 = 400 H0 : σ = 15.

45
Testamos a hipótese nula diretamente, no sentido de que supomos que ela seja verdadeira
e chegamos a uma conclusão para rejeitar H0 ou deixar de rejeitar H0 .

Definição 19 A Hipótese Alternativa (representada por H1 ou Ha ) é a afirmativa de


que o parâmetro tem um valor que, de alguma forma, difere da hipótese nula. A forma
simbólica da hipótese alternativa deve usar um destes sı́mbolos: > ou < ou 6=.

Eis doze diferentes hipóteses alternativas que envolvem proporções, médias, variâncias e
desvios padrões:

Proporções: Ha : p > 0,5 Ha : p < 0,5 Ha : p 6= 0,5

Médias: Ha : µ > 98,6 Ha : µ < 98,6 Ha : µ 6= 98,6

Variâncias: Ha : σ 2 > 400 Ha : σ 2 < 400 Ha : σ 2 6= 400

Desvios Padrão: Ha : σ > 15 Ha : σ < 15 Ha : σ 6= 15

Algumas observações importantes:

• Alguns livros usam os sı́mbolos ≤ ou ≥ na hipótese nula H0 , mas a maioria dos


periódicos profissionais usa apenas o sı́mbolo de igualdade. Fazemos o teste de
hipótese supondo que a proporção, a média, a variância ou o desvio padrão seja
igual a algum valor especificado, de modo que podemos trabalhar com uma única
distribuição que tem um valor especı́fico. (Onde este livro usa uma expressão como
p = 0,5 para a hipótese nula, alguns outros livros usam p ≤ 0,5 ou p ≥ 0,5).

• Se você está fazendo um estudo e deseja usar um teste de hipótese para apoiar sua
afirmativa, esta deve ser escrita de modo a se tornar a hipótese alternativa. Isto
significa que sua afirmativa pode ser expressa usando apenas estes sı́mbolos: < ou
> ou 6=. Você não pode usar um teste de hipótese para apoiar uma afirmativa de
que um parâmetro seja igual a algum valor especı́fico.

Por exemplo, suponha que você desenvolveu uma poção mágica que eleva os escores de
QI, de modo que a média se torna maior do que 100. Se você deseja fornecer evidência
da eficácia da poção, você deve fazer a afirmativa de que µ > 100. (Nesse contexto de
tentar confirmar o objetivo de uma pesquisa, a hipótese alternativa é, algumas vezes,
chamada hipótese de pesquisa. Também neste contexto, a hipótese nula de µ = 100 é
suposta verdadeira para o propósito da condução do teste de hipótese, mas se espera que
a conclusão seja a rejeição da hipótese nula de modo que a afirmativa de que µ > 100 seja
apoiada).

46
Para identificar H0 e Ha , temos o seguinte esquema:

1. Identifique a afirmativa ou hipótese especı́fica a ser testada e a expresse em forma


simbólica.

2. Dê a forma simbólica que tem que ser verdadeira quando a afirmativa original é
falsa.

3. Das duas expressões simbólicas obtidas até agora, deixe que a hipótese alternativa
Ha seja a que não contém a igualdade, de modo que Ha use o sı́mbolo >, < ou 6=,
deixe a hipótese nula H0 ser a expressão simbólica que iguala o parâmetro ao valor
fixo sendo considerado.

Por exemplo, às vezes testamos a validade da afirmativa de alguma pessoa, tal como a
afirmativa da Companhia de Engarrafamento Coca Cola de que “a quantidade média de
Coca Cola nas latas é, no mı́nimo, 350 ml”. Essa afirmativa pode ser expressa em sı́mbolos
como µ ≥ 350. Se a afirmativa original é falsa, então µ < 350. A hipótese alternativa
se torna µ < 350, mas a hipótese nula é µ = 350. Seremos capazes de darmos enfoque a
afirmativa original (de que µ ≥ 350) depois de determinar se há ou não evidência suficiente
para rejeitar a hipótese nula de µ = 350.

Exemplo 12. Use as afirmativas dadas para expressar as hipóteses nula e alternativa
correspondentes em forma simbólica.

a) A proporção de motoristas que admitem passar com o sinal vermelho é maior do que
0,5.

b) A altura média de jogadores profissionais de basquete é, no máximo 210cm.

c) O desvio padrão dos escores de QI de atores é igual a 15.

Solução: O procedimento pode ser feito em três passos:

a) No Passo 1, expressamos a afirmativa dada como p > 0,5. No Passo 2, vemos que, se
p > 0,5 for falso, então p ≤ 0,5 deve ser verdadeiro. No Passo 3, vemos que a expressão
p > 0,5 não contém igualdade, de modo que tomamos p > 0,5 como a hipótese alternativa
Ha e tomamos p = 0,5 como H0 .

b) No Passo 1, expressamos “uma média de, no máximo 210 cm”, em sı́mbolos, como
µ ≤ 210. No Passo 2, vemos que, se µ ≤ 210 for falso, então µ > 210 deve ser verdadeiro.
No Passo 3, vemos que a expressão µ > 210 não contém igualdade, de modo que tomamos
µ > 210 como hipótese alternativa Ha , e tomamos µ = 210 como H0 .

47
c) No Passo 1, expressamos a afirmativa dada como σ = 15. No Passo 2, vemos que, se
σ = 15 for falso, então σ 6= 15 deve ser verdadeiro. No Passo 3, tomamos σ 6= 15 como a
hipótese alternativa Ha , e tomamos σ = 15 como H0 . 

Definição 20 A Estatı́stica do Teste é um valor calculado a partir dos dados amostrais,


sendo usada para se tomar a decisão sobre a rejeição da hipótese nula. A estatı́stica de
teste é encontrada pela conversão da estatı́stica amostral (como a proporção amostral pb ou
a média amostral x, ou o desvio padrão amostral s) em um escore (como z, t ou χ2 .) com
a suposição de que a hipótese nula seja verdadeira. A estatı́stica de teste pode, portanto,
ser usada para determinar se há evidência significativa contra a hipótese nula.

Nesta Unidade II, consideramos testes de hipótese que envolvem proporções, médias e
desvios padrões (ou variâncias). Com base nos resultados sobre distribuições amostrais
de proporções, médias e desvios padrões, usamos as seguintes estatı́sticas:

Estatı́stica de teste para proporção:

pb − p0
zobservado = q . (8)
p0 (1−p0 )
n

Estatı́stica de teste para média:

x − µ0
zobservado = (9)
√σ
n

x − µ0
tobservado = . (10)
√s
n

Estatı́stica de teste para desvio padrão (ou variância):

(n − 1)s2
χ2observado = . (11)
σ02

48
Nesta Unidade II, ao trabalharmos com proporções, trabalharemos com grandes amostras,
de modo que a suposição de normalidade para a distribuição da estatı́stica do teste da
proporção estará satisfeita. A estatı́stica de teste para uma média pode se basear na
distribuição normal ou na t de Student, dependendo das condições que sejam satisfeitas.
Ao escolher entre as distribuições normal ou t de Student,usaremos nesta Unidade II
os mesmos critérios descritos na Unidade I. Finalmente, a estatı́stica de teste para o
desvio padrão (ou variância) se baseia na distribuição Qui Quadrado, também discutida
na Unidade I.

Exemplo 13. Uma pesquisa de n = 880 motoristas adultos selecionados aleatoriamente


mostrou que 56% (ou pb = 0,56) dos entrevistados admitiram passar com o sinal vermelho.
Ache o valor da estatı́stica de teste para afirmativa de que a maioria dos motoristas
adultos admite passar com o sinal vermelho. (A seguir, veremos que há suposições que
devem ser verificadas. Para este exemplo, considere que as suposições sejam satisfeitas e
concentre-se em achar a estatı́stica de teste indicada).

Solução: Esse exemplo mostra que a afirmativa dada resulta nas seguintes hipóteses
nula e alternativa: H0 : p = 0,5 e Ha : p > 0,5. Como trabalhamos sob a suposição de
que a hipótese nula seja verdadeira com p0 = 0,5, obtemos a seguinte estatı́stica de teste:

pb − p0 0,56 − 0,5
zobservado = q = q = 3,56.
p0 (1−p0 ) (0,5)(0,5)
n 880

Interpretação

Um escore zobservado de 3,56 é excepcionalmente grande (A seguir você verá o por quê
desta afirmação). Parece que, além de ser “mais da metade”, o resultado amostral de
56% é significativamente maior do que 50%. Veremos a seguir, que este valor de zobservado
nos auxiliará a decidirmos em rejeitar ou não a hipótese nula H0 .

Definição 21 A região crı́tica (ou região de rejeição) é o conjunto de todos os valores da


estatı́stica de teste que nos fazem rejeitar a hipótese nula.

49
Definição 22 O nı́vel de significância (representado por α) é a probabilidade de que a
estatı́stica de teste cairá na região crı́tica quando a hipótese nula for realmente verdadeira.
Se a estatı́stica de teste cair na região crı́tica, rejeitaremos a hipótese nula, de modo que α
é a probabilidade de cometermos o erro de rejeitar a hipótese nula quando ela é verdadeira.
Esse é o mesmo α introduzido na Unidade I, onde definimos o nı́vel de confiança para
um intervalo de confiança como a probabilidade 1 − α. Escolhas comuns para α são 0,05;
0,01 e 0,10, com 0,05 sendo a mais comum.

Um valor crı́tico é qualquer valor que separa a região crı́tica (onde rejeitamos a hipótese
nula) dos valores da estatı́stica de teste que não levam à rejeição da hipótese nula. Os
valores crı́ticos dependem da natureza da hipótese alternativa, da distribuição amostral
que se aplica e do nı́vel de significância α. Por exemplo, para uma hipótese alternativa
Ha : p 6= 0,5, sabemos que a distribuição amostral da estatı́stica de teste da proporção
é normal e para um nı́vel de significância α = 0,05, o valor crı́tico correspondente é de
z = 1,645. (Os valores crı́ticos também foram discutidos na Unidade I, ver Definição 5).

Exemplo 14. Com o nı́vel de significância α = 0,05, ache os valores crı́ticos z para as
seguintes hipóteses alternativas.

a) p > 0,5 (de modo que a região crı́tica está na cauda direita da distribuição normal).

b) p < 0,5 (de modo que a região crı́tica está na cauda esquerda da distribuição normal).

c) p 6= 0,5 (de modo que a região crı́tica é constituı́da por ambas as caudas da distribuição
normal).

Solução: a) Veja Figura 5 (a). Com uma hipótese alternativa de p > 0,5, a região crı́tica
está na cauda direita. Com uma área de 0,05 na cauda direita, o valor crı́tico encontrado
é de z = 1,645.

b) Veja Figura 5 (b). Com uma hipótese alternativa de p < 0,5, a região crı́tica está na
cauda esquerda. Com uma área de 0,05 na cauda esquerda, o valor crı́tico encontrado é
de z = −1,645.

c) Veja Figura 5 (c). As caudas sombreadas contêm uma área total de α = 0,05, de modo
que cada cauda contém uma área de 0,025. Os valores de z = 1,96 e z = −1,96 separam
as regiões direita e esquerda. Os valores crı́ticos são, portanto, z = 1,96 e z = −1,96. 

50
Figura 5: Achando valores crı́ticos.

As caudas em uma distribuição são as regiões extremas limitadas pelos valores crı́ticos.
Alguns testes de hipótese são bilaterais, alguns são unilaterais à direita e alguns são
unilaterais à esquerda. Em um teste unilateral à direita, a região crı́tica está na região
extrema (cauda) direita sob a curva. Em um teste unilateral à esquerda, a região crı́tica
está na região extrema (cauda) esquerda sob a curva. Em um teste bilateral, a região
crı́tica está nas duas regiões extremas (caudas) sob a curva.

Em testes bilaterais, o nı́vel de significância α é dividido igualmente entre as duas caudas


que constituem a região crı́tica. Por exemplo, em um teste bilateral com o nı́vel de
significância α = 0,05, há uma área de 0,025 em cada uma das duas caudas. Em testes
que são unilaterais à esquerda ou à direita, a área da região crı́tica na cauda respectiva é
α. (Veja a Figura 5).

51
Examinando o sinal apresentado na hipótese alternativa, podemos determinar se um teste
é unilateral (à esquerda ou à direita) ou se é bilateral. A cauda corresponderá à região
crı́tica que contém os valores que entrarão em conflito significativo com a hipótese nula. A
Figura 5 fornece um resumo útil de verificação, que mostra que o sinal de desigualdade em
Ha aponta na direção da região crı́tica. O sı́mbolo 6= é, em geral, expresso na linguagem
de programação como <>, e isso nos lembra que uma hipótese alternativa como p 6= 0,5
corresponde a um teste bilateral. Na Figura 5 (a), (b) e (c) temos ilustrado a regra
de decisão quando temos um teste unilateral à direita, unilateral à esquerda e bilateral,
respectivamente.

Vimos que a afirmativa original às vezes se torna a hipótese nula e, algumas vezes, se
torna a hipótese alternativa. No entanto, nosso procedimento padrão de teste de hipótese
requer que testemos sempre a hipótese nula, de modo que nossa conclusão será sempre
uma das seguintes:

1. Rejeitar a hipótese nula e consequentemente aceitar a hipótese alternativa.

2. Não rejeitar a hipótese nula.

A decisão de rejeitar ou não a hipótese nula é feita, em geral, usando o método tradicional
(ou método clássico) de teste de hipótese, isto é, rejeite H0 se a estatı́stica de teste ficar
dentro da região crı́tica e não rejeitar H0 se a estatı́stica de teste não ficar dentro da região
crı́tica.

Muitos estatı́sticos consideram boa prática sempre escolher o nı́vel de significância antes
de fazer um teste de hipótese. Esse é um procedimento particularmente bom, porque
podemos ser tentados a ajustar o nı́vel de significância com base nos resultados. Por
exemplo, suponha que você fez o cálculo da estatı́stica do teste e o valor tenha dado
zobservado = 1,6. Para um teste unilateral à direita e um nı́vel de significância α = 0,05,
você terá um valor crı́tico de z = 1,645, assim não rejeitamos a hipótese nula, mas, às vezes,
é tentador mudar o α para o valor 0,10 e z passa a ser 1,28, para que o zobservado pertença
a região crı́tica e garanta a rejeição da hipótese nula. Outros estatı́sticos defendem que
nenhum nı́vel de significância deva ser especificado e que a conclusão deva ser deixada
para o pesquisador.

Definição 23 Regra de decisão clássica: primeiro formular as hipóteses, depois fixar um


nı́vel de significância, em seguida, determinar a região crı́tica, calcular a estatı́stica do
teste e, por fim, verificar se o valor da estatı́stica do teste pertence a região crı́tica. Se
o valor da estatı́stica do teste pertencer a região crı́tica, rejeitar H0 e aceitar Ha . Se o
valor da estatı́stica do teste não pertencer a região crı́tica, não rejeitar H0 .

52
Exemplo 15. Determine primeiro se as condições dadas resultam em um teste unilateral
à direita, um teste unilateral à esquerda ou um teste bilateral e estabeleça a seguir uma
conclusão sobre a hipótese nula.

a) O nı́vel de significância α = 0,05 é usado num teste em que a hipótese alternativa é dada
por p > 0,25 e os dados amostrais resultam em uma estatı́stica de teste de zobservado = 1,18.

b) O nı́vel de significância α = 0,05 é usado num teste em que a hipótese alternativa


é dada por p 6= 0,25, e os dados amostrais resultam em uma estatı́stica de teste de
zobservado = 2,34.

Solução: a) Com uma afirmativa de que p > 0,25, o teste é unilateral à direita (veja
Figura 5). Podemos encontrar o valor de z, usando a tabela da Normal Padrão. Como o
teste é unilateral à direita, procuramos qual é o valor de z, que deixa uma área de 0,05
à direita e 0,95 à esquerda. Como a tabela da Normal Padrão contém os valores de z, a
partir de sua área à esquerda, procuramos o valor 0,95 em seu centro e o z correspondente
é o 1,645. Como zobservado = 1,18 é menor do que o valor crı́tico z = 1,645, então não
rejeitamos a hipótese nula, isto é, podemos afirmar que p = 0,25.

b) Com uma afirmativa de que p 6= 0,25, o teste é bilateral (veja Figura 5). Podemos
encontrar o valor de z, usando a tabela da Normal Padrão novamente. Procuramos qual é
o valor de z, que deixa uma área de 0,025 à direita e 0,975 à esquerda. Como a tabela da
Normal Padrão contém os valores de z, a partir de sua área à esquerda, então procuramos
o valor 0,975 em seu centro e o z correspondente é o 1,96. Como zobservado = 2,34 é maior
do que o valor crı́tico z = 1,96, então rejeitamos a hipótese nula, isto é, podemos afirmar
que p 6= 0,25. 

Alguns textos dizem “aceitar a hipótese nula” em vez de “não rejeitar a hipótese nula”.
Qualquer que seja a expressão usada, aceitar ou não rejeitar, devemos reconhecer que não
estamos provando a hipótese nula; estamos apenas dizendo que a evidência amostral não
é forte o bastante para garantir a rejeição da hipótese nula. É como um júri dizendo que
não há evidência suficiente para condenar um suspeito. O termo aceitar é, de alguma
forma, enganoso, porque parece implicar que a hipótese nula foi provada. (É enganoso
afirmar que “há evidência suficiente para aceitar a hipótese nula”). A frase não rejeitar
diz mais corretamente que a evidência disponı́vel não é forte o bastante para garantir a
rejeição da hipótese nula. Neste texto, usaremos a terminologia não rejeitar a hipótese
nula, em vez de aceitar a hipótese nula.

53
Exemplo 16. Suponha que um repórter afirme que “mais da metade” de todos os
motoristas adultos brasileiros admitem passar com o sinal vermelho. Essa afirmativa de
p > 0,5 se torna a hipótese alternativa, enquanto a hipótese nula se torna p = 0,5. Além
disso, suponha que a evidência amostral nos leve a rejeitar a hipótese nula de p = 0,5.
Estabeleça a conclusão em termos simples e não técnicos.

Solução: A afirmativa original não contém a condição de igualdade, e rejeitamos a


hipótese nula. Portanto, a conclusão final, em palavras, deve ser como segue: “Os dados
amostrais apóiam a afirmativa de que mais da metade dos motoristas adultos brasileiros
admitem passar com o sinal vermelho”. 

Ao testar uma hipótese nula, chegamos a uma conclusão de rejeitá-la ou deixar de rejeitá-
la. Tais conclusões são às vezes corretas e às vezes erradas (mesmo quando fazemos
tudo corretamente). A Tabela 2 resume os dois tipos de erro que podem ser cometidos,
juntamente com os dois tipos de decisões corretas. Distinguimos entre os dois tipos de
erro chamando-os de erros tipo I e tipo II.

Definição 24 O Erro Tipo I é o erro de rejeitar a hipótese nula quando ela é, de fato,
verdadeira. A letra grega α (alfa) é usada para representar a probabilidade de um erro
tipo I.

Definição 25 O Erro Tipo II corresponde ao erro de deixar de rejeitar a hipótese nula


quando ela é, de fato, falsa. A letra grega β (beta) é usada para representar a probabilidade
de um erro tipo II.

Tabela 2: Erros Tipo I e Tipo II


Decisão H0 é verdadeira H0 é falsa
Rejeitar H0 Erro tipo I (α) Decisão Correta
Não rejeitar H0 Decisão Correta Erro tipo II (β)

Exemplo 17. Suponha que estejamos fazendo um teste de hipótese da afirmativa de que
p > 0,5. Eis as hipóteses nula e alternativa:

H0 : p = 0,5
Ha : p > 0,5

Faça afirmativas identificando

54
a) Um erro tipo I.

b) Um erro tipo II.

Solução: a) O erro tipo I é o erro de rejeitar uma hipótese nula verdadeira. Portanto, o
erro tipo I é concluir que há evidência suficiente para apoiar p > 0,5 quando, na realidade,
p = 0,5.

b) O erro tipo II é o erro de deixar de rejeitar a hipótese nula quando ela é falsa. Portanto,
o erro tipo II é deixar de rejeitar p = 0,5 (e, conseqüentemente, deixar de apoiar p > 0,5)
quando, na realidade, p > 0,5. 

Um passo em nosso procedimento padrão para teste de hipóteses envolve a seleção do nı́vel
de significância α, que é a probabilidade de um erro tipo I. No entanto, não selecionamos β
(probabilidade do erro tipo II). Seria ótimo se pudéssemos ter sempre α = 0 e β = 0, mas,
na realidade, isto não é possı́vel, então devemos tentar administrar as probabilidades de
erros α e β. Matematicamente, pode-se mostrar que α, β e o tamanho amostral n estão
todos relacionados, de modo que quando escolhemos ou determinamos quaisquer dois
deles, o terceiro fica automaticamente determinado. A prática usual na pesquisa e na
indústria é selecionar os valores de α e n de modo que o valor de β fica determinado.
Dependendo da gravidade do erro tipo I, tente usar o maior valor tolerável de α. Para
erros tipo I com consequências mais sérias, selecione valores menores de α. Escolha,
então, um tamanho amostral n tão grande quanto razoável, com base em considerações
de tempo, custo e outros fatores relevantes. (As determinações de tamanhos amostrais
foram discutidas na Unidade I). As seguintes considerações práticas podem ser relevantes:

1. Para qualquer α fixo, um aumento no tamanho amostral n causará um decréscimo


em β. Isto é, um tamanho amostral maior diminuirá a chance de que você cometa
o erro de não rejeitar a hipótese nula quando ela é, na verdade, falsa.

2. Para qualquer tamanho amostral n fixo, um decréscimo em α causará um aumento


em β. Reciprocamente, um aumento em α causará um decréscimo em β.

3. Para diminuir tanto α como β, aumente o tamanho da amostra.

Para dar sentido a essas idéias abstratas, consideremos as balas M&M e os comprimidos
de aspirina da marca Bufferin.

• Considere que o peso médio das balas M&M seja de, no mı́nimo, 0,9085g (para ficar
de acordo com o peso colocado no selo da embalagem).

• Considere que os comprimidos de Bufferin tenham um peso médio de 325mg de


aspirina.

55
Como as balas M&M são usadas para diversão, enquanto os comprimidos de Bufferin são
medicamentos usados para o tratamento de problemas de saúde, estamos lidando com
dois nı́veis de gravidade muito diferentes. Se as balas M&M não tiverem um peso médio
de 0,9085g, as consequências não serão sérias, mas se os comprimidos de Bufferin não
contiverem uma média de 325mg de aspirina, as consequências podem ser muito sérias,
incluindo, possivelmente, processos pelo consumidor e ações por parte da Administração
Federal de Drogas. Consequentemente, ao testar a afirmativa de que µ = 0,9085 para
M&Ms, podemos escolher α = 0,05 e uma amostra de n = 100; ao testar a afirmativa de
que µ = 325 para os comprimidos de Bufferin, devemos escolher α = 0,01 e um tamanho
maior de amostra de n = 500. (O tamanho maior da amostra nos permite diminuir β,
enquanto diminuı́mos também α). O nı́vel de significância menor α e o tamanho maior
da amostra n são escolhidos por causa das consequências mais sérias associadas ao teste
de um medicamento comercializado.

Usamos β para designar a probabilidade de deixarmos de rejeitar uma hipótese nula falsa
(erro tipo II). Segue que 1 − β é probabilidade de rejeitarmos uma hipótese nula falsa.
Os estatı́sticos se referem a essa probabilidade como o poder do teste, e o usam, quase
sempre, para calibrar a eficácia do teste ao reconhecer que uma hipótese nula é falsa.

Definição 26 O poder do teste de hipóteses é a probabilidade (1 − β) de rejeitar uma


hipótese nula falsa, que é calculada usando-se um nı́vel de significância particular α e um
valor particular do parâmetro populacional que seja uma alternativa ao valor assumido
na hipótese nula. Isto é, o poder de um teste é a probabilidade de apoiar uma hipótese
alternativa verdadeira.

Suponha que estejamos usando 0,05 como nı́vel de significância para testar a hipótese nula
de que a altura média dos homens é 180 cm. Apresentados os dados amostrais e dada a
altura alternativa de 175 cm, podemos calcular o poder do teste para rejeitar µ = 180.

Se nossa amostra consiste em apenas umas poucas observações, o poder será baixo, mas
se consiste em centenas de observações, o poder será muito maior. (Além de aumentar
o tamanho amostral, há outras maneiras de aumentar o poder, como aumentar o nı́vel
de significância, usar um valor mais extremo para a média populacional ou diminuir o
desvio padrão). Assim como 0,05 é uma escolha comum para um nı́vel de significância,
um poder de pelo menos 0,80 é uma exigência comum para a determinação de que um
teste de hipótese é eficaz. (Alguns estatı́sticos argumentam que o poder deveria ser maior,
tal como 0,85 ou 0,90). Os cálculos do poder não serão tratados aqui neste livro.

56
Teste sobre uma Proporção Populacional

Até o momento, apresentamos os componentes isolados de um teste de hipótese, mas


a partir daqui vamos combinar aqueles componentes em testes de hipótese abrangentes
de afirmativas feitas sobre proporções populacionais. As proporções podem, também,
representar probabilidades ou equivalentes decimais de porcentagens. Seguem exemplos
de tipos de afirmativas que seremos capazes de testar.

1
• Menos de 4
dos graduados em faculdades fuma.
• Pessoas que tomam a droga Lipitor para reduzir o colesterol têm dores de cabeça a
uma taxa maior do que a taxa de 7% das pessoas que não tomam o medicamento.
• A porcentagem de telespectadores que vêem TV tarde da noite e que assistem a
Tela Quente é igual a 18%.
• Com base em pesquisas anteriores, o candidato Republicano para a presidência
receberá a maioria (mais de 50%) dos votos.

As suposições exigidas, a notação e a estatı́stica de teste são todas dadas abaixo. Basi-
camente, afirmativas sobre uma proporção populacional são usualmente testadas através
do uso de uma distribuição normal. Se as suposições dadas não são satisfeitas, podem ser
usados outros métodos que não serão tratados aqui neste livro, tais como os métodos não
paramétricos. Aqui, todos os exemplos e exercı́cios envolvem casos nos quais as suposições
são satisfeitas, de modo que a distribuição amostral das proporções amostrais pode ser
aproximada pela distribuição normal.

Suposições
1. As observações amostrais são uma amostra aleatória simples. (Nunca se esqueça da
importância crı́tica de métodos de amostragem bem fundamentados).
2. Há um número fixo de observações independentes tendo probabilidades constantes,
e cada observação tem duas categorias de resultado: “sucesso” e “fracasso”.
3. A distribuição normal pode ser usada para aproximar a distribuição das proporções
amostrais.

A estatı́stica de teste para testar uma afirmativa sobre uma proporção populacional é como
em (8), zobservado , onde pb é a proporção amostral, p0 é a proporção populacional fixada
em H0 e n é o tamanho amostral. Conforme o intervalo de confiança para a proporção
populacional, o(s) valor(es) crı́tico(s) são obtidos da tabela da Normal Padrão, para ser
tomada a decisão final.

57
Exemplo 18. Pensando no problema apresentado nestas duas Unidades sobre o radar
fotográfico, um artigo de jornal apresentou os seguintes resultados: de 880 motoristas
selecionados aleatoriamente no Brasil, 56% admitiram passar no sinal vermelho. Uma
repórter escreveu isto: “Aproximadamente todos os motoristas brasileiros concordam que
passar com o sinal vermelho é perigoso, porém mais da metade deles admitem tê-lo feito,
..., descobriu uma pesquisa”. Essa frase inclui a afirmativa de que a maioria (mais da
metade) de todos os brasileiros passam no sinal vermelho. Apresente um resumo da
afirmativa e os dados amostrais.

Solução: Afirmativa: mais da metade (de todos os brasileiros) admite passar com o
sinal vermelho. Isto é, p > 0,5.

Dados amostrais: n = 880 e pb = 0,56.

Segue agora o teste de hipótese. Antes de prosseguir, no entanto, devemos verificar se as


suposições exigidas são satisfeitas. A amostra é uma amostra aleatória simples e há um
número fixo (n = 880) de tentativas independentes com duas categorias (entrevistados
admitem passar com o sinal vermelho ou não). Vamos supor que a distribuição normal
pode ser usada para aproximar a distribuição das proporções amostrais. Satisfeitas todas
as suposições, podemos prosseguir para fazer o teste formal de hipótese.

Quando testamos a afirmativa de que p > 0,5 dada no Exemplo 18, os seguintes passos
correspondem ao procedimento do teste:

Passo 1 A afirmativa original em forma simbólica é p > 0,5.

Passo 2 O oposto da afirmativa original é p ≤ 0,5.

Passo 3 Das duas expressões simbólicas precedentes, a expressão p > 0,5 não contém
igualdade, de modo que ela se torna a hipótese alternativa. A hipótese nula é a
afirmativa de que p é igual ao valor fixo de 0,5. Podemos, portanto, expressar H0 e
Ha como segue:

H0 : p = 0,5
Ha : p > 0,5

Passo 4: Na ausência de circunstâncias especiais, selecionaremos α = 0,05 para o nı́vel


de significância, ou seja, estabelecemos um erro tipo I de 5%.

Passo 5: Como estamos testando uma afirmativa sobre uma proporção populacional p,
a estatı́stica amostral pb é relevante para esse teste, e a distribuição amostral das
proporções amostrais pb é aproximada pela distribuição normal.

58
Passo 6: A estatı́stica de teste é calculada usando-se n = 880 e pb = 0,56. Na hipótese
nula, estamos supondo que p0 = 0,5. A estatı́stica de teste é

pb − p0 0,56 − 0,5
zobservado = q = q = 3,56
p0 (1−p0 ) (0,5)(0,5)
n 880

Esse é um teste unilateral à direita, de modo que a região crı́tica é uma área de
α = 0,05 na cauda direita. Consultando a tabela da Normal Padrão, vemos que o
valor crı́tico de z = 1,645 está na fronteira da região crı́tica. Logo, a Região Crı́tica
= [1,645, +∞).

Passo 7: Como a estatı́stica de teste cai dentro da região crı́tica, rejeitamos a hipótese
nula.

Passo 8: Concluı́mos que há evidência amostral suficiente para apoiar a afirmativa de
que a maioria dos brasileiros admite passar com o sinal vermelho.

Exercı́cios

1. Pesquisa sobre Clonagem - Adaptado de Triola (2005, exercı́cio 8, p.


305). Em uma pesquisa com 1012 adultos selecionados aleatoriamente, 91 deles
disseram que a clonagem humana deveria ser permitida. Use o nı́vel de significância
de 0,05 para testar a afirmativa de que menos de 10% dos adultos concordam com
a liberação da clonagem humana. Um jornal poderia exibir uma manchete dizendo
“menos de 10% dos adultos se opõem a clonagem humana”?

2. Infrações Federais de Drogas - Triola (2005, exercı́cio 4, p. 305). Em um


ano recente, de 109.857 prisões realizadas por agentes federais, 29,1% foram por in-
frações envolvendo drogas (conforme dados do Departamento de Justiça brasileiro).
Use o nı́vel de significância de 0,01 para testar a afirmativa de que a taxa de in-
frações referentes a drogas é igual a 30%. Como o resultado pode ser explicado,
dado que 29,1% parece estar próximo de 30%?

59
Aula 2 - Teste sobre a Média Populacional com Desvio
Padrão Populacional Conhecido

Objetivos

Ao final desta aula você deverá ser capaz de:

1. Dada uma afirmativa sobre uma média populacional, montar a hipótese nula e a
hipótese alternativa para testar essa afirmação de forma simbólica.

2. Dados os valores amostrais (x e n), a informação a ser testada (µ0 ) e o valor do


desvio padrão populacional, calcular o valor da estatı́stica de teste para a média
(zobservado apresentado em (9)).

3. Dado um nı́vel de significância, identificar o(s) valor(es) crı́tico(s) e a região crı́tica,


utilizando a tabela da Normal Padrão.

4. Dado um valor da estatı́stica de teste e o(s) valor(es) crı́tico(s), estabelecer a con-


clusão do teste de hipótese.

Nesta Aula 2, consideramos métodos de teste de afirmativas feitas sobre uma média
populacional µ, na situação em que o desvio padrão populacional (σ) seja conhecido.
Na Aula 3 apresentaremos o teste de hipóteses sobre a média populacional µ, quando o
desvio padrão populacional (σ) é desconhecido. Embora esta Aula 2 envolva casos menos
realistas do que os da Aula 3, ela é importante, pois descreve o mesmo método geral usado
na Aula seguinte.

As suposições, estatı́stica de teste e valores crı́ticos estão resumidos como segue.

Suposições

1. A amostra é uma amostra aleatória simples.

2. O valor do desvio padrão populacional σ é conhecido.

3. Pelo menos uma das condições seguintes é verdadeira: a população é normalmente


distribuı́da ou n > 30.

60
A estatı́stica de teste para testar uma afirmativa sobre a média populacional, quando
o σ é conhecido, zobservado , é como em (9), onde x é a média amostral, µ0 é a média
populacional fixada em H0 , σ é o desvio padrão populacional e n é o tamanho amostral.
De forma similar ao intervalo de confiança para a média populacional, com σ conhecido,
o(s) valor(es) crı́tico(s) é (são) obtido(s) da tabela da Normal Padrão, para ser tomada a
decisão final.

Antes de iniciar o procedimento de teste de hipótese, devemos primeiro explorar o conjunto


de dados. Usando os métodos introduzidos na disciplina (Probabilidade e Estatı́stica),
investigue o centro, a variação e a distribuição fazendo um gráfico, mais especificamente,
ache a média, o desvio padrão e faça o gráfico de pontos, para identificar outliers. Devemos
verificar se as suposições exigidas são satisfeitas. Para a amostra de 106 temperaturas
do corpo usada no Exemplo 19, um histograma indica que a amostra parece provir de
uma população normalmente distribuı́da. Também, não há outliers. O problema da
normalidade não é tão importante neste exemplo porque a amostra é muito grande, mas
é importante saber que não há quaisquer outliers que possam afetar dramaticamente o
resultado.

Exemplo 19. Considere uma amostra de 106 temperaturas do corpo com média de
36,70 C. Suponha que a amostra seja uma amostra aleatória simples e que a população
tenha desvio padrão σ conhecido com o valor de 17,20 C. Use o nı́vel de significância 0,05
para testar a crença comum de que a temperatura média do corpo de adultos saudáveis
é de 370 C.

Solução:

Passo 1: A afirmativa de que a média seja de 370 C é expressa em termos simbólicos


como µ = 37.

Passo 2: A alternativa (em forma simbólica) à afirmativa original é µ 6= 37.

Passo 3: Como a afirmativa µ 6= 37 não contém a condição de igualdade, ela se torna a


hipótese alternativa. A hipótese nula é a afirmativa de que µ = 37. Com isso temos

H0 : µ = 37
Ha : µ 6= 37

Passo 4: Conforme especificado no problema, o nı́vel de significância é α = 0,05.

61
Passo 5: Como a afirmativa é sobre a média populacional µ, a estatı́stica amostral re-
levante para esse teste é a média amostral x = 36,7. Como se supõe que σ seja
conhecido (17,2) e n > 30, o teorema central do limite indica que a distribuição das
médias amostrais pode ser aproximada por uma distribuição normal.

Passo 6: A estatı́stica de teste é calculada como segue:

x − µ0 36,7 − 37
zobservado = = = −0,18
√σ 17,2

n 106

Esse é um teste bilateral, de modo que as regiões crı́ticas são as duas áreas de
tamanho 0,025 nas caudas à esquerda e à direita. Consultando a tabela da Normal
Padrão, vemos que os valores crı́ticos z = −1,96 e z = 1,96 estão na fronteira
das regiões crı́ticas. A região crı́tica também pode ser escrita como (−∞, −1,96] ∪
[1,96, +∞).

Passo 7: Como a estatı́stica de teste não cai dentro da região crı́tica, não rejeitamos a
hipótese nula.

Passo 8: Concluı́mos que não há evidência amostral suficiente para apoiar a afirmativa
de que a temperatura corporal não seja 370 C.


Exercı́cios
1. Pesos de Ursos - Adaptado de Triola (2005, exercı́cio 10, p. 311). A saúde
da população de ursos no Parque Nacional é monitorada por medições periódicas
de ursos anestesiados. Uma amostra de 54 ursos tem um peso médio de 83 kg.
Supondo que σ seja conhecido como 55 kg, use o nı́vel de significância de 0,10 para
testar a afirmativa de que a média populacional dos pesos de todos esses ursos é
menor que 91 kg.
2. Nı́veis de Cotinina de Fumantes - Triola (2005, exercı́cio 11, p. 311).
Quando as pessoas fumam, a nicotina que absorvem é convertida em cotinina, que
pode ser medida. Uma amostra de 40 fumantes tem um nı́vel médio de cotinina
de 172,5. Supondo que σ seja conhecido como 119,5, use o nı́vel de significância de
0,01 para testar a afirmativa de que o nı́vel médio de cotinina de todos os fumantes
é igual a 200.

62
Aula 3 - Teste sobre a Média Populacional com Desvio
Padrão Populacional Desconhecido

Ao final desta aula você deverá ser capaz de:

1. Calcular o valor da estatı́stica de teste para a média (tobservado apresentado em (10)),


a partir dos valores amostrais (x, s e n) e a informação a ser testada (µ0 ).

2. Identificar o(s) valor(es) crı́tico(s) e a região crı́tica, utilizando a tabela t de Student,


a partir de um nı́vel de significância adotado.

3. Estabelecer a conclusão do teste de hipótese, a partir de um valor da estatı́stica de


teste e o(s) valor(es) crı́tico(s).

O objetivo principal desta Aula 3 é desenvolver a habilidade de testar afirmativas feitas


sobre médias populacionais quando o desvio padrão populacional σ não é conhecido. A
Aula 2 apresentou métodos para o teste de afirmativas sobre µ quando σ é conhecido, mas
é raro não sabermos o valor de µ quando realmente sabemos o valor de σ. Os métodos
desta Aula 3 são muito mais práticos e realistas porque supõem que σ não seja conhecido,
como é, em geral, o caso. As suposições, a estatı́stica de teste e os valores crı́ticos são
resumidos na sequência.

Suposições

1. A amostra é uma amostra aleatória simples.

2. O valor do desvio padrão populacional σ é conhecido.

3. Pelo menos uma das condições seguintes é verdadeira: a população é normalmente


distribuı́da ou n > 30.

A estatı́stica de teste para testar uma afirmativa sobre a média populacional, quando o
σ não é conhecido, tobservado , é como em (10), onde x é a média amostral, µ0 é a média
populacional fixada em H0 , s é o desvio padrão amostral e n é o tamanho amostral.
Conforme o intervalo de confiança para a média populacional, com σ desconhecido, o(s)
valor(es) crı́tico(s) é(são) obtido(s) da tabela t de Student, para ser tomada a decisão
final.

63
A exigência de uma população normalmente distribuı́da não é uma exigência estrita, e
podemos, em geral, considerar a população como normalmente distribuı́da depois de usar
os dados amostrais para confirmar que não há outliers e que o histograma tem uma forma
que não se afasta muito da distribuição normal. Também usamos o critério simplificado
de n > 30 como justificativa para tratar a distribuição das médias amostrais como uma
distribuição normal, mas o tamanho amostral mı́nimo depende, realmente, de quanto a
distribuição da população se afasta de uma distribuição normal. Como não conhecemos
o valor de σ, nós o estimamos pelo valor do desvio padrão amostral s, mas isso introduz
uma outra fonte de incerteza, especialmente com pequenas amostras. Compensamos essa
incerteza a mais pelo cálculo dos valores crı́ticos usando a distribuição t de Student, em
vez da distribuição normal, como foi usada na Aula 2, onde σ era conhecido. Vamos
relembrar umas propriedades importantes da distribuição t de Student:

1. A distribuição t de Student é diferente para tamanhos amostrais diferentes (veja


Figura 2, na Aula 3, da Unidade I).

2. A distribuição t de Student tem a mesma forma geral de sino que a distribuição


normal; sua forma mais larga reflete a maior variabilidade que se espera quando se
usa s como estimativa de σ.

3. A distribuição t de Student tem uma média de t = 0 (assim como a distribuição


normal padrão tem uma média de z = 0).

4. O desvio padrão da distribuição t de Student varia com o tamanho amostral e é


maior do que 1 (diferentemente da distribuição normal padrão, que tem σ = 1).

5. À medida que o tamanho amostral n se torna maior, a distribuição t de Student se


aproxima da distribuição normal padrão.

Ao testarmos afirmativas sobre médias populacionais, algumas vezes a distribuição normal


se aplica, algumas vezes se aplica a distribuição t de Student, e algumas vezes nenhuma
delas se aplica, de modo que devemos usar métodos não paramétricos. Ao se testarem
afirmativas sobre médias populacionais, a distribuição t de Student é usada sob certas
condições: use a distribuição t de Student quando σ não é conhecido e uma, ou ambas,
das seguintes condições são satisfeitas: a população é normalmente distribuı́da ou n > 30.

Exemplo 20. Pede-se a uma estudante de um curso de estatı́stica que faça um projeto
de classe. Ela planeja coletar seu próprio conjunto de dados para testar a afirmativa de
que a temperatura média do corpo é menor do que 370 C, como em geral se acredita.
Por causa do tempo imposto pelas outras disciplinas e o desejo de manter uma vida
social, ela decide coletar dados de apenas 12 pessoas. Depois de planejar cuidadosamente
um procedimento para obtenção da amostra aleatória simples de 12 adultos saudáveis, ela
mede suas temperaturas e obtém os resultados listados abaixo. Use o nı́vel de significância
0,05 para testar a afirmativa de que as temperaturas provêm de uma população com uma
média menor do que 370 C.

64
36,7 36,4 37,0 37,1 36,7 36,9 37,0 37,4 36,9 37,1 37,0 36,4

Solução: Antes de passar ao teste de hipótese, explore primeiro os dados amostrais.


Não há outliers, logo, com base em um histograma, podemos supor que os dados provêm
de uma população com uma distribuição normal. Usamos os dados amostrais para achar
estas estatı́sticas: n = 12, x = 36,884259, s = 0,297255. A média amostral x = 36,884259
é menor do que 370 C, no entanto, precisamos determinar se é significativamente menor
do que 370 C. Vamos prosseguir com um teste formal de hipótese.

Passo 1: A afirmativa original de que “a temperatura média do corpo é menor do que


370 C” pode ser expressa simbolicamente como µ < 37.

Passo 2: O oposto da afirmativa original é µ ≥ 37.

Passo 3: Das duas expressões simbólicas até aqui, a expressão µ < 37 não contém a
igualdade, de modo que ela se torna a hipótese alternativa Ha . A hipótese nula é a
suposição de que µ = 37.

H0 : µ = 37
Ha : µ < 37

Passo 4: O nı́vel de significância é α = 0,05.

Passo 5: No teste de uma afirmativa sobre a média populacional, a estatı́stica mais rele-
vante é a média amostral. Selecionamos a distribuição t de Student por causa destas
condições: temos uma amostra aleatória simples, o valor de σ não é conhecido e os
dados amostrais parecem provir de uma população que é normalmente distribuı́da.

Passo 6: A estatı́stica de teste é

x − µ0 36,884259 − 37
tobservado = = = −1,35
√s 0,297255

n 12

65
Para encontrar o valor crı́tico, primeiro, localize n − 1 = 11 graus de liberdade na
coluna à esquerda da tabela t de Student. Depois, como este é um teste unilateral
à esquerda, com α = 0,05, você precisará garantir que sua cauda à esquerda tenha
tamanho 5%, mas a primeira linha da tabela t de Student fornece o tamanho das
duas caudas, logo, você deverá procurar o valor p = 2α = 10%, para garantir que
sua cauda à esquerda tenha tamanho 5%. Outro detalhe importante é que a tabela t
de Student sempre fornece um valor para t positivo e como esse é um teste unilateral
à esquerda você não poderá esquecer de multiplicar esse valor por -1. Logo, o valor
crı́tico é t = −1,796 e a região crı́tica fica determinada pelo intervalo (−∞, −1,796].

Passo 7: Como a estatı́stica de teste tobservado = −1,35 não pertence a região crı́tica, não
rejeitamos H0 .

Passo 8: Não há evidência suficiente para apoiar a afirmativa de que a amostra provenha
de uma população com uma média menor do que 370 C. Isto não “prova” que a média
seja de 370 C, mas apenas que, os 12 valores amostrais não forneceram evidência forte
o bastante para apoiar a afirmativa. Se considerarmos os 106 valores de temperatu-
ras do corpo dadas anteriormente, talvez terı́amos evidências suficientes para apoiar
a afirmativa de que a temperatura média do corpo seja menor do que 370 C.


O valor crı́tico no Passo 6 do Exemplo 20 foi t = −1,796. Se a distribuição normal tivesse


sido usada, o valor crı́tico teria sido z = −1,645. O valor crı́tico t de Student está muito
mais à esquerda, mostrando que, com a distribuição t de Student, a evidência amostral
deve ser mais extrema, antes de a considerarmos significante.

Notas importantes:
• Se o teste é unilateral à direita, para você encontrar o valor crı́tico na tabela t de
Student, você deve cruzar os graus de liberdade (n − 1) com p = 2α.

• Se o teste é unilateral à esquerda, o valor crı́tico é encontrado na tabela t de Student,


cruzando os graus de liberdade (n−1) com p = 2α e multiplicando o valor encontrado
na tabela por −1.

• Agora, se o teste é bilateral, você deve cruzar os graus de liberdade (n−1) com p = α
e o valor encontrado na tabela é o valor crı́tico positivo. Para encontrar o valor crı́tico
negativo, simplesmente, multiplique por −1 o valor encontrado anteriormente. Isso
ocorre devido a propriedade de simetria da distribuição t de Student.

66
Exercı́cios

1. Pontuação no Exame de Inglês - Magalhães e Lima (2005, exercı́cio 6, p.


263). O número de pontos em um exame de inglês tem sido historicamente ao redor
de 80. Sorteamos 10 estudantes que fizeram recentemente esse exame e observamos
as notas:

65 74 78 86 59 84 75 72 81 83.

Especialistas desconfiam que a média diminuiu. Teste a afirmação dos especialistas


com um nı́vel de significância de 5%.

2. Consumo de Combustı́vel - Adaptado de Magalhães e Lima (2005, ex-


ercı́cio 4, p. 257). O consumo médio de gasolina num certo tipo de automóvel é
mais de 15 km/litro, segundo informações da montadora. Uma revista especializada
verificou o consumo em 25 desses veı́culos, escolhidos ao acaso, e constatou consumo
médio de 15,3 km/litro e um desvio padrão de 3 km/litro. Teste a afirmação da
montadora com um nı́vel de significância de 10%.

67
Aula 4 - Teste sobre a Variância Populacional

Objetivos

Ao final desta aula você deverá ser capaz de:

1. Dada uma afirmativa sobre um desvio padrão (ou uma variância) populacional,
determinar a hipótese nula e a hipótese alternativa para testar essa afirmação de
forma simbólica.

2. Dados os valores amostrais (s2 e n) e a informação a ser testada (σ0 ou σ02 ), calcular
o valor da estatı́stica de teste para o desvio padrão (ou a variância), χ2observado ,
apresentado em (11).

3. Dado um nı́vel de significância, identificar o(s) valor(es) crı́tico(s) e a região crı́tica,


utilizando a tabela Qui Quadrado.

4. Dado um valor da estatı́stica de teste e o(s) valor(es) crı́tico(s), estabelecer a con-


clusão do teste de hipótese.

O mundo industrial divide este objetivo comum: melhorar a qualidade pela redução da
variação. Os engenheiros de controle da qualidade desejam garantir que um produto tenha
uma média aceitável, mas eles desejam, também, produzir itens de qualidade consistente
de maneira a haver poucos defeitos. Por exemplo, a consistência de altı́metros de aeronaves
é controlada pela ANAC (Agência Nacional de Aviação Civil), que requer que os altı́metros
de aeronaves sejam testados e calibrados para darem uma leitura “dentro de 38,1 metros”.
Mesmo que a leitura média de altitude esteja exatamente correta, um desvio padrão
excessivamente grande resultará em leituras individuais que podem ser perigosamente
baixas ou altas. Melhora-se a consistência das informações pela redução do desvio padrão.
Nas Aulas 1, 2 e 3 desta Unidade II, descrevemos métodos para testar afirmativas sobre
médias e proporções populacionais. Esta Aula 4 focaliza a variação, que é criticamente
importante em muitas aplicações, incluindo controle da qualidade. O objetivo principal
desta Aula 4 é apresentar métodos para testar afirmativas feitas sobre um desvio padrão
de uma população, σ ou uma variância, σ 2 . As suposições, a estatı́stica de teste e os
valores crı́ticos são resumidos como segue.

Suposições
1. A amostra é uma amostra aleatória simples.

2. A população tem distribuição normal.

68
A estatı́stica de teste para testar uma afirmativa sobre o desvio padrão populacional ou
a variância populacional, χ2observado , é como em (11), onde n é o tamanho amostral, s2 é
a variância amostral e σ02 é a variância populacional fixada em H0 . Conforme o intervalo
de confiança para a variância (ou o desvio padrão) populacional, o(s) valor(es) crı́tico(s)
é(são) obtido(s) da tabela Qui Quadrado, para ser tomada a decisão final.

Nas Aulas 2 e 3, vimos que os métodos de teste de afirmativas sobre médias exigem uma
população normalmente distribuı́da, e aqueles métodos funcionam razoavelmente bem
desde que a distribuição da população não se afaste muito de uma distribuição normal.
No entanto, testes de afirmativas sobre desvios padrões ou variâncias não são tão robustos,
no sentido de que os resultados podem ser muito enganosos se a população não tiver uma
distribuição normal. A condição de uma população normalmente distribuı́da é, portanto,
uma exigência muito mais estrita nesta Aula 4. Se a população tem uma distribuição que
se afasta muito da normal e você usa os métodos desta Aula 4 para rejeitar uma hipótese
nula, você não sabe realmente se o desvio padrão não é como suposto ou se a rejeição se
deve à falta de normalidade.

Não fique confuso com a referência a ambas as distribuições, normal e Qui Quadrado.
Depois de verificar que os dados amostrais parecem provir de uma população normalmente
distribuı́da, você deve mudar de direção e pensar em termos da distribuição Qui Quadrado.
A distribuição Qui Quadrado foi introduzida na Unidade I, na Aula 4, onde observamos
as seguintes importantes propriedades:

1. Todos os valores de χ2 são não negativos e a distribuição não é simétrica.

2. Há uma distribuição χ2 diferente para cada número de graus de liberdade.

3. Os valores crı́ticos são encontrados na tabela Qui Quadrado.

A tabela Qui Quadrado se baseia em áreas acumuladas à direita (diferentemente das en-
tradas na tabela da Normal Padrão, que são áreas acumuladas à esquerda). Os valores
crı́ticos são encontrados na tabela Qui Quadrado localizando-se primeiro a linha corres-
pondente ao número apropriado de graus de liberdade (onde gl = n − 1). Em seguida, o
nı́vel de significância α é usado para determinar a coluna correta. Os exemplos seguintes
se baseiam no nı́vel de significância α = 0,05, mas qualquer outro nı́vel de significância
pode ser usado de maneira semelhante. Note que em cada caso, a área chave é a região à
direita do(s) valor(es) crı́tico(s).

Teste unilateral à direita: Como a área à direita do valor crı́tico é 0,05, localize 0,05
no topo da tabela Qui Quadrado.

69
Teste unilateral à esquerda: Com uma área de 0,05 na cauda esquerda, a área à di-
reita do valor crı́tico é 0,95; assim, localize 0,95 no topo da tabela Qui Quadrado.

Teste bilateral: Divida o nı́vel de significância de 0,05 entre as caudas esquerda e di-
reita, de modo que as áreas à direita dos dois valores crı́ticos são 0,975 e 0,025,
respectivamente. Localize 0,975 e 0,025 no topo da tabela Qui Quadrado.

Exemplo 21. Uma das maneiras de manter sob controle a qualidade de um produto é
controlar a sua variabilidade. Uma máquina de encher pacotes de café está regulada para
enchê-los com média de 500 g e desvio padrão de 10 g. O peso de cada pacote segue uma
distribuição normal. Colheu-se uma amostra de 16 pacotes e observou-se uma variância
de 169 g 2 . Com esse resultado, você diria que a máquina está desregulada com relação à
variância?

Solução:

Passo 1: A afirmativa se expressa, em forma simbólica, como σ 2 = 100.

Passo 2: Se a afirmativa original for falsa, então σ 2 6= 100.

Passo 3: A expressão σ 2 =6 100 não contém igualdade, de modo que ela se torna a
hipótese alternativa. A hipótese nula é a afirmativa de que σ 2 = 100.

Passo 4: O nı́vel de significância é α = 0,05.

Passo 5: Como a afirmativa é feita sobre σ 2 , usamos a distribuição Qui Quadrado.

Passo 6: A estatı́stica de teste é


(n−1)s2 (16−1)(169)
χ2observado = σ02
= 102
= 25,35

Os valores crı́ticos de 6,262 e 27,488 são encontrados na tabela Qui Quadrado, na


15a linha (graus de liberdade = n − 1 = 15) nas colunas correspondentes a 0,975 e
0,025.

70
Passo 7: Como a estatı́stica de teste não pertence a região crı́tica, então não rejeitamos
a hipótese nula.

Passo 8: Podemos afirmar que a máquina está sob controle quanto à variância.

Exercı́cios

1. Estudo da Produção Mensal - Bussab e Morettin (2006, exercı́cio 19,


p. 347). Observou-se a produção mensal de uma indústria durante vários anos,
verificando-se que ela obedecia a uma distribuição normal, com variância igual a
300. Foi adotada uma nova técnica de produção e, durante 24 meses, observou-se
a produção mensal. Após esse perı́odo, constatou-se que a média doi de 10.000 e
a variância foi de 400. Teste se podemos afirmar que a variância mudou, adotando
um nı́vel de significância de 5%.

2. Tempo Gasto numa Operação - Adaptado de Bussab e Morettin (2006,


exercı́cio 20, p. 347). Numa linha de produção é muito importante que o tempo
gasto numa determinada operação não varie muito de empregado para empregado.
Por isso, uma empresa determinou que o desvio padrão dos tempos de execução da
operação seja menor que 10 minutos. Sabendo que 11 empregados desta empresa
apresentam os tempos:

125 135 115 120 150 130 125 145 125 140 130

para realizar essa operação, podemos afirmar que essa regra está sendo obedecida
com um nı́vel de significância de 10%?

71
Revisão

Esta Unidade II apresentou métodos básicos para o teste de afirmativas sobre uma
proporção populacional, uma média populacional e um desvio padrão populacional (ou
variância).

Na Aula 1, apresentamos os conceitos fundamentais de um teste de hipótese: hipótese


nula, hipótese alternativa, estatı́stica de teste, nı́vel de significância, valor crı́tico, região
crı́tica, erro tipo I, erro tipo II e poder do teste. Discutimos, também, testes bilaterais,
testes unilaterais à esquerda, testes unilaterais à direita e o estabelecimento de conclusões.

Todos os testes foram realizados em 8 Passos:

Passo 1: Identificar a afirmativa ou hipótese especı́fica a ser testada e expresse-a em


forma simbólica.

Passo 2: Dê a forma simbólica que tem que ser verdadeira quando a afirmativa original
é falsa.

Passo 3: Das duas expressões simbólicas obtidas até agora, deixe que a hipótese Ha seja a
que não contém a igualdade, de modo que para Ha use um dos seguintes sı́mbolos >,
< ou 6=. Deixe a hipótese nula H0 ser a expressão simbólica que iguala o parâmetro
ao valor fixo sendo considerado.

Passo 4: Selecione o nı́vel de significância α. Os valores α = 0,01, α = 0,05 e α = 0,10


são muito comuns.

Passo 5: Identifique a estatı́stica de teste adequada (zobservado , tobservado ou χ2observado )


e a sua respectiva distribuição de probabilidade (Normal, t de Student ou Qui
Quadrado). A Tabela 3 resume essas possibilidades.

Passo 6: Faça o cálculo da estatı́stica do teste. Conforme o sinal apresentado na sua


hipótese alternativa, o nı́vel de significância e a distribuição de probabilidade a ser
utilizada, encontre o(s) valor(es) crı́tico(s) e determine a região crı́tica.

Passo 7: Rejeite H0 se a estatı́stica de teste estiver na região crı́tica. Não rejeite H0 se


a estatı́stica de teste não estiver na região crı́tica.

Passo 8: Faça a conclusão final com termos simples, remetendo à informação original.

72
Tabela 3: Testes de Hipóteses (população normalmente distribuı́da).
Parâmetro Condições Estatı́stica de Teste Valores Crı́ticos

Proporção zobservado = q pb−p0 tabela Normal


p0 (1−p0 )
n

x−µ0
σ conhecido zobservado = √σ tabela Normal
n

Média
x−µ0
σ desconhecido tobservado = √s tabela t de Student
n

(n−1)s2
Desvio Padrão χ2observado = σ02
tabela Qui Quadrado
ou Variância

Para os procedimentos dos testes de hipóteses desta Unidade II é muito importante ver-
ificar se as hipóteses exigidas são satisfeitas. Se não forem, então não podemos usar os
métodos desta Unidade II e podemos precisar de outros métodos, que não serão tratados
nesta disciplina, tais como os métodos não paramétricos.

Exercı́cios de Revisão
1. Analisando Peso de Modelos - Adaptado de Triola (2005, exercı́cio 1, p.
277). Use o nı́vel de significância de 0,01 para testar a afirmativa de que os pesos
de modelos femininas variam menos do que os pesos das mulheres em geral. O
desvio padrão dos pesos da população de mulheres é de 13 kg. Foram selecionadas
aleatoriamente 9 modelos e anotados os respectivos pesos (em kg):

56,7 54,0 58,1 58,1 54,0 57,6 47,6 55,8 52,2

2. Estimando a Frequência a Parques Temáticos - Adaptado de Triola (2005,


exercı́cio 1, p. 276). A cada ano bilhões de dólares são gastos em parques
temáticos de propriedade da Disney, Estúdios Universal, Sea World, Busch Gardens
e outros. Uma pesquisa com 1233 pessoas que fizeram viagens revelou que 111 delas
incluı́ram uma visita a um parque temático (com base em dados da Associação
da Indústria de Viagem da América). Com base nestes resultados da pesquisa, a
consultora de gerência Laura Croft afirma que menos de 10% das viagens incluem
uma visita a um parque temático. Use o nı́vel de significância 0,05 para testar
sua afirmativa. Seria sábio da parte dela usar daquela afirmativa na tentativa de
convencer os gerentes de parques temáticos a investirem em propaganda?

73
3. Monitorando a Dioxina no Ar - Adaptado de Triola (2005, exercı́cio 1,
p. 329). Abaixo estão listadas quantidades medidas de dioxina no ar, no local
do World Trade Center no dia imediatamente após os ataques terroristas de 11 de
setembro de 2001. Dioxina inclui um grupo de quı́micos produzidos pelo fogo e
alguns tipos de produtos. As quantidades listadas estão em nanogramas por metro
cúbico (ng/m3 ) e estão em ordem, com os primeiros valores registrados à esquerda.
Os dados são da Agência de Proteção Ambiental dos Estados Unidos.

0,161 0,175 0,176 0,032 0,0524 0,044 0,018 0,0281 0,0268

a) A Agência usa 0,16 ng/m3 como seu “nı́vel de varredura”, que é “estabelecido
para proteger contra riscos significativamente aumentados de câncer e outros efeitos
adversos à saúde”. Use o nı́vel de significância de 0,05 para testar a afirmativa de
que essa amostra provém de uma população com média menor do que 0,16 ng/m3 .

b) Se a Agência fornecesse que o desvio padrão da quantidade de Dioxina deva ser


de 0,07 ng/m3 , como ficaria o teste?

74
Unidade III

Correlação e Regressão

A Unidade III está dividida em 4 aulas, da seguinte forma:

Na primeira aula, você irá estudar um gráfico denominado diagrama de dispersão que
lhe auxiliará a observar a relação entre duas variáveis quantitativas.

Na segunda aula, você irá estudar como calcular, interpretar e testar se é significativo
o coeficiente de correlação de Pearson.

Na terceira aula, você irá estudar o que são parâmetros numa equação de primeiro grau,
como calculá-los e interpretá-los. Além disso, você estudará que essa equação de primeiro
grau é chamada de reta de regressão e será uma forma de se representar linearmente a
relação entre duas variáveis quantitativas.

Na quarta aula, você irá estudar como calcular e interpretar um coeficiente chamado
coeficiente de determinação.
Aula 1 - Diagrama de Dispersão

Objetivos

Ao final desta aula você deverá ser capaz de:

1. Desenhar um diagrama de dispersão.

2. Interpretar um diagrama de dispersão, verificando a existência ou não de uma


relação linear entre as variáveis.

Muitas vezes estamos interessados em estudar o comportamento de duas variáveis ao


mesmo tempo, por exemplo, idade e altura de crianças; tempo de prática de esportes e
ritmo cardı́aco; tempo de estudo e nota na prova; taxa de desemprego e taxa de criminal-
idade; expectativa de vida e taxa de analfabetismo, entre outros. Uma forma de estudar
este comportamento pode ser através da construção de um gráfico chamado diagrama de
dispersão.

Definição 27 Um diagrama de dispersão é um gráfico no qual os dados amostrais empa-


relhados são plotados com um eixo horizontal x e um eixo vertical y. Cada par individual
(x,y) é plotado como um único ponto.

Quando examinamos um diagrama de dispersão devemos estudar o padrão geral dos pon-
tos plotados. Se há um padrão, devemos observar sua direção. Isto é, quando uma variável
cresce a outra parece crescer ou decrescer? Devemos observar também se há pontos muito
afastados dos demais, ditos outliers. Estas observações nos permitem visualizar a relação
entre as variáveis sob estudo.

Exemplo 22. Os peixes boi são grandes mamı́feros que vivem, em geral, em lugares de
considerável movimentação de barcos, havendo assim, risco de morte por atropelamento.
A Tabela 4 apresenta o número de barcos de passeio registrados na Flórida (em dezenas
de milhares) e o número de mortes de peixes boi relacionadas com barcos.

Construa o diagrama de dispersão para estudar a relação entre o número de barcos (em
dezenas de milhares) e o número de mortes de peixes boi relacionadas com barcos. Note
que no eixo x deverá ser colocado o número de barcos e no eixo y o número de mortes.

76
Tabela 4: Barcos de passeio registrados na Flórida (em dezenas de milhares) e mortes de
peixes boi relacionadas com barcos.

Ano 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
x: Barcos 68 68 67 70 71 73 76 81 83 84
y: Mortes 53 38 35 49 42 60 54 67 82 78

Solução: Para desenhar o diagrama de dispersão o primeiro passo é observar os valores


de x (número de barcos, em dezenas de milhares), no sentido de identificar o menor e o
maior valor, para ser estabelecido uma escala no gráfico, que fica sob sua responsabilidade
determinar. Aqui, foi estabelecido uma escala de 5 em 5, começando do valor 65 (ver
Figura 6). Depois, faça o mesmo para os valores de y (número de mortes). Para o y,
a escala foi de 10 em 10, começando do valor 30 (ver Figura 6). Note que a escala não
precisa ser a mesma para as duas variáveis e também o menor valor nos eixos também
podem ser diferentes (65 e 30).

Figura 6: Diagrama de dispersão do número de barcos de passeio versus o número de


mortes de peixes boi.

Observando o diagrama de dispersão (ver Figura 6), podemos ter uma idéia da relação
entre as variáveis número de barcos e o número de mortes de peixes boi por atropelamento,
isto é, o gráfico mostra que quanto mais barcos passarem no local, maior será o número
de mortes de peixes. Podemos dizer também que esses dados parecem apresentar uma
tendência linear crescente. 

Atenção! Muitos alunos são tentados a colocar nos eixos do gráfico apenas os valores
de x e y que aparecem na tabela de dados, sem a preocupação de estabelecer uma escala
previamente para cada um. Isto pode acarretar em um gráfico distorcido e também pode
afetar na interpretação do que os dados querem dizer. Logo, o primeiro passo é investigar
o menor e o maior valor de cada variável (x e y), estabelecer uma escala para cada uma
e, por último, colocar os pontos correspondentes a cada par (x, y) que estão na tabela de
dados.

77
Exemplo 23. Numa pesquisa feita com 11 famı́lias com renda bruta mensal entre 10 e 60
salários mı́nimos mediram-se as seguintes variáveis: X: renda bruta mensal (em salários
mı́nimos) e Y: porcentagem da renda bruta anual gasta com assistência médica. Os dados
são apresentados na Tabela 5.

Tabela 5: Renda bruta mensal versus a porcentagem da renda bruta anual gasta com
assistência médica.
Famı́lias 1 2 3 4 5 6 7 8 9 10 11
x: Renda 12 16 18 20 28 30 40 48 50 54 32
y: % de Gastos 7,2 7,4 7,0 6,5 6,6 6,7 6,0 5,6 6,0 5,5 6,5

Construa o diagrama de dispersão para estudar a relação entre a renda bruta mensal (em
salários mı́nimos) e a porcentagem da renda bruta anual gasta com assistência médica.
Note que no eixo x deverá ser colocada a renda e no eixo y a porcentagem de gastos.
Solução: Observando os valores de x (renda), o menor valor é 12 e o maior é 54 salários
mı́nimos. Aqui, foi estabelecido uma escala de 10 em 10, começando do valor 10 (ver
Figura 7). Depois, faça o mesmo para os valores de y (% de Gastos). Para o y, a escala
foi de 0,5 em 0,5, começando do valor 5,5 (ver Figura 7).

Figura 7: Diagrama de dispersão da renda bruta mensal versus a porcentagem da renda


bruta anual gasta com assistência médica.

Na Figura 7, temos o diagrama de dispersão de X (Renda Bruta Mensal) e Y (Porcenta-


gem da Renda Bruta Anual gasta com Assistência Médica). Podemos notar que, quanto
maior for a renda bruta mensal, menor é a porcentagem da renda bruta anual gasta com
assistência médica. Nota-se também uma tendência linear decrescente. 

78
Porém, a análise gráfica é altamente subjetiva. Assim, são necessárias medidas mais
precisas e objetivas. O coeficiente de correlação linear é uma medida útil para detectar
padrões lineares que será o conteúdo a ser tratado na próxima Aula.

Exercı́cios
1. Tempo de Estudo versus a Nota na Prova. Considere um estudo entre as
variáveis Nota na Prova (de 0 a 10) e Tempo de Estudo (em horas). Faça o gráfico
de dispersão dos dados apresentados na Tabela 6 e descreva o comportamento que
você está observando.

Tabela 6: Tempo de Estudo versus a Nota na Prova.

Alunos 1 2 3 4 5
x: Tempo 3 7 2 1,5 12
y: Nota 4,5 6,5 3,7 4,0 9,3

2. Idade versus Massa Muscular. É esperado que a massa muscular de uma pessoa
diminua com a idade. Para estudar essa relação uma nutricionista selecionou 18
mulheres com idade entre 40 e 79 anos, e observou em cada uma delas a idade (X)
e a massa muscular (Y). Faça o Gráfico de Dispersão dos dados apresentados na
Tabela 7 e descreva o comportamento que você está observando.

Tabela 7: Idade versus a Massa Muscular.


Mulheres 1 2 3 4 5 6 7 8 9
x: Idade 71 64 43 67 56 73 68 56 76
y: Massa Muscular 82 91 100 68 87 73 78 80 65
Mulheres 10 11 12 13 14 15 16 17 18
x: Idade 65 45 58 45 53 49 78 73 68
y: Massa Muscular 84 116 76 97 100 105 77 73 78

79
Aula 2 - Correlação

Objetivos

Ao final desta aula você deverá ser capaz de:


1. Calcular e interpretar o coeficiente de correlação linear.
2. Verificar através do teste de hipóteses se há ou não uma relação linear estatistica-
mente significativa entre duas variáveis.

Definição 28 Dizemos que existe uma correlação entre duas variáveis quando uma delas
está relacionada com a outra de alguma maneira.

Consideramos neste livro apenas dados quantitativos e relações lineares entre as variáveis,
isto é, quando colocados em um gráfico, os pontos aproximam-se do padrão de uma reta.

Definição 29 O coeficiente de correlação linear r mede a intensidade da relação linear


entre as variáveis quantitativas x e y em uma amostra.

O coeficiente de correlaçao linear é também chamado de coeficiente de correlação de


produto de momentos de Pearson, em homenagem à Karl Pearson que o desenvolveu
originalmente. Tal coeficiente é calculado a partir dos dados amostrais, sendo portanto
uma estatı́stica amostral. Se tivéssemos todos os pares de valores populacionais x e y, o
coeficiente de correlação linear seria um parâmetro populacional representado pela letra
grega ρ.

Supondo que os dados amostrais (x,y) são quantitativos e seguem uma distribuição normal
bivariada, o valor do coeficiente de correlação linear amostral r é calculado pela fórmula:

Pn
i=1xi yi − n x y
r= , (12)
(n − 1) sx sy

sendo que

80
Pn
i=1 xi yi corresponde à multiplicação de cada valor de x por seu valor correspondente
y e posterior soma destes produtos.
n o número de pares (x,y) presentes na amostra;
x a média de todos os valores de x;
y a média de todos os valores de y;
sx o desvio padrão amostral de todos os valores de x, isto é,
sP sP
n n 2

i=1 (xi x)2 − n(x)2
i=1 (xi )
sx = = .
n−1 n−1
sy o desvio padrão amostral de todos os valores de y, isto é,
sP sP
n n 2

i=1 (yi y)2 i=1 (yi ) − n(y)2
sy = = .
n−1 n−1

Exemplo 24. Considerando os pares de valores (1,2), (1,8), (3,6), (5,4) para (x,y), calcule
o coeficiente de correlação linear r.

Solução: Como são quatro pares de dados, temos que n = 4. Tabulando os dados fica
mais fácil o cálculo de r.

Tabela 8: Determinação das estatı́sticas usadas para se calcular r.

x y xy x2 y2
1 2 2 1 4
1 8 8 1 64
3 6 18 9 36
Pn 5 Pn 4 Pn 20 Pn 252 Pn 16 2
Total x
i=1 i = 10 y
i=1 i = 20 x y
i=1 i i = 48 x
i=1 i = 36 i=1 yi = 120

Pn
xi yi − n x y
i=1
r =
(n − 1) sx sy
48 − 4(10/4)(20/4)
= q q
36−4(10/4)2 120−4(20/4)2
(4 − 1) 4−1 4−1
= −0,135.


81
Interpretação do Coeficiente de Correlação Linear

O valor de r deve sempre estar entre −1 e 1, inclusive. Se o valor de r está muito próximo
de zero podemos dizer que não há correlação linear significativa entre x e y. Mas se r
estiver próximo de −1 ou 1, concluı́mos que há uma correlação linear significativa entre
x e y. Mas o que é estar próximo de 1? Esta interpretação é vaga e por isso utilizaremos
um teste de hipóteses para verificar se o r é significativo ou não. Antes, porém, vejamos
as propriedades do coeficiente de correlação linear r.

Propriedades do Coeficiente de Correlação Linear r

1. O valor de r está sempre entre −1 e 1, isto é, −1 ≤ r ≤ 1

2. O valor de r não muda se houver uma mudança de escala em qualquer das variáveis.

3. O valor de r não é afetado pela escolha de x ou y, isto é, trocando todos os valores
de x pelos respectivos valores de y e vice-versa, o valor de r não se altera.

4. r mede apenas a intensidade de relações lineares. Ele não é planejado para medir
intensidade de relações que não sejam lineares (por exemplo, relações logarı́tmicas,
exponenciais, quadráticas, cúbicas, etc).

Resumindo, podemos ter as seguintes situações:

(a) r = 1, indica correlação linear positiva e perfeita;

(b) r = −1, indica correlação linear negativa e perfeita;

(c) r = 0, indica inexistência de correlação linear;

(d) −1 ≤ r ≤ 0 indica correlação linear negativa;

(e) 0 ≤ r ≤ 1 indica correlação linear positiva.

Observe os gráficos de dispersão na Figura 8. As letras de (a) até (e) apresentadas nesta
figura são conforme as situações precedentes. Note que baseado no comportamento que
o gráfico apresentar, você terá um determinado resultado para a correlação.

82
Figura 8: Diagramas de dispersão.

Teste de Hipótese para Correlação Linear

Inicialmente formulamos as hipóteses de nulidade H0 e alternativa Ha . A hipótese H0


refere-se à não existência de correlação linear e a hipótese Ha refere-se à existência de
correlação linear. Assim,
H0 : ρ = 0
Ha : ρ 6= 0

Escolhemos um nı́vel de significância α e calculamos a estatı́stica de teste. Para tanto, é


necessário primeiro calcular o coeficiente de correlação linear amostral r dado pela fórmula
(12).

A estatı́stica de teste é dada por

r
tobservado = q
1−r 2
n−2

e segue a distribuição t de Student. Observe que esta estatı́stica tem a forma tobservado =
r−µr
sr
, sendo µr o valor afirmado da média, isto é, zero para a hipótese nula ρ = 0, e
q
2
sr = 1−r n−2
o valor do desvio padrão amostral dos valores de r. Para esta estatı́stica os
valores crı́ticos de t encontram-se na tabela da distribuição t de Student cruzando os n − 2
graus de liberdade com p igual ao nı́vel de significância α.

83
Se o valor da estatı́stica de teste estiver na região crı́tica, rejeitamos H0 e concluı́mos que
há uma correlação linear entre as variáveis X e Y . Caso contrário, isto é, se o valor da
estatı́stica de teste não estiver na região crı́tica, não rejeitamos H0 e concluı́mos que não
há evidências para afirmar que existe uma correlação linear.

Exemplo 25. Este exemplo já foi introduzido na Aula 1. O mesmo trata do estudo
da relação entre o número de barcos de passeio registrados na Flórida (em dezenas de
milhares) e o número de mortes de peixes boi relacionadas com barcos. Os dados originais
estão na Tabela 4 apresentada na Aula 1. Utilizando estes dados amostrais vamos calcular
o coeficiente de correlação e verificar se existe uma correlação linear entre o número de
barcos registrados e o número de peixes boi mortos por barcos.

Solução: As hipóteses são:

H0 : ρ = 0 (não há correlação linear)

Ha : ρ 6= 0 (há correlação linear)

Nenhum nı́vel de significância foi especificado. Assim, vamos utilizar α = 0,05.

Cálculo de r:

Tabela 9: Determinação das estatı́sticas usadas para se calcular r.

x y xy x2 y2
68 53 3604 4624 2809
68 38 2584 4624 1444
67 35 2345 4489 1225
70 49 3430 4900 2401
71 42 2982 5041 1764
73 60 4380 5329 3600
76 54 4104 5776 2916
81 67 5427 6561 4489
83 82 6806 6889 6724
Pn 84 Pn 78 Pn 65522 Pn 2 7056 Pn 6084
Total i=1 xi = 741 i=1 yi = 558 i=1 xi yi = 42214 i=1 xi = 55289 i=1 yi2 = 33456

84
Pn
xi yi − n x y
i=1
r =
(n − 1) sx sy
42214 − 10(741/10)(558/10)
= q
2
q
33456−10(558/10)2
(10 − 1) 55289−10(741/10)
10−1 10−1
= 0,922.

A estatı́stica de teste é tobservado = q r = q 0,922 = 6,735. Cruzando os graus de


1−r 2 1−0,9222
n−2 10−2
liberdade n − 2 = 10 − 2 = 8 com p = α = 5% na tabela t de Student, temos que o
valor crı́tico é t = 2,306. Como é um teste bilateral, a área de 0,05 é dividida entre as
duas caudas, então a região crı́tica será: (−∞, −2,306] ∪ [2,306, +∞). Como o valor da
estatı́tica do teste tobservado = 6,735 pertence a região crı́tica, então rejeitamos a hipótese
nula e concluı́mos que existe uma correlação linear entre o número de barcos registrados
e o número de peixes boi mortos por atropelamento de barcos. 

Note que no teste para verificar se a correlação é significativa ou não, basta apenas montar
a hipótese nula com o sı́mbolo de igualdade (H0 : ρ = 0) e na hipótese alternativa com
o sı́mbolo de diferente (Ha : ρ 6= 0), pois basta apenas investigar se a correlação é
significativa ou não. Não importa saber se é para o lado positivo ou negativo, pois o
próprio valor da correlação já diz.

Assim, vimos que podemos utilizar o coeficiente de correlação linear para determinar se
existe ou não uma relação linear entre duas variáveis. Na Aula 3, determinaremos a forma
explı́cita desta relação, caso exista.

Exercı́cios

1. Tempo de Estudo versus a Nota na Prova. Considere novamente o estudo entre


as variáveis Nota na Prova (de 0 a 10) e Tempo de Estudo (em horas). Calcule o
coeficiente de correlação dos dados apresentados na Tabela 6 e verifique se esse valor
é significativo com um nı́vel de significância de 10%.

2. Idade versus Massa Muscular. Considere novamente o estudo entre idade (X)
e a massa muscular (Y) de mulheres. Calcule o coeficiente de correlação dos dados
apresentados na Tabela 7 e verifique se esse valor é significativo com um nı́vel de
significância de 5%.

85
Aula 3 - Equação de Regressão

Objetivos

Ao final desta aula você deverá ser capaz de:


1. Descrever a relação entre duas variáveis através da reta de regressão e da equação
de regressão.

2. Utilizar a equação de regressão para predição.

3. Interpretar os parâmetros da equação de regressão.

Na Aula 2, analisamos dados em pares com o objetivo de determinar se havia, ou não, uma
correlação linear entre as duas variáveis. O objetivo principal desta Aula 3 é descrever a
relação entre duas variáveis através da reta e da equação que representam esta relação.
Esta reta é chamada reta de regressão, que pode ser desenhada no gráfico de dispersão e
sua equação é chamada equação de regressão. Sir Francis Galton (1822-1911) estudou o
fenômeno de hereditariedade e mostrou que, quando casais altos ou baixos têm filhos, as
alturas dessas crianças tendem a regredir, ou reverter para uma altura média mais tı́pica
das pessoas do mesmo sexo. Continuamos a usar a mesma terminologia de “regressão”
de Galton, embora nossos dados não envolvam os mesmos fenômenos de altura estudados
por ele.

A equação de regressão expressa uma relação entre x, dita variável independente ou


variável preditora ou variável explicativa e yb, dita variável dependente ou variável resposta.
A equação tı́pica de uma reta y = a + bx é expressa na forma yb = b0 + b1 x, sendo b0 o
intercepto com o eixo y e b1 a inclinação. Esta notação mostra que b0 e b1 são estatı́sticas
amostrais utilizadas para estimar os parâmetros populacionais β0 e β1 . Utilizando apenas
dados amostrais, não podemos achar os valores exatos dos parâmetros populacionais β0 e
β1 , mas podemos estimá-los com b0 e b1 .

Suposições
1. Estamos investigando apenas relações lineares.

2. Para cada valor de x, y é uma variável aleatória normal (em forma de sino). Todas
essas distribuições de y têm a mesma variância. Também, para um dado valor de x, a
distribuição dos valores de y tem uma média que se localiza sobre a reta de regressão.
(Os resultados não são seriamente afetados se afastamentos da distribuição normal
e da igualdade das variâncias não forem muito extremos.)

86
Definição 30 Dada uma coleção de dados amostrais emparelhados (x, y), a equação de
regressão yb = b0 + b1 x descreve algebricamente a relação entre duas variáveis. O gráfico
da equação de regressão é chamado reta de regressão (ou reta de melhor ajuste, ou reta
de mı́nimos quadrados).

A notação para a equação de regresão é apresentada na Tabela 10.

Tabela 10: Notação para a equação de regressão.

Parâmetro Estatı́stica
Populacional Amostral
Intercepto y da equação de regressão β0 b0
Inclinação da equação de regressão β1 b1
Equação da reta de regressão y = β0 + β1 x yb = b0 + b1 x

Para calcular a inclinação b1 e o intercepto b0 utilizamos as fórmulas


Pn
xi yi − n x y
b1 = i=1 (13)
(n − 1) s2x
e
b0 = y − b1 x. (14)

As fórmulas 13 e 14 estão programadas em diversas calculadoras e em muitos programas


de computador, de modo que os valores de b0 e b1 podem ser facilmente obtidos. Se estes
recursos não estiverem disponı́veis, os cálculos necessários se tornarão mais fáceis se nos
lembrarmos dos seguintes fatos:

1. Se o coeficientePde correlação linear r já foi calculado usando-se a fórmula 12, os


2
P
valores de x, y, x e xy já foram encontrados e podem ser usados novamente
na fórmula 13. Note que o numerador de r na fórmula 12 é o mesmo numerador
de b1 na fórmula 13; o denominador de 13 também é muito parecido com o de r,
mas no lugar de sx sy vem s2x . Se o cálculo de r é feito cuidadosamente, facilitará
também o cálculo de b1 .

2. Após encontrar a estimativa de b1 a partir da fórmula 13, utilize essa informação


para encontrar a estimativa do intercepto b0 , utilizando a fórmula 14.

87
Exemplo 26. Calcule b0 e b1 para os dados dos barcos de passeio versus as mortes dos
peixes boi e, em seguida, apresente a equação de regressão e desenhe a reta de regressão
no diagrama de dispersão.

Solução: Usando os dados da Tabela 4, vimos que o coeficiente de correlação linear é


r = 0,922. Usando os mesmos dados amostrais, podemos calcular b1 da seguinte forma:

Pn
i=1xi yi − n x y
b1 =
(n − 1) s2x
42214 − 10(741/10)(558/10)
= 2
(10 − 1) 55289−10(741/10)
10−1
= 2,27.

Para o cálculo de b0 fazemos

b0 = y − b1 x = 55,8 − (2,27)(74,1) = −113.


Logo, expressamos a equação de regressão por yb = −113 + 2,27x. Abaixo, mostra-se o
diagrama de dispersão com a reta de regressão incluı́da.

Figura 9: Diagrama de dispersão com a reta de regressão.

Podemos ver que a reta de regressão se ajusta bem aos dados. 

88
Uma vez que tenhamos o cálculo de b0 e b1 , podemos identificar a equação de regressão
estimada, que representa a reta de regressão que ajusta melhor os pontos amostrais. O
critério especı́fico usado para determinar que reta ajusta “melhor” é a propriedade dos
mı́nimos quadrados, que com base nessa propriedade chega-se nas expressões 13 e 14.

Método de mı́nimos quadrados e interpretação dos parâmetros


da equação de regressão

As fórmulas para b0 e b1 foram obtidas via o método de mı́nimos quadrados, que visa
encontrar os valores de b0 e b1 , que minimiza a soma dos quadrados dos erros (ou desvios),
isto é,
n
X n
X n
X
SQ(b0 , b1 ) = e2i = 2
(yi − ybi ) = (yi − (b0 + b1 x))2
i=1 i=1 i=1
O problema agora se restringe a encontrar o mı́nimo de uma função (SQ(b0 , b1 )) em relação
as duas variáveis: b0 e b1 . Derivando a função SQ(b0 , b1 ) em relação a b0 e igualando a
zero e isolando b0 , obtemos a equação 14. Derivando a função SQ(b0 , b1 ) em relação a b1
e igualando a zero e isolando b1 , obtemos a equação 13.

Interpretação de b1 : Para cada aumento de uma unidade em x, temos um aumento médio


de b1 unidades em y.

Interpretação de b0 : Esse parâmetro só pode ser interpretado, se houver na tabela de


dados o valor x = 0, pois quando x = 0 unidades, então yb = b0 unidades. Caso não tenha
x = 0, não podemos interpretar b0 e o papel dele na equação de regressão é predizer um
melhor valor para y, quando for substituı́do um valor em x.

Uso da equação de regressão para predições


As equações de regressão são úteis para predizer o valor de uma variável, dado algum valor
da outra variável. Se a reta de regressão se ajusta bem aos dados, então faz sentido usar
essa equação para predições, desde que não ultrapassem o limite dos valores disponı́veis.
No entanto, devemos usar a equação de regressão apenas se r indicar que há uma cor-
relação linear. Neste caso, o melhor valor predito de y é encontrado pela substituição do
valor de x na equação de regressão.

Esse processo é mais fácil de ser entendido se pensarmos em r como uma medida de quão
bem a reta de regressão se ajusta aos dados amostrais. Se r estiver próximo de −1 ou
de +1, então a reta de regressão se ajusta bem aos dados, mas se r estiver próximo de 0,
então a reta de regressão não se ajusta bem e, portanto, não deve ser usada para predições.

89
Exemplo 27. Usando os dados amostrais da Tabela 4, vimos que há uma correlação
linear significante entre o número de barcos registrados e o número de peixes boi mortos
por barcos. Vimos também que a equação de regressão é yb = −113 + 2,27x. Suponha
que em 2001 houvessem 850.000 barcos registrados. Como a Tabela 4 lista o número de
barcos registrados em dezenas de milhares, isto significa que, para 2001, temos x = 85.
Dado x = 85, ache o melhor valor predito de y, o número de peixes boi mortos por barcos.

Solução: Há uma forte tentação de se pôr 85 no lugar de x na equação de regressão,


mas devemos primeiro verificar se há uma correlação linear que justifique o uso daquela
equação. Nesse exemplo temos realmente uma correlação linear significativa (com r =
0,922), de modo que o valor predito é encontrado como segue.

yb = −113 + 2,27x = −113 + 2,27(85) = 80.

O número predito de mortes de peixes boi pelos 850.000 barcos registrados é de 80. O
número real de mortes de peixes boi por barcos em 2001 foi 82, de modo que o valor
predito está muito próximo. 
Estabelecendo uma regra geral para predizer um valor, utilize o seguinte procedimento:
inicialmente calcule o valor de r e teste a hipótese de que ρ = 0. Se tal hipótese é rejeitada,
significa que existe uma correlação linear significativa, use a equação de regressão para
fazer predições e substitua o valor dado na equação de regressão. Se a hipótese não
for rejeitada, dado qualquer valor de uma variável, o melhor valor predito para a outra
variável é sua média amostral.

Diretrizes para o uso da Equação de Regressão

1. Se não há qualquer correlação linear, não use a equação de regressão para fazer
predições.

2. Quando usar a equação de regressão para predições, permaneça dentro do alcance


dos dados amostrais disponı́veis. Se você encontra uma equação de regressão que
relaciona as alturas das mulheres e tamanhos de sapatos por exemplo, é absurdo
predizer o tamanho do sapato de uma mulher de 45.

3. Uma equação de regressão com base em dados antigos não é necessariamente válida
agora. Por exemplo, a equação de regressão que relaciona preços de carros usados e
as idades dos carros não é mais útil se ela se baseou em dados da década de 1970.

4. Não faça predições sobre uma população que é diferente da população da qual se
extraı́ram os dados amostrais. Se coletamos dados amostrais de homens e desen-
volvemos uma equação de regressão que relaciona idade e uso de controle remoto da
TV, os resultados não se aplicam necessariamente às mulheres.

90
Exercı́cios

1. Tempo de Estudo versus a Nota na Prova. Considere novamente o estudo


entre as variáveis Nota na Prova (de 0 a 10) e Tempo de Estudo (em horas).

a) Obtenha a equação de regressão dos dados apresentados na Tabela 6 e interprete


os parâmetros do modelo.

b) Qual seria a nota prevista de um aluno que estudou 10 horas?

2. Idade versus Massa Muscular. Considere novamente o estudo de idade (X) e a


massa muscular (Y) entre mulheres.

a) Obtenha a equação de regressão dos dados apresentados na Tabela 7 e interprete


os parâmetros do modelo.

b) Qual seria a massa muscular de uma mulher que tenha 70 anos?

91
Aula 4 - Coeficiente de Determinação

Objetivos

Ao final desta aula você deverá ser capaz de:


1. Calcular o coeficiente de determinação e explicar o quanto da variação em y é devido
a variável x.
2. Medir a qualidade do ajuste do modelo de regressão através do coeficiente de deter-
minação.

Através do coeficiente de correlação linear r podemos determinar se há ou não uma cor-
relação linear entre duas variáveis x e y. Se concluı́mos que há uma correlação linear
significativa entre x e y, podemos encontrar uma equação linear que expresse y em função
de x, isto é, uma equação para a Reta de Regressão. Esta equação pode ser utilizada para
predizer valores de y para valores dados de x. Mas quanto desta variação em y é explicada
pela Reta de Regressão? Isto será respondido através do coeficiente de determinação.

Definição 31 O coeficiente de determinação r2 é a proporção de variação em y que é


explicada pela relação linear entre x e y, isto é, pela reta de regressão. É calculado como
r2 ∗ 100%.

Assim, para calcular o coeficiente de determinação r2 simplesmente elevamos ao quadrado


o coeficiente de correlação linear r e multiplicamos o resultado por 100%.

Exemplo 28. Utilizando os dados barcos versus as mortes de peixes boi da Tabela 4,
obtivemos um r = 0,922. Que proporção da variação nas mortes de peixes boi pode ser
explicada pela relação linear entre o número de mortes de peixes boi relacionadas com
barcos e o número de barcos registrados?

Solução: Como r = 0,922, então r2 ∗ 100% = 0,9222 ∗ 100% = 85%. 

Interpretação do Coeficiente de Correlação Linear

Dizemos que r2 ∗ 100% da variação total em y pode ser explicada pela relação linear entre
x e y (conforme descrito pela equação de regressão).

92
Exemplo 29. Utilizando os dados barcos versus peixes boi da Tabela 4, obtivemos um
coeficiente de determinação de 85%. Interprete este resultado.

Solução: O valor obtido para o coeficiente de determinação indica que cerca de 85% da
variação nas mortes de peixes boi por barcos pode ser explicada pela relação linear entre
o número de registros de barcos e o número de peixes boi mortos por barcos. Segue que
15% da variação total em y permanece não explicada. 

É comum, porém incorreto, concluir que a correlação implica causalidade. Por exemplo,
suponha que exista uma correlação entre os valores de x e de y. Não podemos concluir
que um aumento nos valores de x provoque um aumento nos valores de y. Os valores de y
podem ser afetados por alguma outra variável que não está incluı́da no estudo, chamada
variável oculta. Isto é, uma variável que não está incluı́da no estudo mas que afeta as
outras variáveis em estudo.

Outro erro surge de dados que se baseiam em médias. As médias suprimem a variação
individual e podem aumentar o coeficiente de correlação. Considere por exemplo um
estudo que produziu um coeficiente de correlação linear de 0,4 para os dados coletados
que relacionavam renda e educação entre indivı́duos, mas o coeficiente de correlação linear
se tornou 0,7 quando foram consideradas médias regionais.

Um terceiro erro envolve a propriedade de linearidade. Pode existir uma relação não linear
entre x e y, mesmo quando não há correlação linear significativa.

93
Exercı́cios

1. Tempo de Estudo versus a Nota na Prova. Considere novamente o estudo entre


as variáveis Nota na Prova (de 0 a 10) e Tempo de Estudo (em horas). Obtenha o
coeficiente de determinação para os dados da Tabela 6 e interprete o resultado.

2. Idade versus Massa Muscular. Considere novamente o estudo entre a idade (X)
e a massa muscular (Y) de mulheres. Obtenha o coeficiente determinação para os
dados da Tabela 7 e interprete o resultado.

94
Revisão

Esta Unidade III apresenta métodos básicos para investigar relações ou correlações entre
duas ou mais variáveis.
• Na Aula 1 utilizamos Diagramas de Dispersão para visualizar se há ou não uma
correlação linear entre duas variáveis.

• Como a análise de um Diagrama de Dispersão é altamente subjetiva, na Aula 2 uti-


lizamos o coeficiente de correlação linear para decidir se há ou não uma correlação
linear entre duas variáveis e se o resultado encontrado é significativo estatistica-
mente.

• Na Aula 3 apresentamos métodos para encontrar a equação da Reta de Regressão.


Quando há uma correlação linear significativa, a equação de regressão pode ser
usada para predizer o valor de uma variável, dado algum valor da outra variável.

• Na Aula 4 definimos o Coeficiente de Determinação como sendo a proporção da


variação em y que é explicada pela Reta de Regressão.

Exercı́cios de Revisão

1. Idade versus Concentração de Álcool no Sangue - Adaptado de Triola


(2005, exercı́cio 1, p. 427). Realizou-se um estudo para investigar a relação en-
tre idade (em anos) e CAS (concentração de álcool no sangue) medidas quando con-
denados por dirigirem alcoolizados, internos em cadeias, foram presos pela primeira
vez. Os dados amostrais de sujeitos selecionados aleatoriamente são mostrados na
Tabela 11 (com base em dados do Condado de Dutchess, Programa PAREDA).

Tabela 11: Idade versus CAS (concentração de álcool no sangue).

Condenados 1 2 3 4 5 6 7 8
x: Idade 17,2 43,5 30,7 53,1 37,2 21,0 27,6 46,3
y: CAS 0,19 0,20 0,26 0,16 0,24 0,20 0,18 0,23

a) Construir o diagrama de dispersão e discutir sua tendência;

b) Determinar e interpretar o coeficiente de correlação;

95
c) Determinar a equação de regressão linear;

d) Representar graficamente a reta no diagrama de dispersão;

e) Estimar o valor de Y quando o X é igual a idade média dos presos.

f ) Determinar e interpretar o coeficiente de determinação;

2. Gorjetas versus Valor da Conta - Adaptado de Triola (2005, exercı́cio 2,


p. 427). Muitos de nós já ouvimos que a gorjeta deveria ser de 10% da conta. A
Tabela 12 lista alguns dados coletados de num restaurante de grande porte.

Tabela 12: Valor da Conta (em reais) versus Gorjeta dada ao Garçon (em reais).

Alunos 1 2 3 4 5 6
x: Conta 33,46 50,68 87,92 98,84 63,60 107,34
y: Gorjeta 5,50 5,00 8,08 17,00 12,00 16,00

a) Construir o diagrama de dispersão e discutir sua tendência;

b) Determinar e interpretar o coeficiente de correlação;

c) Determinar a equação de regressão linear;

d) Representar graficamente a reta no diagrama de dispersão;

e) Estimar o valor de Y quando o X é igual ao valor médio das contas.

f ) Determinar e interpretar o coeficiente de determinação;

96
Pra final de conversa...

Você estudou ao longo desses 60 dias a disciplina Estatı́stica Aplicada, que lhe dará suporte
para a continuidade do curso. Contudo, não queremos que nosso diálogo se encerre aqui.
Sempre que você sentir necessidade, busque com os tutores e coordenadores de pólos uma
alternativa para sanar suas dúvidas.

Lembre-se de que, além dos sujeitos envolvidos no seu processo de aprendizagem, a apos-
tila é um recurso imediato e está ao seu alcance quando necessário.

Esperamos que esta apostila lhe tenha sido proveitosa e agradável. Procuramos escrevê-
la da melhor maneira possı́vel, com muito carinho e com o objetivo de facilitar o seu
entendimento, sem perder a qualidade. Tratamos aqui de assuntos essenciais para sua
formação acadêmica e que lhe darão suporte para compreender novas disciplinas que
surgirão no decorrer do curso de pós-graduação. Desejamos que você prossiga com seus
estudos, que obtenha êxito e paixão para continuar sempre!

Atenciosamente,

Os Autores.

97
Referências Bibliográficas

[1] Bussab, W. O. e Morettin, P. A. Estatı́stica Básica. São Paulo: Saraiva, 2006.

[2] Farias, A. A.; Soares, J. F. e César, C. C. Introdução à Estatı́stica. Rio de Janeiro:


LTC, 2003.

[3] Magalhães, M. N. e Lima, A. C. P. Noções de Probabilidade e Estatı́stica. São


Paulo: EDUSP, 2005.

[4] Siegel, S. e Castellan Jr., N. J. Estatı́stica não paramétrica para ciências do


comportamento. Editora: Bookman Companhia, 2006.

[5] Triola, M. F. Introdução a Estatı́stica. Rio de Janeiro: LTC, 2005.


Apêndice

Fonte: Triola (2005, p.569).


TABELA DA DISTRIBUIÇÃO T DE STUDENT
Valores t tais que P(-t ≤ T ≤ t) = 1 - p
Graus de Liberdade

Graus de Liberdade
p = 90% 80% 70% 60% 50% 40% 30% 20% 10% 5% 4% 2% 1%
1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12,706 15,894 31,821 63,657 1
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 4,849 6,965 9,925 2
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 3,482 4,541 5,841 3
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 2,998 3,747 4,604 4
5 0,132 0,267 0,408 0,559 0,727 0,920 1,156 1,476 2,015 2,571 2,756 3,365 4,032 5

6 0,131 0,265 0,404 0,553 0,718 0,906 1,134 1,440 1,943 2,447 2,612 3,143 3,707 6
7 0,130 0,263 0,402 0,549 0,711 0,896 1,119 1,415 1,895 2,365 2,517 2,998 3,499 7
8 0,130 0,262 0,399 0,546 0,706 0,889 1,108 1,397 1,860 2,306 2,449 2,896 3,355 8
9 0,129 0,261 0,398 0,543 0,703 0,883 1,100 1,383 1,833 2,262 2,398 2,821 3,250 9
10 0,129 0,260 0,397 0,542 0,700 0,879 1,093 1,372 1,812 2,228 0,359 2,764 3,169 10

11 0,129 0,260 0,396 0,540 0,697 0,876 1,088 1,363 1,796 2,201 2,328 2,718 3,106 11
12 0,128 0,259 0,395 0,539 0,695 0,873 1,083 1,356 1,782 2,179 2,303 2,681 3,055 12
13 0,128 0,259 0,394 0,538 0,694 0,870 1,079 1,350 1,771 2,160 2,282 2,650 3,012 13
14 0,128 0,258 0,393 0,537 0,692 0,868 1,076 1,345 1,761 2,145 2,264 2,624 2,977 14
15 0,128 0,258 0,393 0,536 0,691 0,866 1,074 1,341 1,753 2,131 2,248 2,602 2,947 15

16 0,128 0,258 0,392 0,535 0,690 0,865 1,071 1,337 1,746 2,120 2,235 2,583 2,921 16
17 0,128 0,257 0,392 0,534 0,689 0,863 1,069 1,333 1,740 2,110 2,224 2,567 2,898 17
18 0,127 0,257 0,392 0,534 0,688 0,862 1,067 1,330 1,734 2,101 2,214 2,552 2,878 18
19 0,127 0,257 0,391 0,533 0,688 0,861 1,066 1,328 1,729 2,093 2,205 2,539 2,861 19
20 0,127 0,257 0,391 0,533 0,687 0,860 1,064 1,325 1,725 2,086 2,197 2,528 2,845 20

21 0,127 0,257 0,391 0,532 0,686 0,859 1,063 1,323 1,721 2,080 2,189 2,518 2,831 21
22 0,127 0,256 0,390 0,532 0,686 0,858 1,061 1,321 1,717 2,074 2,183 2,508 2,819 22
23 0,127 0,256 0,390 0,532 0,685 0,858 1,060 1,319 1,714 2,069 2,177 2,500 2,807 23
24 0,127 0,256 0,390 0,531 0,685 0,857 1,059 1,318 1,711 2,064 2,172 2,492 2,797 24
25 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,316 1,708 2,060 2,166 2,485 2,787 25

26 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,315 1,706 2,056 2,162 2,479 2,779 26
27 0,127 0,256 0,389 0,531 0,684 0,855 1,057 1,314 1,703 2,052 2,158 2,473 2,771 27
28 0,127 0,256 0,389 0,530 0,684 0,855 1,056 1,313 1,701 2,048 2,154 2,467 2,763 28
29 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 1,699 2,045 2,150 2,462 2,756 29
30 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,310 1,697 2,042 2,147 2,457 2,750 30

35 0,126 0,255 0,388 0,529 0,682 0,852 1,052 1,306 1,690 2,030 2,133 2,438 2,724 35
40 0,126 0,255 0,388 0,529 0,681 0,851 1,050 1,303 1,684 2,021 2,123 2,423 2,704 40
50 0,126 0,254 0,387 0,528 0,679 0,849 1,047 1,299 1,676 2,009 2,109 2,403 2,678 50
60 0,126 0,254 0,387 0,527 0,679 0,848 1,045 1,296 1,671 2,000 2,099 2,390 2,660 60
120 0,126 0,254 0,386 0,526 0,677 0,845 1,041 1,289 1,658 1,980 2,076 2,358 2,617 120
Graus de Liberdade

Graus de Liberdade

p = 90% 80% 70% 60% 50% 40% 30% 20% 10% 5% 4% 2% 1%

Fonte: Bussab e Morettin (2006, p.499).


Fonte: Triola (2005, p.571).

Você também pode gostar