Curso de Matemática
Estatı́stica Aplicada
Profa . Ms. Daniela Carine Ramires de Oliveira
Prof. Ms. Marcos Santos de Oliveira
Profa . Ms. Luciane Teixeira Passos Giarola
Profa . Ms. Rejane Corrêa da Rocha
UFSJ
MEC / SEED / UAB
2009
1
Sumário
Unidade I - Estimação 4
Aula 1 - Estimação de uma Proporção Populacional . . . . . . . . . . . . . . . . 5
Aula 2 - Estimação da Média Populacional com Desvio Padrão Populacional
Conhecido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Aula 3 - Estimação da Média Populacional com Desvio Padrão Populacional
Desconhecido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Aula 4 - Estimação da Variância Populacional ou Desvio Padrão Populacional . 32
Referências Bibliográficas 98
Apêndice 99
2
Pra começo de conversa...
Os Autores
3
Unidade I
Estimação
Na primeira aula, você irá estudar os conceitos de estimativa pontual, estimativa inter-
valar (também conhecido como intervalo de confiança), nı́vel de confiança, valor crı́tico,
margem de erro e obtenção do tamanho amostral, quando se quer estimar uma Proporção
Populacional (p).
Na terceira aula, você irá estudar os conceitos de estimativa pontual e intervalar, quando
se quer estimar µ, mas σ é desconhecido.
Objetivos
Introdução
Eis o objetivo desta aula: dada uma proporção amostral, estimar o valor da proporção
populacional p. Por exemplo, considere uma pesquisa em que o objetivo era estimar a
proporção p de todos os adultos de Minas Gerais que se opõem a legislação do radar
fotográfico (câmeras para registrar e depois multar motoristas que desrespeitam o sinal
vermelho). Para estimar essa proporção p, foram entrevistados 829 adultos e 51% deles se
opõem ao radar fotográfico. A estatı́stica amostral de 51% pode ser representada como a
proporção amostral de 0,51. Logo, usando o tamanho amostral de n = 829 e a proporção
amostral de 0,51, prosseguiremos para estimar p.
5
Suposições
1. A amostra de tamanho n é uma amostra aleatória simples, isto é, toda amostra
possı́vel de tamanho n tem a mesma chance de ser escolhida.
2. A distribuição normal pode ser usada para aproximar a distribuição das proporções
amostrais.
Esta exigência de seleção aleatória significa que os métodos desta aula não podem ser
usados com qualquer outro tipo de amostragem, como estratificada, por conglomerado ou
de conveniência.
Atenção! Dados coletados sem cuidado podem ser absolutamente sem valor, mesmo que
a amostra seja muito grande.
Sabemos que diferentes amostras produzem resultados diferentes. Os métodos desta aula
supõem que essas diferenças amostrais sejam devidas a flutuações aleatórias do acaso,
e não a algum método infundado de amostragem. Se você fosse realizar uma pesquisa
acerca da legislação que trata de dirigir alcoolizado e selecionasse uma amostra de donos
de bar, não deveria usar os resultados para fazer qualquer estimativa da proporção de
todos os adultos brasileiros. A amostra de donos de bar é, provavelmente, uma amostra
tendenciosa, no sentido de que não é representativa de todos os brasileiros.
Considerando que tenhamos uma amostra aleatória simples e que a outra suposição acima
seja satisfeita, podemos agora prosseguir em direção ao nosso maior objetivo: usar a
amostra como base para estimar o valor da proporção populacional p. Introduzimos a
nova notação pb (lê-se p chapéu) para a proporção amostral. Por exemplo, se é relatado que
829 adultos de Minas Gerais foram pesquisados e 51% deles se manifestaram contrários à
legislação do radar fotográfico, então pb = 0,51.
Definição 1 Uma estimativa pontual é um único valor usado para estimar um parâmetro
populacional.
6
Exemplo 1. Vimos que 829 adultos de Minas Gerais foram pesquisados, e que 51%
deles se opunham ao uso das câmeras para se aplicarem multas de trânsito. Usando os
resultados da pesquisa, ache a melhor estimativa pontual da proporção de todos os adultos
de Minas Gerais que se opõem ao uso das câmeras.
No Exemplo 1, vimos que 0,51 era nossa melhor estimativa pontual da proporção popula-
cional p, mas não temos qualquer indicação de quão boa era nossa melhor estimativa. Se
tivéssemos uma amostra de apenas 20 adultos de Minas Gerais e 12 se opusessem ao uso de
câmeras, nossa melhor estimativa pontual seria a proporção amostral de pb = 12/20 = 0,6,
mas não esperarı́amos que essa estimativa pontual fosse muito boa porque se baseou em
uma amostra muito pequena. Como a estimativa pontual tem a falha de não revelar quão
boa ela é, os estatı́sticos desenvolveram outro tipo de estimativa chamada estimativa in-
tervalar ou intervalo de confiança, que consiste em uma faixa (ou intervalo) de valores em
vez de apenas um único valor.
A cada intervalo de confiança está associado um nı́vel de confiança, o qual pode assumir
valores tais como 0,90 (ou 90%), 0,95 (ou 95%) ou 0,99 (ou 99%). O nı́vel de confiança
fornece a taxa de sucesso do procedimento usado para construir o intervalo de confiança,
ao qual é, muitas vezes, expresso como uma probabilidade ou uma área igual a 1 − α. O
valor de α é o complemento do nı́vel de confiança. Para um nı́vel de confiança de 0,90
(ou 90%), α = 0,10. Para um nı́vel de confiança de 0,95 (ou 95%), α = 0,05. Para um
nı́vel de confiança de 0,99 (ou 99%), α = 0,01.
7
As escolhas mais comuns para o nı́vel de confiança são 90%, 95% e 99%. A escolha de 95%
é mais comum porque resulta em um bom equilı́brio entre precisão (conforme refletido
na largura do intervalo de confiança) e confiabilidade (conforme expresso pelo nı́vel de
confiança).
Após fixar um nı́vel de confiança, você deverá associar um valor crı́tico para calcular um
intervalo de confiança. O valor crı́tico é um escore padrão z, que pode ser usado para
distinguir entre estatı́sticas amostrais que têm chance de ocorrer e aquelas que não têm.
1. A distribuição amostral das proporções amostrais pode ser aproximada por uma
distribuição normal, como na Figura 1.
3. Representando a área de cada cauda sombreada por α/2, vemos que há uma pro-
babilidade total α de que uma proporção amostral caia em uma das duas caudas
sombreadas.
8
4. Pela regra dos complementos, há uma probabilidade 1 − α de que uma proporção
amostral caia na região central (em branco) da Figura 1.
5. O escore z que separa a região da cauda à direita é comumente denotado por zα/2 e
é chamado de valor crı́tico porque está na fronteira que separa proporções amostrais
que têm chance de ocorrer das que não têm.
Solução: Cuidado! Para achar o valor crı́tico zα/2 para um nı́vel de confiança de 95%,
não procure 0,95 no interior da tabela da Normal Padrão. Um nı́vel de confiança de 95%
corresponde a α = 0,05. Veja a Figura 1, onde mostramos que a área em cada cauda
sombreada é α/2 = 0,025. Vemos que zα/2 = 1,96, observando que toda a área à sua
esquerda deve ser 1 − 0,025 ou 0,975. Podemos recorrer à tabela da Normal Padrão e
encontrar que a área de 0,9750 (encontrada no interior da tabela) corresponde exatamente
ao escore z de 1,96. Para um nı́vel de confiança de 95%, o valor crı́tico é, portanto,
zα/2 = 1,96.
9
Tabela 1: Listagem de nı́veis de confiança mais utilizados e seus respectivos valores
crı́ticos.
Definição 6 Quando os dados de uma amostra aleatória simples são usados para estimar
uma proporção populacional p, a margem de erro, representada por E, é a diferença
máxima provável (com probabilidade 1 − α) entre a proporção amostral observada pb e o
verdadeiro valor da proporção populacional p. A margem de erro E é também chamada
de erro máximo da estimativa e pode ser encontrada pela multiplicação do valor crı́tico
pelo desvio padrão das proporções amostrais, conforme a fórmula a seguir.
r
pb(1 − pb)
E = zα/2 (1)
n
Exemplo 3. Vimos que 829 adultos de Minas Gerais foram entrevistados e que 51%
deles se opunham ao uso das câmeras para aplicação de multas de trânsito. No Exemplo
1, constatamos que a melhor estimativa pontual da proporção populacional é 0,51. Use
esses mesmos resultados da pesquisa para responder as questões a seguir.
c) Com base nos resultados, podemos concluir com segurança que a maioria dos adultos
de Minas Gerais se opõe ao uso de câmeras no policiamento do trânsito?
Solução: a) Para um nı́vel de confiança de 95%, temos que zα/2 = 1,96. Sabemos
também que pb = 0,51 e n = 829. A margem de erro expressa na fórmula (1) fica
10
r r
pb(1 − pb) 0,51(1 − 0,51) ∼
E = zα/2 = 1,96 = 0,034.
n 829
b) A construção do intervalo de confiança é, agora, muito fácil, uma vez que temos os
valores de pb e de E. Simplesmente substituı́mos esses valores para se obter este resultado:
Esse mesmo resultado poderia ser expresso no formato de 0,51 ± 0,034. Se desejássemos o
intervalo de confiança de 95% de confiança para a verdadeira porcentagem populacional,
poderı́amos expressar o resultado como [47,6%; 54,4%]. Esse intervalo de confiança é, em
geral, apresentado com uma alternativa como: ”Estima-se que 51% dos adultos de Minas
Gerais se opunham ao uso de câmeras no policiamento do trânsito, com uma margem de
erro de mais ou menos 3,4 pontos percentuais”. Essa afirmativa, muito comum em meios
de comunicação em épocas de eleição, é uma expressão verbal do seguinte formato para
o intervalo de confiança: 51% ± 3,4%. O nı́vel de confiança deve, também, ser informado,
mas raramente a mı́dia o faz. A mı́dia usa comumente o intervalo de confiança de 95%
de confiança, mas omite qualquer referência a ele.
c) Com base nos resultados da pesquisa, estamos 95% confiantes de que os limites de
47,6% e 54,4% contém a verdadeira porcentagem dos adultos de Minas Gerais que se
opõem ao uso de câmeras. É provável que essa porcentagem seja algum valor entre 47,6%
e 54,4%. No entanto, a maioria exige uma porcentagem maior do que 50%, de modo que
não podemos concluir com segurança que a maioria seja contra o uso de câmeras (porque
o limite inferior do intervalo não é maior do que 50%).
Devemos ser cuidadosos para interpretar corretamente os intervalos de confiança. Há uma
interpretação correta e muitas, diferentes e criativas, interpretações erradas do intervalo
de confiança [0,476; 0,544].
Correta: “Estamos 95% confiantes de que o intervalo de 0,476 a 0,544 realmente contém
o verdadeiro valor de p”. Isto significa que, se selecionássemos muitas diferentes amostras
de tamanho 829 e construı́ssemos os intervalos de confiança correspondentes, 95% deles
realmente conteriam o valor da proporção populacional p. (Note que nesta interpretação
correta o nı́vel de 95% se refere à taxa de sucesso do processo em uso para estimar a
proporção populacional, e não se refere à própria proporção populacional).
11
Errada: “Há uma chance de 95% de que o verdadeiro valor de p estará entre 0,476 e
0,544”.
Em qualquer ponto especı́fico no tempo, há um valor de p fixo e constante, que representa
a proporção de adultos de Minas Gerais que se opõe ao uso das câmeras. Se usamos
dados amostrais para determinar limites especı́ficos, tais como 0,476 e 0,544, esses limites
incluirão ou não a proporção populacional p, e não podemos dizer se incluem ou não sem
conhecermos o verdadeiro valor de p. Mas é errado dizer que p tem uma chance de 95%
de estar entre os limites especificados de 0,476 e 0,544, porque p é uma constante fixa
(embora desconhecida), não uma variável aleatória. Não há probabilidade envolvida do p
estar entre os limites ou não. Esse parece ser um conceito confuso, no entanto, considere
um exemplo mais simples, no qual queremos achar a probabilidade de um bebê ser uma
menina. Se o bebê já nasceu, mas o médico ainda não anunciou o sexo, não podemos dizer
que haja uma probabilidade 0,5 de que o bebê seja uma menina, porque o bebê já é, ou não,
uma menina. Não há chance envolvida, porque o sexo já foi determinado. Analogamente,
uma proporção populacional p já está determinada, e os limites do intervalo de confiança
contêm p ou não, de modo que é errado dizer que há uma chance de 95% de que p esteja
entre 0,476 e 0,544.
Suponha que desejamos coletar dados amostrais com o objetivo de estimar alguma pro-
porção populacional. Como saberemos quantos itens amostrais devem ser obtidos?
2
zα/2
n= pb (1 − pb), (2)
E2
caso contrário, temos que
2
zα/2
n= 0,25. (3)
E2
As fórmulas (2) e (3) foram obtidas através da fórmula para a margem de erro E (fórmula
(1)). Isto é, se fixarmos um valor para E e um nı́vel de confiança para a pesquisa (para
encontramos o valor crı́tico zα/2 ), teremos o valor de n, isolando-o como na fórmula (2). A
fórmula (2) exige pb, uma estimativa da proporção populacional p, mas se não se conhece
qualquer estimativa (como é usualmente o caso), substituı́mos pb por 0,5, com o resultado
dado na fórmula (3).
12
Para garantir que o tamanho amostral exigido seja no mı́nimo tão grande como deve ser,
se o tamanho amostral calculado não for um número inteiro, arredonde-o para o inteiro
maior mais próximo.
Use a fórmula (2) quando for possı́vel fazer estimativas razoáveis de pb com o auxı́lio de
amostras prévias, de um estudo piloto, ou do conhecimento de alguma pessoa perita.
Quando tal estimativa não puder ser feita, atribuı́mos o valor 0,5 para pb, de modo que
o tamanho amostral resultante será, no mı́nimo, tão grande quanto deva ser. A razão
para a atribuição do valor 0,5 é que o produto de pb(1 − pb) é máximo quando pb = 0,5.
(Faça experiência com diferentes valores de pb para verificar que pb(1 − pb) tem 0,25 como
seu maior valor possı́vel).
Exemplo 4. As maneiras pelas quais nos comunicamos têm sido drasticamente afetadas
pelo uso de secretárias eletrônicas, fax, correio por voz e email. Suponha que um sociólogo
queira determinar a porcentagem atual das famı́lias que usa o email. Quantas famı́lias de-
vem ser entrevistadas para que tenhamos 95% de confiança e que a porcentagem amostral
não tenha erro maior do que quatro pontos percentuais?
a) Use este resultado de um estudo anterior: Em 1997, 16,9% das famı́lias americanas
usavam email (com base em dados do The World Almanac and Book of Facts).
b) Suponha que não tenhamos qualquer informação que sugira um possı́vel valor para pb.
1,962
n= ∗ 0,169 ∗ 0,831 = 337,194 ∼
= 338
0,042
b) Como na parte (a), usamos novamente zα/2 = 1,96 e E = 0,04. Sem qualquer conheci-
mento prévio de pb usamos a fórmula (3) como segue:
1,962
n= ∗ 0,25 = 600,25 ∼
= 601
0,042
13
Interpretação
Para se ter 95% de confiança de que nossa porcentagem amostral esteja a, no máximo,
quatro pontos percentuais da verdadeira porcentagem de todas as famı́lias, devemos sele-
cionar 601 famı́lias. Comparando esse resultado com o tamanho amostral encontrado na
parte (a), podemos ver que, se não temos qualquer conhecimento de um estudo anterior, é
necessária uma amostra maior para se obter os mesmos resultados de quando um valor de
pb pode ser estimado. Mas, usemos agora um pouco de bom senso: sabemos que o uso de
emails está crescendo tão rapidamente que a estimativa de 1997 está muito defasada para
ser de alguma utilidade. Hoje, substancialmente mais de 16,9% das famı́lias usam email.
Assim, na verdade, precisamos de uma amostra maior do que 338 famı́lias. Supondo
que não conheçamos realmente a taxa atual de uso do email, devemos selecionar aleato-
riamente 601 famı́lias. Com 601 famı́lias, estaremos 95% confiantes de que estaremos a
quatro pontos percentuais da verdadeira proporção das famı́lias que usam o email.
Erros Comuns
Ao usar as fórmulas (2) ou (3) para calcular o tamanho da amostra, certifique-se de
substituir zα/2 pelo escore z crı́tico. Por exemplo, se você está trabalhando com 95% de
confiança, substitua zα/2 por 1,96. Não cometa o erro de substituir zα/2 por 0,95 ou 0,05.
Não cometa, também, o erro de usar E = 4 como a margem de erro correspondente a
quatro pontos percentuais. Ao usar as fórmulas (2) ou (3), o valor E nunca excede 1. O
erro de usar E = 4 em vez de E = 0,04 faz com que o tamanho da amostra seja 1/10.000
do que deveria ser, de tal forma que você terminaria com um tamanho de amostra de
apenas 1 quando a resposta fosse arredondada. Você realmente não pode calcular uma
proporção populacional entrevistando apenas uma pessoa (mesmo havendo pessoas que
afirmam saber de tudo).
Tamanho da População
A parte (b) do Exemplo 4 envolveu a aplicação da fórmula (3), a mesma fórmula frequente-
mente usada por grandes empresas que fazem pesquisas, tais como, Nielsen, Gallup, entre
outras. Algumas pessoas acreditam, incorretamente, que o tamanho da amostra deve-
ria ser alguma porcentagem da população, mas a fórmula (3) mostra que o tamanho da
população é irrelevante. A maioria das pesquisas feitas por jornais, revistas e mı́dia em
geral envolvem tamanhos amostrais na faixa de 1000 a 2000. Mesmo envolvendo uma por-
centagem tão pequena da população, tais pesquisas podem oferecer resultados confiáveis.
Quando a empresa Nielsen pesquisa 4000 famı́lias de telespectadores de uma população de
104 milhões de famı́lias, apenas 0,004% das famı́lias são entrevistadas; ainda assim, pode-
mos estar 95% confiantes em que a porcentagem amostral estará a um ponto percentual
da verdadeira porcentagem populacional.
14
Fundamentos
p − p| ≤ E) = 1 − α,
P (|b
isto é, a probabilidade da diferença entre a proporção amostral (b
p) e a verdadeira pro-
porção populacional (p) ser menor ou igual a uma certa margem de erro (E) é igual a
1 − α. Esse 1 − α passou a ser chamado de nı́vel de confiança, ou seja, é uma probabili-
dade de confiança desta diferença entre pb e p ser menor ou igual a esta margem de erro.
Trabalhando um pouco mais com esta expressão, ou seja, retirando o módulo e isolando
o p, temos
P (−E ≤ pb − p ≤ E) = 1 − α
P (−E ≤ p − pb ≤ E) = 1 − α
p − E ≤ p ≤ pb + E) = 1 − α
P (b
IC[p; (1 − α) ∗ 100%] = [b
p − E; pb + E],
pois este intervalo fornece a região em que p está limitada com probabilidade 1 − α.
O Teorema Central do Limite apresentado em Bussab e Morettin (2006) nos garante que
a proporção amostral (b
p) tem, para um tamanho depamostra grande, uma distribuição
normal com média igual a p e desvio padrão igual a p(1 − p)/n ou
pb − p
p ∼ N (0, 1)
p(1 − p)/n
Logo, pela Figura 1, temos que
pb − p
P −zα/2 ≤ q ≤ zα/2 = 1 − α
p(1−p)
n
r r !
p(1 − p) p(1 − p)
P −zα/2 ∗ ≤ pb − p ≤ zα/2 ∗ =1−α
n n
r !
p(1 − p)
P |b
p − p| ≤ zα/2 ∗ =1−α
n
15
q
p(1−p)
Com isso, podemos observar que E = zα/2 ∗ n
e E é obtido substituindo p por pb.
Exercı́cios
1. Pesquisa sobre Pena de Morte - Triola (2005, exercı́cio 28, p. 242). Em
uma pesquisa do Gallup, foi perguntado a 491 adultos selecionados aleatoriamente
se eram ou não a favor da pena de morte para uma pessoa condenada por assassinato
e 65% deles responderam que eram a favor.
c) Podemos concluir com segurança que a maioria dos adultos é a favor dessa pena
de morte? Explique.
16
Aula 2 - Estimação da Média Populacional com Desvio
Padrão Populacional Conhecido
Objetivos
Suposições
1. A amostra é uma amostra aleatória simples. (Todas as amostras do mesmo tamanho
têm possibilidade igual de serem selecionadas).
Nas suposições acima, vimos que queremos estimar uma média populacional desconhecida
µ, mas devemos saber o valor do desvio padrão populacional σ. Seria um conjunto bas-
tante não usual de circunstâncias que nos permitiria conhecer σ sem conhecer µ. Afinal
de contas, a única maneira de encontrarmos o valor de σ é calculá-lo a partir de outros
valores populacionais conhecidos, de modo que o cálculo de µ também seria possı́vel; e se
podemos achar o verdadeiro valor de µ, não há necessidade de que o estimemos. Embora
os métodos de intervalo de confiança desta Aula 2 dificilmente são utilizados na prática,
eles revelam os conceitos básicos de importantes raciocı́nios estatı́sticos e formam a base
para a determinação do tamanho amostral discutido mais adiante, nesta Aula 2.
17
Nesta Aula 2 usaremos as suposições de que temos uma amostra aleatória simples, de que
o valor de σ é conhecido e de que ou a população é normalmente distribuı́da ou n > 30.
Tecnicamente, a população não precisa ter uma distribuição exatamente normal, mas
deve ser aproximadamente normal, o que significa que a distribuição é, de alguma forma,
simétrica, com uma única moda e nenhum outlier (ou ponto discrepante). Examine a
normalidade construindo um histograma a partir dos dados amostrais e então determine
se tem a forma aproximada de sino. Em geral, podemos considerar que uma população
é normalmente distribuı́da depois de usar os dados amostrais para confirmar que não há
outliers e que o histograma tem uma forma que não se afasta muito de uma distribuição
normal.
Uma outra suposição importante desta Aula 2 é que a distribuição das médias amostrais
é normal. Se a população original é em si normalmente distribuı́da, então as médias
de amostras de qualquer tamanho serão normalmente distribuı́das (isto é garantido pelo
Teorema Central do Limite). Se a população original não é em si normalmente distribuı́da,
então dizemos que as médias de amostras de tamanho n > 30 têm uma distribuição que
é aproximada por uma distribuição normal. A condição de que o tamanho da amostra
seja n > 30 é comumente usada como uma diretriz, mas não é possı́vel identificar um
tamanho amostral mı́nimo especı́fico que seja suficiente para todos os casos. O tamanho
amostral mı́nimo, na verdade, depende de como a distribuição populacional se afasta de
uma distribuição normal. Tamanhos amostrais de 15 a 30 são adequados se a população
parece ter uma distribuição que não se afasta muito da distribuição normal, mas algumas
outras populações têm distribuições que são extremamente distantes da normal, e então
tamanhos amostrais de 50, ou mesmo 100, podem ser necessários. Usaremos o critério
simplificado de n > 30 como justificativa para tratar a distribuição das médias amostrais
como uma distribuição normal.
Embora pudéssemos usar uma outra estatı́stica, como a mediana ou a moda, como uma
estimativa da média populacional µ, estudos mostraram que a média amostral x, em geral,
resulta na melhor estimativa pelas duas razões seguintes:
1. Para muitas populações, a distribuição das médias amostrais x tende a ser mais con-
sistente (com menos variação) do que outras estatı́sticas amostrais. (Isto é, se você
usa médias amostrais para estimar a média populacional µ, essas médias amostrais
terão um desvio padrão menor do que teriam outras estatı́sticas amostrais, como a
mediana ou a moda. As diferenças entre x e µ tendem a ser, portanto, menores do
que as diferenças obtidas com qualquer outra estatı́stica, como a mediana).
18
2. Para todas as populações, a média amostral x é um estimador não viesado da média
populacional µ, o que significa que a distribuição das médias amostrais tende a se
centralizar em torno do valor da média populacional µ, isto é, as médias amostrais
não tendem sistematicamente a superestimar ou a subestimar o valor da média
populacional µ. Ao contrário, tendem a atingir o alvo do próprio valor de µ.
Vimos na Aula 1 que, embora uma estimativa pontual seja o melhor valor para estimar
um parâmetro populacional, ela não nos fornece qualquer indicação de quão boa é essa
melhor estimativa. Os estatı́sticos desenvolveram o intervalo de confiança ou estimativa
intervalar, que consiste em uma faixa (ou intervalo) de valores, em vez de apenas um
único valor. O intervalo de confiança está associado a um nı́vel de confiança, tal como
0,95 (ou 95%). O nı́vel de confiança nos dá a taxa de sucesso do procedimento usado para
construir o intervalo de confiança. Conforme descrito na Aula 1, o nı́vel de confiança se
expressa, em geral, como a probabilidade ou área 1 − α, onde α é o complemento do nı́vel
de confiança. Para um nı́vel de confiança de 0,95 (ou 95%), α = 0,05. Para um nı́vel de
confiança de 0,99 (ou 99%), α = 0,01.
Margem de Erro
19
Definição 8 Quando os dados de uma amostra aleatória simples são usados para estimar
uma média populacional µ, a Margem de Erro, representada por E, é a diferença máxima
provável (com probabilidade 1−α) entre a média amostral observada x e o verdadeiro valor
da proporção populacional µ. A margem de erro E é também chamada de erro máximo
da estimativa e pode ser encontrada pela multiplicação do valor crı́tico pelo desvio padrão
das médias amostrais, conforme a fórmula a seguir.
σ
E = zα/2 √ (4)
n
Sempre que a população tiver uma distribuição normal com média µ e desvio padrão
σ, o Teorema Central do Limite garante que a distribuição das médias amostrais √ x é
exatamente uma distribuição normal com média igual a µ e desvio padrão igual a σ/ n.
Este resultado é refletido na fórmula (4), conforme os fundamentos apresentados na Aula
1. Se a população não for normalmente distribuı́da, amostras grandes resultam em médias
amostrais com uma distribuição que é aproximadamente normal.
a) A margem de erro E.
20
Solução: Primeiro, verifique se as suposições exigidas são satisfeitas. O valor de σ é
considerado conhecido (17,20 C) e o tamanho da amostra n = 106 é maior do que 30.
Considere que também não há outliers. Como n > 30, não há necessidade de verificar
se a amostra provém de uma população normalmente distribuı́da. As suposições exigidas
são satisfeitas, portanto podemos prosseguir com os métodos desta Aula 2.
a) O nı́vel de confiança de 95% implica que α = 0,05, de modo que zα/2 = 1,96 (conforme
mostrado no Exemplo 2 da Aula 1). A margem de erro E é calculada pela fórmula (4),
como segue.
σ 17,2 ∼
E = zα/2 √ = 1,96 √ = 3,27.
n 106
b) Com x = 36,70 C e E ∼
= 3,27, construı́mos o intervalo de confiança como segue:
Interpretação
Esse resultado poderia ser expresso, também, como 36,7 ± 3,27. Com base na amostra
com n = 106, x = 36,70 C e σ com valor suposto de 17,20 C, o intervalo de confiança
para a média populacional µ é [33,430 C; 39,970 C], com um nı́vel de confiança de 95%.
Isso significa que, se selecionássemos muitas amostras diferentes de tamanho 106 e con-
struı́ssemos os intervalos de confiança como fizemos aqui, 95% deles conteriam realmente
o valor da média populacional µ. Note que os limites do intervalo de 33,430 C e 39,970 C
contêm 370 C, geralmente considerado como a temperatura média do corpo.
21
Correta: “Estamos 95% confiantes em que o intervalo de 33,430 C a 39,970 C realmente
contenha o verdadeiro valor de µ.” Isso significa que, se selecionássemos muitas amostras
diferentes de mesmo tamanho e construı́ssemos os intervalos de confiança correspondentes,
95% deles realmente conteriam o valor de µ. (Como na Aula 1, essa informação correta
se refere à taxa de sucesso do processo usado para estimar a média populacional).
Errada: Como µ é uma constante fixa, seria errado dizer “há uma chance de 95% de que µ
esteja entre 33,430 C e 39,970 C.” O intervalo de confiança não descreve o comportamento
de valores amostrais individuais, de modo que também seria errado dizer que “95% de
todos os valores amostrais estão entre 33,430 C e 39,970 C.” Também, o intervalo de
confiança não descreve o comportamento de médias amostrais individuais, de modo que
também seria errado dizer que “95% das médias amostrais estão entre 33,430 C e 39,970 C.”
Uma caracterı́stica essencial dos métodos que estamos usando nesta Aula 2 é o fato de
que queremos estimar uma média populacional desconhecida µ sendo conhecido o desvio
padrão populacional σ. Na Aula 3 seguinte, apresentaremos um método para estimar
uma média populacional desconhecida µ quando não se conhece o desvio padrão popu-
lacional. As condições da Aula 3 seguinte têm mais chance de ocorrer em circunstâncias
reais. Embora os métodos desta Aula 2 não sejam rotineiros por se basearem no conhe-
cimento do desvio padrão populacional σ, eles nos possibilitam entender o método básico
para a construção de uma estimativa de intervalo de confiança para µ usando a mesma
distribuição normal usada na Aula 1. Além disso, os métodos discutidos até agora nesta
Aula 2 levam a um método muito prático para a determinação do tamanho amostral.
Desejamos abordar agora a seguinte questão chave: quando desejamos coletar uma amostra
aleatória simples de dados que será usada para estimar uma média populacional µ, quantos
valores amostrais devem ser obtidos? Em outras palavras, vamos encontrar o tamanho
amostral n necessário pra estimar o valor de uma média populacional. Por exemplo,
suponha que queiramos estimar o peso médio das bagagens dos passageiros de um avião
(um valor importante por razões de segurança). Quantos passageiros devem ser seleciona-
dos aleatoriamente? A determinação do tamanho de uma amostra aleatória simples é um
problema muito importante, pois amostras desnecessariamente grandes gastam tempo e
dinheiro, e amostras muito pequenas podem levar a resultados pobres. Em muitos casos,
podemos encontrar o tamanho amostral mı́nimo necessário para estimar algum parâmetro,
como média populacional µ.
22
Se começamos com a expressão para margem de erro E (fórmula (4)) e resolvemos em
relação ao tamanho amostral n, obtemos o seguinte:
2
zα/2
n= σ2, (5)
E2
onde zα/2 é o escore z crı́tico com base no nı́vel de confiança desejado, E é a margem de
erro desejada e σ é o desvio padrão populacional.
Note que na fórmula (5) o tamanho amostral não depende do tamanho da população (N );
o tamanho amostral depende do nı́vel de confiança desejado, da margem de erro desejada
e do valor do desvio padrão populacional σ.
O tamanho amostral deve ser um número inteiro, porque representa o número de valores
amostrais que devem ser obtidos. No entanto, quando usamos a fórmula (5) para calcular o
tamanho n, obtemos, em geral, um número não inteiro. Nesses casos, o tamanho amostral
procurado deve ser arredondado para cima.
Solução: Os valores exigidos pela fórmula (5) são encontrados como segue: zα/2 =
1,96 (Isto é encontrado convertendo-se o nı́vel de 95% de confiança para α = 0,05 e
encontrando-se a seguir o escore z crı́tico na tabela da Normal Padrão, conforme descrito
na Aula 1).
E = 500 (Como desejamos que a média amostral esteja a menos de 500 reais de µ, a
margem de erro desejada é 500).
23
Interpretação
Entre os milhares de graduados, precisamos obter uma amostra aleatória simples de pelo
menos 601 deles, e em seguida precisamos obter suas rendas. Com uma amostra aleatória
simples de 601 graduados, teremos 95% de confiança de que a média amostral x estará a
menos de 500 reais da verdadeira média populacional µ.
Exercı́cios
24
Aula 3 - Estimação da Média Populacional com Desvio
Padrão Populacional Desconhecido
Objetivos
Suposições
25
Como na Aula 2, a exigência de uma população normalmente distribuı́da não é uma
exigência estrita. Em geral, podemos considerar que uma população seja normalmente
distribuı́da depois de usar os dados amostrais para confirmar que não há outliers e que o
histograma tem uma forma que não se afasta muito de uma distribuição normal. Ainda,
como visto na Aula 2, a exigência de que o tamanho amostral seja n > 30 é, em geral,
uma diretriz, mas o tamanho mı́nimo da amostra depende, na verdade, de quanto a
distribuição se afasta de uma distribuição normal. Usaremos o critério simplificado de
n > 30 como justificativa para tratar a distribuição das médias amostrais como uma
distribuição normal. A distribuição amostral das médias
√ amostrais x é exatamente uma
distribuição normal com média µ e desvio padrão σ/ n, sempre que a população tiver uma
distribuição normal, com média µ e desvio padrão σ. Se a população não for normalmente
distribuı́da, grandes amostras resultarão √ sempre em uma distribuição aproximadamente
normal, com média µ e desvio padrão σ/ n.
Nas Aulas 1 e 2, notamos que há uma séria limitação para o uso de uma estimativa pontual:
o valor único de uma estimativa pontual não revela quão boa é a estimativa. Intervalos de
confiança nos dão informações muito mais significativas ao oferecer um intervalo de valores
associado a um nı́vel de confiança de que o intervalo realmente contenha o verdadeiro valor
de µ.
Eis aqui o ponto chave desta Aula 3: Se σ não é conhecido, mas as condições acima são
satisfeitas, usamos a distribuição t de Student, desenvolvida por William Gosset (1876-
1937), em vez de usarmos a distribuição normal. Gosset era empregado da Cervejaria
Guinness e precisava de uma distribuição que pudesse ser usada com amostras pequenas.
A cervejaria irlandesa na qual ele trabalhava não permitia publicação de resultados de
pesquisa, de modo que Gosset publicou sob o pseudônimo de Student.
Como não conhecemos o valor de σ, fazemos a sua estimação com o valor do desvio padrão
amostral s, mas isso introduz uma outra fonte de incerteza, especialmente com amostras
pequenas. Para manter o intervalo de confiança em algum nı́vel desejado, tal como 95%,
compensamos essa incerteza adicional fazendo o intervalo de confiança um pouco mais
largo: usamos valores crı́ticos maiores do que os valores crı́ticos de zα/2 que foram usados
na Aula 2, onde σ era conhecido. Estes valores crı́ticos maiores são fornecidos pela
distribuição t de Student.
26
Definição 10 Se a distribuição de uma população é essencialmente normal (aproxima-
damente em forma de sino), então a distribuição de
x−µ
t=
√s
n
é essencialmente uma
pPdistribuição t de Student, onde x é a média amostral, µ é a média
n 2
populacional, s = i=1 (xi − x) /(n − 1), representa o desvio padrão amostral e n é o
tamanho amostral utilizado para calcular x e s. A distribuição t de Student, em geral, é
chamada de distribuição t e é usada para achar valores crı́ticos denotados por tα/2 .
gl = n − 1. (6)
27
Solução: Como n = 15, o número de graus de liberdade é dado por n − 1 = 14. Pela
tabela t de Student, localizamos a 14a linha com referência à coluna na extrema esquerda.
Como na Aula 1, um nı́vel de confiança de 95% corresponde a α = 0,05, de modo que
achamos a coluna que lista valores para uma área de 0,05 nas duas caudas. O valor
correspondente à linha para 14 graus de liberdade e à coluna para uma área de 0,05 nas
duas caudas é 2,145, de modo que tα/2 = 2,145.
Agora que sabemos como achar valores crı́ticos denotados por tα/2 , podemos prosseguir
para determinar a margem de erro E e o intervalo de confiança.
Definição 12 A margem de erro E para estimar uma média, quando o desvio padrão
populacional σ é desconhecido é dado por:
s
E = tα/2 √ . (7)
n
Note que o cálculo da margem de erro E, conforme apresentado na fórmula (7), não exige
que conheçamos o desvio padrão populacional σ.
a) A margem de erro E.
28
Solução: Devemos primeiro verificar se as duas suposições para esta Aula 3 são satis-
feitas. Temos, de fato, uma amostra aleatória simples e n > 30. Como n > 30, não há
necessidade de verificar se a amostra provém de uma população normalmente distribuı́da.
Assim, passamos à construção de um intervalo de confiança de 95% de confiança usando
a distribuição t.
Em seguida, achamos o valor crı́tico de tα/2 = 1,984. Esse valor se encontra na tabela t
de Student como o valor crı́tico correspondente a n − 1 = 105 graus de liberdade (coluna
à esquerda da tabela t de Student) e uma área nas duas caudas de 0,05. (Lembre-se que
um nı́vel de confiança de 95% corresponde a α = 0,05, que é dividido igualmente entre as
duas caudas). Esta tabela t de Student não possui 105 graus de liberdade, de modo que
selecionamos o número de graus de liberdade mais próximo, que é 100. O valor correto
de tα/2 para 105 graus de liberdade é 1,983, de modo que usando o valor mais próximo
na tabela t de Student de 1,984 resulta em um erro desprezı́vel, aqui.
Interpretação
Esse resultado poderia também ser expresso no formato de 36,7 ± 3,31. Com base nestes
resultados amostrais, estamos 95% confiantes de que os limites de 33,390 C e 40,010 C
realmente contêm o valor da média populacional µ.
29
Figura 2: Gráfico com a forma das densidades da distribuição normal padrão, t de student
com 3 e 12 graus de liberdade, respectivamente.
Propriedades da distribuição t
30
4. O desvio padrão da distribuição t de Student varia com o tamanho amostral, mas é
maior do que 1 (diferentemente da distribuição normal padrão, que tem σ = 1).
Exercı́cios
31
Aula 4 - Estimação da Variância Populacional ou Desvio
Padrão Populacional
Objetivos
Muitas situações reais, tais como controle de qualidade em processo de produção, exigem
que estimemos valores de variâncias ou de desvios padrões populacionais. Além de fabricar
produtos com medidas que resultem em uma média desejada, o fabricante deve fazer
produtos de qualidade consistente, que não percorram uma gama de extremamente bons
ou extremamente ruins. Como essa consistência pode ser medida pela variância ou pelo
desvio padrão, estas se tornam estatı́sticas vitais na manutenção da qualidade de produtos
e serviços.
Suposições
2. A população deve ser normalmente distribuı́da (mesmo que a amostra seja grande).
A suposição de uma população normalmente distribuı́da já foi feita em Aulas anteriores,
mas essa exigência é mais crı́tica aqui. Para os métodos desta Aula 4, afastamentos das
distribuições normais podem levar a erros grosseiros. Consequentemente, a exigência de
se ter uma distribuição normal é mais estrita, e devemos verificar a distribuição dos dados
pela construção de histogramas.
32
Quando consideramos estimativas de proporções e médias, usamos a distribuição normal e
t de Student. Ao desenvolvermos estimativas de variâncias ou desvios padrões, usaremos
uma outra distribuição, denominada distribuição Qui Quadrado. Examinaremos carac-
terı́sticas importantes desta distribuição antes de prosseguirmos com o desenvolvimento
de intervalos de confiança.
(n − 1)s2
χ2 =
σ2
tem uma distribuição chamada Qui Quadrado. A distribuição Qui Quadrado é usada para
achar valores crı́ticos denotados por χ2α/2 e χ21−α/2 .
Figura 3: Gráfico com a forma das densidades da distribuição Qui Quadrado, com 4, 12
e 30 graus de liberdade, respectivamente.
33
Propriedades da Distribuição Qui Quadrado
1. A distribuição Qui Quadrado não é simétrica, diferentemente das distribuições nor-
mal e t de Student. A medida que o número de graus de liberdade aumenta, a
distribuição se torna mais simétrica.
2. Uma variável aleatória com distribuição Qui Quadrado só assume valores nos reais
positivos, excluindo o zero.
Ao obter valores crı́ticos de χ2 da tabela Qui Quadrado, note que os números de graus
de liberdade são inteiros consecutivos de 1 a 20, seguidos por 30, 40, 50, 60, 70, 80, 90 e
100. Quando um número de graus de liberdade (como 52) não se encontra na tabela, você
pode, em geral, usar o valor crı́tico mais próximo. Por exemplo, se o número de graus
de liberdade é 52, consulte a tabela Qui Quadrado e use 50 graus de liberdade. (Se o
número de graus de liberdade está exatamente a meio caminho entre valores da tabela, tal
como 55, simplesmente ache a média dos dois valores de χ2 ). Para números de graus de
liberdade maiores do que 100, use uma tabela mais detalhada, ou um software estatı́stico.
34
Figura 4: Valores Crı́ticos da Distribuição Qui Quadrado.
Estimadores de σ 2 e σ
Embora s2 seja a melhor estimativa pontual de σ 2 , não há qualquer indicação de quão boa
seja essa estimativa. Para compensar essa deficiência, foi desenvolvido uma estimativa
intervalar (ou intervalo de confiança) que fornece mais informação.
35
" #
2 2
(n − 1)s (n − 1)s
IC[σ 2 ; 100(1 − α)%] = ; .
χ21−(α/2) χ2α/2
Com uma área total de α dividida igualmente entre as duas caudas da distribuição Qui
Quadrado, χ2α/2 representa o valor crı́tico da cauda esquerda e χ21−α/2 representa o valor
crı́tico da cauda direita (conforme ilustrado na Figura 4).
"s s #
(n − 1)s2 (n − 1)s2
IC[σ; 100(1 − α)%] = ; .
χ21−(α/2) χ2α/2
36
Exemplo 11. Considere os dados das 106 temperaturas do corpo (ao meio dia) obtidas
pelos pesquisadores da Universidade de Maryland mencionadas nos Exemplos 5, 6 e 9.
Use as caracterı́sticas seguintes do conjunto de dados para construir uma estimativa in-
tervalar de 95% de confiança para σ, o desvio padrão das temperaturas do corpo de toda
a população:
1. Foi feito um histograma dos dados amostrais e eles apresentam ter uma distribuição
normal.
Solução: Começamos pela determinação dos valores crı́ticos de χ2 . Com uma amostra
de 106 valores, temos 105 graus de liberdade. Esse não é um valor muito distante de 100
graus de liberdade encontrado na tabela Qui Quadrado, de modo que nós o usaremos.
Para um nı́vel de confiança de 95%, dividimos α = 0,05 igualmente entre as duas caudas
da distribuição Qui Quadrado e procuramos pelos valores 0,975 e 0,025 ao longo do topo
da tabela Qui Quadrado. Os valores crı́ticos de χ2 são χ20,975 = 129,561 e χ20,025 = 74,222.
Usando esses valores crı́ticos, o desvio padrão amostral de s = 17,20 C e o tamanho
amostral de 106, construı́mos um intervalo de confiança de 95% de confiança, através do
cálculo seguinte:
Isso se torna IC[σ 2 ; 95%] = [239,757; 418,517]. Extraindo a raiz quadrada de cada membro
resulta em IC[σ; 95%] = [15,50 C; 20,50 C].
37
Interpretação
Com base no resultado temos 95% de confiança em que os limites de 15,50 C e 20,50 C
contêm o verdadeiro valor de σ, ou seja, estamos 95% confiantes em que o desvio padrão
das temperaturas do corpo de todas as pessoas saudáveis está entre 15,50 C e 20,50 C.
Note que o intervalo de confiança [15,50 C; 20,50 C] não tem o formato s2 ± E, porque o
intervalo de confiança não tem s2 como seu centro.
Em vez de aproximar os valores crı́ticos usando 100 graus de liberdade, poderı́amos ter
usado um programa de computador, e o intervalo de confiança se tornaria [15,20 C; 19,90 C],
que é muito próximo do resultado obtido aqui.
Fundamentos
Explicaremos agora por que os intervalos de confiança para σ e σ 2 têm as formas que
acabamos de dar. Se obtivermos amostras de tamanho n de uma população com variância
σ 2 , a distribuição dos valores (n − 1)s2 /σ 2 será conforme mostrado na Figura 4.
Para uma amostra aleatória simples, há uma probabilidade 1 − α de que a estatı́stica
(n − 1)s2 /σ 2 fique entre os valores χ21−(α/2) e χ2α/2 . Em outras palavras (e sı́mbolos), há
uma probabilidade 1 − α de que ambas as desigualdades abaixo sejam verdadeiras:
(n − 1)s2 (n − 1)s2
< χ2α/2 e > χ21−(α/2) .
σ2 σ2
(n − 1)s2 (n − 1)s2
< σ2 e > σ2.
χ2α/2 χ21−α/2
Essas duas últimas desigualdades mostram dentro de que espaço a variância populacional
σ 2 deve ser limitada, isto é,
38
" #
(n − 1)s2 (n − 1)s2
IC[σ 2 ; 100(1 − α)%] = ; .
χ21−(α/2) χ2α/2
Exercı́cios
(b) Os valores listados são tempos de espera (em minutos) de clientes do banco
Providence, onde os clientes fazem 3 filas diferentes para cada um dos três caixas:
4,2 5,4 5,8 6,2 6,7 7,7 7,7 8,5 9,3 10,0
39
Revisão
• estimativa pontual,
• intervalo de confiança e
Como as estimativas pontuais acima consistem em valores únicos, elas têm a séria desvan-
tagem de não revelar quão boas são, de modo que os intervalos de confiança (ou estimativas
intervalares) são comumente usados como estimativas mais reveladoras e úteis. Consider-
amos, também, maneiras de determinar os tamanhos amostrais necessários para estimar
parâmetros a menos de margens de erro dadas. Introduzimos também na Unidade I as dis-
tribuições t de Student e Qui Quadrado. Devemos ser cuidadosos para usar a distribuição
correta para cada conjunto de circunstâncias. Os seguintes critérios para a escolha da
distribuição apropriada são:
40
Para os procedimentos de intervalo de confiança e tamanhos amostrais desta Unidade é
muito importante verificar se as hipóteses exigidas são satisfeitas. Se não forem, então não
podemos usar os métodos desta Unidade. Nestes casos, deve-se recorrer a métodos alter-
nativos, que não serão tratados nesta disciplina, tais como os métodos não paramétricos.
Uma referência clássica para os métodos não paramétricos é o livro de Siegel e Castellan
(2006).
Exercı́cios de Revisão
b) Obtenha uma estimativa pontual para a variância dos pesos de todas as modelos.
(Não esqueça de colocar a unidade de medida no seu resultado final.)
c) Obtenha uma estimativa pontual para o desvio padrão dos pesos de todas as
modelos.
41
i) Ache o tamanho de amostra necessário para estimar o peso médio de todas as
modelos de modo que haja 99% de confiança de que a média amostral esteja em
erro não superior a 1 kg. Suponha que o desvio padrão (σ) de todos os pesos das
modelos seja de 3,417029 kg.
c) A pesquisa foi feita com pessoas que viajaram, mas nenhuma informação foi dada
sobre a porcentagem de pessoas que viajam por prazer. Se você deseja estimar a
porcentagem de adultos que viajam por prazer uma vez por ano, quantas pessoas
você deve entrevistar, se você deseja 99% de confiança de que sua porcentagem
amostral esteja a menos de 2,5 pontos percentuais da porcentagem populacional
correta?
42
Unidade II
Testes de Hipóteses
Na segunda aula, você irá estudar os conceitos de teste sobre a média populacional,
quando o desvio padrão populacional é conhecido.
Na terceira aula, você irá estudar os conceitos de teste sobre a média populacional,
quando o desvio padrão populacional é desconhecido.
Na quarta aula, você estudará o teste sobre a variância populacional ou o desvio padrão
populacional.
Aula 1 - Fundamentos do Teste de Hipótese e Teste
sobre a Proporção Populacional
Objetivos
Ao final desta aula você deverá ser capaz de:
1. Dada uma afirmativa sobre uma proporção populacional, determinar a hipótese nula
e a hipótese alternativa para testar essa afirmação.
Introdução
As duas principais atividades da inferência estatı́stica são a estimação de parâmetros
populacionais (introduzida na Unidade I) e o teste de hipótese, ao qual será introduzido
nesta Unidade II. Baseando na idéia de Triola (2005, Cap. 7) montamos o conteúdo a ser
trabalhado nesta unidade. Na prática, quando não se tem informação alguma sobre algum
parâmetro populacional, utilizamos as técnicas apresentadas na Unidade I para se obter
alguma informação sobre este parâmetro. Agora, se alguém te fornece alguma informação
sobre um parâmetro populacional e pede para você investigar se é verdadeiro ou não essa
informação, então você deverá utilizar as técnicas apresentadas nesta Unidade II.
Na Unidade I, usamos resultados de pesquisa para estimar a proporção de pessoas de
Minas Gerais que se opunham ao sistema de “radar fotográfico”, que usa câmeras para
multar motoristas que ultrapassam sinais vermelhos. Os dados amostrais consistiam em
829 adultos de Minas Gerais, selecionados aleatoriamente, 51% dos quais se opunham à
legislação que implementaria o sistema de radar fotográfico em seu estado. Embora 51%
dos 829 entrevistados se opusessem à legislação do radar fotográfico, um jornal publicou a
manchete: “Entrevistados divididos sobre a proposta do radar fotográfico”. A manchete
do jornal afirmava que os entrevistados estavam divididos, mas 51% deles se opunham
e, assim, por que não podemos dizer que a maioria dos habitantes de Minas Gerais se
opunha? Em uma pesquisa separada, de nı́vel nacional, com 880 motoristas selecionados
aleatoriamente, 56% admitiram que passavam com sinal vermelho. Ao escrever um artigo,
um repórter escreveu: “Praticamente todos os brasileiros admitem que passar com sinal
vermelho é perigoso, mas mais da metade admitiu que já o fez, em geral porque estava
com muita pressa.” Essa frase inclui a afirmativa de que a maioria (mais de 50%) de todos
os brasileiros passa com o sinal vermelho. Os resultados da pesquisa realmente confirmam
essa afirmativa?
44
Nesta Aula 1, apresentamos um método padrão para teste de afirmativas tais como as
duas seguintes, construı́das a partir das informações descritas aanteriormente:
Os componentes formais usados no teste de hipóteses são: hipótese nula, hipótese alter-
nativa, estatı́stica de teste, região crı́tica, nı́vel de significância, valor crı́tico, regra de
decisão, erro tipo I, erro tipo II e poder do teste. Descrevemos a seguir cada um destes
componentes de forma detalhada.
Eis algumas hipóteses nulas tı́picas, do tipo considerado nesta Unidade II:
45
Testamos a hipótese nula diretamente, no sentido de que supomos que ela seja verdadeira
e chegamos a uma conclusão para rejeitar H0 ou deixar de rejeitar H0 .
Eis doze diferentes hipóteses alternativas que envolvem proporções, médias, variâncias e
desvios padrões:
• Se você está fazendo um estudo e deseja usar um teste de hipótese para apoiar sua
afirmativa, esta deve ser escrita de modo a se tornar a hipótese alternativa. Isto
significa que sua afirmativa pode ser expressa usando apenas estes sı́mbolos: < ou
> ou 6=. Você não pode usar um teste de hipótese para apoiar uma afirmativa de
que um parâmetro seja igual a algum valor especı́fico.
Por exemplo, suponha que você desenvolveu uma poção mágica que eleva os escores de
QI, de modo que a média se torna maior do que 100. Se você deseja fornecer evidência
da eficácia da poção, você deve fazer a afirmativa de que µ > 100. (Nesse contexto de
tentar confirmar o objetivo de uma pesquisa, a hipótese alternativa é, algumas vezes,
chamada hipótese de pesquisa. Também neste contexto, a hipótese nula de µ = 100 é
suposta verdadeira para o propósito da condução do teste de hipótese, mas se espera que
a conclusão seja a rejeição da hipótese nula de modo que a afirmativa de que µ > 100 seja
apoiada).
46
Para identificar H0 e Ha , temos o seguinte esquema:
2. Dê a forma simbólica que tem que ser verdadeira quando a afirmativa original é
falsa.
3. Das duas expressões simbólicas obtidas até agora, deixe que a hipótese alternativa
Ha seja a que não contém a igualdade, de modo que Ha use o sı́mbolo >, < ou 6=,
deixe a hipótese nula H0 ser a expressão simbólica que iguala o parâmetro ao valor
fixo sendo considerado.
Por exemplo, às vezes testamos a validade da afirmativa de alguma pessoa, tal como a
afirmativa da Companhia de Engarrafamento Coca Cola de que “a quantidade média de
Coca Cola nas latas é, no mı́nimo, 350 ml”. Essa afirmativa pode ser expressa em sı́mbolos
como µ ≥ 350. Se a afirmativa original é falsa, então µ < 350. A hipótese alternativa
se torna µ < 350, mas a hipótese nula é µ = 350. Seremos capazes de darmos enfoque a
afirmativa original (de que µ ≥ 350) depois de determinar se há ou não evidência suficiente
para rejeitar a hipótese nula de µ = 350.
Exemplo 12. Use as afirmativas dadas para expressar as hipóteses nula e alternativa
correspondentes em forma simbólica.
a) A proporção de motoristas que admitem passar com o sinal vermelho é maior do que
0,5.
a) No Passo 1, expressamos a afirmativa dada como p > 0,5. No Passo 2, vemos que, se
p > 0,5 for falso, então p ≤ 0,5 deve ser verdadeiro. No Passo 3, vemos que a expressão
p > 0,5 não contém igualdade, de modo que tomamos p > 0,5 como a hipótese alternativa
Ha e tomamos p = 0,5 como H0 .
b) No Passo 1, expressamos “uma média de, no máximo 210 cm”, em sı́mbolos, como
µ ≤ 210. No Passo 2, vemos que, se µ ≤ 210 for falso, então µ > 210 deve ser verdadeiro.
No Passo 3, vemos que a expressão µ > 210 não contém igualdade, de modo que tomamos
µ > 210 como hipótese alternativa Ha , e tomamos µ = 210 como H0 .
47
c) No Passo 1, expressamos a afirmativa dada como σ = 15. No Passo 2, vemos que, se
σ = 15 for falso, então σ 6= 15 deve ser verdadeiro. No Passo 3, tomamos σ 6= 15 como a
hipótese alternativa Ha , e tomamos σ = 15 como H0 .
Nesta Unidade II, consideramos testes de hipótese que envolvem proporções, médias e
desvios padrões (ou variâncias). Com base nos resultados sobre distribuições amostrais
de proporções, médias e desvios padrões, usamos as seguintes estatı́sticas:
pb − p0
zobservado = q . (8)
p0 (1−p0 )
n
x − µ0
zobservado = (9)
√σ
n
x − µ0
tobservado = . (10)
√s
n
(n − 1)s2
χ2observado = . (11)
σ02
48
Nesta Unidade II, ao trabalharmos com proporções, trabalharemos com grandes amostras,
de modo que a suposição de normalidade para a distribuição da estatı́stica do teste da
proporção estará satisfeita. A estatı́stica de teste para uma média pode se basear na
distribuição normal ou na t de Student, dependendo das condições que sejam satisfeitas.
Ao escolher entre as distribuições normal ou t de Student,usaremos nesta Unidade II
os mesmos critérios descritos na Unidade I. Finalmente, a estatı́stica de teste para o
desvio padrão (ou variância) se baseia na distribuição Qui Quadrado, também discutida
na Unidade I.
Solução: Esse exemplo mostra que a afirmativa dada resulta nas seguintes hipóteses
nula e alternativa: H0 : p = 0,5 e Ha : p > 0,5. Como trabalhamos sob a suposição de
que a hipótese nula seja verdadeira com p0 = 0,5, obtemos a seguinte estatı́stica de teste:
pb − p0 0,56 − 0,5
zobservado = q = q = 3,56.
p0 (1−p0 ) (0,5)(0,5)
n 880
Interpretação
Um escore zobservado de 3,56 é excepcionalmente grande (A seguir você verá o por quê
desta afirmação). Parece que, além de ser “mais da metade”, o resultado amostral de
56% é significativamente maior do que 50%. Veremos a seguir, que este valor de zobservado
nos auxiliará a decidirmos em rejeitar ou não a hipótese nula H0 .
49
Definição 22 O nı́vel de significância (representado por α) é a probabilidade de que a
estatı́stica de teste cairá na região crı́tica quando a hipótese nula for realmente verdadeira.
Se a estatı́stica de teste cair na região crı́tica, rejeitaremos a hipótese nula, de modo que α
é a probabilidade de cometermos o erro de rejeitar a hipótese nula quando ela é verdadeira.
Esse é o mesmo α introduzido na Unidade I, onde definimos o nı́vel de confiança para
um intervalo de confiança como a probabilidade 1 − α. Escolhas comuns para α são 0,05;
0,01 e 0,10, com 0,05 sendo a mais comum.
Um valor crı́tico é qualquer valor que separa a região crı́tica (onde rejeitamos a hipótese
nula) dos valores da estatı́stica de teste que não levam à rejeição da hipótese nula. Os
valores crı́ticos dependem da natureza da hipótese alternativa, da distribuição amostral
que se aplica e do nı́vel de significância α. Por exemplo, para uma hipótese alternativa
Ha : p 6= 0,5, sabemos que a distribuição amostral da estatı́stica de teste da proporção
é normal e para um nı́vel de significância α = 0,05, o valor crı́tico correspondente é de
z = 1,645. (Os valores crı́ticos também foram discutidos na Unidade I, ver Definição 5).
Exemplo 14. Com o nı́vel de significância α = 0,05, ache os valores crı́ticos z para as
seguintes hipóteses alternativas.
a) p > 0,5 (de modo que a região crı́tica está na cauda direita da distribuição normal).
b) p < 0,5 (de modo que a região crı́tica está na cauda esquerda da distribuição normal).
c) p 6= 0,5 (de modo que a região crı́tica é constituı́da por ambas as caudas da distribuição
normal).
Solução: a) Veja Figura 5 (a). Com uma hipótese alternativa de p > 0,5, a região crı́tica
está na cauda direita. Com uma área de 0,05 na cauda direita, o valor crı́tico encontrado
é de z = 1,645.
b) Veja Figura 5 (b). Com uma hipótese alternativa de p < 0,5, a região crı́tica está na
cauda esquerda. Com uma área de 0,05 na cauda esquerda, o valor crı́tico encontrado é
de z = −1,645.
c) Veja Figura 5 (c). As caudas sombreadas contêm uma área total de α = 0,05, de modo
que cada cauda contém uma área de 0,025. Os valores de z = 1,96 e z = −1,96 separam
as regiões direita e esquerda. Os valores crı́ticos são, portanto, z = 1,96 e z = −1,96.
50
Figura 5: Achando valores crı́ticos.
As caudas em uma distribuição são as regiões extremas limitadas pelos valores crı́ticos.
Alguns testes de hipótese são bilaterais, alguns são unilaterais à direita e alguns são
unilaterais à esquerda. Em um teste unilateral à direita, a região crı́tica está na região
extrema (cauda) direita sob a curva. Em um teste unilateral à esquerda, a região crı́tica
está na região extrema (cauda) esquerda sob a curva. Em um teste bilateral, a região
crı́tica está nas duas regiões extremas (caudas) sob a curva.
51
Examinando o sinal apresentado na hipótese alternativa, podemos determinar se um teste
é unilateral (à esquerda ou à direita) ou se é bilateral. A cauda corresponderá à região
crı́tica que contém os valores que entrarão em conflito significativo com a hipótese nula. A
Figura 5 fornece um resumo útil de verificação, que mostra que o sinal de desigualdade em
Ha aponta na direção da região crı́tica. O sı́mbolo 6= é, em geral, expresso na linguagem
de programação como <>, e isso nos lembra que uma hipótese alternativa como p 6= 0,5
corresponde a um teste bilateral. Na Figura 5 (a), (b) e (c) temos ilustrado a regra
de decisão quando temos um teste unilateral à direita, unilateral à esquerda e bilateral,
respectivamente.
Vimos que a afirmativa original às vezes se torna a hipótese nula e, algumas vezes, se
torna a hipótese alternativa. No entanto, nosso procedimento padrão de teste de hipótese
requer que testemos sempre a hipótese nula, de modo que nossa conclusão será sempre
uma das seguintes:
A decisão de rejeitar ou não a hipótese nula é feita, em geral, usando o método tradicional
(ou método clássico) de teste de hipótese, isto é, rejeite H0 se a estatı́stica de teste ficar
dentro da região crı́tica e não rejeitar H0 se a estatı́stica de teste não ficar dentro da região
crı́tica.
Muitos estatı́sticos consideram boa prática sempre escolher o nı́vel de significância antes
de fazer um teste de hipótese. Esse é um procedimento particularmente bom, porque
podemos ser tentados a ajustar o nı́vel de significância com base nos resultados. Por
exemplo, suponha que você fez o cálculo da estatı́stica do teste e o valor tenha dado
zobservado = 1,6. Para um teste unilateral à direita e um nı́vel de significância α = 0,05,
você terá um valor crı́tico de z = 1,645, assim não rejeitamos a hipótese nula, mas, às vezes,
é tentador mudar o α para o valor 0,10 e z passa a ser 1,28, para que o zobservado pertença
a região crı́tica e garanta a rejeição da hipótese nula. Outros estatı́sticos defendem que
nenhum nı́vel de significância deva ser especificado e que a conclusão deva ser deixada
para o pesquisador.
52
Exemplo 15. Determine primeiro se as condições dadas resultam em um teste unilateral
à direita, um teste unilateral à esquerda ou um teste bilateral e estabeleça a seguir uma
conclusão sobre a hipótese nula.
a) O nı́vel de significância α = 0,05 é usado num teste em que a hipótese alternativa é dada
por p > 0,25 e os dados amostrais resultam em uma estatı́stica de teste de zobservado = 1,18.
Solução: a) Com uma afirmativa de que p > 0,25, o teste é unilateral à direita (veja
Figura 5). Podemos encontrar o valor de z, usando a tabela da Normal Padrão. Como o
teste é unilateral à direita, procuramos qual é o valor de z, que deixa uma área de 0,05
à direita e 0,95 à esquerda. Como a tabela da Normal Padrão contém os valores de z, a
partir de sua área à esquerda, procuramos o valor 0,95 em seu centro e o z correspondente
é o 1,645. Como zobservado = 1,18 é menor do que o valor crı́tico z = 1,645, então não
rejeitamos a hipótese nula, isto é, podemos afirmar que p = 0,25.
b) Com uma afirmativa de que p 6= 0,25, o teste é bilateral (veja Figura 5). Podemos
encontrar o valor de z, usando a tabela da Normal Padrão novamente. Procuramos qual é
o valor de z, que deixa uma área de 0,025 à direita e 0,975 à esquerda. Como a tabela da
Normal Padrão contém os valores de z, a partir de sua área à esquerda, então procuramos
o valor 0,975 em seu centro e o z correspondente é o 1,96. Como zobservado = 2,34 é maior
do que o valor crı́tico z = 1,96, então rejeitamos a hipótese nula, isto é, podemos afirmar
que p 6= 0,25.
Alguns textos dizem “aceitar a hipótese nula” em vez de “não rejeitar a hipótese nula”.
Qualquer que seja a expressão usada, aceitar ou não rejeitar, devemos reconhecer que não
estamos provando a hipótese nula; estamos apenas dizendo que a evidência amostral não
é forte o bastante para garantir a rejeição da hipótese nula. É como um júri dizendo que
não há evidência suficiente para condenar um suspeito. O termo aceitar é, de alguma
forma, enganoso, porque parece implicar que a hipótese nula foi provada. (É enganoso
afirmar que “há evidência suficiente para aceitar a hipótese nula”). A frase não rejeitar
diz mais corretamente que a evidência disponı́vel não é forte o bastante para garantir a
rejeição da hipótese nula. Neste texto, usaremos a terminologia não rejeitar a hipótese
nula, em vez de aceitar a hipótese nula.
53
Exemplo 16. Suponha que um repórter afirme que “mais da metade” de todos os
motoristas adultos brasileiros admitem passar com o sinal vermelho. Essa afirmativa de
p > 0,5 se torna a hipótese alternativa, enquanto a hipótese nula se torna p = 0,5. Além
disso, suponha que a evidência amostral nos leve a rejeitar a hipótese nula de p = 0,5.
Estabeleça a conclusão em termos simples e não técnicos.
Ao testar uma hipótese nula, chegamos a uma conclusão de rejeitá-la ou deixar de rejeitá-
la. Tais conclusões são às vezes corretas e às vezes erradas (mesmo quando fazemos
tudo corretamente). A Tabela 2 resume os dois tipos de erro que podem ser cometidos,
juntamente com os dois tipos de decisões corretas. Distinguimos entre os dois tipos de
erro chamando-os de erros tipo I e tipo II.
Definição 24 O Erro Tipo I é o erro de rejeitar a hipótese nula quando ela é, de fato,
verdadeira. A letra grega α (alfa) é usada para representar a probabilidade de um erro
tipo I.
Exemplo 17. Suponha que estejamos fazendo um teste de hipótese da afirmativa de que
p > 0,5. Eis as hipóteses nula e alternativa:
H0 : p = 0,5
Ha : p > 0,5
54
a) Um erro tipo I.
Solução: a) O erro tipo I é o erro de rejeitar uma hipótese nula verdadeira. Portanto, o
erro tipo I é concluir que há evidência suficiente para apoiar p > 0,5 quando, na realidade,
p = 0,5.
b) O erro tipo II é o erro de deixar de rejeitar a hipótese nula quando ela é falsa. Portanto,
o erro tipo II é deixar de rejeitar p = 0,5 (e, conseqüentemente, deixar de apoiar p > 0,5)
quando, na realidade, p > 0,5.
Um passo em nosso procedimento padrão para teste de hipóteses envolve a seleção do nı́vel
de significância α, que é a probabilidade de um erro tipo I. No entanto, não selecionamos β
(probabilidade do erro tipo II). Seria ótimo se pudéssemos ter sempre α = 0 e β = 0, mas,
na realidade, isto não é possı́vel, então devemos tentar administrar as probabilidades de
erros α e β. Matematicamente, pode-se mostrar que α, β e o tamanho amostral n estão
todos relacionados, de modo que quando escolhemos ou determinamos quaisquer dois
deles, o terceiro fica automaticamente determinado. A prática usual na pesquisa e na
indústria é selecionar os valores de α e n de modo que o valor de β fica determinado.
Dependendo da gravidade do erro tipo I, tente usar o maior valor tolerável de α. Para
erros tipo I com consequências mais sérias, selecione valores menores de α. Escolha,
então, um tamanho amostral n tão grande quanto razoável, com base em considerações
de tempo, custo e outros fatores relevantes. (As determinações de tamanhos amostrais
foram discutidas na Unidade I). As seguintes considerações práticas podem ser relevantes:
Para dar sentido a essas idéias abstratas, consideremos as balas M&M e os comprimidos
de aspirina da marca Bufferin.
• Considere que o peso médio das balas M&M seja de, no mı́nimo, 0,9085g (para ficar
de acordo com o peso colocado no selo da embalagem).
55
Como as balas M&M são usadas para diversão, enquanto os comprimidos de Bufferin são
medicamentos usados para o tratamento de problemas de saúde, estamos lidando com
dois nı́veis de gravidade muito diferentes. Se as balas M&M não tiverem um peso médio
de 0,9085g, as consequências não serão sérias, mas se os comprimidos de Bufferin não
contiverem uma média de 325mg de aspirina, as consequências podem ser muito sérias,
incluindo, possivelmente, processos pelo consumidor e ações por parte da Administração
Federal de Drogas. Consequentemente, ao testar a afirmativa de que µ = 0,9085 para
M&Ms, podemos escolher α = 0,05 e uma amostra de n = 100; ao testar a afirmativa de
que µ = 325 para os comprimidos de Bufferin, devemos escolher α = 0,01 e um tamanho
maior de amostra de n = 500. (O tamanho maior da amostra nos permite diminuir β,
enquanto diminuı́mos também α). O nı́vel de significância menor α e o tamanho maior
da amostra n são escolhidos por causa das consequências mais sérias associadas ao teste
de um medicamento comercializado.
Usamos β para designar a probabilidade de deixarmos de rejeitar uma hipótese nula falsa
(erro tipo II). Segue que 1 − β é probabilidade de rejeitarmos uma hipótese nula falsa.
Os estatı́sticos se referem a essa probabilidade como o poder do teste, e o usam, quase
sempre, para calibrar a eficácia do teste ao reconhecer que uma hipótese nula é falsa.
Suponha que estejamos usando 0,05 como nı́vel de significância para testar a hipótese nula
de que a altura média dos homens é 180 cm. Apresentados os dados amostrais e dada a
altura alternativa de 175 cm, podemos calcular o poder do teste para rejeitar µ = 180.
Se nossa amostra consiste em apenas umas poucas observações, o poder será baixo, mas
se consiste em centenas de observações, o poder será muito maior. (Além de aumentar
o tamanho amostral, há outras maneiras de aumentar o poder, como aumentar o nı́vel
de significância, usar um valor mais extremo para a média populacional ou diminuir o
desvio padrão). Assim como 0,05 é uma escolha comum para um nı́vel de significância,
um poder de pelo menos 0,80 é uma exigência comum para a determinação de que um
teste de hipótese é eficaz. (Alguns estatı́sticos argumentam que o poder deveria ser maior,
tal como 0,85 ou 0,90). Os cálculos do poder não serão tratados aqui neste livro.
56
Teste sobre uma Proporção Populacional
1
• Menos de 4
dos graduados em faculdades fuma.
• Pessoas que tomam a droga Lipitor para reduzir o colesterol têm dores de cabeça a
uma taxa maior do que a taxa de 7% das pessoas que não tomam o medicamento.
• A porcentagem de telespectadores que vêem TV tarde da noite e que assistem a
Tela Quente é igual a 18%.
• Com base em pesquisas anteriores, o candidato Republicano para a presidência
receberá a maioria (mais de 50%) dos votos.
As suposições exigidas, a notação e a estatı́stica de teste são todas dadas abaixo. Basi-
camente, afirmativas sobre uma proporção populacional são usualmente testadas através
do uso de uma distribuição normal. Se as suposições dadas não são satisfeitas, podem ser
usados outros métodos que não serão tratados aqui neste livro, tais como os métodos não
paramétricos. Aqui, todos os exemplos e exercı́cios envolvem casos nos quais as suposições
são satisfeitas, de modo que a distribuição amostral das proporções amostrais pode ser
aproximada pela distribuição normal.
Suposições
1. As observações amostrais são uma amostra aleatória simples. (Nunca se esqueça da
importância crı́tica de métodos de amostragem bem fundamentados).
2. Há um número fixo de observações independentes tendo probabilidades constantes,
e cada observação tem duas categorias de resultado: “sucesso” e “fracasso”.
3. A distribuição normal pode ser usada para aproximar a distribuição das proporções
amostrais.
A estatı́stica de teste para testar uma afirmativa sobre uma proporção populacional é como
em (8), zobservado , onde pb é a proporção amostral, p0 é a proporção populacional fixada
em H0 e n é o tamanho amostral. Conforme o intervalo de confiança para a proporção
populacional, o(s) valor(es) crı́tico(s) são obtidos da tabela da Normal Padrão, para ser
tomada a decisão final.
57
Exemplo 18. Pensando no problema apresentado nestas duas Unidades sobre o radar
fotográfico, um artigo de jornal apresentou os seguintes resultados: de 880 motoristas
selecionados aleatoriamente no Brasil, 56% admitiram passar no sinal vermelho. Uma
repórter escreveu isto: “Aproximadamente todos os motoristas brasileiros concordam que
passar com o sinal vermelho é perigoso, porém mais da metade deles admitem tê-lo feito,
..., descobriu uma pesquisa”. Essa frase inclui a afirmativa de que a maioria (mais da
metade) de todos os brasileiros passam no sinal vermelho. Apresente um resumo da
afirmativa e os dados amostrais.
Solução: Afirmativa: mais da metade (de todos os brasileiros) admite passar com o
sinal vermelho. Isto é, p > 0,5.
Quando testamos a afirmativa de que p > 0,5 dada no Exemplo 18, os seguintes passos
correspondem ao procedimento do teste:
Passo 3 Das duas expressões simbólicas precedentes, a expressão p > 0,5 não contém
igualdade, de modo que ela se torna a hipótese alternativa. A hipótese nula é a
afirmativa de que p é igual ao valor fixo de 0,5. Podemos, portanto, expressar H0 e
Ha como segue:
H0 : p = 0,5
Ha : p > 0,5
Passo 5: Como estamos testando uma afirmativa sobre uma proporção populacional p,
a estatı́stica amostral pb é relevante para esse teste, e a distribuição amostral das
proporções amostrais pb é aproximada pela distribuição normal.
58
Passo 6: A estatı́stica de teste é calculada usando-se n = 880 e pb = 0,56. Na hipótese
nula, estamos supondo que p0 = 0,5. A estatı́stica de teste é
pb − p0 0,56 − 0,5
zobservado = q = q = 3,56
p0 (1−p0 ) (0,5)(0,5)
n 880
Esse é um teste unilateral à direita, de modo que a região crı́tica é uma área de
α = 0,05 na cauda direita. Consultando a tabela da Normal Padrão, vemos que o
valor crı́tico de z = 1,645 está na fronteira da região crı́tica. Logo, a Região Crı́tica
= [1,645, +∞).
Passo 7: Como a estatı́stica de teste cai dentro da região crı́tica, rejeitamos a hipótese
nula.
Passo 8: Concluı́mos que há evidência amostral suficiente para apoiar a afirmativa de
que a maioria dos brasileiros admite passar com o sinal vermelho.
Exercı́cios
59
Aula 2 - Teste sobre a Média Populacional com Desvio
Padrão Populacional Conhecido
Objetivos
1. Dada uma afirmativa sobre uma média populacional, montar a hipótese nula e a
hipótese alternativa para testar essa afirmação de forma simbólica.
Nesta Aula 2, consideramos métodos de teste de afirmativas feitas sobre uma média
populacional µ, na situação em que o desvio padrão populacional (σ) seja conhecido.
Na Aula 3 apresentaremos o teste de hipóteses sobre a média populacional µ, quando o
desvio padrão populacional (σ) é desconhecido. Embora esta Aula 2 envolva casos menos
realistas do que os da Aula 3, ela é importante, pois descreve o mesmo método geral usado
na Aula seguinte.
Suposições
60
A estatı́stica de teste para testar uma afirmativa sobre a média populacional, quando
o σ é conhecido, zobservado , é como em (9), onde x é a média amostral, µ0 é a média
populacional fixada em H0 , σ é o desvio padrão populacional e n é o tamanho amostral.
De forma similar ao intervalo de confiança para a média populacional, com σ conhecido,
o(s) valor(es) crı́tico(s) é (são) obtido(s) da tabela da Normal Padrão, para ser tomada a
decisão final.
Exemplo 19. Considere uma amostra de 106 temperaturas do corpo com média de
36,70 C. Suponha que a amostra seja uma amostra aleatória simples e que a população
tenha desvio padrão σ conhecido com o valor de 17,20 C. Use o nı́vel de significância 0,05
para testar a crença comum de que a temperatura média do corpo de adultos saudáveis
é de 370 C.
Solução:
H0 : µ = 37
Ha : µ 6= 37
61
Passo 5: Como a afirmativa é sobre a média populacional µ, a estatı́stica amostral re-
levante para esse teste é a média amostral x = 36,7. Como se supõe que σ seja
conhecido (17,2) e n > 30, o teorema central do limite indica que a distribuição das
médias amostrais pode ser aproximada por uma distribuição normal.
x − µ0 36,7 − 37
zobservado = = = −0,18
√σ 17,2
√
n 106
Esse é um teste bilateral, de modo que as regiões crı́ticas são as duas áreas de
tamanho 0,025 nas caudas à esquerda e à direita. Consultando a tabela da Normal
Padrão, vemos que os valores crı́ticos z = −1,96 e z = 1,96 estão na fronteira
das regiões crı́ticas. A região crı́tica também pode ser escrita como (−∞, −1,96] ∪
[1,96, +∞).
Passo 7: Como a estatı́stica de teste não cai dentro da região crı́tica, não rejeitamos a
hipótese nula.
Passo 8: Concluı́mos que não há evidência amostral suficiente para apoiar a afirmativa
de que a temperatura corporal não seja 370 C.
Exercı́cios
1. Pesos de Ursos - Adaptado de Triola (2005, exercı́cio 10, p. 311). A saúde
da população de ursos no Parque Nacional é monitorada por medições periódicas
de ursos anestesiados. Uma amostra de 54 ursos tem um peso médio de 83 kg.
Supondo que σ seja conhecido como 55 kg, use o nı́vel de significância de 0,10 para
testar a afirmativa de que a média populacional dos pesos de todos esses ursos é
menor que 91 kg.
2. Nı́veis de Cotinina de Fumantes - Triola (2005, exercı́cio 11, p. 311).
Quando as pessoas fumam, a nicotina que absorvem é convertida em cotinina, que
pode ser medida. Uma amostra de 40 fumantes tem um nı́vel médio de cotinina
de 172,5. Supondo que σ seja conhecido como 119,5, use o nı́vel de significância de
0,01 para testar a afirmativa de que o nı́vel médio de cotinina de todos os fumantes
é igual a 200.
62
Aula 3 - Teste sobre a Média Populacional com Desvio
Padrão Populacional Desconhecido
Suposições
A estatı́stica de teste para testar uma afirmativa sobre a média populacional, quando o
σ não é conhecido, tobservado , é como em (10), onde x é a média amostral, µ0 é a média
populacional fixada em H0 , s é o desvio padrão amostral e n é o tamanho amostral.
Conforme o intervalo de confiança para a média populacional, com σ desconhecido, o(s)
valor(es) crı́tico(s) é(são) obtido(s) da tabela t de Student, para ser tomada a decisão
final.
63
A exigência de uma população normalmente distribuı́da não é uma exigência estrita, e
podemos, em geral, considerar a população como normalmente distribuı́da depois de usar
os dados amostrais para confirmar que não há outliers e que o histograma tem uma forma
que não se afasta muito da distribuição normal. Também usamos o critério simplificado
de n > 30 como justificativa para tratar a distribuição das médias amostrais como uma
distribuição normal, mas o tamanho amostral mı́nimo depende, realmente, de quanto a
distribuição da população se afasta de uma distribuição normal. Como não conhecemos
o valor de σ, nós o estimamos pelo valor do desvio padrão amostral s, mas isso introduz
uma outra fonte de incerteza, especialmente com pequenas amostras. Compensamos essa
incerteza a mais pelo cálculo dos valores crı́ticos usando a distribuição t de Student, em
vez da distribuição normal, como foi usada na Aula 2, onde σ era conhecido. Vamos
relembrar umas propriedades importantes da distribuição t de Student:
Exemplo 20. Pede-se a uma estudante de um curso de estatı́stica que faça um projeto
de classe. Ela planeja coletar seu próprio conjunto de dados para testar a afirmativa de
que a temperatura média do corpo é menor do que 370 C, como em geral se acredita.
Por causa do tempo imposto pelas outras disciplinas e o desejo de manter uma vida
social, ela decide coletar dados de apenas 12 pessoas. Depois de planejar cuidadosamente
um procedimento para obtenção da amostra aleatória simples de 12 adultos saudáveis, ela
mede suas temperaturas e obtém os resultados listados abaixo. Use o nı́vel de significância
0,05 para testar a afirmativa de que as temperaturas provêm de uma população com uma
média menor do que 370 C.
64
36,7 36,4 37,0 37,1 36,7 36,9 37,0 37,4 36,9 37,1 37,0 36,4
Passo 3: Das duas expressões simbólicas até aqui, a expressão µ < 37 não contém a
igualdade, de modo que ela se torna a hipótese alternativa Ha . A hipótese nula é a
suposição de que µ = 37.
H0 : µ = 37
Ha : µ < 37
Passo 5: No teste de uma afirmativa sobre a média populacional, a estatı́stica mais rele-
vante é a média amostral. Selecionamos a distribuição t de Student por causa destas
condições: temos uma amostra aleatória simples, o valor de σ não é conhecido e os
dados amostrais parecem provir de uma população que é normalmente distribuı́da.
x − µ0 36,884259 − 37
tobservado = = = −1,35
√s 0,297255
√
n 12
65
Para encontrar o valor crı́tico, primeiro, localize n − 1 = 11 graus de liberdade na
coluna à esquerda da tabela t de Student. Depois, como este é um teste unilateral
à esquerda, com α = 0,05, você precisará garantir que sua cauda à esquerda tenha
tamanho 5%, mas a primeira linha da tabela t de Student fornece o tamanho das
duas caudas, logo, você deverá procurar o valor p = 2α = 10%, para garantir que
sua cauda à esquerda tenha tamanho 5%. Outro detalhe importante é que a tabela t
de Student sempre fornece um valor para t positivo e como esse é um teste unilateral
à esquerda você não poderá esquecer de multiplicar esse valor por -1. Logo, o valor
crı́tico é t = −1,796 e a região crı́tica fica determinada pelo intervalo (−∞, −1,796].
Passo 7: Como a estatı́stica de teste tobservado = −1,35 não pertence a região crı́tica, não
rejeitamos H0 .
Passo 8: Não há evidência suficiente para apoiar a afirmativa de que a amostra provenha
de uma população com uma média menor do que 370 C. Isto não “prova” que a média
seja de 370 C, mas apenas que, os 12 valores amostrais não forneceram evidência forte
o bastante para apoiar a afirmativa. Se considerarmos os 106 valores de temperatu-
ras do corpo dadas anteriormente, talvez terı́amos evidências suficientes para apoiar
a afirmativa de que a temperatura média do corpo seja menor do que 370 C.
Notas importantes:
• Se o teste é unilateral à direita, para você encontrar o valor crı́tico na tabela t de
Student, você deve cruzar os graus de liberdade (n − 1) com p = 2α.
• Agora, se o teste é bilateral, você deve cruzar os graus de liberdade (n−1) com p = α
e o valor encontrado na tabela é o valor crı́tico positivo. Para encontrar o valor crı́tico
negativo, simplesmente, multiplique por −1 o valor encontrado anteriormente. Isso
ocorre devido a propriedade de simetria da distribuição t de Student.
66
Exercı́cios
65 74 78 86 59 84 75 72 81 83.
67
Aula 4 - Teste sobre a Variância Populacional
Objetivos
1. Dada uma afirmativa sobre um desvio padrão (ou uma variância) populacional,
determinar a hipótese nula e a hipótese alternativa para testar essa afirmação de
forma simbólica.
2. Dados os valores amostrais (s2 e n) e a informação a ser testada (σ0 ou σ02 ), calcular
o valor da estatı́stica de teste para o desvio padrão (ou a variância), χ2observado ,
apresentado em (11).
O mundo industrial divide este objetivo comum: melhorar a qualidade pela redução da
variação. Os engenheiros de controle da qualidade desejam garantir que um produto tenha
uma média aceitável, mas eles desejam, também, produzir itens de qualidade consistente
de maneira a haver poucos defeitos. Por exemplo, a consistência de altı́metros de aeronaves
é controlada pela ANAC (Agência Nacional de Aviação Civil), que requer que os altı́metros
de aeronaves sejam testados e calibrados para darem uma leitura “dentro de 38,1 metros”.
Mesmo que a leitura média de altitude esteja exatamente correta, um desvio padrão
excessivamente grande resultará em leituras individuais que podem ser perigosamente
baixas ou altas. Melhora-se a consistência das informações pela redução do desvio padrão.
Nas Aulas 1, 2 e 3 desta Unidade II, descrevemos métodos para testar afirmativas sobre
médias e proporções populacionais. Esta Aula 4 focaliza a variação, que é criticamente
importante em muitas aplicações, incluindo controle da qualidade. O objetivo principal
desta Aula 4 é apresentar métodos para testar afirmativas feitas sobre um desvio padrão
de uma população, σ ou uma variância, σ 2 . As suposições, a estatı́stica de teste e os
valores crı́ticos são resumidos como segue.
Suposições
1. A amostra é uma amostra aleatória simples.
68
A estatı́stica de teste para testar uma afirmativa sobre o desvio padrão populacional ou
a variância populacional, χ2observado , é como em (11), onde n é o tamanho amostral, s2 é
a variância amostral e σ02 é a variância populacional fixada em H0 . Conforme o intervalo
de confiança para a variância (ou o desvio padrão) populacional, o(s) valor(es) crı́tico(s)
é(são) obtido(s) da tabela Qui Quadrado, para ser tomada a decisão final.
Nas Aulas 2 e 3, vimos que os métodos de teste de afirmativas sobre médias exigem uma
população normalmente distribuı́da, e aqueles métodos funcionam razoavelmente bem
desde que a distribuição da população não se afaste muito de uma distribuição normal.
No entanto, testes de afirmativas sobre desvios padrões ou variâncias não são tão robustos,
no sentido de que os resultados podem ser muito enganosos se a população não tiver uma
distribuição normal. A condição de uma população normalmente distribuı́da é, portanto,
uma exigência muito mais estrita nesta Aula 4. Se a população tem uma distribuição que
se afasta muito da normal e você usa os métodos desta Aula 4 para rejeitar uma hipótese
nula, você não sabe realmente se o desvio padrão não é como suposto ou se a rejeição se
deve à falta de normalidade.
Não fique confuso com a referência a ambas as distribuições, normal e Qui Quadrado.
Depois de verificar que os dados amostrais parecem provir de uma população normalmente
distribuı́da, você deve mudar de direção e pensar em termos da distribuição Qui Quadrado.
A distribuição Qui Quadrado foi introduzida na Unidade I, na Aula 4, onde observamos
as seguintes importantes propriedades:
A tabela Qui Quadrado se baseia em áreas acumuladas à direita (diferentemente das en-
tradas na tabela da Normal Padrão, que são áreas acumuladas à esquerda). Os valores
crı́ticos são encontrados na tabela Qui Quadrado localizando-se primeiro a linha corres-
pondente ao número apropriado de graus de liberdade (onde gl = n − 1). Em seguida, o
nı́vel de significância α é usado para determinar a coluna correta. Os exemplos seguintes
se baseiam no nı́vel de significância α = 0,05, mas qualquer outro nı́vel de significância
pode ser usado de maneira semelhante. Note que em cada caso, a área chave é a região à
direita do(s) valor(es) crı́tico(s).
Teste unilateral à direita: Como a área à direita do valor crı́tico é 0,05, localize 0,05
no topo da tabela Qui Quadrado.
69
Teste unilateral à esquerda: Com uma área de 0,05 na cauda esquerda, a área à di-
reita do valor crı́tico é 0,95; assim, localize 0,95 no topo da tabela Qui Quadrado.
Teste bilateral: Divida o nı́vel de significância de 0,05 entre as caudas esquerda e di-
reita, de modo que as áreas à direita dos dois valores crı́ticos são 0,975 e 0,025,
respectivamente. Localize 0,975 e 0,025 no topo da tabela Qui Quadrado.
Exemplo 21. Uma das maneiras de manter sob controle a qualidade de um produto é
controlar a sua variabilidade. Uma máquina de encher pacotes de café está regulada para
enchê-los com média de 500 g e desvio padrão de 10 g. O peso de cada pacote segue uma
distribuição normal. Colheu-se uma amostra de 16 pacotes e observou-se uma variância
de 169 g 2 . Com esse resultado, você diria que a máquina está desregulada com relação à
variância?
Solução:
Passo 3: A expressão σ 2 =6 100 não contém igualdade, de modo que ela se torna a
hipótese alternativa. A hipótese nula é a afirmativa de que σ 2 = 100.
70
Passo 7: Como a estatı́stica de teste não pertence a região crı́tica, então não rejeitamos
a hipótese nula.
Passo 8: Podemos afirmar que a máquina está sob controle quanto à variância.
Exercı́cios
125 135 115 120 150 130 125 145 125 140 130
para realizar essa operação, podemos afirmar que essa regra está sendo obedecida
com um nı́vel de significância de 10%?
71
Revisão
Esta Unidade II apresentou métodos básicos para o teste de afirmativas sobre uma
proporção populacional, uma média populacional e um desvio padrão populacional (ou
variância).
Passo 2: Dê a forma simbólica que tem que ser verdadeira quando a afirmativa original
é falsa.
Passo 3: Das duas expressões simbólicas obtidas até agora, deixe que a hipótese Ha seja a
que não contém a igualdade, de modo que para Ha use um dos seguintes sı́mbolos >,
< ou 6=. Deixe a hipótese nula H0 ser a expressão simbólica que iguala o parâmetro
ao valor fixo sendo considerado.
Passo 8: Faça a conclusão final com termos simples, remetendo à informação original.
72
Tabela 3: Testes de Hipóteses (população normalmente distribuı́da).
Parâmetro Condições Estatı́stica de Teste Valores Crı́ticos
x−µ0
σ conhecido zobservado = √σ tabela Normal
n
Média
x−µ0
σ desconhecido tobservado = √s tabela t de Student
n
(n−1)s2
Desvio Padrão χ2observado = σ02
tabela Qui Quadrado
ou Variância
Para os procedimentos dos testes de hipóteses desta Unidade II é muito importante ver-
ificar se as hipóteses exigidas são satisfeitas. Se não forem, então não podemos usar os
métodos desta Unidade II e podemos precisar de outros métodos, que não serão tratados
nesta disciplina, tais como os métodos não paramétricos.
Exercı́cios de Revisão
1. Analisando Peso de Modelos - Adaptado de Triola (2005, exercı́cio 1, p.
277). Use o nı́vel de significância de 0,01 para testar a afirmativa de que os pesos
de modelos femininas variam menos do que os pesos das mulheres em geral. O
desvio padrão dos pesos da população de mulheres é de 13 kg. Foram selecionadas
aleatoriamente 9 modelos e anotados os respectivos pesos (em kg):
73
3. Monitorando a Dioxina no Ar - Adaptado de Triola (2005, exercı́cio 1,
p. 329). Abaixo estão listadas quantidades medidas de dioxina no ar, no local
do World Trade Center no dia imediatamente após os ataques terroristas de 11 de
setembro de 2001. Dioxina inclui um grupo de quı́micos produzidos pelo fogo e
alguns tipos de produtos. As quantidades listadas estão em nanogramas por metro
cúbico (ng/m3 ) e estão em ordem, com os primeiros valores registrados à esquerda.
Os dados são da Agência de Proteção Ambiental dos Estados Unidos.
a) A Agência usa 0,16 ng/m3 como seu “nı́vel de varredura”, que é “estabelecido
para proteger contra riscos significativamente aumentados de câncer e outros efeitos
adversos à saúde”. Use o nı́vel de significância de 0,05 para testar a afirmativa de
que essa amostra provém de uma população com média menor do que 0,16 ng/m3 .
74
Unidade III
Correlação e Regressão
Na primeira aula, você irá estudar um gráfico denominado diagrama de dispersão que
lhe auxiliará a observar a relação entre duas variáveis quantitativas.
Na segunda aula, você irá estudar como calcular, interpretar e testar se é significativo
o coeficiente de correlação de Pearson.
Na terceira aula, você irá estudar o que são parâmetros numa equação de primeiro grau,
como calculá-los e interpretá-los. Além disso, você estudará que essa equação de primeiro
grau é chamada de reta de regressão e será uma forma de se representar linearmente a
relação entre duas variáveis quantitativas.
Na quarta aula, você irá estudar como calcular e interpretar um coeficiente chamado
coeficiente de determinação.
Aula 1 - Diagrama de Dispersão
Objetivos
Quando examinamos um diagrama de dispersão devemos estudar o padrão geral dos pon-
tos plotados. Se há um padrão, devemos observar sua direção. Isto é, quando uma variável
cresce a outra parece crescer ou decrescer? Devemos observar também se há pontos muito
afastados dos demais, ditos outliers. Estas observações nos permitem visualizar a relação
entre as variáveis sob estudo.
Exemplo 22. Os peixes boi são grandes mamı́feros que vivem, em geral, em lugares de
considerável movimentação de barcos, havendo assim, risco de morte por atropelamento.
A Tabela 4 apresenta o número de barcos de passeio registrados na Flórida (em dezenas
de milhares) e o número de mortes de peixes boi relacionadas com barcos.
Construa o diagrama de dispersão para estudar a relação entre o número de barcos (em
dezenas de milhares) e o número de mortes de peixes boi relacionadas com barcos. Note
que no eixo x deverá ser colocado o número de barcos e no eixo y o número de mortes.
76
Tabela 4: Barcos de passeio registrados na Flórida (em dezenas de milhares) e mortes de
peixes boi relacionadas com barcos.
Ano 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
x: Barcos 68 68 67 70 71 73 76 81 83 84
y: Mortes 53 38 35 49 42 60 54 67 82 78
Observando o diagrama de dispersão (ver Figura 6), podemos ter uma idéia da relação
entre as variáveis número de barcos e o número de mortes de peixes boi por atropelamento,
isto é, o gráfico mostra que quanto mais barcos passarem no local, maior será o número
de mortes de peixes. Podemos dizer também que esses dados parecem apresentar uma
tendência linear crescente.
Atenção! Muitos alunos são tentados a colocar nos eixos do gráfico apenas os valores
de x e y que aparecem na tabela de dados, sem a preocupação de estabelecer uma escala
previamente para cada um. Isto pode acarretar em um gráfico distorcido e também pode
afetar na interpretação do que os dados querem dizer. Logo, o primeiro passo é investigar
o menor e o maior valor de cada variável (x e y), estabelecer uma escala para cada uma
e, por último, colocar os pontos correspondentes a cada par (x, y) que estão na tabela de
dados.
77
Exemplo 23. Numa pesquisa feita com 11 famı́lias com renda bruta mensal entre 10 e 60
salários mı́nimos mediram-se as seguintes variáveis: X: renda bruta mensal (em salários
mı́nimos) e Y: porcentagem da renda bruta anual gasta com assistência médica. Os dados
são apresentados na Tabela 5.
Tabela 5: Renda bruta mensal versus a porcentagem da renda bruta anual gasta com
assistência médica.
Famı́lias 1 2 3 4 5 6 7 8 9 10 11
x: Renda 12 16 18 20 28 30 40 48 50 54 32
y: % de Gastos 7,2 7,4 7,0 6,5 6,6 6,7 6,0 5,6 6,0 5,5 6,5
Construa o diagrama de dispersão para estudar a relação entre a renda bruta mensal (em
salários mı́nimos) e a porcentagem da renda bruta anual gasta com assistência médica.
Note que no eixo x deverá ser colocada a renda e no eixo y a porcentagem de gastos.
Solução: Observando os valores de x (renda), o menor valor é 12 e o maior é 54 salários
mı́nimos. Aqui, foi estabelecido uma escala de 10 em 10, começando do valor 10 (ver
Figura 7). Depois, faça o mesmo para os valores de y (% de Gastos). Para o y, a escala
foi de 0,5 em 0,5, começando do valor 5,5 (ver Figura 7).
78
Porém, a análise gráfica é altamente subjetiva. Assim, são necessárias medidas mais
precisas e objetivas. O coeficiente de correlação linear é uma medida útil para detectar
padrões lineares que será o conteúdo a ser tratado na próxima Aula.
Exercı́cios
1. Tempo de Estudo versus a Nota na Prova. Considere um estudo entre as
variáveis Nota na Prova (de 0 a 10) e Tempo de Estudo (em horas). Faça o gráfico
de dispersão dos dados apresentados na Tabela 6 e descreva o comportamento que
você está observando.
Alunos 1 2 3 4 5
x: Tempo 3 7 2 1,5 12
y: Nota 4,5 6,5 3,7 4,0 9,3
2. Idade versus Massa Muscular. É esperado que a massa muscular de uma pessoa
diminua com a idade. Para estudar essa relação uma nutricionista selecionou 18
mulheres com idade entre 40 e 79 anos, e observou em cada uma delas a idade (X)
e a massa muscular (Y). Faça o Gráfico de Dispersão dos dados apresentados na
Tabela 7 e descreva o comportamento que você está observando.
79
Aula 2 - Correlação
Objetivos
Definição 28 Dizemos que existe uma correlação entre duas variáveis quando uma delas
está relacionada com a outra de alguma maneira.
Consideramos neste livro apenas dados quantitativos e relações lineares entre as variáveis,
isto é, quando colocados em um gráfico, os pontos aproximam-se do padrão de uma reta.
Supondo que os dados amostrais (x,y) são quantitativos e seguem uma distribuição normal
bivariada, o valor do coeficiente de correlação linear amostral r é calculado pela fórmula:
Pn
i=1xi yi − n x y
r= , (12)
(n − 1) sx sy
sendo que
80
Pn
i=1 xi yi corresponde à multiplicação de cada valor de x por seu valor correspondente
y e posterior soma destes produtos.
n o número de pares (x,y) presentes na amostra;
x a média de todos os valores de x;
y a média de todos os valores de y;
sx o desvio padrão amostral de todos os valores de x, isto é,
sP sP
n n 2
−
i=1 (xi x)2 − n(x)2
i=1 (xi )
sx = = .
n−1 n−1
sy o desvio padrão amostral de todos os valores de y, isto é,
sP sP
n n 2
−
i=1 (yi y)2 i=1 (yi ) − n(y)2
sy = = .
n−1 n−1
Exemplo 24. Considerando os pares de valores (1,2), (1,8), (3,6), (5,4) para (x,y), calcule
o coeficiente de correlação linear r.
Solução: Como são quatro pares de dados, temos que n = 4. Tabulando os dados fica
mais fácil o cálculo de r.
x y xy x2 y2
1 2 2 1 4
1 8 8 1 64
3 6 18 9 36
Pn 5 Pn 4 Pn 20 Pn 252 Pn 16 2
Total x
i=1 i = 10 y
i=1 i = 20 x y
i=1 i i = 48 x
i=1 i = 36 i=1 yi = 120
Pn
xi yi − n x y
i=1
r =
(n − 1) sx sy
48 − 4(10/4)(20/4)
= q q
36−4(10/4)2 120−4(20/4)2
(4 − 1) 4−1 4−1
= −0,135.
81
Interpretação do Coeficiente de Correlação Linear
O valor de r deve sempre estar entre −1 e 1, inclusive. Se o valor de r está muito próximo
de zero podemos dizer que não há correlação linear significativa entre x e y. Mas se r
estiver próximo de −1 ou 1, concluı́mos que há uma correlação linear significativa entre
x e y. Mas o que é estar próximo de 1? Esta interpretação é vaga e por isso utilizaremos
um teste de hipóteses para verificar se o r é significativo ou não. Antes, porém, vejamos
as propriedades do coeficiente de correlação linear r.
2. O valor de r não muda se houver uma mudança de escala em qualquer das variáveis.
3. O valor de r não é afetado pela escolha de x ou y, isto é, trocando todos os valores
de x pelos respectivos valores de y e vice-versa, o valor de r não se altera.
4. r mede apenas a intensidade de relações lineares. Ele não é planejado para medir
intensidade de relações que não sejam lineares (por exemplo, relações logarı́tmicas,
exponenciais, quadráticas, cúbicas, etc).
Observe os gráficos de dispersão na Figura 8. As letras de (a) até (e) apresentadas nesta
figura são conforme as situações precedentes. Note que baseado no comportamento que
o gráfico apresentar, você terá um determinado resultado para a correlação.
82
Figura 8: Diagramas de dispersão.
r
tobservado = q
1−r 2
n−2
e segue a distribuição t de Student. Observe que esta estatı́stica tem a forma tobservado =
r−µr
sr
, sendo µr o valor afirmado da média, isto é, zero para a hipótese nula ρ = 0, e
q
2
sr = 1−r n−2
o valor do desvio padrão amostral dos valores de r. Para esta estatı́stica os
valores crı́ticos de t encontram-se na tabela da distribuição t de Student cruzando os n − 2
graus de liberdade com p igual ao nı́vel de significância α.
83
Se o valor da estatı́stica de teste estiver na região crı́tica, rejeitamos H0 e concluı́mos que
há uma correlação linear entre as variáveis X e Y . Caso contrário, isto é, se o valor da
estatı́stica de teste não estiver na região crı́tica, não rejeitamos H0 e concluı́mos que não
há evidências para afirmar que existe uma correlação linear.
Exemplo 25. Este exemplo já foi introduzido na Aula 1. O mesmo trata do estudo
da relação entre o número de barcos de passeio registrados na Flórida (em dezenas de
milhares) e o número de mortes de peixes boi relacionadas com barcos. Os dados originais
estão na Tabela 4 apresentada na Aula 1. Utilizando estes dados amostrais vamos calcular
o coeficiente de correlação e verificar se existe uma correlação linear entre o número de
barcos registrados e o número de peixes boi mortos por barcos.
Cálculo de r:
x y xy x2 y2
68 53 3604 4624 2809
68 38 2584 4624 1444
67 35 2345 4489 1225
70 49 3430 4900 2401
71 42 2982 5041 1764
73 60 4380 5329 3600
76 54 4104 5776 2916
81 67 5427 6561 4489
83 82 6806 6889 6724
Pn 84 Pn 78 Pn 65522 Pn 2 7056 Pn 6084
Total i=1 xi = 741 i=1 yi = 558 i=1 xi yi = 42214 i=1 xi = 55289 i=1 yi2 = 33456
84
Pn
xi yi − n x y
i=1
r =
(n − 1) sx sy
42214 − 10(741/10)(558/10)
= q
2
q
33456−10(558/10)2
(10 − 1) 55289−10(741/10)
10−1 10−1
= 0,922.
Note que no teste para verificar se a correlação é significativa ou não, basta apenas montar
a hipótese nula com o sı́mbolo de igualdade (H0 : ρ = 0) e na hipótese alternativa com
o sı́mbolo de diferente (Ha : ρ 6= 0), pois basta apenas investigar se a correlação é
significativa ou não. Não importa saber se é para o lado positivo ou negativo, pois o
próprio valor da correlação já diz.
Assim, vimos que podemos utilizar o coeficiente de correlação linear para determinar se
existe ou não uma relação linear entre duas variáveis. Na Aula 3, determinaremos a forma
explı́cita desta relação, caso exista.
Exercı́cios
2. Idade versus Massa Muscular. Considere novamente o estudo entre idade (X)
e a massa muscular (Y) de mulheres. Calcule o coeficiente de correlação dos dados
apresentados na Tabela 7 e verifique se esse valor é significativo com um nı́vel de
significância de 5%.
85
Aula 3 - Equação de Regressão
Objetivos
Na Aula 2, analisamos dados em pares com o objetivo de determinar se havia, ou não, uma
correlação linear entre as duas variáveis. O objetivo principal desta Aula 3 é descrever a
relação entre duas variáveis através da reta e da equação que representam esta relação.
Esta reta é chamada reta de regressão, que pode ser desenhada no gráfico de dispersão e
sua equação é chamada equação de regressão. Sir Francis Galton (1822-1911) estudou o
fenômeno de hereditariedade e mostrou que, quando casais altos ou baixos têm filhos, as
alturas dessas crianças tendem a regredir, ou reverter para uma altura média mais tı́pica
das pessoas do mesmo sexo. Continuamos a usar a mesma terminologia de “regressão”
de Galton, embora nossos dados não envolvam os mesmos fenômenos de altura estudados
por ele.
Suposições
1. Estamos investigando apenas relações lineares.
2. Para cada valor de x, y é uma variável aleatória normal (em forma de sino). Todas
essas distribuições de y têm a mesma variância. Também, para um dado valor de x, a
distribuição dos valores de y tem uma média que se localiza sobre a reta de regressão.
(Os resultados não são seriamente afetados se afastamentos da distribuição normal
e da igualdade das variâncias não forem muito extremos.)
86
Definição 30 Dada uma coleção de dados amostrais emparelhados (x, y), a equação de
regressão yb = b0 + b1 x descreve algebricamente a relação entre duas variáveis. O gráfico
da equação de regressão é chamado reta de regressão (ou reta de melhor ajuste, ou reta
de mı́nimos quadrados).
Parâmetro Estatı́stica
Populacional Amostral
Intercepto y da equação de regressão β0 b0
Inclinação da equação de regressão β1 b1
Equação da reta de regressão y = β0 + β1 x yb = b0 + b1 x
87
Exemplo 26. Calcule b0 e b1 para os dados dos barcos de passeio versus as mortes dos
peixes boi e, em seguida, apresente a equação de regressão e desenhe a reta de regressão
no diagrama de dispersão.
Pn
i=1xi yi − n x y
b1 =
(n − 1) s2x
42214 − 10(741/10)(558/10)
= 2
(10 − 1) 55289−10(741/10)
10−1
= 2,27.
88
Uma vez que tenhamos o cálculo de b0 e b1 , podemos identificar a equação de regressão
estimada, que representa a reta de regressão que ajusta melhor os pontos amostrais. O
critério especı́fico usado para determinar que reta ajusta “melhor” é a propriedade dos
mı́nimos quadrados, que com base nessa propriedade chega-se nas expressões 13 e 14.
As fórmulas para b0 e b1 foram obtidas via o método de mı́nimos quadrados, que visa
encontrar os valores de b0 e b1 , que minimiza a soma dos quadrados dos erros (ou desvios),
isto é,
n
X n
X n
X
SQ(b0 , b1 ) = e2i = 2
(yi − ybi ) = (yi − (b0 + b1 x))2
i=1 i=1 i=1
O problema agora se restringe a encontrar o mı́nimo de uma função (SQ(b0 , b1 )) em relação
as duas variáveis: b0 e b1 . Derivando a função SQ(b0 , b1 ) em relação a b0 e igualando a
zero e isolando b0 , obtemos a equação 14. Derivando a função SQ(b0 , b1 ) em relação a b1
e igualando a zero e isolando b1 , obtemos a equação 13.
Esse processo é mais fácil de ser entendido se pensarmos em r como uma medida de quão
bem a reta de regressão se ajusta aos dados amostrais. Se r estiver próximo de −1 ou
de +1, então a reta de regressão se ajusta bem aos dados, mas se r estiver próximo de 0,
então a reta de regressão não se ajusta bem e, portanto, não deve ser usada para predições.
89
Exemplo 27. Usando os dados amostrais da Tabela 4, vimos que há uma correlação
linear significante entre o número de barcos registrados e o número de peixes boi mortos
por barcos. Vimos também que a equação de regressão é yb = −113 + 2,27x. Suponha
que em 2001 houvessem 850.000 barcos registrados. Como a Tabela 4 lista o número de
barcos registrados em dezenas de milhares, isto significa que, para 2001, temos x = 85.
Dado x = 85, ache o melhor valor predito de y, o número de peixes boi mortos por barcos.
O número predito de mortes de peixes boi pelos 850.000 barcos registrados é de 80. O
número real de mortes de peixes boi por barcos em 2001 foi 82, de modo que o valor
predito está muito próximo.
Estabelecendo uma regra geral para predizer um valor, utilize o seguinte procedimento:
inicialmente calcule o valor de r e teste a hipótese de que ρ = 0. Se tal hipótese é rejeitada,
significa que existe uma correlação linear significativa, use a equação de regressão para
fazer predições e substitua o valor dado na equação de regressão. Se a hipótese não
for rejeitada, dado qualquer valor de uma variável, o melhor valor predito para a outra
variável é sua média amostral.
1. Se não há qualquer correlação linear, não use a equação de regressão para fazer
predições.
3. Uma equação de regressão com base em dados antigos não é necessariamente válida
agora. Por exemplo, a equação de regressão que relaciona preços de carros usados e
as idades dos carros não é mais útil se ela se baseou em dados da década de 1970.
4. Não faça predições sobre uma população que é diferente da população da qual se
extraı́ram os dados amostrais. Se coletamos dados amostrais de homens e desen-
volvemos uma equação de regressão que relaciona idade e uso de controle remoto da
TV, os resultados não se aplicam necessariamente às mulheres.
90
Exercı́cios
91
Aula 4 - Coeficiente de Determinação
Objetivos
Através do coeficiente de correlação linear r podemos determinar se há ou não uma cor-
relação linear entre duas variáveis x e y. Se concluı́mos que há uma correlação linear
significativa entre x e y, podemos encontrar uma equação linear que expresse y em função
de x, isto é, uma equação para a Reta de Regressão. Esta equação pode ser utilizada para
predizer valores de y para valores dados de x. Mas quanto desta variação em y é explicada
pela Reta de Regressão? Isto será respondido através do coeficiente de determinação.
Exemplo 28. Utilizando os dados barcos versus as mortes de peixes boi da Tabela 4,
obtivemos um r = 0,922. Que proporção da variação nas mortes de peixes boi pode ser
explicada pela relação linear entre o número de mortes de peixes boi relacionadas com
barcos e o número de barcos registrados?
Dizemos que r2 ∗ 100% da variação total em y pode ser explicada pela relação linear entre
x e y (conforme descrito pela equação de regressão).
92
Exemplo 29. Utilizando os dados barcos versus peixes boi da Tabela 4, obtivemos um
coeficiente de determinação de 85%. Interprete este resultado.
Solução: O valor obtido para o coeficiente de determinação indica que cerca de 85% da
variação nas mortes de peixes boi por barcos pode ser explicada pela relação linear entre
o número de registros de barcos e o número de peixes boi mortos por barcos. Segue que
15% da variação total em y permanece não explicada.
É comum, porém incorreto, concluir que a correlação implica causalidade. Por exemplo,
suponha que exista uma correlação entre os valores de x e de y. Não podemos concluir
que um aumento nos valores de x provoque um aumento nos valores de y. Os valores de y
podem ser afetados por alguma outra variável que não está incluı́da no estudo, chamada
variável oculta. Isto é, uma variável que não está incluı́da no estudo mas que afeta as
outras variáveis em estudo.
Outro erro surge de dados que se baseiam em médias. As médias suprimem a variação
individual e podem aumentar o coeficiente de correlação. Considere por exemplo um
estudo que produziu um coeficiente de correlação linear de 0,4 para os dados coletados
que relacionavam renda e educação entre indivı́duos, mas o coeficiente de correlação linear
se tornou 0,7 quando foram consideradas médias regionais.
Um terceiro erro envolve a propriedade de linearidade. Pode existir uma relação não linear
entre x e y, mesmo quando não há correlação linear significativa.
93
Exercı́cios
2. Idade versus Massa Muscular. Considere novamente o estudo entre a idade (X)
e a massa muscular (Y) de mulheres. Obtenha o coeficiente determinação para os
dados da Tabela 7 e interprete o resultado.
94
Revisão
Esta Unidade III apresenta métodos básicos para investigar relações ou correlações entre
duas ou mais variáveis.
• Na Aula 1 utilizamos Diagramas de Dispersão para visualizar se há ou não uma
correlação linear entre duas variáveis.
Exercı́cios de Revisão
Condenados 1 2 3 4 5 6 7 8
x: Idade 17,2 43,5 30,7 53,1 37,2 21,0 27,6 46,3
y: CAS 0,19 0,20 0,26 0,16 0,24 0,20 0,18 0,23
95
c) Determinar a equação de regressão linear;
Tabela 12: Valor da Conta (em reais) versus Gorjeta dada ao Garçon (em reais).
Alunos 1 2 3 4 5 6
x: Conta 33,46 50,68 87,92 98,84 63,60 107,34
y: Gorjeta 5,50 5,00 8,08 17,00 12,00 16,00
96
Pra final de conversa...
Você estudou ao longo desses 60 dias a disciplina Estatı́stica Aplicada, que lhe dará suporte
para a continuidade do curso. Contudo, não queremos que nosso diálogo se encerre aqui.
Sempre que você sentir necessidade, busque com os tutores e coordenadores de pólos uma
alternativa para sanar suas dúvidas.
Lembre-se de que, além dos sujeitos envolvidos no seu processo de aprendizagem, a apos-
tila é um recurso imediato e está ao seu alcance quando necessário.
Esperamos que esta apostila lhe tenha sido proveitosa e agradável. Procuramos escrevê-
la da melhor maneira possı́vel, com muito carinho e com o objetivo de facilitar o seu
entendimento, sem perder a qualidade. Tratamos aqui de assuntos essenciais para sua
formação acadêmica e que lhe darão suporte para compreender novas disciplinas que
surgirão no decorrer do curso de pós-graduação. Desejamos que você prossiga com seus
estudos, que obtenha êxito e paixão para continuar sempre!
Atenciosamente,
Os Autores.
97
Referências Bibliográficas
Graus de Liberdade
p = 90% 80% 70% 60% 50% 40% 30% 20% 10% 5% 4% 2% 1%
1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12,706 15,894 31,821 63,657 1
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 4,849 6,965 9,925 2
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 3,482 4,541 5,841 3
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 2,998 3,747 4,604 4
5 0,132 0,267 0,408 0,559 0,727 0,920 1,156 1,476 2,015 2,571 2,756 3,365 4,032 5
6 0,131 0,265 0,404 0,553 0,718 0,906 1,134 1,440 1,943 2,447 2,612 3,143 3,707 6
7 0,130 0,263 0,402 0,549 0,711 0,896 1,119 1,415 1,895 2,365 2,517 2,998 3,499 7
8 0,130 0,262 0,399 0,546 0,706 0,889 1,108 1,397 1,860 2,306 2,449 2,896 3,355 8
9 0,129 0,261 0,398 0,543 0,703 0,883 1,100 1,383 1,833 2,262 2,398 2,821 3,250 9
10 0,129 0,260 0,397 0,542 0,700 0,879 1,093 1,372 1,812 2,228 0,359 2,764 3,169 10
11 0,129 0,260 0,396 0,540 0,697 0,876 1,088 1,363 1,796 2,201 2,328 2,718 3,106 11
12 0,128 0,259 0,395 0,539 0,695 0,873 1,083 1,356 1,782 2,179 2,303 2,681 3,055 12
13 0,128 0,259 0,394 0,538 0,694 0,870 1,079 1,350 1,771 2,160 2,282 2,650 3,012 13
14 0,128 0,258 0,393 0,537 0,692 0,868 1,076 1,345 1,761 2,145 2,264 2,624 2,977 14
15 0,128 0,258 0,393 0,536 0,691 0,866 1,074 1,341 1,753 2,131 2,248 2,602 2,947 15
16 0,128 0,258 0,392 0,535 0,690 0,865 1,071 1,337 1,746 2,120 2,235 2,583 2,921 16
17 0,128 0,257 0,392 0,534 0,689 0,863 1,069 1,333 1,740 2,110 2,224 2,567 2,898 17
18 0,127 0,257 0,392 0,534 0,688 0,862 1,067 1,330 1,734 2,101 2,214 2,552 2,878 18
19 0,127 0,257 0,391 0,533 0,688 0,861 1,066 1,328 1,729 2,093 2,205 2,539 2,861 19
20 0,127 0,257 0,391 0,533 0,687 0,860 1,064 1,325 1,725 2,086 2,197 2,528 2,845 20
21 0,127 0,257 0,391 0,532 0,686 0,859 1,063 1,323 1,721 2,080 2,189 2,518 2,831 21
22 0,127 0,256 0,390 0,532 0,686 0,858 1,061 1,321 1,717 2,074 2,183 2,508 2,819 22
23 0,127 0,256 0,390 0,532 0,685 0,858 1,060 1,319 1,714 2,069 2,177 2,500 2,807 23
24 0,127 0,256 0,390 0,531 0,685 0,857 1,059 1,318 1,711 2,064 2,172 2,492 2,797 24
25 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,316 1,708 2,060 2,166 2,485 2,787 25
26 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,315 1,706 2,056 2,162 2,479 2,779 26
27 0,127 0,256 0,389 0,531 0,684 0,855 1,057 1,314 1,703 2,052 2,158 2,473 2,771 27
28 0,127 0,256 0,389 0,530 0,684 0,855 1,056 1,313 1,701 2,048 2,154 2,467 2,763 28
29 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 1,699 2,045 2,150 2,462 2,756 29
30 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,310 1,697 2,042 2,147 2,457 2,750 30
35 0,126 0,255 0,388 0,529 0,682 0,852 1,052 1,306 1,690 2,030 2,133 2,438 2,724 35
40 0,126 0,255 0,388 0,529 0,681 0,851 1,050 1,303 1,684 2,021 2,123 2,423 2,704 40
50 0,126 0,254 0,387 0,528 0,679 0,849 1,047 1,299 1,676 2,009 2,109 2,403 2,678 50
60 0,126 0,254 0,387 0,527 0,679 0,848 1,045 1,296 1,671 2,000 2,099 2,390 2,660 60
120 0,126 0,254 0,386 0,526 0,677 0,845 1,041 1,289 1,658 1,980 2,076 2,358 2,617 120
Graus de Liberdade
Graus de Liberdade