Você está na página 1de 66

Estatstica

Silvia Emiko Shimakura & Paulo Justiniano Ribeiro Junior


Departamento de Estatstica-UFPR
Email: pj@est.ufpr.br
Resumo
Este curso apresenta uma introduc
ao aos metodos estatsticos para modelagem de dados.
Neste curso, o aluno pensara em problemas praticos de uma forma quantitativa e ganhara
um entendimento dos princpios basicos em estatstica. A obtenc
ao de um conhecimento
solido das ideias basicas dara ao aluno confianca para abordar metodos estatsticos mais
avancados que podem ser encontrados no futuro.

Livros
Bussab, W. e Morettin, P. Estatstica B
asica. Editora Atlas.
Speed, T. & Nolan, D. Stats Labs.
Soares, J.F. Estatstica

Conte
udo
1. Introdu
c
ao: Por que ha a necessidade de Estatstica?
2. Estatsticas Descritivas: sumario de dados, grafico de barras, grafico de setores,
histograma, ramo-e-folhas, mediana, moda, desvio padrao, amplitude inter-quartis,...
3. Popula
coes e amostras: usando amostras para aprender sobre a populac
ao
4. Intervalos de confian
ca: estimando a media populacional a partir de uma amostra
5. Testes de hip
oteses: ideia basica e testes para uma amostra
6. Compara
c
ao de dois grupos: As mensurac
oes num grupo tendem a ser maiores em
media do que em outro?
7. Correla
c
ao: verificando se os valores de duas quantidades tendem a ser relacionadas
8. Regress
ao: descrevendo como o comportamento de uma quantidade muda com o valor
da outra

1
1.1

Introduc
ao

O que
e Estatstica?

Primeiro deve-se estabelecer o que se deseja dizer com estatstica. Ela tem pelo menos
tres significados:
1. colecao de informacoes numericas ou dados,
2. medidas resultantes de um conjunto de dados, como por exemplo medias,
3. metodos usados na coleta e interpretac
ao de dados.
Qual
e o papel da estatstica na ci
encia?
Na ciencia, sao realizados estudos experimentais ou observacionais, levando `a colecao
de dados numericos.
O proposito da investigacao e responder uma quest
ao cientfica.
O padrao de variac
ao nos dados faz com que a resposta nao seja obvia.
Em geral, a disciplina de estatstica refere-se a metodos para coleta e descric
ao dos
dados, e entao a verificacao da forca da evidencia nos dados pro ou contra as ideias
cientficas. A presenca de uma variac
ao nao previsvel nos dados faz disso uma tarefa
pouco trivial.

1.2

Varia
c
ao Amostral

Alguns exemplos onde a variacao esta presente no dado podem ser encontrados em Landim
(1997).

2
2.1

Estatstica Descritiva

Tipos de dado

A interpretacao das listas de n


umeros a olho e muito difcil. Ao inves disso, nos deveramos
produzir um resumo verbal ou num
erico e/ou usar m
etodos gr
aficos para descrever
os pontos principais dos dados.
O metodo mais apropriado dependera da natureza dos dados, e aqui podemos distinguir
dois tipos principais:
1. Dados qualitativos ou categ
oricos que podem ser:
(a) nominais, por exemplo
sexo: masculino, feminino
classificacao de fosseis
(b) ordinais, i.e. categorias ordenadas, tais como
salinidade: baixa, media, alta
abundancia: dominante, abundante, frequente, ocasional, raro
2. Dados quantitativos ou num
ericos que podem ser:
(a) discretos, i.e. contagens ou n
umero inteiros, por exemplo
n
umero de ovos postos pela tartaruga marinha
n
umero de ataques de asma no ano passado
(b) contnuos, i.e. medidas numa escala contnua, tais como
volume, area, peso, massa
velocidade de corrente
As distincoes sao menos rgidas do que a descric
ao acima insinua. Por exemplo, em geral
nos trataramos idade como uma vari
avel contnua, mas se a idade for registrada pelo ano
mais proximo, podemos trata-la como discreta, e se separarmos a amostra em criancas,
adultos jovens, idade media, velhos, por exemplo, ent
ao temos faixa etaria como
uma variavel ordenada categorica. No entanto, em geral e recomendado manter os dados
em sua forma original, categorizando os dados somente para propositos de apresentac
ao.

2.2

Dados qualitativos

Para sumarizar dados qualitativos numericamente, utiliza-se contagens, propor


c
oes,
percentagens, taxas por 1000, taxas por 1.000.000, etc, dependendo da escala
apropriada. Por exemplo, se encontrarmos que 70 de 140 estudantes de geologia sao
homens, poderamos relatar a taxa como uma proporc
ao (0.5) ou provavelmente ainda
melhor como um percentual (50%). Se encontrarmos que 7 de uma amostra de 5000
pessoas sao portadores de uma doenca rara poderamos expressar isto como uma proporc
ao
observada (0.0014) ou percentual (0.14%), mas melhor seria 1.4 casos por mil.
2.2.1

Tabulando dados

Frequentemente o primeiro passo da descric


ao de dados e criar uma tabela de frequencia.
Por exemplo, as especies de woodlice caindo numa armadilha foram:
Species
Oniscus
Porcellio
Philoscia
Armadilidium

tally
|||||||||||||||
||||||||
|||||
||

ni
12
8
5
2
N = 27

ni /N
12/27
8/27
5/27
2/27

pi
0.444
0.296
0.185
0.074
pi = 1

Percentage
44.4%
29.6%
18.5%
7.4%

Num relatorio, a segunda coluna nao seria mostrada, e os dados seriam sumarizados num
formato mais simples como mostrado abaixo. Se o maioria dos dados caem em poucas
categorias, entao e conveniente colapssar algumas das categorias com somente uma ou
duas observacoes em outra categoria chamada outros.
Table showing the species of 27 woodlice that fell in a pit-fall trap:
Species
Oniscus
Porcellio
Philoscia
Armadilidium

Frequency
12
8
5
2

Percentage
44.4%
29.6%
18.5%
7.4%

Tabelas simples como esta sao na maioria das vezes suficientes para descrever dados qualitativos especialmente quando existem somente duas ou tres categorias.

2.2.2

Resumindo numericamente

Considere o seguinte conjunto de dados que mostra os escores de abundancia medios


DAFOR de ocorrencia de Nardus stricta em 100 areas investigadas em Exmoor.
Dominante
Abundante
Frequente
Ocasional
Raro

8
33
32
17
10

A moda de um conjunto de dados categoricos e a categoria que tem o maior percentual


de dados. Ela deve ser usada cuidadosamente como uma medida resumo global porque e
muito dependente da forma como os dados sao categorizados. Para os dados de woodlice
a moda e Oniscus. Para os dados acima, a categoria modal e Abundante, mas por muito
pouco.
A mediana, bem como a moda, podem ser calculadas para dados ordenados. Este e
valor do meio, mais comumente usado para dados quantitativos. A mediana nao faz
sentido para os dados woodlice. Para os dados de abundancia, a categoria mediana e
Frequente, porque 50% dos dados estao em categorias superiores, e menos do que 50%
estao em categorias inferiores. A mediana e mais robusta do que a moda pois e menos
sensvel `a categorizacao adotada.
2.2.3

Gr
aficos de Barras

10

Frequency
20

30

Dados qualitativos, particularmente quando as categorias sao ordenadas, sao usualmente


bem ilustrados num simples gr
afico de barras onde a altura da barra e igual `a frequencia.

Rare

Occasional

Frequent

Abundant

Dominant

2.2.4

Gr
afico de setores

Oniscus

Gr
afico de setores tambem podem ser u
teis para apresentac
ao de dados categoricos ordenados. Os setores do grafico sao desenhados de tal forma que eles tenham area proporcional `a frequencia. Entao para os dados woodlice, os angulos seriam 0.444 360 = 160
para Oniscus, etc.

Arma

dilidiu

llio
rce

ia

sc
ilo
Ph

Po

2.3
2.3.1

Dados quantitativos
Histograma

De longe o metodo mais comum de apresentac


ao de dados numericos e o histograma,
relacionado com o grafico de barras para dados categoricos. As areas dos retangulos
resultantes devem ser proporcionais `a frequencia.
Algumas vezes e conveniente agregar classes de frequencia nos extremos da distribuicao
de forma que os intervalos tem larguras diferentes. Cuidado ao fazer isso - um intervalos
que e duas vezes a largura de um outro deve tem altura igual `a metada de sua frequencia
(para preservar a area contida dentro do intervalo) Da mesma forma um intervalo que e
tres vezes a largura dos outros deve ter um terco da altura de sua frequencia observada.
Exemplo. 150 peixes mortos foram encontrados vtimas de contaminc
ao do rio e seus
comprimentos foram medidos em milmetros. As medidas foram expressas na forma de
tabela de frequencia.
Comprimento do peixe (mm)
100-109
110-119
120-129
130-139
140-149
150-159
160-169
170-179

Frequencia
7
16
19
31
41
23
10
3

40
30
Frequency
20
10
0
100

120

140
Fish lengths (mm)

160

180

O histograma construdo desses dados e mostrado abaixo.


Gr
afico de Ramos-e-Folhas
Um metodo grafico que merece ser mais amplamente utilizado quando a quantidade de
dados nao e muito grande e o grafico de ramos-e-folhas como ilustrado a seguir.
Exemplo. Um estudo geoqumico realizado utilizando amostras compostas de sedimentos
de corrente com granulometria de 100-150 mesh e profundidade de 40cm, provenientes de
riachos correndo sobre granulitos, revelou os seguintes resultados em ppm de Cr
10.6
14.3
11.5
18.4
11.8

14.1
13.0
9.4
17.4
15.8

13.7
12.6
16.5
11.1
13.5

15.2
12.0
13.7
15.8

15.4
14.0
14.7
17.0

12.5
10.0
16.6
13.6

12.9
18.2
11.4
16.6

Uma vez que a escala tenha sido determinada, a qual define os ramos `a esquerda da
linha veritcal, podemos facilmente escrever os dados no grafico de ramos-e-folhas como no
diagrama esquerdo; como um refinamento podemos ent
ao ordenar as folhas no diagrama
`a direita:

9
10
11
12
13
14
15
16
17
18

4
6
5
5
7
1
2
5
4
2

0
4
9
0
3
4
6
0
4

1
6
7
0
8
6

8
0
6
7
8

9
10
11
12
13
14
15
16
17
18

4
0
1
0
0
0
2
5
0
2

6
4
5
5
1
4
6
4
4

5
6
6
3
8
6

8
9
7
7
8

Acima os ramos sao n


umeros inteiros e as folhas sao valores depois do ponto decimal,
mas isto nao e essencial em geral; por exemplo, os ramos podem representar centenas
e as folhas dezenas (com unidades arredondadas para o decimal mais proximo; as folhas
devem ter um u
nico dgito). Nota: e importante escrever as folhas em colunas igualmente
espacadas, caso contrario pode resultar uma figura distorcida.
O grafico de ramos-e-folhas fornece um resumo visual dos dados sem que haja de fato a
perda de qualquer informacao.

Frequency

Compare-o com um histograma para os mesmos dados:

10

12
14
16
Concentracao de Cr (ppm)

18

20

2.3.2

Resumindo numericamente

Para resumir numericamente dados quantitativos o objetivo e escolher medidas apropriadas de loca
c
ao (qual o tamanho dos n
umeros involvidos?) e de dispers
ao (quanta
variacao existe?) para os tipos de dados.
Existem tres escolhas principais para a medida de locac
ao, a chamada 3 Ms, as quais
estao ligadas a certas medidas de dispersao como segue:
M
m
edia (o valor medio)
mediana (o valor do meio)
moda (o valor mais comum)

2.3.3

Dispersao
desvio padrao
IQR
proporc
ao

M
edia, vari
ancia e desvio padr
ao

Para resumir dados quantitativos aproximadamente sim


etricos, e usual calcular a m
edia
aritmetica como uma medida de locac
ao. Se x1 , x2 , . . . , xn s
ao os valores dos dados, ent
ao
podemos escrever a media como
x=

x1 + x2 + . . . + xn
=
n

Pn

i=1 xi

onde ni=1 xi = x1 + x2 + . . . + xn e frequentemente e simplificada para


P
mesmo x que significa adicione todos os valores de x.

xi ou ate

A vari
ancia e definida como o desvio quadratico medio da media e e calculada de uma
amostra de dados como
2

s =

Pn

x)2
=
n1

i=1 (xi

Pn

2
i=1 (xi )

nx2
.
(n 1)

A segunda versao e mais facil de ser calculada, embora muitas calculadoras tem func
oes
prontas para o calculo de variancias, e e raro ter que realisar todos os passos manualmente.
Comumente as calculadoras fornecerao a raiz quadrada da vari
ancia, o desvio padr
ao,
i.e.

s = vari
ancia = s2
a qual e medida nas mesmas unidades dos dados originais.
Uma informcao u
til e que para qualquer conjunto de dados, pelo menos 75% deles fica
dentro de uma distancia de 2 desvio padrao da media, i.e. entre x 2s e x
+ 2s.
Exemplo. Sete homens foram pesados, e os resultados em kg foram:
57.0, 62.9, 63.5, 64.1, 66.1, 67.1, 73.6.

10

A m
edia e 454.3/7 = 64.9 kg,
a vari
ancia e (29635.05 454.32 /7)/6 = 25.16 kg2

e o desvio padr
ao e 25.16 = 5.02 kg.

2.3.4

A mediana e a amplitude inter-quartis

Uma outra forma de sumarizar dados e em termos dos quantis ou percentis. Essas
medidas sao particularmente u
teis para dados nao simetricos. A mediana (ou percentil
50) e definida como o valor que divide os dados ordenados ao meio, i.e. metade dos dados
tem valores maiores do que a mediana, a outra metade tem valores menores do que a
mediana. Adicionalmente, os quartis inferior e superior, Q1 e Q3, sao definidos como
os valores abaixo dos quais estao um quarto e tres quartos, respectivamente, dos dados.
Estes tres valores sao frequentemente usados para resumir os dados juntamente com o
mnimo e o maximo. Eles sao obtidos ordenando os dados do menor para o maior, e
3(n+1)
n+1
entao conta-se o n
umero apropriado de observac
oes: ou seja e n+1
para
4 ,
2 e
4
o quartil inferior, mediana e quartil superior, respectivamente. Para um n
umero par de
observacoes, a mediana e a media dos valores do meio (e analogamente para os quartis
inferior e superior).
A medidade de dispersao e a amplitude inter-quartis, IQR = Q3 Q1, i.e. e a diferenca
entre o quartil superior e o inferior.
Exemplo. O n
umero de criancas em 19 famlias foi
0, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 7, 8, 10
A mediana e o (19+1) / 2 = 10o valor, i.e. 3 criancas.
O quartil inferior e superior sao os valores 5o e 15o , i.e. 2 e 6 criancas, portanto
amplitude inter-quartil e de 4 criancas. Note que 50% dos dados estao entre os quartis
inferior e superior.

11

2.3.5

Box-and-Whisker Plots

Box-and-Whisker plots ou simplesmente box-plots s


ao simples representac
oes diagramaticas
dos cinco n
umeros sumarios: (mnimo, quartil inferior, mediana, quartil superior, maximo).
Um box-plot para os dados geoqumicos fica como mostrado a seguir.

10

2.3.6

12

14

16

18

A moda

Nem todos os conjuntos de dados sao suficientemente balanceados para o calculo da media
ou mediana. Algumas vezes, especialmente para dados de contagem, um u
nico valor
domina a amostra. A medida de locac
ao apropriada e ent
ao a moda, a qual e o valor
que ocorre com maior frequencia. A proporc
ao da amostra a qual toma este valor modal
deveria ser utilizada no lugar de uma medida formal de dispersao.
Algumas vezes, podemos distinguir claramente picos na frequencia dos valores registrados. Neste caso (chamado bimodal) deveramos apresentar ambas as localizac
oes. Dados
deste tipo sao particularmente difceis de resumir (e analisar).
Exemplo. Dez pessoas registraram o n
umero de copos de cerveja que eles tomaram num
determinado sabado:
0, 0, 0, 0, 0, 1, 2, 3, 3, 6
A moda e 0 copos de cerveja, a qual foi obtida pela metade da amostra. Poderiamos
adicionar mais informacao separando a amostra e dizendo que daqueles que tomaram
cerveja a mediana foi de 3 copos.

12

2.4

Dados m
ultiplos

Os resultados de um estudo tipicamente envolver


ao mais do que uma u
nica amostra de
dados como discutido ate aqui. Representac
oes graficas sao u
teis para comparar grupos
de dados ou para verificar se exitem relac
oes entre eles. Existem muitas possibilidades,
mas a mais adequada dependera das peculiaridades de cada conjunto de dados.
Alem dos exemplos abaixo, podemos criar combinac
oes de metodos ja discutidos. Por
exemplo, se medirmos as alturas e pesos de uma amostra de pessoas, podemos produzir
box-plots de altura lado a lado para homens e mulheres, ou graficos ramo-e-folhas lado a
lado (com as alturas dos homens `a esquerda do ramo, e as alturas das mulheres `a direita),
ou um histograma acima do outro (com a mesma escala no eixo x de forma que eles possam
ser facilmente comparados). Para um n
umero diferente de grupos, uma serie de box-plots
verticais funciona bem como um smples resumo dos dados.
Para combinacoes de dados categoricos, uma serie de graficos de setores podem ser produzidos, i.e. dois graficos de setores, um para homens e um para mulheres.
2.4.1

Gr
aficos de pontos

90

Para avaliar se existe uma relacao entre duas vari


aveis contnuas, podemos produzir um
importante que o eixo x faca sentido. Em geral faz pouco sentido
gr
afico de pontos. E
unir os pontos, exceto onde o eixo x representa tempo (veja abaixo). Smbolos diferentes
podem ser usados para diferentes grupos para adicionar uma nova dimensao ao grafico. O
grafico abaixo mostra alturas e pesos de estudantes do sexo masculino e feminino.

M
MMM

80

Weight (kg)
70

M
M

60

M
50

F F

FF M
F
F
F
F
F M
F
F

M
M

M
F
M

MM
M

40

140

150

160

170
Height (cm)

180

190

200

Para mais do que duas variaveis, pode-se produzir graficos entre todos os pares possveis
para produzir uma matriz de gr
aficos de pontos.

13

2.4.2

Gr
afico temporal

Um caso especial de um grafico de pontos e um gr


afico temporal onde tempo esta
no eixo x. As medidas sao feitas ao longo do tempo. Nestes casos e usual unir pontos
sucessivos por retas, e e em geral uma boa pratica deixar o eixo x mais longo do que o
eixo y.
Abaixo mostramos as temperaturas diarias medias em Philadelphia, USA nos dois primeiros meses de 1980.

Average temperature
-10 -5
0
5

10

20

30
Day

14

40

50

60

2.4.3

Ladder plot

O ladder plot nao e um grafico do tipo padrao mas pode ser u


til para visualizar dados
pareados. Considere o seguinte exemplo.
Um ornitologista deseja saber se um determinado local e usado por passaros migratorios
de uma certa raca para engorda antes de migrar. Ele captura alguns passaros em Agosto e
pesa-os, entao em Setembro ele tenta re-capturar os mesmos passaros e faz novas medidas.
Ele re-capturou 10 dos passaros duas vezes, ambos em Agosto e Setembro. A tabela abaixo
mostra as massas desses passaros.
Mass in August (g)
10.3
11.4
10.9
12.0
10.0
11.9
12.2
12.3
11.7
12.0

Mass in September (g)


12.2
12.1
13.1
11.9
12.0
12.9
11.4
12.1
13.5
12.3

O ladder plot destes dados fica como segue:

10

11

Mass (g) of bird


12

13

August

September

muito mais facil ver do grafico do que da tabela que os passaros tendem a engordar, e que
E
aqueles que nao engordaram tenderam a ser os maiores que provavelmente nao necessitam
de uma engorda extra.

15

2.5

Exerccios 1

1. Descreva de forma concisa os seguintes dados usando suas palavras e algumas estatsticas descritivas, apontando caractersticas principais observadas.
(a) As notas (de um total de 100 e ordenadas por tamanho) de 20 estudantes de
estatstica no primeiro exame do semestre:
30
57

35
58

37
60

40
60

40
62

49
62

51
65

54
67

54
74

55
89

(b) O n
umero de faltas de 20 trabalhadores num ano (ordenados por tamanho):
0
2

0
2

0
3

0
3

0
4

0
5

0
5

1
5

1
8

1
45

(c) O n
umero de exemplares de um jornal mensal em particular lidos por 20 pessoas
num ano:
0
12

1
1

11
0

0
0

0
0

0
0

2
12

12
0

0
11

0
0

2. Produza um grafico ramos-e-folhas para apresentac


ao dos dados de altura (em metros) de 20 mulheres sendo estudadas para uma certa condic
ao medica.
1.52
1.75
1.65
2.50

1.60
1.73
1.55
1.52

1.57
1.63
1.65
1.65

1.52
1.55
1.60
1.60

1.60
1.63
1.68
1.65

3. Os dados a seguir fornecem a concentrac


ao de um determinado poluente (ppm) em 8
pontos de um afluente medidos antes e uma hora depois de um acidente ambiental:
Before
4.67
4.97
5.11
5.17
5.33
6.22
6.50
7.00

After
5.44
6.11
6.49
6.61
6.67
6.67
6.78
7.89

Faca um grafico destes dados, e use o grafico para ajudar a avaliar se o acidente
provocou um aumento significativo nos nveis do poluente no afluente.
4. A tabela abaixo fornece o n
umero de granulos de arenito por cm3 em 20 amostras
tomadas de uma certa localidade (A) e 20 amostras tomadas de uma outra localidade
(B).
16

A
171
431
288
1283
554
295
568
958
2415
1212

B
397
795
257
902
1621
1004
1378
435
1104
396

116
375
151
752
979
208
426
675
410
736

375
440
192
503
1252
688
771
377
700
315

(a) Calcule as medias e desvios-padrao desses duas amostras.


(b) Faca histogramas dos dois conjuntos de dados, e compare-os.
(c) Qual e o mnimo, maximo, mediana, quartil inferior e quartil superior de cada
grupo?
(d) Usando sua resposta ao item (c), construa boxplots para os dois conjuntos
de dados - um diretamento acime do outro, ou lado a lado para facilitar a
comparacao.
(e) Para cada grupo, o dado e aproximadamente simetrico ou assimetrico? Se
assimetrico, em que direc
ao?
(f) Voce acha que existe uma diferenca real entre os n
umeros de granulos de arenito nas duas localidades, ou voce acha que as diferencas observadas poderiam
ter simplesmente ocorrido como uma consequencia dos grupos consistirem de
somente 20 amostras cada?
(g) Descreva as principais caractersticas dos dados em uma ou duas sentencas.

5. O percentual de acu
car e sal em 9 cereais matinais mais populares foram medidos,
com os seguintes resultados:
Cereal
1
2
3
4
5
6
7
8
9

acu
car
19
36
3
8
26
16
8
10
54

sal
8
5
10
4
6
6
9
3
3

(a) Faca um grafico desses dados para investigar a relac


ao entre o conte
udo de
acu
car e sal nos cereais matinais.
(b) Comente brevemente qualquer padrao observado nos dados.

17

3
3.1

Populac
oes e amostras

Infer
encia estatstica

Infer
encia estatstica e o processo pelo qual estatsticos tiram conclusoes acerca da
popula
c
ao usando informacao de uma amostra.
Voce pode estar familiar com o termo populac
ao num sentido biologico/geol
ogico. Em
estatstica, o termo nao se refere necessariamente a pessoas, plantas, animais, etc. Ele
poderia tambem se referir, por exemplo, a fosseis, rochas e sedimentos num determinado
local, etc.
A popula
c
ao se refere a todos os casos ou situac
oes as quais o pesquisador quer fazer
inferencias ou estimativas. Diferentes pesquisadores podem querer fazer inferencias acerca
da concentracao de poluentes num determinado lencol freatico; predizer a quantidade de
petroleo num poco a ser perfurado e assim por diante.
Note que o investigador nao esta interessado em todos os aspectos da populac
ao. O
pesquisador pode nao estar interessado em estudar a concentrac
ao de todos os tipos de
poluentes, somente alguns poluentes mais importantes para seu estudo.
Uma amostra e um subconjunto da populac
ao usado para obter informac
ao acerca do
todo.
Mas exatamente por qu
e tomamos uma amostra?
popula
c
ao toda?

Por qu
e n
ao usamos a

custo alto para obter informac


ao da populac
ao toda
tempo muito longo para obter informac
ao da populac
ao toda
algumas vezes impossvel, por exemplo, estudo de poluic
ao atmosferica
algumas vezes logicamente impossvel, por exemplo, em ensaios destrutivos.

18

Caractersticas de uma populacao que diferem de um indivduo para outro e as quais


temos interesse em estudar sao chamadas vari
aveis. Exemplos sao comprimento, massa,
idade, temperatura, n
umero de ocorrencias, etc. Cada unidade (membro) da populacao
que e escolhido como parte de uma amostra fornece uma medida de uma ou mais vari
aveis,
chamadas observa
c
oes.

3.2

Princpios de estimac
ao

Utilizamos estimativas de uma amostra como nosso melhor chute para os verdadeiros valores populacionais. Exemplos sao a media amostral, o desvio padrao amostral,
a mediana amostral, os quais estimam a verdadeira media, desvio padrao e mediana da
populacao (que sao desconhecidos). Os verdadeiros (desconhecidos) valores populacionais
sao chamados par
ametros.
Note que estatsticas sao usualmente representadas por letras Romanas, (por exemplo, x
para a media amostral, s para o desvio padrao amostral), enquanto que parametros sao
usualmente representados por letras Gregas (por exemplo, para a media populacional,
para o desvio padrao populacional).
claro que `a medida que a amostra aumenta, mais informac
E
ao nos teremos acerca da
populacao de interesse, e portanto mais precisa serao as estimativas dos parametros de
interesse.

19

3.3

Obtendo uma amostra

Obtemos uma amostra para fazer inferencias de uma populac


ao. Nossas inferencias sao
validas somente se a amostra e representativa da populac
ao. Na pratica nao existe forma
de garantir isto sem ter informac
ao da populac
ao inteira para comparar com a amostra.
E em tais circunstancias nao haveria necessidade de amostragem!
Ao inves disso, podemos assegurar que nao existem vcios sistematicos em nossa amostra
atraves de uma selecao aleatoria dos membros da populac
ao. Uma amostra aleat
oria
independente e uma amostra selecionada de tal forma que
1. todos os membros da populac
ao tem a mesma chance de serem selecionados;
2. cada combinacao possvel de um dado n
umero de membros tem a mesma chance de
ser selecionada.
Em princpio, a melhor forma de obter uma amostra aleatoria de tamanho n e ter uma
lista de todos os membros da populac
ao, dar a todos um n
umero digamos de 1 a N , e
claro que na
entao escolher aleatoriamente n n
umeros de 1 a N para definir a amostra. E
pratica isto nao e exequvel, especialmente quando a populac
ao e infinita.
Na maioria dos casos e difcil obter amostras aleatorias. Considere o seguinte diagrama
que mostra a populacao de circulos. Pense neles como se fossem granulos de tamanhos
diferentes. O diametro medio destes circulos e
mm.

Suponha que selecionemos uma amostra de 5 destes crculos jogando um lapis sobre o
papel repetidamente ate que tenhamos atingido 5 circulos. Qual e o diametro medio de
nossos 5 circulos? O valor esta perto de
mm?

20

No exemplo acima, o esquema amostral causou um vcio. Um vcio similar seria obtido
por exemplo na amostragem de um particular tipo de animal pode ser que os animais
que se consegue capturar e medir sao aqueles que nao podem correr tao rapido, ou ao usar
uma armadinha, voce pode amostrar somente os animais mais famintos, etc.
Sempre que uma amostra e obtida, o processo de amostragem deve estar bem documentado
de tal forma que quais inferencias retiradas acerca da populac
ao pode avaliadas `a luz da
estrategia amostral.

21

Distribuico
es te
oricas de frequ
encias

Como visto na Secao 2, as distribuic


oes dos dados podem ter uma variedade de formas,
incluindo formas simetricas e nao simetricas. Introduziremos aqui alguns dos modelos
matematicos mais comumente usados para tais dados.

4.1

A distribuic
ao Normal

0.0

0.1

f(x)
0.2

0.3

0.4

A distribui
c
ao Normal e a mais familiar das distribuic
oes de probabilidade e tambem
uma das mais importantes em estatstica. Esta distribuic
ao tem uma forma de sino.

-4

-2

0
x

A equacao da curva Normal e especificada usando 2 parametros: a m


edia populacional
, e o desvio padr
ao populacional , ou equivalentemente a vari
ancia populacional 2 .
2
2
Denotamos N(, ) `a curva Normal com media e vari
ancia . A media refere-se ao
centro da distribuicao e o desvio padrao ao espalhamento de curva. A distribuic
ao normal
e simetrica em torno da media o que implica que e media, a mediana e a moda sao todas
coincidentes. Para referencia, a equac
ao da curva e
(

1
(x )2
f (x) = p
exp

2 2
(2 2 )

(1)

Felizmente, voce nao tem que memorizar esta equac


ao. O importante e que voce entenda
como a curva e afetada pelos valores numericos de e . isto e mostrado no diagrama
abaixo.
A area sob a curva normal (na verdade abaixo de qualquer func
ao de densidade de probabilidade) e 1. Entao, para quaisquer dois valores especficos podemos determinar a
22

0.8
0.6

N(6,.25)

N(0,1)

0.2

f(x)
0.4

N(3,1)

0.0

N(6,4)

10

proporcao de area sob a curva entre esses dois valores. Para a distribuic
ao Normal, a
proporcao de valores caindo dentro de um, dois, ou tres desvios padrao da media sao:
Range
1
2
3

Proportion
68.3%
95.5%
99.7%

Este resultado e usado da seguinte maneira. Suponha que os comprimentos de um particular tipo de peixe podem ser descritos por uma distribuic
ao normal, com media 140mm
e desvio padrao 15mm. Podemos calcular a proporc
ao dos peixes que tem comprimentos entre 110 e 170mm, por exemplo, como a proporc
ao da area sob a curva entre 110 e
170mm.
Entao em nosso exemplo, cerca de 95% dos peixes tem comprimentos entre 110mm e
170mm.
Na pratica desejamos calcular probabilidades para diferentes valores de e . Para isso,
a variavel X cuja distribuicao e N (, 2 ) e transformada numa forma padronizada Z com
distribuicao N (0, 1) (distribui
c
ao normal padr
ao) pois tal distribuic
ao e tabelada. A
quantidade Z e dada por
X
(2)
Z=

Exemplo: A concentracao de um poluente em agua liberada por uma fabrica tem distribuicao N(8,1.5). Qual a chance, de que num dado dia, a concentrac
ao do poluente exceda
o limite regulatorio de 10 ppm?
A solucao do problema resume-se em determinar a proporc
ao da distribuic
ao que esta
acima de 10 ppm, ie P (X > 10). Usando a estatstica z temos:
P (X > 10) = P (Z >

10 8
) = P (Z > 1.33) = 1 P (Z 1.33) = 0.09
1.5
23

(3)

Portanto, espera-se que a agua liberada pela fabrica exceda os limites regulatorios cerca
de 9% do tempo.
Exerccio: A concentracao de cadmio em cinzas de um certo lixo radioativo tem distribuicao N(1,0.72). Quais sao as chances de que uma amostra aleatoria das cinzas tenha
uma concentracao de cadmio entre 0.5 e 1.75 ppm?

24

4.2

A distribuic
ao Binomial

Suponha que n experimentos independentes, ou ensaios, sao executados, onde n e um


n
umero fixo, e que cada experimento resulta num sucesso com proabilidade p e numa
falha com probabilidade 1 p. O n
umero total de sucessos, X, e uma vari
avel aleatoria
com parametros n e p.
Por exemplo, uma moeda e lancada 10 vezes e o n
umero total de caras e contado (aqui
cara e um sucesso).
A probabilidade que X = k, denotada por P (k), pode ser encontrada como:
P (X = k) = P (k) =

n!
pk (1 p)nk .
k!(n k)!

(4)

A m
edia de um variavel aleatoria Binomial e np e a vari
ancia e np(1 p).
Considere o seguinte exemplo. Suponha que num pedigree humano envolvendo albinismo
(o qual e recessivo), nos encontremos um casamento no qual sabe-se que ambos os parceiros
sao heterozigotos para o gene albino. De acordo com a teoria Mendeliana, a probabilidade
de que um filho desse casal seja albino e um quarto. (Ent
ao a probabilidade de nao ser
albino e 43 .)
Agora considere o mesmo casal com 2 criancas. A chance de que ambas sejam albinas
1
= 0.0625. A desma forma, a chance de ambas serem normais e ( 43 )2 =
e ( 14 )2 = 16
9
16 = 0.5625. Portanto, a probabilidade de que somente uma seja um albina deve ser
1
9
6
1 16
16
= 16
= 38 = 0.375. Alternativamente, poderiamos ter usado a formula acima
1
com n = 2, p = 4 , and k = 1.
Se agora considerarmos a famlia com n = 5 criancas, as probabilidades de existam k =
0, 1, 2, . . . , 5 criancas albinas, onde a probabilidade de albinismo e p = 14 , sao dadas por
5!
k!(5 k)!

P (k) =

k 5k

1
4

3
4

(5)

0.0

0.1

0.2

0.3

0.4

as quais ficam como segue.

25

4.3

A distribuic
ao Poisson

20

40

60

80

Uma outra distribuicao comum e a distribui


c
ao Poisson, e e frequentemente usada
para modelar dados de contagem, por exemplo, para descrever o n
umero de nmetoides
encontrados em amostras de solo, o n
umero diario de novos casos de cancer de mama, ou
o n
umero de celulas contadas usando um hemocitrometro. O histograma abaixo mostra o
n
umero de organismos encontrados em cada um de 400 quadrados pequenos.

10

11

12

13

14

0.0

0.05

0.10

0.15

A distribuicao Poisson tem um parametro, , e a probabilidade de obter exatamente x


indivduos e dada por
x e
.
(6)
P (x) =
x!
Quando = 4.68, por exemplo, a distribuic
ao fica como segue.

10

11

12

13

14

A variancia de uma Poisson e igual a sua media, The variance of a Poisson distribution is
equal to its mean, .

26

4.4

Exerccios 2

1. Considere uma distribuicao normal com media 10 e desvio padrao 3.


(a) Desenhe um esboco desta distribuic
ao.
(b) Qual e a proporcao da area sob a curva entre 7 e 13?

2. Usinas nucleares que utilizam agua para refrigerac


ao de seus condensadores algumas
vezes liberam agua quente em rios, lagos ou oceanos. Sabe-se que a agua quente
acima de certa temperatura tem um efeito indesejado sobre plantas e animais que
vivem nesses ambientes. Suponha que a alta temperatura liberada por uma certa
usina nuclear tem uma distribuic
ao Normal com media 5 C e um desvio padrao de

0.5 C.
(a) Faca um esboco da distribuic
ao.
(b) Qual o percentual de dias nos quais o aumento da temperatura e maior do que
5.5 C?

3. Os pulsos em repouso de 920 pessoas sadias foram tomados, e uma media de 72.9
batidas por minuto (bpm) e um desvio padrao de 11.0 bpm foram obtidos. Um histograma dos dados mostra uma clara forma normal. De uma amplitude de referencia
de 95% para pulsos em repouso de pessoas sadias com base nesses dados.

4. Voce leva se cachorro o veterin


ario e descobre atraves de um exame de ultrasonografia
que ela esta gravida com uma ninhada de 8 filhotes.
(a) Qual e a probabilidade de que exatamente 3 dos filhotes sejam femeas?
(b) Qual e a probabilidade de que existam um n
umero igual de machos e femeas?
(c) Qual e a probabilidade de que existam mais machos do femeas?

5. Um investigador esta interessado no n


umero de ovos depositados por uma especie
de passaro. Na primavera, ele procura e acha 80 ninhos. O n
umero medio de ovos
por ninho foi 3.8 e o desvio padrao foi 1.9. Porque a vari
ancia e aproximadamente
igual a media, ele acha que pode ser razoavel descrever o n
umero de ovos por ninho
como tendo uma distribuicao Poisson com media 3.8.
(a) Faca o grafico dessa distribuic
ao como em suas notas de aula.
(b) Se esta realmente representa a distribuic
ao populacional, qual seria a proabilidade de encontrar um ninho com mais do que 5 ovos?
(c) Qual seria a probabilidade de nao encontrar nenhum ovo num ninho?

27

6. Acredita-se que existam n


umeros iguais de machos e femeas de uma certa especie de
peixe num grande lago. Um pescador pesca 43 peixes e encontra que 32 deles sao
machos. Isto provocaria d
uvida na afirmac
ao acima de que exite um balanco entre
machos e femeas no lago? Justifique sua resposta utilizando os recursos estatsticos
de que dispoe no momento.

28

5
5.1

Intervalos de Confianca

A id
eia b
asica de intervalos de confianca

Suponha que estejamos interessados num par


ametro populacional verdadeiro (mas
desconhecido) . Podemos estimar o parametro usando informac
ao de nossa amostra.
Chamamos o u
nico n
umero que representa o valor mais plausvel do parametro (baseado
nos dados amostrais) de uma estimativa pontual de . Contudo, sabemos que o valor
estimado na maior parte das vezes nao sera exatamente igual ao valor verdadeiro. Ent
ao,
tambem seria interessante encontrar um intervalo de confian
ca que forneca um intervalo
de valores plausveis para o parametro baseado nos dados amostrais.
Um intervalo de confian
ca de 95% para um parametro populacional
fornece um intervalo no qual estariamos 95% confiantes de cobertura
do verdadeiro valor do parametro.
Tecnicamente, 95% de todos os intervalos de confianca que construirmos conter
ao o verdadeiro valor do parametro (dado que todas as suposic
oes envolvidas estejam corretas).
Entao se obtivermos um intervalo de confianca para o parametro para cada uma dentre
100 amostras aleatorias da populac
ao, somente 5, em media destes intervalos de confianca
nao conterao .

Podemos obter intervalos de confianca de 95% para:

medias, diferencas de medias, proporc


oes, diferencas em proporc
oes, etc.

Podemos tambem criar intervalos de confianca de 90%, 99%, 99.9%, etc, mas os intervalos
de confianca de 95% sao os mais utilizados.

29

5.2

Teorema Central do Limite

Uma razao para a distribuicao Normal ser considerada tao importante e porque qualquer
que seja a distribuicao da variavel de interesse para grande amostras, a distribui
c
ao
das m
edias amostrais ser
ao aproximadamente normalmente distribudas, e tenderao a uma distribuicao normal `a medida que o tamanho de amostra crescer. Entao
podemos ter uma variavel original com uma distribuic
ao muito diferente da Normal (pode
ate mesmo ser discreta), mas se tomarmos varias amostras grandes desta distribuic
ao, e
entao fizermos um histograma das medias amostrais, a forma se parecera como uma curva
Normal.
e aproximadamente
A distribuicao da media amostral X

Normal com media e desvio padrao / n.


Aqui e sao a media e o desvio padrao populacionais das medidas individuais X, e n e
o tamanho amostral. Denota-se
N (, 2 /n).
X
A aproximacao para a normal melhora `a medida que o tamanho amostral cresce. Este resultado e conhecido como o Teorema Central do Limite e e notavel porque permite-nos
conduzir alguns procedimentos de inferencia sem qualquer conhecimento da distribuicao
da populacao.

5.3

Exemplo simulado

Podemos ilustrar o Teorema Central do Limite por um exemplo simulado. O diagrama na


proxima pagina sumariza os resultados de um experimento no qual foi utilizado um computador para gerar 2000 observac
oes de duas distribuic
oes bem diferentes (linha superior).
Nos entao geramos uma amostra de tamanho 2 de cada distribuic
ao e calculamos a media.
Este procedimento foi repetido 1999 vezes e a segunda linha mostra os histogramas das
medias resuktantes das amostras de tamanho dois. Isto foi repetido com media amostrais
onde as amostras sao de tamanhos 5 (terceira linha) e 10 (quarta linha).
Note como a forma da distribuicao muda `a medida que se muda de uma linha para a
proxima, e como as duas distribuic
oes em cada linha tornam-se mais similares nas suas
formas `a medida que o tamanho das amostras aumenta. Ainda mais, cada distribuicao
parece mais e mais com uma distribuic
ao Normal. Nao e necessario uma amostra de
tamanho muito grande para ver uma forma Normal.
As media populacionais para as duas distribuic
oes sao 5 e 3 respectivamente. Note como,
quanto maior o tamanho de amostra mais perto as medias amostrais tendem a estar da
media populacional.

30

400
0

100

200

300

400
300
200
100
0
0

10

10

10

10

10

300
200
100
0

100

200

300

400

400

10

300
200
100
0

100

200

300

400

(y1+y2)/2

400

(x1+x2)/2

10

300
200
100
0

100

200

300

400

(y1+y2+..+y5)/5

400

(x1+x2+..+x5)/5

10

(x1+x2+..+x10)/10

(y1+y2+..y10)/10

31

5.4

Intervalos de confianca de 95% para uma m


edia

Na sec
ao anterior vimos que para uma amostra suficientemente grande a distribuic
ao das

medias amostrais em torno da media populacional e Normal com desvio padrao / n.

Chamamos de / n o erro padr


ao (SE) da media, uma vez que quanto menor seu valos.
tanto mais proximas estarao as medias amostrais da media populacional (i.e. tanto
menor sera o erro).
media populacional

desvio padrao populacional

S.E. da media

/ n

Isto significa que 68.3% de todas as medias amostrais cairao dentro de 1 SE da media
populacional . Similarmente 95% de todas as medias amostrais cairao dentro de 1.96
SE de .
entao intervalos da forma

+ 1.96 )
(
x 1.96 , x
n
n
conter
ao a verdadeira media populacional 95% das vezes.
Um problema com a construcao de tais intervalos e que nao sabemos o verdadeiro desvio padrao populacional . Para grandes tamanhos amostrais, contudo, o desvio padrao
amostral s sera uma boa estimativa de . Portanto, podemos substituir por s de modo
que podemos calcular o erro padrao como

SE = s/ n,
e um intervalo de confianca de aproximadamente 95% para e:
s
s
(
x 1.96 , x
+ 1.96 ).
n
n
Este tipo de intervalo de confianca para a media pode ser usado para grandes amostras,
independentemente da distribuicao da vari
avel original.

32

5.5

intervalos de confianca mais exatos

Para amostras pequenas, onde s e uma estimativa menos confiavel de , devemos construir
nosso intervalo de confianca de uma forma ligeiramente diferente.
Ao inves de usar o valor 1.96, usamos um valor ligeiramente maior para refletir nossa
reducao na confianca. Obtemos o valor requerido da tabela de distribuic
ao t. Tomamos
o valor correspondente `a linha r = n 1 graus de liberdade. Note que quanto menor n,
maiores os valores de t. Entao um intervalo de confianca exato e
s
s
(
x t(n1,0.05) , x
+ t(n1,0.05) ).
n
n
Note ainda que `a medida que n cresce, o valor de t torna-se proximo a 1.96.
Repare que se a distribuic
ao da vari
avel original e muito distante de ser normalmente
distribuda, e o tamanho amostral e muito pequeno, ent
ao as medias amostrais n
ao ter
ao
uma distribuic
ao aproximadamente normal e portanto este tipo de intervalo de confianca
n
ao ser
a muito preciso e n
ao deveria ser utilizado.

33

A distribuic
ao t
Valores de t para que P (| T |> t) = p, onde T tem um distribuic
ao T de Student com r
graus de liberdade.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100

0.20
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
1.363
1.356
1.350
1.345
1.341
1.337
1.333
1.330
1.328
1.325
1.323
1.321
1.319
1.318
1.316
1.315
1.314
1.313
1.311
1.310
1.303
1.299
1.296
1.294
1.292
1.291
1.290
1.282

0.10
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
1.725
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699
1.697
1.684
1.676
1.671
1.667
1.664
1.662
1.660
1.645

p
0.05
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.021
2.009
2.000
1.994
1.990
1.987
1.984
1.960

34

0.01
63.657
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
3.169
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.861
2.845
2.831
2.819
2.807
2.797
2.787
2.779
2.771
2.763
2.756
2.750
2.704
2.678
2.660
2.648
2.639
2.632
2.626
2.576

0.001
636.619
31.599
12.924
8.610
6.869
5.959
5.408
5.041
4.781
4.587
4.437
4.318
4.221
4.140
4.073
4.015
3.965
3.922
3.883
3.850
3.819
3.792
3.768
3.745
3.725
3.707
3.690
3.674
3.659
3.646
3.551
3.496
3.460
3.435
3.416
3.402
3.390
3.291

5.6
5.6.1

Exemplos
Di
ametro de
arvores castanheiras

A seguir encontra-se uma amostra de 10 arvores castanheiras todas com 8 anos de idade
numa certa floresta. O diametro (polegadas) das arvores foram medidos `a uma altura de
3 pes:
19.4 21.4 22.3 22.1 20.1 23.8 24.6 19.9 21.5 19.1
Queremos encontrar um intervalo de confianca de 95% para o verdadeiro diametro medio
de todas as arvores castanheiras dessa idade na floresta. Usando uma calculadora, encontramos que x
=
e que s = . O erro padrao e portanto:
s
SE = =
n

Temos uma amostra de tamanho n = 10, ent


ao da tabela da distribuic
ao t temos que
t=
.
Entao o intervalo de confianca de 95% para a media populacional e
x
t SE

Portanto estamos 95% confiantes de que o diametro medio da populac


ao da qual a amostra
foi retirada esta entre
e
.
Quais suposicoes foram feitas? Podemos checar essas suposic
oes?

5.6.2

Comprimento de plantas

Temos medidas dos comprimentos de 100 plantas que nasceram de sementes que foram
plantadas ao mesmo tempo. Um histograma dos dados tem uma forma aproximadamente
normal, e a media amostral e o desvio padrao amostral foram 74mm and 2.34mm, respectivamente. Construa um intervalo de confianca para o comprimento medio populacional
de plantes dessa mesma especie.

35

5.7

Exerccios 3

1. Os pulsos em repouso de 920 pessoas sadias foram tomados, e uma media de 72.9
batidas por minuto (bpm) e um desvio padrao de 11.0 bpm foram obtidos. Construa
um intervalo de confianca de 95% para a pulsac
ao media em repouso de pessoas
sadias com base nesses dados.
2. Tendo sido medido o eixo maior de 9 graos de quartzo de um corpo arenoso em uma
l
amina de arenito, obteve-se um comprimento amostral medio de 1,5mm e um desvio
padrao de 0,3mm. Deseja-se construir um intervalo de confianca para o comprimento
medio dos graos de quartzo do corpo arenoso.
3. Os QIs de 181 meninos com idades entre 6-7 anos de Curitiba foram medidos. O QI
medio foi 108.08, e o desvio padrao foi 14.38.
Calcule um intervalo de confianca de 95% para o QI medio populacional dos
meninos entre 6-7 anos de idade em Curitiba usando estes dados.
Interprete o intervalo de confianca com palavras.
Foi necessario assumir que os QIs tem distribuic
ao normal neste caso? Por que?
4. A seguinte tabela mostra os QIs de criancas por classe social dos pais.

I
II
IIIa
IIIb
IV
V

Classe social

Media

DP

N
umero

Limite inferior

Limite superior

Profissional
Gerencial
Nao-Manual
(clerico)
Manual
(com pratica)
Manual
(com pouca pratica)
Manual
(sem pratica)

112.27
112.65

13.16
11.01

30
78

107.36

117.18

108.86

13.94

28

104.38

14.41

152

96.97

10.13

37

98.85

14.02

20

Complete as duas u
ltimas colunas, as quais contem intervalos de confianca de
95% para o QI medio. Ilustre os IC graficamente.
Comente os padroes gerais que voce ve.

36

5.8

Intervalos de confianca para uma proporc


ao

Pesquisadores frequentemente expressam a frequencia de ocorrencia de um item numa


amostra como uma proporcao do total. Por exemplo, uma amostra de larvas de mosquito
coletadas de um lago com agua limpa parada contem 80 larvas das quais 60 sao Aedes
detritus. A proporcao daquela especie na amostra e 60/80 = 0.75 ou 75%. Considerando
esta amostra uma amostra aleatoria, esta proporc
ao e uma estimativa da proporc
ao total
populacional. Outras amostras forneceriam estimativas ligeiramente diferentes daquela
proporcao.
Seja n o tamanho da amostra e seja x o n
umero observado do evento de interesse. Ent
ao
estimamos a proporcao populacional p com a proporc
ao observada p = x/n.
Da mesma forma que um conjunto de medias amostrais sao distribudas nas proximidades
da media populacional, as proporc
oes amostrais p sao distribudas ao redor da verdadeira
proporcao populacional p. Devido ao Teorema Central do Limite, para n grande e p
nao muito proximo de 0 ou 1, a distribuic
ao de p sera aproximadamente normalmente
distribuda com media p e um desvio padrao dado por
s

p(1 p)
.
n
q

Chamamos SE= p(1p)


de erro padrao da proporc
ao amostral. Podemos usar isto na
n
construcao de um intervalo de confianca para a verdadeira proporc
ao p.
Um intervalo de confianca de aproximadamente 95% para p e portanto
(
p 1.96 SE , p + 1.96 SE)
onde

SE =

p(1 p)
.
n

Note que nao sabemos o verdadeiro valor de p, e portanto usamos p na formula acima
para estimar SE.
Uma regra geral e que este intervalo de confianca e valido quando quando temos ambos
n
p e n(1 p) maiores do que digamos 10.
Em alguns livros o divisor n 1 e utlizado. Nao se preocupe quanto a isso; o intervalo
resultante nao sera notavelmente diferente.
5.8.1

Exemplo

Calcule um intervalo de confianca de 95% para a proporc


ao de larvas de mosquito no lago
da especie Aedes detritus. Interprete os resultados.

37

5.9

Comparac
ao de intervalos de confianca

Suponha que tenhamos dois ou mais grupos separados, por exemplo, machos e femeas.
Algumas vezes pode-se construir um intervalo de confianca de 95% para a media para
cada um dos grupos, e entao contr
oi-se um grafico com esses intervalos contra um eixo
comum para verificar se existe uma intersec
ao (i.e. existem alguns valores em comum).
Se os intervalos nao se sobrepoem, ent
ao temos (pelo menos) 95% de confianca de que as
verdadeiras medias nao sao iguais. Embora estes graficos sejam u
teis para visualizac
ao,
utilizaremos um aboradgem mais formal (veja Sec
ao 7) para construir um intervalo de
confianca para a diferenca entre duas medias ou a diferenca entre duas proporc
oes.
5.9.1

Exemplo

Considere os dados de um estudo investigando a existencia de um balanco entre a proporcao de peixes machos e femeas de uma certa especie em dois lagos distintos. A proporcao observada de machos capturados no primeiro lago foi 74.4% dentre 43 capturados
e no segundo foi 60% dentre 50. Podemos agora construir intervalos de confianca para as
percentagens correspondente nas populac
oes dos dois lagos.

5.10

Exerccios 4

1. Um amigo sugere que voce lance uma moeda para ajudar voce a tomar uma decisao
muito importante, o resultado tambem o afetara. Seu amigo sugere que voce escolha
cara para tomar a decisao A, e coroa para tomar a decisao B a qual e a preferida
por ele. O u
nico problema e que seu amigo insiste que voce use uma moeda da
sorte dele. Voce fica um pouco suspeito e decide fazer um experimento enquanto
seu amigo nao esta olhando. Voce lanca a moeda 40 vezes e cara aparece somente 13
vezes. Construa um intervalo de 95% de confianca para a verdadeira proporc
ao de
caras p para ajuda-lo a decidir se voce acredita ou nao que a moeda e balanceada.
O que voce conclui?
2. Numa pesquisa eleitoral, 57 dentre 150 entrevistados afirmaram que votariam no
candidato X. Com uma confianca de 90%, o que voce pode dizer acerca da proporc
ao
real de votos aquele candidato tera?
3. Dentre 100 peixes capturados num certo lago, 18 nao estavam apropriados para
consumo devido aos nveis de poluic
ao do ambiente. Construa um intervalo de
confianca de 99% para a correspondente verdadeira proporc
ao.

38

6
6.1

Testes de Hip
oteses

Introduc
ao e notac
ao

Em geral, intervalos de confianca sao a forma mais informativa de apresentar os achados


pricipais de um estudo. Contudo, algumas vezes existe um particular interesse em decidir
sobre a verdade ou nao de uma hipotese especfica (se dois grupos tem a mesma media
ou nao, ou se o parametro populacional tem um valor em particular ou nao). Teste
de hip
oteses fornece-nos a estrutura para que facamos isto. Veremos que intervalos de
confianca e testes de hipoteses estao intimamente relacionados.
6.1.1

Os p
assaros migrat
orios engordam antes de migrar?

Considere os dados coletados pelo ornitologista na pagina 15. Achamos apropriado apresentar os dados na forma de um ladder plot. Agora e natural perguntar se em media estes
passaros engordam entre Agosto e Setembro. Somente 10 passaros foram capturados e seu
peso medio nas duas ocasioes foram 11.47 e 12.35 ent
ao o peso medio aumentou para esta
amostra em particular. (Note que o mesmo conjunto de passaros foram medidos ambas
as vezes.) Podemos generalizar para o resto dos passaros que nao foram capturados? Sera
que esta diferenca poderia ser devida simplesmente ao acaso?
Queremos testar a hip
otese nula (H0 ) de que, em media, nao existe mudanca no peso
dos passaros. Assumiremos que os 10 passaros foram uma amostra aleatoria de todos os
passaros migradores daquela especie e usaremos primeiramente o que aprendemos sobre
intervalos de confianca para responder nossas perguntas.
Primeiro vamos calcular as mudancas de peso (Setembro-Agosto):
1.9 0.7

2.2 0.1 2.0

1.0 0.8 0.2

1.8 0.3

Seja a mudanca media de peso na populac


ao. Ent
ao nossa hipotese nula H0 e a hip
otese
alternativa H1 podem ser escritas como segue:
H0 : = 0,

H1 : 6= 0.

Um procedimento u
til e calcular um intervalo de confianca para a media populacional
como descrito na Secao 5.5, e ver ser o intervalo inclui 0 como um valor plausvel.
Agora n = 10, x
= 0.88 e s = 1.065 para as diferencas, ent
ao

SE = s/ n = 1.065/ 10 = 0.337,
e um valor-t de 2.262 e obtido da coluna P = 0.05 e linha r = n 1 = 9. Um intervalo de
confianca de 95% para e portanto
(0.88 2.262 0.337, 0.88 + 2.262 0.337) = (0.12, 1.64).
O intervalo nao contem o valor 0, fornecendo evidencias contra a hipotese nula.

39

Podemos dizer: existem evidencias significativas (P < 0.05) de que, em media, os passaros
da especie estudada mudam de peso de Agosto para Setembro. Estamos 95% confiantes
de que em media os pesos aumentam por um montante entre 0.12 e 1.64 gramas.
Mas e o intervalo de 99%? Sera que ele conteria o valor 0? Este intervalo seria mais
amplo e entao e mais provavel que ele contenha 0. Se ele nao incluir 0, isto indicaria uma
evidencia ainda mais forte contra H0 .
Calculando o intervalo de confianca exatamente da mesma forma, exceto que desta vez
precisamos olhar na coluna P = 0.01 para obter t = 3.250:
(0.88 3.250 0.337, 0.88 + 3.250 0.337) = (0.21, 1.97).
Como esperado, este e mais amplo, e agora inclui o valor 0.
Podemos agora dizer: nao existem evidencias significativas ao nvel de 1% de que, em
media, os passaros da especie estudada mudam de peso de Agosto para Setembro.
O que nos acabamos de fazer foi conduzir um teste perfeitamente valido para a hipotese
nula usando intervalos de confianca. Podemos fazer o teste mais rapidamente e obter
exatamente as mesmas conclusoes pelo seguinte procedimento:
Calcule t = (
x 0)/SE = 0.88/0.337 = 2.61, o n
umero de erros padrao que x
dista
de 0.
Compare este valor de t com aqueles na linha r = n 1 = 9 da tabela.
Para este exemplo, t = 2.61 o qual esta entre os valores nas colunas P = 0.01 e
P = 0.05. Entao nosso valor deve corresponder a um P entre estes e portanto
devemos ter 0.01 < P < 0.05. (P e a probabilidade de observar um valor de t tao
grande ou mais extremo do que 2.61 se = 0.)

40

6.2

Procedimento geral de teste

1. Estabeleca a hip
otese nula, H0 e a hipotese alternativa H1 .
2. Decida qual oteste a ser usado, checando se este e valido para o seu problema.
3. Calcule a estatstica de teste, T.
4. Encontre a probabilidade (p-valor) de observar um valor tao extremo ou maior
do que T se a hipotese nula e de fato verdadeira. Voce precisara se referir aos
valores crticos nas tabelas estatsticas as quais fornecem p-valores correspondendo
aos valores das estatstica de teste.
5. Avalie a forca da evidencia contra H0 .(Quanto menor p-valor, tanto mais evidencia
contra a hipotese nula.) Se necesario, decida se esta e evidencia suficiente para
rejeitar (ou n
ao rejeitar) a hipotese nula.
6. Estabeleca as conclus
oes e interpreta
c
ao dos resultados.
O p-valor e a probabilidade de observar dados tao extremos quanto os obtidos se a hipotese
nula e verdadeira. Note as seguintes interpretac
oes de p-valores:
P
P
P
P
P

<
<
<
<

0.10
0.10
0.05
0.01
0.001

Nao existe evidencia contra H0


Fraca evidencia contra H0
Evidencia significativa . . .
Evidencia altamente significativa . . .
Evidencia muito altamente significativa . . .

Esteja ciente da diferenca entre significancia estatstica e significancia pratica. Um efeito


pode ser estatisticamente significante mas nao ter qualquer importancia pratica e viceversa. Por exemplo, um estudo muito grande pode estimar a diferenca entre a media de
peso de plantas como sendo 0.0001 gramas e concluir que a diferenca e estatsticamente
significativa (p < 0.05). Contudo, na pratica, esta diferenca e negligvel e provavelmente
de pouca importancia pratica.

41

6.3

Teste para uma m


edia

Na Secao 5.1.1 conduzimos, atraves de um exemplo, o chamado teste-t para uma u


nica
media. Os passos principais de tal test-t para uma amostra aleatoria x1 , x2 , . . . , xn de uma
populacao com media sao dados a seguir:
1. Estabeleca a hipotese nula, H0 : = 0 , e a hipotese alternativa H1 : 6= 0 .
2. Calcule a media amostral
=x
e o desvio padrao amostral s.

3. Calcule o erro padrao, SE= s/ n.


4. Calcule a estatstica de teste t = (
0 )/SE. Este e o n
umero de erros padrao que

dista do valor de hipotese 0 .


5. Encontre o p-valor da distribuic
ao t, com r = n 1 graus de liberdade, da tabela
usando os valores absolutos da estatstica de teste.
6. Estabeleca conclusoes e interprete os resultados.

6.4

Teste para uma proporc


ao

Agora suponha que tenhamos um valor hipotetico p0 para uma proporc


ao. Podemos
realisar um teste de H0 : p = p0 praticamente da mesma forma que o test-t acima. A
dualidade com intervalos de confianca segue exatamente da mesma forma.
Suponha que tenhamos uma amostra aleatoria de tamanho n de uma populac
ao de interesse onde a verdadeira proporc
ao de membros numa categoria em particular e p. A
hipotese nula e H0 : p = p0 . Se o n
umero observado na categoria de interesse e x, ent
ao
um teste da hipotese e como segue:
1. Estabeleca a hipotese nula, H0 : p = p0 , e a hipotese alternativa H1 : p 6= p0 .
2. Calcule a proporcao amostral p = x/n.
3. Calcule o erro padrao, SE=

p(1 p)/n.

4. Calcule t = (
p p0 )/SE, o n
umero de erros padrao que p dista do valor de hipotese
p0 .
5. Encontre o p-valor usando o valor absoluto da estatstica de teste da tabela da
distribuicao normal (ou equivalentemente da t com r = graus de liberdade).
Uma regra geral e que este teste e valido quando quando temos ambos n
p e n(1 p)
maiores do que digamos 10.
6.4.1

Exemplo

Referindo-se ao exemplo da Secao 5.8, suponha que alguem tenha sugerido de experiencias
passadas que 60% das larvas de mosquito no lago deveriam ser da especie Aedes detritus.
Foram encontrados 60 desse tipo de uma amostra de 80. Os dados suportam esta hipoteste?
42

6.5

Decis
oes e poder

Ao tomar uma decisao a favor ou contra uma hipotese existem dois tipos de erros que
voce pode cometer. Voce pode rejeitar a hipotese nula quando de fato ela e verdadeira
(erro tipo I) ou voce pode falhar em rejeitar H0 quando de fato ela e falsa (erro tipo
II). Existe um balanco entre esses dois tipos de erros, no sentido de que ao tentar-se
minizar a possibilidade de um tipo, aumenta-se a probabilidade do outro. Frequentemente
denotamos as probabilidades destes dois erros como e respectivamente.

Verdade
H0 verdadeiro
H0 falso

Decisao
Aceitar H0
Rejeitar H0

Erro Tipo I
(1 )
()
Erro Tipo II

(1 )

O poder de um teste e a probabilidade de rejeitar a hipotese nula quando esta e de fato


falsa. Isto e igual a 1 . Em geral, quanto maior o tamanho da amostra, maior o
desejavel decidir sobre um tamanho de amostra conveniente antes de
poder do teste. E
conduzir um estudo de forma que o resultados do teste de hipotese tera poder suficiente
para responder a questao cientfica de interesse.

6.6

Dimensionamento de amostras

Vimos no Captulo 5 e nas secoes anteriores deste captulo como construir intervalos e
testes de hipoteses para os principais parametros populacionais. Em todos os, supusemos
dado o nvel de confianca desses intervalos e testes. Evidentemente, o nvel de confianca
deve ser fixado de acordo com a probabilidade de acerto que se deseja ter na estimac
ao
por intervalo e testes. Sendo conveniente, o nvel de confianca pode ser aumentado ate tao
proximo de 100% quanto se queira, mas isso resultara em intervalos de amplitude cada
vez maiores (e testes com poderes cada vez menores), o que significa perda de precisao
claro que seria desejavel termos intervalos com alto nvel de confianca e
na estimacao. E
pequena probabilidade de erro e grande precisao. Isso porem requer uma amostra suficientemente grande, pois, para n fixo, confianca e precisao variam em sentidos opostos.
Veremos a seguir como determinar o tamanho das amostras necessarias nos casos de estimacao da media ou de uma proporc
ao populacional. Vimos na Sec
ao 5.4 que o intervalo
de confianca de 95% para a media da populac
ao quando e conhecido tem semiamplitude d dada pela expressao

d = z ,
n
onde z = 1.96 para uma confianca de 95%. Ora, o problema ent
ao resolvido foi, fixados o
nvel de confianca (1 = 0.95) e n, determinar d. Mas, e evidente dessa expressao que
podemos resolver outro problema. Fixados, d e o nvel de confianca, determinar n, que e o
problema da determinacao do tamanho de amostra necessario para se realizar a estimacao

43

por intervalo com a confianca e a precisao desejadas. Vemos imediatamente que

n=

z
d

Essa sera a expressao usada se for conhecido.


Nao conhecendo o desvio-padrao da populac
ao, deveramos subtitu-lo por sua estimativa
s e usar t de Student na expressao acima. Ocorre porem que nao tendo ainda sido retirada
a amostra, nao dispomos em geral do valor de s. Se nao conhecemos nem ao menos um
limite superior para , a u
nica soluc
ao sera colher uma amostra-piloto de n0 elementos
para, com base nela obtermos uma estimativa de s, empregando a seguir a expressao

n=

t(n0 1,0.05) s
d

Se n n0 , a amostra-piloto ja tera sido suficiente para a estimac


ao. Caso contr
ario,
deveremos retirar, ainda, da populac
ao os elementos necessarios `a complementac
ao do
tamanho mnimo de amostra.
Procedemos de forma analoga se desejamos estimar uma proporc
ao populacional com determinada confianca e dada precisao. No caso de populac
ao suposta infinita, da expressao
s

p(1 p)
,
n

d=z
podemos obter

n=

z
d

p(1 p).

0.00

0.05

0.10

p(1p)

0.15

0.20

0.25

O obstaculo `a determinacao do tamanho de amostra por meio da expressao acima esta


em desconhecermos p. Essa dificuldade pode ser resolvida atraves de uma amostra-piloto,
analogamente ao caso descrito para a estimac
ao de , ou analisando-se o comportamento
do fator p(1 p) para 0 p 1. Ve-se da figura a seguir que p(1 p) e a expressao de
uma parabola cujo ponto de maximo e p = 1/2.

0.0

0.2

0.4

0.6
p

44

0.8

1.0

Se substituirmos, p(1 p) por seu valor maximo, 1/4, seguramente o tamanho de amostra
obtido sera suficiente para a estimac
ao de qualquer que seja p. Isso equivale a considerar
2

n=

z
d

1
=
4

z
2d

Evidentemente, usando-se essa expressao corre-se o risco de se superdimensionar a amostra. Isso ocorrera se p for na realidade proximo de 0 ou 1. Se o custo envolvido for elevado
e proporcional ao tamanho de amostra, e mais prudente a tomada de uma amostra-piloto.
6.6.1

Exemplos

1. Qual o tamanho de amostra necessario para se estimar a media de uma populac


ao
infinita cujo desvio-padrao e igual a 4, com 98% de confianca e precisao de 0,5?
2. Qual o tamanho de amostra suficiente para estimarmos a proporc
ao da area com solo
contaminado que precisa de tratamento, com precisao de 0,02 e 95% de confianca,
sabendo que essa proporcao seguramente nao e superior a 0,2?

45

6.7

Exerccios 5

1. Exerccios 3, item 2. Teste a hipotese nula de que essa amostra provem de um corpo
arenoso cuja media e = 0, 5mm.
2. A fim de testar a ocorrencia de estratificac
ao gradacional num certo arenito, amostras
foram coletadas na base e no topo de 7 estratos desse arenito. Aplicando-se o teste-t
verificar se as diferencas entre o tamanho medio das partculas da base e do topo
sao significativas ou nao.
Estratos
1
2
3
4
5
6
7

base
2,81
3,95
3,75
2,68
3,25
3,90
3,30

topo
3,13
4,13
3,88
2,91
3,65
4,20
3,12

d=t-b
0,32
0,18
0,13
0,23
0,36
0,30
-0,18

3. Foram feitas vinte medidas do tempo total gasto para a precipitac


ao de um sal, em
segundos, num dado experimento, obtendo-se:
13
17

15
14

12
16

14
15

17
15

15
13

16
14

15
15

14
16

16
15

Esses dados sao suficientes, pergunta-se, para estimar o tempo medio gasto na precipitacao com precisao de meio segundo e 95% de confianca? Caso negativo, qual o
tamanho da amostra adicional necessaria?
4. Deseja-se estimar a resitencia media de certo tipo de peca com precisao de 2kg e
95% de confianca. Desconhecendo-se a variabilidade dessa resistencia, roperam-se
cinco pecas, obtendo-se para elas os seguintes valores de sua resitencia (em kg):
50,58,52,49,55. Com base no resultado obtido, determinou-se que deveriam ser rompidas mais quinze pecas, a fim de se conseguir o resultado desejado. Qual sua opiniao
a respeito dessa conclusao?
5. Exerccios 4, item 1. Realize um teste estatstico para ajuda-lo na decisao se voce
deve ou nao acreditar que a moeda e balanceada. Qual a sua conclusao?
6. Suponha que estejamos interessados em estimar a proporc
ao de todos os motoristas
que excedem o limite maximo de velocidade num trecho da rodovia entre CuritibaSao Paulo. Quao grande deve ser a amostra para que estejamos pelo menos 99%
confiantes de que o erro de nossa estimativa, a proporc
ao amostral, seja no maximo
0,04?
7. Refaca o exerccio anterior, sabendo que temos boas razoes para acreditar que a
proporcao que estamos tentando estimar e no mnimo 0,65.

46

7
7.1

Comparando dois grupos

Diferenca entre m
edias de dois grupos

Na Secao 5.4, vimos como construir um intervalo de confianca para a media populacional
, de uma amostra aleatoria de tamanho n. Lembre-se que este intervalo de confianca
era da forma x
t SE or (
x t SE, x
+ t SE). Agora consideremos a comparacao
das medias de das populacoes (por exemplo, machos e femeas) atraves da estimac
ao das
diferen
cas de m
edias e calculando um intervalo de confianca para esta diferenca das
medias.
Quando temos amostras independentes de cada uma de duas populac
oes, podemos
sumariza-las pelas suas medias, desvios padrao e tamanhos amostrais. Denote estas medidas por x
1 , s1 , n1 para a amostra um e x
2 , s2 , n2 para a amostra dois. Denote as
correspondentes medias populacionais e desvios padrao 1 , 2 , 1 e 2 respectivamente.
Para os dados de alturas dos estudantes da pagina 13, vamos comparar a altura media
dos estudantes do sexo masculino com as dos sexo feminino. Seja os grupo dos homens
a amostra um, e o grupo das mulheres a amostra dois. As alturas foram medidas em
centmetros e as medidas sumarias foram como segue:
x
1 = 178.85, s1 = 7.734, n1 = 20,
x
2 = 164.09, s2 = 9.750, n2 = 17.
Agora claramente uma estimativa natural da diferenca entre medias na populac
ao, 1 2 ,
e dada pela diferen
ca nas m
edias amostrais:
x
1 x
2 ,
e para nossos dados esta e 178.85 164.09 = 14.76. Agora o que precisamos e um erro
padrao para esta estimativa para que possamos construir um intervalo de confianca ou
realizar um teste da hipotese nula H0 : 1 2 = 0 versus H1 : 1 2 6= 0.
7.1.1

Erro padr
ao - assumindo desvios padr
ao iguais

Primeiramente, assumimos que os desvios padrao populacionais sao os mesmos em cada


grupo, i.e. 1 = 2 = . Podemos combinar os dois desvios padroes amostrais para formar
uma estimativa combinada do desvio padrao. Atribumos mais peso `as amostras maiores.
Este desvio padr
ao combinado sp e a raiz quadrada da vari
ancia combinada s2p dada
por
(n1 1)s21 + (n2 1)s22
s2p =
.
n1 + n2 2
Para nossos dados temos:
s2p = (19 7.7342 + 16 9.7502 )/35 = 75.92801

entao sp = 75.92801 = 8.71. Note que esta entre s1 e s2 . Se voce obtiver um valor que
nao esta entre estes valores entao seus calculos estao errados.
47

Agora podemos calcular o erro padr


ao das diferen
cas nas m
edias como
s

SE = sp
a qual para nossos dados e 8.71
7.1.2

1
1
+ .
n1 n2

(1/20 + 1/17) = 2.87kg.

I.C. para a diferen


ca entre m
edias assumindo desvios padr
ao iguais

Um intervalo de confianca para 1 2 e dado por


((
x1 x
2 ) t SE,

(
x1 x
2 ) + t SE) ,

onde t e escolhido apropriadamente. Quando os tamanhos amostrais sao grandes um


intervalo de confianca aproximado de 95% e obtido usando t = 1.96.
Se os tamanhos amostrais nao forem tao grandes ent
ao un intervalo exato de 95% de
t,
confianca deveria de ser calculado selecionando o valor de t da tabela da disitrbuicAo
com n1 + n2 2 graus de liberdade e coluna p = 0.05. Para um intervalo de 99% de
confianca deveramos selecionar o valor na coluna p = 0.01.
Exemplo: Para os dados de altura, temos n1 + n2 2 = 20 + 17 2 = 35, resultando
t = 2.03 para um intervalo de confianca de 95% (atraves de interpolac
ao entre a linha 30
e 40). Um intervalo de confianca de 95% para a diferenca nas medias e dado por:
(14.76 2.03 2.87, 14.76 + 2.03 2.87)

(8.93, 20.59).

Estamos 95% confiantes que, em media, estudantes do sexo masculino s


ao entre 9cm e
21cm mais do que as estudantes do sexo feminino.
7.1.3

Teste para a diferen


ca das m
edias

Um teste para a diferenca entre medias corresponde a um teste de H0 : 1 2 = 0.


Seguindo o mesmo tipo de procedimento visto na Sec
ao 6.
Nosso teste estatstico e:

(
x1 x
2 ) 0
,
SE
que e a estimativa de 1 2 menos o valor hipotetico (zero neste caso) e tudo dividido
pelo erro padrao.
t=

Sob a hipotese nula, este segue uma distribuic


ao t com n1 + n2 2 g.l. O valor obtido para
t (ignorando seu sinal) e comparado com os valores tabelados com os graus de liberdade
aproriados, para obter um p-valor.
Para os nossos dados, temos t = (14.76 0)/2.87 = 5.14, e comparando este `a linha 30 e
40 da tabela, vemos que devemos ter p < 0.001.
Assumindo que nossas amostras foram amostras aleat
orias de todos os estudantes, temos
evidencias bem fortes de a altura media dos estudantes do sexo masculino e diferente
daquela das estudantes do sexo feminino.
48

7.1.4

I.C. para diferen


ca de m
edias - desvios padr
ao diferentes

Uma regra pratica e que os desvios padrao populacionais 1 e 2 podem em geral ser
assumidas iguais se a raz
ao do maior desvio padrao amostral para o menor for menor do
que 2 ou 3. Alem disso a suposic
ao de vari
ancias iguais pode ser grosseiramente avaliada
atraves de historgramas dos dados. Testes formais estao disponveis se necessario.
Se os desvios padrao populacionais n
ao puderem ser assumidos iguais, usamos uma outra
formula para o erro padrao de x
1 x
2 , dado por
s

SE =

s21
s2
+ 2.
n1 n2

Note que esta abordagem e usada somente para grandes amostras.


A estastica de teste usando este SE n
ao segue uma distribuic
ao t sob a hipotese nula.
Contudo, para tamanhos amostrais razoavelmente grandes (digamos ambos maiores do
que 30), podemos comparar a estatstica de teste acima com uma distribution Normal
padrao (
ultima linha da tabela t).
Em nosso exemplo, calculamos um erro padrao de 2.87 kg sob a suposic
ao de igauldade
de desvios padrao populacionais para ambos os grupos. A formula alternativa (a qual nao
assume desvios padrao populacionais iguais) resulta em
s

SE =

(7.734)2 (9.750)2
+
= 2.93 kg
20
17

que praticamente nao defire do valor previo. Ent


ao o intervalo de confianca e o resultado
de teste de hipotese seriam virtualmente os mesmos usando este erro padrao.

49

7.2

Amostras pareadas

Num estudo pareado, temos duas amostras mas cada observac


ao da primeira amostra e
pareada com uma observacao da segunda amostra. Tal delineamento ocorre, por exemplo,
num estudo de medidas feitas antes e depois no mesmo indivduo ou num estudo de
gemeos (onde cada conjunto de gemeos forma um dado pareado). Como esperado, as duas
observacoes do mesmo indivduo (ou de um conjunto de gemeos) sao mais prov
aveis de
serem similares, e portanto nao sao considerados estatticamente independentes.
Com dados pareados, podemos usar a seguinte notac
ao:
x1i = measurement 1 on pair i,
x2i = measurement 2 on pair i
a entao escrevemos as diferencas nas medidas de cada par como
di = x2i x1i .
Agora temos uma amostra de diferen
cas di , e podemos usar os metodos que ja estamos
familiares. Podemos calcular um intervalo de confainca para a diferen
ca m
edia e testar
se a diferenca media e igaul a um particular valor (usualmente zero) ou nao. Nos referimos
a tal teste como um paired t-test ao contr
ario do test-t para duas amostras acima.
Note que neste caso estamos interessados na diferen
ca m
edia enquanto que quando temos
duas amostras independentes, estamos interessados na diferen
ca nas m
edias. Ainda que
numericamente estas quantidades sao as mesmas, conceitualmente elas sao diferentes.
Exemplo: A mudanca nos nveis de um contaminante numa certa area do incio ao final
de seis meses de observacao foram (em /l):
1.5 0.6 0.3 0.2 2.0 1.2
A me
dia e o desvio padrao sao 0.9 e 0.81 /l respectivamente. Ent
ao o erro padrao e
0.81/ 6 = 0.33 /l.
Podemos agora realizar um test-t pareado para testar a hipotese nula de que a perda na
concentracao media e 0. Para isso calculamos
t=

0.9
d 0
=
= 2.73.

0.33
SE(d)

Note que este valor e negativo (porque a mudanca media observada foi a reduc
ao na
concentracao do poluente um valor positivo seria um aumento na concentrac
ao do
poluente). Observamos o valor absoluto da estatstica de teste (2.73) na tabela, usando a
linha com n 1 = 5 graus de liberdade.
A quinta linha da tabela mostra que 0.01 < p < 0.05 (porque o valor 2.73 esta entre os
valores tabelados 2.571 e 4.032). Ent
ao, rejeitamos a hipotese nula ao nvel de 5%. Existe
evidencia ao nvel de 5% de que a
area em estudo sofreu uma reduc
ao em media nos nveis
do contaminante durante o perodo de seis meses.

50

Podemos adicionar `a nossa conclusao o intervalo de confianca de 95% para a reduc


ao media
nos nveis do contaminante: 0.9 2.57 0.33 = 0.9 0.85 = (1.75, 0.05) Estamos
95% confiantes que a reduc
ao media nos nveis do contaminante est
a entre 0.05/l e
1.75/l.

51

7.3

Comparando proporc
oes

Voltando aos dados da pagina 38 acerca de um estudo investigando a existencia de uma


igualdade na proporcao de machos de uma certa especie em dois lagos distintos. As
proporcoes observadas de machos foram 74.4% dentre 43 peixes capturados no primeiro
lago e 60% dentre os 50 do segundo. Se construirmos intervalos de confianca para os
percentuais correspondentes de machos na populac
ao (peixes da mesma especie naqueles
dois lagos), encontraramos que podemos estar 95% confiantes de que o percentual esta
entre 61.4% e 87.4% no primeirop lago, e entre 46.4% e 73.6% no segundo.
Contudo, nesse tipo de experimento a ideia principal e comparar diretamente os dois
lagos. Portanto gostariamos de calcular um intervalo de confian
ca de 95% para a
diferen
ca em propor
c
oes. Note contudo que isto e somente apropriado para grandes
amostras, e desse modo quando a amostra e pequena devemos ser cautelosos para nao
super valorizar os resultados.
7.3.1

Intervalo de confian
ca para a diferen
ca em propor
c
oes

Seja p1 a verdadeira proporcao populacional no grupo 1 (lago 1), se seja p2 a proporcao


no grupo 2 (lago 2). Estamos interessados na diferenca em proporc
oes,
p2 p1 .
Estimativas de p1 e p2 sao dadas por
p1 = 0.744 ,

p2 = 0.600,

entao uma estimativa da diferenca em proporc


oes e
p2 p1 = 0.744 0.600 = 0.144
O erro padr
ao desta diferenca e
s

SE =

p1 (1 p1 ) p2 (1 p2 )
+
.
n1
n2

Com isso podemos construir um intervalo de confianca da forma ususal, ou seja


(
p2 p1 ) 1.96 SE.

52

Entao para os nossos dados temos


s

SE =

0.744 (1 0.744) 0.600 (1 0.600)


+
= 0.096.
43
50

Portanto um intervalo de confianca aproximado de 95% para a diferenca em proporc


oes e
dado por 0.144 1.96 0.096, o qual e (0.044, 0.332), ou (-4.4%,33.2%). Estamos 95%
confiantes que a verdadeira diferenca percentual entre as proporc
oes de peixes machos nos
dois lagos esta entre -4.4% e 33.2%.
Note que de acordo com este intervalo o valor zero e um valor plausvel para as diferencas
nos percentuais, e portanto nao existem evidencias estatsticas de que o percentual de
peixes do sexo masculino diferem nos dois lagos.
7.3.2

Teste para a diferen


ca de duas propor
c
oes

Podemos testar a hipotese nula H0 : p2 p1 = 0 versus a alternativa H1 : p2 p1 6= 0


usando a estatstica
(
p2 p1 ) 0
t=
SE
e comparando este valor com a tabela t com graus de liberdade.

7.4

Exerccios 6

1. Um experimento (hipotetico) sobre o efeito do alcool na habilidade perceptual motora e conduzido. 10 indivduos sao testado duas vezes, uma depois de ter tomado
dois drinks e uma depois de tomado dois copos de agua. Os dois testes foram realizados em dois dias diferentes para evitar influencia do efeito do alcool. Metade
dos indivduos tomou a bebida alcoolica primeiro e a outra metade agua. Os escores
dos 10 indivduos sao mostrados abaixo. Escores mais altos refletem uma melhor
performance. Deseja-se testar se a bebida alcoolica teve um efeito singificante. Use
um nvel de significancia de 1%.
-----------------------------------indiv
duo
1 2 3 4 5 6 7 8 9 10
-----------------------------------agua

16 15 11 20 19 14 13 15 14 16
alcool 13 13 12 16 16 11 10 15 9 16

------------------------------------

53

2. Um estudo realizado para comparac


ao entre duas lagunas quanto `a salinidade em
Bimini, Bahamas, obteve as seguintes observac
oes (em partes por mil):
-------------------laguna 1
laguna 2
-------------------37.54
39.04
37.01
39.21
36.71
39.05
37.03
38.24
37.32
38.53
37.01
38.71
37.03
38.89
37.70
38.66
37.36
38.51
36.75
40.08
37.45
38.85
-------------------O que voce conclui com base nestes dados?
3. Deseja-se comparar os teores de Sr provenientes de amostras de carbonato obtidos a
partir de dois metodos diferentes: I-fotometro de chama; II-analise espectrografica.
--------------------------------Esp
ecimes
M
etodo I
M
etodo II
--------------------------------1
0.96
0.94
2
0.96
0.98
3
0.85
0.87
4
0.86
0.84
5
0.86
0.87
6
0.89
0.93
--------------------------------4. As seguintes amostras aleatorias sao medidas da capacidade de produc
ao de calor
(em milhoes de calorias por tonelada) de especimes de carvao de duas minas:
-----------------------------------mina 1
8400 8230 8380 7860 7930
mina 2
7510 7690 7720 8070 7660
-----------------------------------Use um teste de 0.05% de significancia para testar se a diferenca entre as capacidades
medias de calor e significante.
5. Um metodo de semeadura de nuvens foi bem sucedido em 57 dentre 150 tentativas,
enquanto outro metodo foi eficaz em 33 dentre 100 tentativas. Ao nvel de significancia de 0.05% podemos concluir que o primeiro metodo e melhor do o segundo?

54

8
8.1

Correlac
ao

Relaco
es entre vari
aveis

Em diversas investigacoes deseja-se avaliar a rela


c
ao entre duas medidas quantitativas.
Por exemplo, estao as alturas de filhos relacionadas com as alturas dos seus pais? Processos
praianos condicionam a inclinacao da zona pos-praia abaixo da linha da mare baixa? Ou
seja, o angulo de inclinacao do fundo oceanico situado logo apos a linha da mare baixa
a estirancio esta relacionado com o diametro medio (em mm) do sedimento do fundo
oceanico?
angulo de inclinacao y

0.68
2.05

0.85
1.83

0.66
1.84

0.50
1.87

1.86
1.82

2.33
1.85

2.17
1.75

1.83
1.51

1.68
1.38

diametro de sedimentos x

0.79
0.55

0.65
0.47

0.81
0.59

0.74
0.47

0.22
0.50

0.23
0.52

0.25
0.47

0.26
0.42

0.41
0.37

Tres propositos principais de tais investigac


oes podem ser:
para verificar se os valores sestao associados. (Os valores de uma medida tendem
a crescer (ou decrescer) `a medida que a outra cresce?)
para predizer o valor de uma vari
avel a partir de um valor conhecido da outra.
para descrever a relacao entre vari
aveis. (Dado um aumento especfico numa vari
avel,
qual o crescimento medio esperado para a segunda vari
avel?)

A associa
c
ao linear entre duas vari
aveis e avaliada usando correla
c
ao. Para predizer o
valor de uma variavel contnua a partir de uma outra vari
avel e para descrever a relac
ao
entre duas variaveis utiliza-se regress
ao (veja o proximo captulo).
O primeiro estagio em qualquer um dos casos e produzir um gr
afico de pontos dos dados
para obter alguma ideia da forma e grau de associac
ao entre duas vari
aveis.

55

2.0
1.5
0.5

1.0

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Mesmo tendo somente 18 observac


oes, podemos ver que parece existir alguma associac
ao
entre angulo de inclinacao do fundo oceanico e diametro medio de sedimentos.

8.2

Definico
es

Seja x1 , x2 , . . . , xn o conjunto das medidas de uma das vari


aveis (perodo das ondas), e
seja y1 , y2 , . . . , yn as medidas da outra vari
avel (diametro medio de sedimentos). Seja x,
y, sx e sy as medias e desvios padrao amostrais dos dois conjuntos de dados.
Para obter uma medida do grau de associa
c
ao da relac
ao linear entre duas vari
aveis,
usamos o coeficiente de correla
c
ao, definido como:
r=
onde

sxy =

sxy
.
sx sy

(xi x
)(yi y)
=
n1

xi yi n
xy
.
n1

Para os dados do exemplo acima, temos n = 18, x


= 0.48, y = 1.58, sx = 0.18, sy = 0.54,
xi yi = 12.44 a partir dos quais podemos calcular que r = 0.079.

Assim como para medias e desvios padrao, existe uma letra Grega especial que utlizamos
para o coeficiante de correla
c
ao populacional: . Podemos considerar r como sendo
uma estimativa de , exatamente como x
e uma estimativa da media populacional .
Abaixo estao exemplos de dados com seus coeficientes de correlac
ao correspondentes.

56

8.3

r=0.4

r=0.7

r=1.0

r=-0.3

r=-0.6

r=-0.9

Interpreta
c
ao do coeficiente de correlac
ao

O valor de r esta sempre entre 1 e +1, com r = 0 correspondendo `a nao associac


ao.
(

Valores de r

negativos
positivos

indicam uma associac


ao

negativa
positiva

Usamos o termo correla


c
ao positiva quando r > 0, e nesse caso `a medida que x cresce
tambem cresce y, e correla
c
ao negativa quando r < 0, e nesse caso `a medida que x
cresce, y decresce (em media).
Quanto maior o valor de r (positivo ou negativo), mais forte a associac
ao. No extremo,
se r = 1 ou r = 1 entao todos os pontos no grafico de dispersao caem exatamente numa
linha reta. No outro extremo, se r = 0 nao existe nenhuma associac
ao linear.
A seguinte quadro fornece um guia de como podemos descrever uma correlac
ao em palavras
claro que as interpretac
dado o valor numerico. E
oes dependem de cada contexto em
particular.
Valor de (+ ou )
0.00 a 0.19
0.20 a 0.39
0.40 a 0.69
0.70 a 0.89
0.90 a 1.00

Uma
Uma
Uma
Uma
Uma

Interpretac
ao
correlac
ao bem fraca
correlac
ao fraca
correlac
ao moderada
correlac
ao forte
correlac
ao muito forte

Note que correlacoes nao dependem da escala de valores de x ou y. (Por exemplo, obteramos o mesmo valor se medssemos altura e peso em metros e kilogramas ou em pes e
libras.)
57

8.4

Linearidade e normalidade

Somente relacoes lineares sao detectadas pelo coeficiente de correlac


ao que acabamos de
descrever (tambem chamado coeficiente de correlac
ao de Pearson). Nos dados abaixo,
mesmo existindo uma clara relac
ao (nao-linear) entre x e y, o coeficiente de correlac
ao e
zero. Sempre fa
ca o gr
afico dos dados de modo que voce possa visualizar tais relac
oes.

Em alguns casos pode ser apropriado transformar x e/ou y.

8
Log Military expenditure

Military expenditure

6000

4000

2000

50000

2
100000 150000

Gross Domestic Product

10

11

Log Gross Domestic Product

58

12

8.5

Coeficiente de determinac
ao, R2

O quadrado do coeficiente de correlac


ao de Pearson e chamado de coeficiente de de uma medida da proporc
termina
c
ao ou simplesmente R2 . E
ao da variabilidade em uma
pouco comum que tenhamos uma
variavel que e explicada pela variabilidade da outra. E
correlacao perfeita (R2 = 1) na pratica, porque existem muitos fatores que determinam as
relacoes entre variaveis na vida real. No nosso exemplo da pagina 56, tivemos r = 0.79,
de modo que R2 = 0.62 ou 62%. Ent
ao cerca de 38% da variabilidade da inclinac
ao da
zona pos-praia abaixo da linha da mare baixa nao pode ser descrito (ou explicado) pela
variabilidade no diametro medio de sedimentos e vice-versa. Fica portanto claro que existem outros fatores que poderiam ser importantes, como por exemplo, profundidade da
lamina dagua, altura das ondas, angulo de aproximac
ao das ondas, etc.

8.6

Associac
ao n
ao
e causalidade

Suponha que encontremos uma associac


ao ou correlac
ao entre duas vari
aveis A e B. Podem
existir diversas explicacoes do porque elas variam conjuntamente, incluindo:
Mudancas em A causam mudancas em B.
Mudancas em B causam mudancas em A.
Mudancas em outras variaveis causam mudancas tanto em A quanto em B.
A relacao observada e somente uma coincidencia.
A terceira explicacao e frequentemente a mais apropriada. Isto indica que existe algum
processo de coneccao atuando. Por exemplo, o n
umero de pessoas usando oculos-de-sol
e a quantidade de sorvete consumido num particular dia sao altamente correlacionados.
Isto nao significa que usar oculos-de-sol causa a compra de sorvetes ou vice-versa!
extremamente difcil estabelecer relac
E
oes causais a partir de dados observacionais.
Precisamos realizar experimentos para obter mais evidencias de um relac
ao causal.

8.7

Exerccios 7

1. Um estudo geoqumico orientador realizado, utilizando amostras compostas de sedimentos de corrente com granulometria de 100-150 mesh e profundidade de 40cm,
provenientes de riachos correndo sobre granulitos, revelou os seguintes resultados em
ppm:

59

Ni
5.2
5.0
6.8
7.5
2.5
5.0
7.5
7.0
8.0
4.0

Cr
16.8
20.0
14.2
17.5
10.1
15.5
13.8
18.2
13.0
15.0

Ni
4.5
5.4
8.8
18.0
6.2
20.5
10.0
4.0
4.4
15.9

Cr
15.5
13.0
12.5
20.2
12.5
13.5
17.8
12.8
12.2
13.0

(a) Faca o grafico destes dados com Ni no eixo x.


(b) Calcule o coeficiente de correlation r pata estes dados e cheque se o valor obtido
parece consistente com seu grafico.
(c) Qual proporcao da variabilidade na concentrac
ao de Cr pode ser explicada pela
concentracao de Ni?
2. Prosseguindo o estudo da influencia de processos praianos no condicionamento do
angulo de inclinacao do fundo oceanico situado logo apos a linha da mare baixa a
estirancio mediu-se a profundidade da lamina dagua (em pes). Os dados coletados
foram:

angulo de inclinacao y

0.68
2.05

0.85
1.83

0.66
1.84

0.50
1.87

1.86
1.82

2.33
1.85

2.17
1.75

1.83
1.51

1.68
1.38

profundidade x

12.4
13.3

11.4
14.1

10.7
13.4

11.6
13.5

11.3
13.3

10.7
14.4

11.1
14.1

12.8
15.3

13.3
14.0

(a) Faca o grafico desses dados com profundidade da lamina dagua no eixo x.
(b) Calcule o coeficiente de correlac
ao, r e interprete o resultado obtido.
(c) Qual proporcao da variabilidade em angulo de inclinac
ao pode ser explicada
por profundidade da lamina dagua?

60

9
9.1

Regress
ao

Id
eia b
asica

Em certas situacoes podemos estar interessados em descrever a relac


ao entre duas vari
aveis,
e tambem predizer o valor de uma a partir de outra. Por exemplo, se sabemos a altura
de um certo estudante, mas nao o seu peso, qual seria um bom chute para o peso deste
estudante? O coeficiente de correlac
ao apenas indica a grau de associac
ao como um u
nico
n
umero.

40

50

60

Weight (kg)
70

80

90

Retorne aos dados de altura e peso de estudantes na pagina 13. Denote as alturas por
x1 , x2 , . . . , xn , e os pesos por y1 , y2 , . . . , yn . (Por enquanto vamos ignorar se eles sao do
sexo masculino ou feminino). Se estamos interessados em predizer peso de altura ent
ao nao
temos uma relacao simetrica entre as duas vari
aveis. Chamamos peso a vari
avel resposta
ou dependente, e altura a variavel explanat
oria, preditora ou independente. A
variavel resposta e sempre disposta no eixo vertical y, e a vari
avel explanatoria e sempre
disposta no eixo x.

140

150

160

170
Height (cm)

180

190

200

Se a relacao entre as duas variaveis e aproximadamente linear, ent


ao os dados podem ser
resumidos atraves do ajuste de uma reta passando pelos dados. A equac
ao dessa reta e
dada por
y = a + bx
onde a e conhecida como o intercepto e b e a inclina
c
ao. Intuitivamente, queremos uma
reta que forneca pequenas diferencas entre os verdadeiros pesos e aqueles dados pela reta
para as alturas correspondentes.

61

O metodo padrao para obter a melhor reta ajustada e chamado mnimos quadrados
o qual literalmente miniza a soma dos quadrados das distancias de yi `
a reta ajustada.
Em princpio isto requer tracar retas possveis, calculando a soma dos quadrados das
distancias:
n
n
S=

(yi yi )2

i=1

{yi (a + bxi )}2

i=1

e encontrar os valores de a e b (equivalentemente a reta) que fornecem o menor valor de


possvel mostrar que a melhor reta e aquela tal que
S. E
P

b=

xi yi n
xy
(yi y)(xi x
)
sxy
P
= P 2
= 2
2
2
(xi x
)
x n
x
sx

e
a = y b
x.
Para os dados de altura e peso a = 51.17kg e b = 0.68kg/cm; ent
ao a reta de regressao e
y = 51.17 + 0.68x.
Nossa reta ajustada e uma estimativa da reta de regress
ao populacional, y = +x.

Nossos a e b sao estimativas de e . (E comum, denotar-se estas estimativas por


e
ao inves de a e b.)
O proximo passo e construir intervalos de confianca etc para e (intercepto e inclinac
ao
populacional), mas para fazer isto precisamos pensar mais cuidadosamente sobre nossas
suposicoes acerca da populacao.

9.2

Modelo de regress
ao linear simples

Este e o modelo mais simples para descrever a relac


ao entre uma vari
avel explanatoria x
e uma variavel resposta y. O modelo faz a seguintes suposic
oes, em ordem decrescente de
importancia:
1. o valor medio da variavel resposta e uma func
ai linear de x,
2. a variancia da variavel resposta e constante (ou seja, a mesma para todos os valores
de x),
3. a variacao aleatoria da vari
avel resposta para qualquer valor fixo de x segue uma
distribuicao Normal, e estes termos de erro sao independentes.
Em termos algebricos, seja (xi , yi ) para i = 1, . . . , n os valores observados da vari
avel
explanatoria x e da variavel resposta y para os n sujeitos.

62

O modelo de regress
ao linear e
yi = + xi + i
onde i representa desvios independentes aleatorios da relac
ao linear entre y e x e (para
satisfazer nossas tres suposicoes acima)
i Normal(0, 2 ).
Note que e sao par
ametros da populac
ao, e eles sao frequentemente conhecidos como
coeficientes. Em particular, e denominado coeficiente, ou efeito, de x.

0.0

0.2

0.4

sqrt(y)
0.6
0.8

1.0

1.2

1.4

Os dados abaixo parecem satisfazer todas as tres suposic


oes:

0.0

0.2

0.4

0.6

0.8

1.0

Um exemplo construdo de dados que n


ao satisfazem nenhuma das suposic
oes e mostrado abaixo:

1.5

0.0

0.5

1.0

0.0

0.2

0.4

0.6
x

63

0.8

1.0

9.3

Estimando os par
ametros do modelo

Uma tarefa importante associada com o modelo de regressao linear e a estimac


ao dos
valores de e , os quais juntos determinam a equac
ao da reta ajustada.
Um metodo padrao de estimacao em estatstica chamado m
axima vaerossimilhan
ca
leva `as mesmas estimativas de mnimos quadrados descrito na Sec
ao 9.1, ou seja

= sxy /s2
e

= y x
x

Em aplicacoes, nao existe garantia de que o modelo de regressao linear sera resoavel para
sobre um scatterplot
nossos dados. Devemos sempre sobrepor a reta ajustada y =
+ x
dos dados para checar se o modelo e razoavel. Devemos procurar por evidencias de uma
relacao nao-linear, ou desvios muito extremos da reta ajustada.
Se acharmos que o modelo esta razoavel, podemos tambem estimar 2 , a vari
ancia dos
erros i , usando a formula
(n 1) 2 2 2

2 =
{s sx }
(n 2) y
onde s2y e s2x denotam a variancia amostral de y e de x, respectivamente.
9.3.1

Exemplo

40

50

60

Weight (kg)
70

80

90

Para os nossos dados, ja sabemos que


= 51.17 e que = 0.68. Um grafico dos dados
com a reta ajustada e:

140

150

160

170
Height (cm)

180

190

200

O ajuste da reta nao parece tao bom. Existem dois pontos bem distantes da reta ajustada,
e o da esquerda em particular parece ter uma grande influencia na reta ajustada. Na
pratica e aconselhavel investigar a acuracia destes valores e/ou verificar quanto muda a
reta ajsutada quando estes pontos sao removidos. Contudo, por enquanto prosseguiremos
assumindo que esta tudo ok!
64

Para sermos capazes de calcular erros padrao e intervalos de confianca, e importante


manter tantas casa decimais quanto possvel: = 0.6846253. As outras quantidades sao:
n = 37,

sx = 11.38700,

sy = 11.70791,

sxy = 88.77102.

Podemos agora obter


2:

2 =

36
{(11.707912 ) (0.68462532 )(11.387002 )} = 78.48
35

Entao uma estimativa do desvio padrao dos desvios aleatorios i em torno da reta e

= 78.48 = 8.86

9.4

I.C. e teste para

Usualmente e de interesse saber qual a nossa precisao na estimativa de . Para responder


esta questao, podemos calcular um intervalo de confian
ca de 95% para , como segue:

1. Calcule o erro padr


ao de ,
q

SE =

2 /{(n 1)s2x }

2. Encontre o valor de tn2,0.05 , que esta na tabela t: linha r = n 2 e coluna 0.05.


t SE

3. Um Intervalo de confianca de 95% e:

Podemos tambem ter interesse em testar a hipotese H0 : = 0, ou seja, de que nao exista
relacao entre x e y. Nesse caso, procedemos como segue:
1. Calcule t = ( 0)/SE.
2. Procure na tabela t, o p-valor correspondente ao seu valor de t na linha r = n 2
da tabela para sumarizar a evidencia contra H0 .
9.4.1

Exemplo

Para os dados dos estudantes, um teste da hipotese nula de nao existencia de relac
ao entre
altura e peso fica como segue.
q

SE =

78.48/(36 11.3870022 ) = 0.1297

t = 0.6846/0.1297 = 5.28 (com n 2 = 35gl P < 0.001)


Podemos calcular um intervalo de confianca de 99% para (o coeficiente de altura):
(0.6846 2.032 0.1297) = (0.42, 0.95)

65

9.5

Transforma
c
oes de dados

Uma forma de estender a aplicabilidade do modelo de regressao linear e aplicar uma


transformacao em x ou y, ou ambos, antes de ajustar o modelo. Ou seja, se a relac
ao
entre duas variaveis e n
ao-linear (uma curva pareceria ajusta melhor do que uma reta),
entao frequentemente a relacao pode ser feita linear transformando uma ou ambas as
variaveis.
Transformacoes podem ser muito u
teis em algumas circunstancias, mas deveria somente
ser considerada como um u
ltimo recurso uma vez que quando uma or ambas as vari
aveis
sao transformadas, os coeficientes deixam de ter interpretac
oes diretas.
A ideia e escolher uma transformac
ao que faca a relac
ao aproximadamente linear enquanto
ainda premanecendo interpretaveis. Frequentemente, relac
oes biologicas sao multiplicativas e nao aditivas e transforma
c
oes logartmicas s
ao particularmente u
teis nestes casos.

9.6

Resumo

Regressao permite-nos:
Descrever suscintamente o nvel geral de uma vari
avel que esta associada com cada
nvel de outra.
importante aqui distinguir entre
Predizer uma variavel de uma outra vari
avel. E
interpola
c
ao (predicao dentro da amplitude dos dados amostrados; no exemplo,
predicao do peso de uma pessoa de altura 170 cm) e extrapola
c
ao (predic
ao fora
da amplitude dos dados; no exemplo, predic
ao do peso de alguem com altura 70cm
como sendo aproximadamente 3kg!).

9.7

Exerccios 8

1. Com relacao aos dados apresentados no Captulo 8 sobre processos praianos condicionando a inclinacao da zona pos-praia abaixa da linha da mare baixa.
(a) Ajuste um modelo de regressao linear simples a partir do qual podemos predizer a inclinacao do fundo oceanico situado logo apos a linha da mare baixa a
estirancio em termos do diametro medio do sedimento do fundo oceanico. Adicione a reta ajustada ao grafico de dispersao apresentado no captulo anterior.
(b) Explique em palavras o que a equac
ao de regressao esta lhe dizendo.
(c) Quais suposicoes foram feitas para obrter essa equac
ao?
(d) Como voce poderia decidir se a aparente associac
ao entre inclinac
ao e diametro
foi ou nao meramente casual?
(e) Com base nesse equacao, qual seria sua predic
ao para a inclinac
ao da zona pospraia para um diametro medio do sedimento do fundo oceanico de 0.50mm?

66