Escolar Documentos
Profissional Documentos
Cultura Documentos
Livros
Bussab, W. e Morettin, P. Estatstica B
asica. Editora Atlas.
Speed, T. & Nolan, D. Stats Labs.
Soares, J.F. Estatstica
Conte
udo
1. Introdu
c
ao: Por que ha a necessidade de Estatstica?
2. Estatsticas Descritivas: sumario de dados, grafico de barras, grafico de setores,
histograma, ramo-e-folhas, mediana, moda, desvio padrao, amplitude inter-quartis,...
3. Popula
coes e amostras: usando amostras para aprender sobre a populac
ao
4. Intervalos de confian
ca: estimando a media populacional a partir de uma amostra
5. Testes de hip
oteses: ideia basica e testes para uma amostra
6. Compara
c
ao de dois grupos: As mensurac
oes num grupo tendem a ser maiores em
media do que em outro?
7. Correla
c
ao: verificando se os valores de duas quantidades tendem a ser relacionadas
8. Regress
ao: descrevendo como o comportamento de uma quantidade muda com o valor
da outra
1
1.1
Introduc
ao
O que
e Estatstica?
Primeiro deve-se estabelecer o que se deseja dizer com estatstica. Ela tem pelo menos
tres significados:
1. colecao de informacoes numericas ou dados,
2. medidas resultantes de um conjunto de dados, como por exemplo medias,
3. metodos usados na coleta e interpretac
ao de dados.
Qual
e o papel da estatstica na ci
encia?
Na ciencia, sao realizados estudos experimentais ou observacionais, levando `a colecao
de dados numericos.
O proposito da investigacao e responder uma quest
ao cientfica.
O padrao de variac
ao nos dados faz com que a resposta nao seja obvia.
Em geral, a disciplina de estatstica refere-se a metodos para coleta e descric
ao dos
dados, e entao a verificacao da forca da evidencia nos dados pro ou contra as ideias
cientficas. A presenca de uma variac
ao nao previsvel nos dados faz disso uma tarefa
pouco trivial.
1.2
Varia
c
ao Amostral
Alguns exemplos onde a variacao esta presente no dado podem ser encontrados em Landim
(1997).
2
2.1
Estatstica Descritiva
Tipos de dado
2.2
Dados qualitativos
Tabulando dados
tally
|||||||||||||||
||||||||
|||||
||
ni
12
8
5
2
N = 27
ni /N
12/27
8/27
5/27
2/27
pi
0.444
0.296
0.185
0.074
pi = 1
Percentage
44.4%
29.6%
18.5%
7.4%
Num relatorio, a segunda coluna nao seria mostrada, e os dados seriam sumarizados num
formato mais simples como mostrado abaixo. Se o maioria dos dados caem em poucas
categorias, entao e conveniente colapssar algumas das categorias com somente uma ou
duas observacoes em outra categoria chamada outros.
Table showing the species of 27 woodlice that fell in a pit-fall trap:
Species
Oniscus
Porcellio
Philoscia
Armadilidium
Frequency
12
8
5
2
Percentage
44.4%
29.6%
18.5%
7.4%
Tabelas simples como esta sao na maioria das vezes suficientes para descrever dados qualitativos especialmente quando existem somente duas ou tres categorias.
2.2.2
Resumindo numericamente
8
33
32
17
10
Gr
aficos de Barras
10
Frequency
20
30
Rare
Occasional
Frequent
Abundant
Dominant
2.2.4
Gr
afico de setores
Oniscus
Gr
afico de setores tambem podem ser u
teis para apresentac
ao de dados categoricos ordenados. Os setores do grafico sao desenhados de tal forma que eles tenham area proporcional `a frequencia. Entao para os dados woodlice, os angulos seriam 0.444 360 = 160
para Oniscus, etc.
Arma
dilidiu
llio
rce
ia
sc
ilo
Ph
Po
2.3
2.3.1
Dados quantitativos
Histograma
Frequencia
7
16
19
31
41
23
10
3
40
30
Frequency
20
10
0
100
120
140
Fish lengths (mm)
160
180
14.1
13.0
9.4
17.4
15.8
13.7
12.6
16.5
11.1
13.5
15.2
12.0
13.7
15.8
15.4
14.0
14.7
17.0
12.5
10.0
16.6
13.6
12.9
18.2
11.4
16.6
Uma vez que a escala tenha sido determinada, a qual define os ramos `a esquerda da
linha veritcal, podemos facilmente escrever os dados no grafico de ramos-e-folhas como no
diagrama esquerdo; como um refinamento podemos ent
ao ordenar as folhas no diagrama
`a direita:
9
10
11
12
13
14
15
16
17
18
4
6
5
5
7
1
2
5
4
2
0
4
9
0
3
4
6
0
4
1
6
7
0
8
6
8
0
6
7
8
9
10
11
12
13
14
15
16
17
18
4
0
1
0
0
0
2
5
0
2
6
4
5
5
1
4
6
4
4
5
6
6
3
8
6
8
9
7
7
8
Frequency
10
12
14
16
Concentracao de Cr (ppm)
18
20
2.3.2
Resumindo numericamente
Para resumir numericamente dados quantitativos o objetivo e escolher medidas apropriadas de loca
c
ao (qual o tamanho dos n
umeros involvidos?) e de dispers
ao (quanta
variacao existe?) para os tipos de dados.
Existem tres escolhas principais para a medida de locac
ao, a chamada 3 Ms, as quais
estao ligadas a certas medidas de dispersao como segue:
M
m
edia (o valor medio)
mediana (o valor do meio)
moda (o valor mais comum)
2.3.3
Dispersao
desvio padrao
IQR
proporc
ao
M
edia, vari
ancia e desvio padr
ao
x1 + x2 + . . . + xn
=
n
Pn
i=1 xi
xi ou ate
A vari
ancia e definida como o desvio quadratico medio da media e e calculada de uma
amostra de dados como
2
s =
Pn
x)2
=
n1
i=1 (xi
Pn
2
i=1 (xi )
nx2
.
(n 1)
A segunda versao e mais facil de ser calculada, embora muitas calculadoras tem func
oes
prontas para o calculo de variancias, e e raro ter que realisar todos os passos manualmente.
Comumente as calculadoras fornecerao a raiz quadrada da vari
ancia, o desvio padr
ao,
i.e.
s = vari
ancia = s2
a qual e medida nas mesmas unidades dos dados originais.
Uma informcao u
til e que para qualquer conjunto de dados, pelo menos 75% deles fica
dentro de uma distancia de 2 desvio padrao da media, i.e. entre x 2s e x
+ 2s.
Exemplo. Sete homens foram pesados, e os resultados em kg foram:
57.0, 62.9, 63.5, 64.1, 66.1, 67.1, 73.6.
10
A m
edia e 454.3/7 = 64.9 kg,
a vari
ancia e (29635.05 454.32 /7)/6 = 25.16 kg2
e o desvio padr
ao e 25.16 = 5.02 kg.
2.3.4
Uma outra forma de sumarizar dados e em termos dos quantis ou percentis. Essas
medidas sao particularmente u
teis para dados nao simetricos. A mediana (ou percentil
50) e definida como o valor que divide os dados ordenados ao meio, i.e. metade dos dados
tem valores maiores do que a mediana, a outra metade tem valores menores do que a
mediana. Adicionalmente, os quartis inferior e superior, Q1 e Q3, sao definidos como
os valores abaixo dos quais estao um quarto e tres quartos, respectivamente, dos dados.
Estes tres valores sao frequentemente usados para resumir os dados juntamente com o
mnimo e o maximo. Eles sao obtidos ordenando os dados do menor para o maior, e
3(n+1)
n+1
entao conta-se o n
umero apropriado de observac
oes: ou seja e n+1
para
4 ,
2 e
4
o quartil inferior, mediana e quartil superior, respectivamente. Para um n
umero par de
observacoes, a mediana e a media dos valores do meio (e analogamente para os quartis
inferior e superior).
A medidade de dispersao e a amplitude inter-quartis, IQR = Q3 Q1, i.e. e a diferenca
entre o quartil superior e o inferior.
Exemplo. O n
umero de criancas em 19 famlias foi
0, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 7, 8, 10
A mediana e o (19+1) / 2 = 10o valor, i.e. 3 criancas.
O quartil inferior e superior sao os valores 5o e 15o , i.e. 2 e 6 criancas, portanto
amplitude inter-quartil e de 4 criancas. Note que 50% dos dados estao entre os quartis
inferior e superior.
11
2.3.5
Box-and-Whisker Plots
10
2.3.6
12
14
16
18
A moda
Nem todos os conjuntos de dados sao suficientemente balanceados para o calculo da media
ou mediana. Algumas vezes, especialmente para dados de contagem, um u
nico valor
domina a amostra. A medida de locac
ao apropriada e ent
ao a moda, a qual e o valor
que ocorre com maior frequencia. A proporc
ao da amostra a qual toma este valor modal
deveria ser utilizada no lugar de uma medida formal de dispersao.
Algumas vezes, podemos distinguir claramente picos na frequencia dos valores registrados. Neste caso (chamado bimodal) deveramos apresentar ambas as localizac
oes. Dados
deste tipo sao particularmente difceis de resumir (e analisar).
Exemplo. Dez pessoas registraram o n
umero de copos de cerveja que eles tomaram num
determinado sabado:
0, 0, 0, 0, 0, 1, 2, 3, 3, 6
A moda e 0 copos de cerveja, a qual foi obtida pela metade da amostra. Poderiamos
adicionar mais informacao separando a amostra e dizendo que daqueles que tomaram
cerveja a mediana foi de 3 copos.
12
2.4
Dados m
ultiplos
Gr
aficos de pontos
90
M
MMM
80
Weight (kg)
70
M
M
60
M
50
F F
FF M
F
F
F
F
F M
F
F
M
M
M
F
M
MM
M
40
140
150
160
170
Height (cm)
180
190
200
Para mais do que duas variaveis, pode-se produzir graficos entre todos os pares possveis
para produzir uma matriz de gr
aficos de pontos.
13
2.4.2
Gr
afico temporal
Average temperature
-10 -5
0
5
10
20
30
Day
14
40
50
60
2.4.3
Ladder plot
10
11
13
August
September
muito mais facil ver do grafico do que da tabela que os passaros tendem a engordar, e que
E
aqueles que nao engordaram tenderam a ser os maiores que provavelmente nao necessitam
de uma engorda extra.
15
2.5
Exerccios 1
1. Descreva de forma concisa os seguintes dados usando suas palavras e algumas estatsticas descritivas, apontando caractersticas principais observadas.
(a) As notas (de um total de 100 e ordenadas por tamanho) de 20 estudantes de
estatstica no primeiro exame do semestre:
30
57
35
58
37
60
40
60
40
62
49
62
51
65
54
67
54
74
55
89
(b) O n
umero de faltas de 20 trabalhadores num ano (ordenados por tamanho):
0
2
0
2
0
3
0
3
0
4
0
5
0
5
1
5
1
8
1
45
(c) O n
umero de exemplares de um jornal mensal em particular lidos por 20 pessoas
num ano:
0
12
1
1
11
0
0
0
0
0
0
0
2
12
12
0
0
11
0
0
1.60
1.73
1.55
1.52
1.57
1.63
1.65
1.65
1.52
1.55
1.60
1.60
1.60
1.63
1.68
1.65
After
5.44
6.11
6.49
6.61
6.67
6.67
6.78
7.89
Faca um grafico destes dados, e use o grafico para ajudar a avaliar se o acidente
provocou um aumento significativo nos nveis do poluente no afluente.
4. A tabela abaixo fornece o n
umero de granulos de arenito por cm3 em 20 amostras
tomadas de uma certa localidade (A) e 20 amostras tomadas de uma outra localidade
(B).
16
A
171
431
288
1283
554
295
568
958
2415
1212
B
397
795
257
902
1621
1004
1378
435
1104
396
116
375
151
752
979
208
426
675
410
736
375
440
192
503
1252
688
771
377
700
315
5. O percentual de acu
car e sal em 9 cereais matinais mais populares foram medidos,
com os seguintes resultados:
Cereal
1
2
3
4
5
6
7
8
9
acu
car
19
36
3
8
26
16
8
10
54
sal
8
5
10
4
6
6
9
3
3
17
3
3.1
Populac
oes e amostras
Infer
encia estatstica
Infer
encia estatstica e o processo pelo qual estatsticos tiram conclusoes acerca da
popula
c
ao usando informacao de uma amostra.
Voce pode estar familiar com o termo populac
ao num sentido biologico/geol
ogico. Em
estatstica, o termo nao se refere necessariamente a pessoas, plantas, animais, etc. Ele
poderia tambem se referir, por exemplo, a fosseis, rochas e sedimentos num determinado
local, etc.
A popula
c
ao se refere a todos os casos ou situac
oes as quais o pesquisador quer fazer
inferencias ou estimativas. Diferentes pesquisadores podem querer fazer inferencias acerca
da concentracao de poluentes num determinado lencol freatico; predizer a quantidade de
petroleo num poco a ser perfurado e assim por diante.
Note que o investigador nao esta interessado em todos os aspectos da populac
ao. O
pesquisador pode nao estar interessado em estudar a concentrac
ao de todos os tipos de
poluentes, somente alguns poluentes mais importantes para seu estudo.
Uma amostra e um subconjunto da populac
ao usado para obter informac
ao acerca do
todo.
Mas exatamente por qu
e tomamos uma amostra?
popula
c
ao toda?
Por qu
e n
ao usamos a
18
3.2
Princpios de estimac
ao
Utilizamos estimativas de uma amostra como nosso melhor chute para os verdadeiros valores populacionais. Exemplos sao a media amostral, o desvio padrao amostral,
a mediana amostral, os quais estimam a verdadeira media, desvio padrao e mediana da
populacao (que sao desconhecidos). Os verdadeiros (desconhecidos) valores populacionais
sao chamados par
ametros.
Note que estatsticas sao usualmente representadas por letras Romanas, (por exemplo, x
para a media amostral, s para o desvio padrao amostral), enquanto que parametros sao
usualmente representados por letras Gregas (por exemplo, para a media populacional,
para o desvio padrao populacional).
claro que `a medida que a amostra aumenta, mais informac
E
ao nos teremos acerca da
populacao de interesse, e portanto mais precisa serao as estimativas dos parametros de
interesse.
19
3.3
Suponha que selecionemos uma amostra de 5 destes crculos jogando um lapis sobre o
papel repetidamente ate que tenhamos atingido 5 circulos. Qual e o diametro medio de
nossos 5 circulos? O valor esta perto de
mm?
20
No exemplo acima, o esquema amostral causou um vcio. Um vcio similar seria obtido
por exemplo na amostragem de um particular tipo de animal pode ser que os animais
que se consegue capturar e medir sao aqueles que nao podem correr tao rapido, ou ao usar
uma armadinha, voce pode amostrar somente os animais mais famintos, etc.
Sempre que uma amostra e obtida, o processo de amostragem deve estar bem documentado
de tal forma que quais inferencias retiradas acerca da populac
ao pode avaliadas `a luz da
estrategia amostral.
21
Distribuico
es te
oricas de frequ
encias
4.1
A distribuic
ao Normal
0.0
0.1
f(x)
0.2
0.3
0.4
A distribui
c
ao Normal e a mais familiar das distribuic
oes de probabilidade e tambem
uma das mais importantes em estatstica. Esta distribuic
ao tem uma forma de sino.
-4
-2
0
x
1
(x )2
f (x) = p
exp
2 2
(2 2 )
(1)
0.8
0.6
N(6,.25)
N(0,1)
0.2
f(x)
0.4
N(3,1)
0.0
N(6,4)
10
proporcao de area sob a curva entre esses dois valores. Para a distribuic
ao Normal, a
proporcao de valores caindo dentro de um, dois, ou tres desvios padrao da media sao:
Range
1
2
3
Proportion
68.3%
95.5%
99.7%
Este resultado e usado da seguinte maneira. Suponha que os comprimentos de um particular tipo de peixe podem ser descritos por uma distribuic
ao normal, com media 140mm
e desvio padrao 15mm. Podemos calcular a proporc
ao dos peixes que tem comprimentos entre 110 e 170mm, por exemplo, como a proporc
ao da area sob a curva entre 110 e
170mm.
Entao em nosso exemplo, cerca de 95% dos peixes tem comprimentos entre 110mm e
170mm.
Na pratica desejamos calcular probabilidades para diferentes valores de e . Para isso,
a variavel X cuja distribuicao e N (, 2 ) e transformada numa forma padronizada Z com
distribuicao N (0, 1) (distribui
c
ao normal padr
ao) pois tal distribuic
ao e tabelada. A
quantidade Z e dada por
X
(2)
Z=
Exemplo: A concentracao de um poluente em agua liberada por uma fabrica tem distribuicao N(8,1.5). Qual a chance, de que num dado dia, a concentrac
ao do poluente exceda
o limite regulatorio de 10 ppm?
A solucao do problema resume-se em determinar a proporc
ao da distribuic
ao que esta
acima de 10 ppm, ie P (X > 10). Usando a estatstica z temos:
P (X > 10) = P (Z >
10 8
) = P (Z > 1.33) = 1 P (Z 1.33) = 0.09
1.5
23
(3)
Portanto, espera-se que a agua liberada pela fabrica exceda os limites regulatorios cerca
de 9% do tempo.
Exerccio: A concentracao de cadmio em cinzas de um certo lixo radioativo tem distribuicao N(1,0.72). Quais sao as chances de que uma amostra aleatoria das cinzas tenha
uma concentracao de cadmio entre 0.5 e 1.75 ppm?
24
4.2
A distribuic
ao Binomial
n!
pk (1 p)nk .
k!(n k)!
(4)
A m
edia de um variavel aleatoria Binomial e np e a vari
ancia e np(1 p).
Considere o seguinte exemplo. Suponha que num pedigree humano envolvendo albinismo
(o qual e recessivo), nos encontremos um casamento no qual sabe-se que ambos os parceiros
sao heterozigotos para o gene albino. De acordo com a teoria Mendeliana, a probabilidade
de que um filho desse casal seja albino e um quarto. (Ent
ao a probabilidade de nao ser
albino e 43 .)
Agora considere o mesmo casal com 2 criancas. A chance de que ambas sejam albinas
1
= 0.0625. A desma forma, a chance de ambas serem normais e ( 43 )2 =
e ( 14 )2 = 16
9
16 = 0.5625. Portanto, a probabilidade de que somente uma seja um albina deve ser
1
9
6
1 16
16
= 16
= 38 = 0.375. Alternativamente, poderiamos ter usado a formula acima
1
com n = 2, p = 4 , and k = 1.
Se agora considerarmos a famlia com n = 5 criancas, as probabilidades de existam k =
0, 1, 2, . . . , 5 criancas albinas, onde a probabilidade de albinismo e p = 14 , sao dadas por
5!
k!(5 k)!
P (k) =
k 5k
1
4
3
4
(5)
0.0
0.1
0.2
0.3
0.4
25
4.3
A distribuic
ao Poisson
20
40
60
80
10
11
12
13
14
0.0
0.05
0.10
0.15
10
11
12
13
14
A variancia de uma Poisson e igual a sua media, The variance of a Poisson distribution is
equal to its mean, .
26
4.4
Exerccios 2
0.5 C.
(a) Faca um esboco da distribuic
ao.
(b) Qual o percentual de dias nos quais o aumento da temperatura e maior do que
5.5 C?
3. Os pulsos em repouso de 920 pessoas sadias foram tomados, e uma media de 72.9
batidas por minuto (bpm) e um desvio padrao de 11.0 bpm foram obtidos. Um histograma dos dados mostra uma clara forma normal. De uma amplitude de referencia
de 95% para pulsos em repouso de pessoas sadias com base nesses dados.
27
28
5
5.1
Intervalos de Confianca
A id
eia b
asica de intervalos de confianca
Podemos tambem criar intervalos de confianca de 90%, 99%, 99.9%, etc, mas os intervalos
de confianca de 95% sao os mais utilizados.
29
5.2
Uma razao para a distribuicao Normal ser considerada tao importante e porque qualquer
que seja a distribuicao da variavel de interesse para grande amostras, a distribui
c
ao
das m
edias amostrais ser
ao aproximadamente normalmente distribudas, e tenderao a uma distribuicao normal `a medida que o tamanho de amostra crescer. Entao
podemos ter uma variavel original com uma distribuic
ao muito diferente da Normal (pode
ate mesmo ser discreta), mas se tomarmos varias amostras grandes desta distribuic
ao, e
entao fizermos um histograma das medias amostrais, a forma se parecera como uma curva
Normal.
e aproximadamente
A distribuicao da media amostral X
5.3
Exemplo simulado
30
400
0
100
200
300
400
300
200
100
0
0
10
10
10
10
10
300
200
100
0
100
200
300
400
400
10
300
200
100
0
100
200
300
400
(y1+y2)/2
400
(x1+x2)/2
10
300
200
100
0
100
200
300
400
(y1+y2+..+y5)/5
400
(x1+x2+..+x5)/5
10
(x1+x2+..+x10)/10
(y1+y2+..y10)/10
31
5.4
Na sec
ao anterior vimos que para uma amostra suficientemente grande a distribuic
ao das
S.E. da media
/ n
Isto significa que 68.3% de todas as medias amostrais cairao dentro de 1 SE da media
populacional . Similarmente 95% de todas as medias amostrais cairao dentro de 1.96
SE de .
entao intervalos da forma
+ 1.96 )
(
x 1.96 , x
n
n
conter
ao a verdadeira media populacional 95% das vezes.
Um problema com a construcao de tais intervalos e que nao sabemos o verdadeiro desvio padrao populacional . Para grandes tamanhos amostrais, contudo, o desvio padrao
amostral s sera uma boa estimativa de . Portanto, podemos substituir por s de modo
que podemos calcular o erro padrao como
SE = s/ n,
e um intervalo de confianca de aproximadamente 95% para e:
s
s
(
x 1.96 , x
+ 1.96 ).
n
n
Este tipo de intervalo de confianca para a media pode ser usado para grandes amostras,
independentemente da distribuicao da vari
avel original.
32
5.5
Para amostras pequenas, onde s e uma estimativa menos confiavel de , devemos construir
nosso intervalo de confianca de uma forma ligeiramente diferente.
Ao inves de usar o valor 1.96, usamos um valor ligeiramente maior para refletir nossa
reducao na confianca. Obtemos o valor requerido da tabela de distribuic
ao t. Tomamos
o valor correspondente `a linha r = n 1 graus de liberdade. Note que quanto menor n,
maiores os valores de t. Entao um intervalo de confianca exato e
s
s
(
x t(n1,0.05) , x
+ t(n1,0.05) ).
n
n
Note ainda que `a medida que n cresce, o valor de t torna-se proximo a 1.96.
Repare que se a distribuic
ao da vari
avel original e muito distante de ser normalmente
distribuda, e o tamanho amostral e muito pequeno, ent
ao as medias amostrais n
ao ter
ao
uma distribuic
ao aproximadamente normal e portanto este tipo de intervalo de confianca
n
ao ser
a muito preciso e n
ao deveria ser utilizado.
33
A distribuic
ao t
Valores de t para que P (| T |> t) = p, onde T tem um distribuic
ao T de Student com r
graus de liberdade.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
0.20
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
1.363
1.356
1.350
1.345
1.341
1.337
1.333
1.330
1.328
1.325
1.323
1.321
1.319
1.318
1.316
1.315
1.314
1.313
1.311
1.310
1.303
1.299
1.296
1.294
1.292
1.291
1.290
1.282
0.10
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
1.725
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699
1.697
1.684
1.676
1.671
1.667
1.664
1.662
1.660
1.645
p
0.05
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.021
2.009
2.000
1.994
1.990
1.987
1.984
1.960
34
0.01
63.657
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
3.169
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.861
2.845
2.831
2.819
2.807
2.797
2.787
2.779
2.771
2.763
2.756
2.750
2.704
2.678
2.660
2.648
2.639
2.632
2.626
2.576
0.001
636.619
31.599
12.924
8.610
6.869
5.959
5.408
5.041
4.781
4.587
4.437
4.318
4.221
4.140
4.073
4.015
3.965
3.922
3.883
3.850
3.819
3.792
3.768
3.745
3.725
3.707
3.690
3.674
3.659
3.646
3.551
3.496
3.460
3.435
3.416
3.402
3.390
3.291
5.6
5.6.1
Exemplos
Di
ametro de
arvores castanheiras
A seguir encontra-se uma amostra de 10 arvores castanheiras todas com 8 anos de idade
numa certa floresta. O diametro (polegadas) das arvores foram medidos `a uma altura de
3 pes:
19.4 21.4 22.3 22.1 20.1 23.8 24.6 19.9 21.5 19.1
Queremos encontrar um intervalo de confianca de 95% para o verdadeiro diametro medio
de todas as arvores castanheiras dessa idade na floresta. Usando uma calculadora, encontramos que x
=
e que s = . O erro padrao e portanto:
s
SE = =
n
5.6.2
Comprimento de plantas
Temos medidas dos comprimentos de 100 plantas que nasceram de sementes que foram
plantadas ao mesmo tempo. Um histograma dos dados tem uma forma aproximadamente
normal, e a media amostral e o desvio padrao amostral foram 74mm and 2.34mm, respectivamente. Construa um intervalo de confianca para o comprimento medio populacional
de plantes dessa mesma especie.
35
5.7
Exerccios 3
1. Os pulsos em repouso de 920 pessoas sadias foram tomados, e uma media de 72.9
batidas por minuto (bpm) e um desvio padrao de 11.0 bpm foram obtidos. Construa
um intervalo de confianca de 95% para a pulsac
ao media em repouso de pessoas
sadias com base nesses dados.
2. Tendo sido medido o eixo maior de 9 graos de quartzo de um corpo arenoso em uma
l
amina de arenito, obteve-se um comprimento amostral medio de 1,5mm e um desvio
padrao de 0,3mm. Deseja-se construir um intervalo de confianca para o comprimento
medio dos graos de quartzo do corpo arenoso.
3. Os QIs de 181 meninos com idades entre 6-7 anos de Curitiba foram medidos. O QI
medio foi 108.08, e o desvio padrao foi 14.38.
Calcule um intervalo de confianca de 95% para o QI medio populacional dos
meninos entre 6-7 anos de idade em Curitiba usando estes dados.
Interprete o intervalo de confianca com palavras.
Foi necessario assumir que os QIs tem distribuic
ao normal neste caso? Por que?
4. A seguinte tabela mostra os QIs de criancas por classe social dos pais.
I
II
IIIa
IIIb
IV
V
Classe social
Media
DP
N
umero
Limite inferior
Limite superior
Profissional
Gerencial
Nao-Manual
(clerico)
Manual
(com pratica)
Manual
(com pouca pratica)
Manual
(sem pratica)
112.27
112.65
13.16
11.01
30
78
107.36
117.18
108.86
13.94
28
104.38
14.41
152
96.97
10.13
37
98.85
14.02
20
Complete as duas u
ltimas colunas, as quais contem intervalos de confianca de
95% para o QI medio. Ilustre os IC graficamente.
Comente os padroes gerais que voce ve.
36
5.8
p(1 p)
.
n
q
SE =
p(1 p)
.
n
Note que nao sabemos o verdadeiro valor de p, e portanto usamos p na formula acima
para estimar SE.
Uma regra geral e que este intervalo de confianca e valido quando quando temos ambos
n
p e n(1 p) maiores do que digamos 10.
Em alguns livros o divisor n 1 e utlizado. Nao se preocupe quanto a isso; o intervalo
resultante nao sera notavelmente diferente.
5.8.1
Exemplo
37
5.9
Comparac
ao de intervalos de confianca
Suponha que tenhamos dois ou mais grupos separados, por exemplo, machos e femeas.
Algumas vezes pode-se construir um intervalo de confianca de 95% para a media para
cada um dos grupos, e entao contr
oi-se um grafico com esses intervalos contra um eixo
comum para verificar se existe uma intersec
ao (i.e. existem alguns valores em comum).
Se os intervalos nao se sobrepoem, ent
ao temos (pelo menos) 95% de confianca de que as
verdadeiras medias nao sao iguais. Embora estes graficos sejam u
teis para visualizac
ao,
utilizaremos um aboradgem mais formal (veja Sec
ao 7) para construir um intervalo de
confianca para a diferenca entre duas medias ou a diferenca entre duas proporc
oes.
5.9.1
Exemplo
Considere os dados de um estudo investigando a existencia de um balanco entre a proporcao de peixes machos e femeas de uma certa especie em dois lagos distintos. A proporcao observada de machos capturados no primeiro lago foi 74.4% dentre 43 capturados
e no segundo foi 60% dentre 50. Podemos agora construir intervalos de confianca para as
percentagens correspondente nas populac
oes dos dois lagos.
5.10
Exerccios 4
1. Um amigo sugere que voce lance uma moeda para ajudar voce a tomar uma decisao
muito importante, o resultado tambem o afetara. Seu amigo sugere que voce escolha
cara para tomar a decisao A, e coroa para tomar a decisao B a qual e a preferida
por ele. O u
nico problema e que seu amigo insiste que voce use uma moeda da
sorte dele. Voce fica um pouco suspeito e decide fazer um experimento enquanto
seu amigo nao esta olhando. Voce lanca a moeda 40 vezes e cara aparece somente 13
vezes. Construa um intervalo de 95% de confianca para a verdadeira proporc
ao de
caras p para ajuda-lo a decidir se voce acredita ou nao que a moeda e balanceada.
O que voce conclui?
2. Numa pesquisa eleitoral, 57 dentre 150 entrevistados afirmaram que votariam no
candidato X. Com uma confianca de 90%, o que voce pode dizer acerca da proporc
ao
real de votos aquele candidato tera?
3. Dentre 100 peixes capturados num certo lago, 18 nao estavam apropriados para
consumo devido aos nveis de poluic
ao do ambiente. Construa um intervalo de
confianca de 99% para a correspondente verdadeira proporc
ao.
38
6
6.1
Testes de Hip
oteses
Introduc
ao e notac
ao
Os p
assaros migrat
orios engordam antes de migrar?
Considere os dados coletados pelo ornitologista na pagina 15. Achamos apropriado apresentar os dados na forma de um ladder plot. Agora e natural perguntar se em media estes
passaros engordam entre Agosto e Setembro. Somente 10 passaros foram capturados e seu
peso medio nas duas ocasioes foram 11.47 e 12.35 ent
ao o peso medio aumentou para esta
amostra em particular. (Note que o mesmo conjunto de passaros foram medidos ambas
as vezes.) Podemos generalizar para o resto dos passaros que nao foram capturados? Sera
que esta diferenca poderia ser devida simplesmente ao acaso?
Queremos testar a hip
otese nula (H0 ) de que, em media, nao existe mudanca no peso
dos passaros. Assumiremos que os 10 passaros foram uma amostra aleatoria de todos os
passaros migradores daquela especie e usaremos primeiramente o que aprendemos sobre
intervalos de confianca para responder nossas perguntas.
Primeiro vamos calcular as mudancas de peso (Setembro-Agosto):
1.9 0.7
1.8 0.3
H1 : 6= 0.
Um procedimento u
til e calcular um intervalo de confianca para a media populacional
como descrito na Secao 5.5, e ver ser o intervalo inclui 0 como um valor plausvel.
Agora n = 10, x
= 0.88 e s = 1.065 para as diferencas, ent
ao
SE = s/ n = 1.065/ 10 = 0.337,
e um valor-t de 2.262 e obtido da coluna P = 0.05 e linha r = n 1 = 9. Um intervalo de
confianca de 95% para e portanto
(0.88 2.262 0.337, 0.88 + 2.262 0.337) = (0.12, 1.64).
O intervalo nao contem o valor 0, fornecendo evidencias contra a hipotese nula.
39
Podemos dizer: existem evidencias significativas (P < 0.05) de que, em media, os passaros
da especie estudada mudam de peso de Agosto para Setembro. Estamos 95% confiantes
de que em media os pesos aumentam por um montante entre 0.12 e 1.64 gramas.
Mas e o intervalo de 99%? Sera que ele conteria o valor 0? Este intervalo seria mais
amplo e entao e mais provavel que ele contenha 0. Se ele nao incluir 0, isto indicaria uma
evidencia ainda mais forte contra H0 .
Calculando o intervalo de confianca exatamente da mesma forma, exceto que desta vez
precisamos olhar na coluna P = 0.01 para obter t = 3.250:
(0.88 3.250 0.337, 0.88 + 3.250 0.337) = (0.21, 1.97).
Como esperado, este e mais amplo, e agora inclui o valor 0.
Podemos agora dizer: nao existem evidencias significativas ao nvel de 1% de que, em
media, os passaros da especie estudada mudam de peso de Agosto para Setembro.
O que nos acabamos de fazer foi conduzir um teste perfeitamente valido para a hipotese
nula usando intervalos de confianca. Podemos fazer o teste mais rapidamente e obter
exatamente as mesmas conclusoes pelo seguinte procedimento:
Calcule t = (
x 0)/SE = 0.88/0.337 = 2.61, o n
umero de erros padrao que x
dista
de 0.
Compare este valor de t com aqueles na linha r = n 1 = 9 da tabela.
Para este exemplo, t = 2.61 o qual esta entre os valores nas colunas P = 0.01 e
P = 0.05. Entao nosso valor deve corresponder a um P entre estes e portanto
devemos ter 0.01 < P < 0.05. (P e a probabilidade de observar um valor de t tao
grande ou mais extremo do que 2.61 se = 0.)
40
6.2
1. Estabeleca a hip
otese nula, H0 e a hipotese alternativa H1 .
2. Decida qual oteste a ser usado, checando se este e valido para o seu problema.
3. Calcule a estatstica de teste, T.
4. Encontre a probabilidade (p-valor) de observar um valor tao extremo ou maior
do que T se a hipotese nula e de fato verdadeira. Voce precisara se referir aos
valores crticos nas tabelas estatsticas as quais fornecem p-valores correspondendo
aos valores das estatstica de teste.
5. Avalie a forca da evidencia contra H0 .(Quanto menor p-valor, tanto mais evidencia
contra a hipotese nula.) Se necesario, decida se esta e evidencia suficiente para
rejeitar (ou n
ao rejeitar) a hipotese nula.
6. Estabeleca as conclus
oes e interpreta
c
ao dos resultados.
O p-valor e a probabilidade de observar dados tao extremos quanto os obtidos se a hipotese
nula e verdadeira. Note as seguintes interpretac
oes de p-valores:
P
P
P
P
P
<
<
<
<
0.10
0.10
0.05
0.01
0.001
41
6.3
6.4
p(1 p)/n.
4. Calcule t = (
p p0 )/SE, o n
umero de erros padrao que p dista do valor de hipotese
p0 .
5. Encontre o p-valor usando o valor absoluto da estatstica de teste da tabela da
distribuicao normal (ou equivalentemente da t com r = graus de liberdade).
Uma regra geral e que este teste e valido quando quando temos ambos n
p e n(1 p)
maiores do que digamos 10.
6.4.1
Exemplo
Referindo-se ao exemplo da Secao 5.8, suponha que alguem tenha sugerido de experiencias
passadas que 60% das larvas de mosquito no lago deveriam ser da especie Aedes detritus.
Foram encontrados 60 desse tipo de uma amostra de 80. Os dados suportam esta hipoteste?
42
6.5
Decis
oes e poder
Ao tomar uma decisao a favor ou contra uma hipotese existem dois tipos de erros que
voce pode cometer. Voce pode rejeitar a hipotese nula quando de fato ela e verdadeira
(erro tipo I) ou voce pode falhar em rejeitar H0 quando de fato ela e falsa (erro tipo
II). Existe um balanco entre esses dois tipos de erros, no sentido de que ao tentar-se
minizar a possibilidade de um tipo, aumenta-se a probabilidade do outro. Frequentemente
denotamos as probabilidades destes dois erros como e respectivamente.
Verdade
H0 verdadeiro
H0 falso
Decisao
Aceitar H0
Rejeitar H0
Erro Tipo I
(1 )
()
Erro Tipo II
(1 )
6.6
Dimensionamento de amostras
Vimos no Captulo 5 e nas secoes anteriores deste captulo como construir intervalos e
testes de hipoteses para os principais parametros populacionais. Em todos os, supusemos
dado o nvel de confianca desses intervalos e testes. Evidentemente, o nvel de confianca
deve ser fixado de acordo com a probabilidade de acerto que se deseja ter na estimac
ao
por intervalo e testes. Sendo conveniente, o nvel de confianca pode ser aumentado ate tao
proximo de 100% quanto se queira, mas isso resultara em intervalos de amplitude cada
vez maiores (e testes com poderes cada vez menores), o que significa perda de precisao
claro que seria desejavel termos intervalos com alto nvel de confianca e
na estimacao. E
pequena probabilidade de erro e grande precisao. Isso porem requer uma amostra suficientemente grande, pois, para n fixo, confianca e precisao variam em sentidos opostos.
Veremos a seguir como determinar o tamanho das amostras necessarias nos casos de estimacao da media ou de uma proporc
ao populacional. Vimos na Sec
ao 5.4 que o intervalo
de confianca de 95% para a media da populac
ao quando e conhecido tem semiamplitude d dada pela expressao
d = z ,
n
onde z = 1.96 para uma confianca de 95%. Ora, o problema ent
ao resolvido foi, fixados o
nvel de confianca (1 = 0.95) e n, determinar d. Mas, e evidente dessa expressao que
podemos resolver outro problema. Fixados, d e o nvel de confianca, determinar n, que e o
problema da determinacao do tamanho de amostra necessario para se realizar a estimacao
43
n=
z
d
n=
t(n0 1,0.05) s
d
p(1 p)
,
n
d=z
podemos obter
n=
z
d
p(1 p).
0.00
0.05
0.10
p(1p)
0.15
0.20
0.25
0.0
0.2
0.4
0.6
p
44
0.8
1.0
Se substituirmos, p(1 p) por seu valor maximo, 1/4, seguramente o tamanho de amostra
obtido sera suficiente para a estimac
ao de qualquer que seja p. Isso equivale a considerar
2
n=
z
d
1
=
4
z
2d
Evidentemente, usando-se essa expressao corre-se o risco de se superdimensionar a amostra. Isso ocorrera se p for na realidade proximo de 0 ou 1. Se o custo envolvido for elevado
e proporcional ao tamanho de amostra, e mais prudente a tomada de uma amostra-piloto.
6.6.1
Exemplos
45
6.7
Exerccios 5
1. Exerccios 3, item 2. Teste a hipotese nula de que essa amostra provem de um corpo
arenoso cuja media e = 0, 5mm.
2. A fim de testar a ocorrencia de estratificac
ao gradacional num certo arenito, amostras
foram coletadas na base e no topo de 7 estratos desse arenito. Aplicando-se o teste-t
verificar se as diferencas entre o tamanho medio das partculas da base e do topo
sao significativas ou nao.
Estratos
1
2
3
4
5
6
7
base
2,81
3,95
3,75
2,68
3,25
3,90
3,30
topo
3,13
4,13
3,88
2,91
3,65
4,20
3,12
d=t-b
0,32
0,18
0,13
0,23
0,36
0,30
-0,18
15
14
12
16
14
15
17
15
15
13
16
14
15
15
14
16
16
15
Esses dados sao suficientes, pergunta-se, para estimar o tempo medio gasto na precipitacao com precisao de meio segundo e 95% de confianca? Caso negativo, qual o
tamanho da amostra adicional necessaria?
4. Deseja-se estimar a resitencia media de certo tipo de peca com precisao de 2kg e
95% de confianca. Desconhecendo-se a variabilidade dessa resistencia, roperam-se
cinco pecas, obtendo-se para elas os seguintes valores de sua resitencia (em kg):
50,58,52,49,55. Com base no resultado obtido, determinou-se que deveriam ser rompidas mais quinze pecas, a fim de se conseguir o resultado desejado. Qual sua opiniao
a respeito dessa conclusao?
5. Exerccios 4, item 1. Realize um teste estatstico para ajuda-lo na decisao se voce
deve ou nao acreditar que a moeda e balanceada. Qual a sua conclusao?
6. Suponha que estejamos interessados em estimar a proporc
ao de todos os motoristas
que excedem o limite maximo de velocidade num trecho da rodovia entre CuritibaSao Paulo. Quao grande deve ser a amostra para que estejamos pelo menos 99%
confiantes de que o erro de nossa estimativa, a proporc
ao amostral, seja no maximo
0,04?
7. Refaca o exerccio anterior, sabendo que temos boas razoes para acreditar que a
proporcao que estamos tentando estimar e no mnimo 0,65.
46
7
7.1
Diferenca entre m
edias de dois grupos
Na Secao 5.4, vimos como construir um intervalo de confianca para a media populacional
, de uma amostra aleatoria de tamanho n. Lembre-se que este intervalo de confianca
era da forma x
t SE or (
x t SE, x
+ t SE). Agora consideremos a comparacao
das medias de das populacoes (por exemplo, machos e femeas) atraves da estimac
ao das
diferen
cas de m
edias e calculando um intervalo de confianca para esta diferenca das
medias.
Quando temos amostras independentes de cada uma de duas populac
oes, podemos
sumariza-las pelas suas medias, desvios padrao e tamanhos amostrais. Denote estas medidas por x
1 , s1 , n1 para a amostra um e x
2 , s2 , n2 para a amostra dois. Denote as
correspondentes medias populacionais e desvios padrao 1 , 2 , 1 e 2 respectivamente.
Para os dados de alturas dos estudantes da pagina 13, vamos comparar a altura media
dos estudantes do sexo masculino com as dos sexo feminino. Seja os grupo dos homens
a amostra um, e o grupo das mulheres a amostra dois. As alturas foram medidas em
centmetros e as medidas sumarias foram como segue:
x
1 = 178.85, s1 = 7.734, n1 = 20,
x
2 = 164.09, s2 = 9.750, n2 = 17.
Agora claramente uma estimativa natural da diferenca entre medias na populac
ao, 1 2 ,
e dada pela diferen
ca nas m
edias amostrais:
x
1 x
2 ,
e para nossos dados esta e 178.85 164.09 = 14.76. Agora o que precisamos e um erro
padrao para esta estimativa para que possamos construir um intervalo de confianca ou
realizar um teste da hipotese nula H0 : 1 2 = 0 versus H1 : 1 2 6= 0.
7.1.1
Erro padr
ao - assumindo desvios padr
ao iguais
entao sp = 75.92801 = 8.71. Note que esta entre s1 e s2 . Se voce obtiver um valor que
nao esta entre estes valores entao seus calculos estao errados.
47
SE = sp
a qual para nossos dados e 8.71
7.1.2
1
1
+ .
n1 n2
(
x1 x
2 ) + t SE) ,
(8.93, 20.59).
(
x1 x
2 ) 0
,
SE
que e a estimativa de 1 2 menos o valor hipotetico (zero neste caso) e tudo dividido
pelo erro padrao.
t=
7.1.4
Uma regra pratica e que os desvios padrao populacionais 1 e 2 podem em geral ser
assumidas iguais se a raz
ao do maior desvio padrao amostral para o menor for menor do
que 2 ou 3. Alem disso a suposic
ao de vari
ancias iguais pode ser grosseiramente avaliada
atraves de historgramas dos dados. Testes formais estao disponveis se necessario.
Se os desvios padrao populacionais n
ao puderem ser assumidos iguais, usamos uma outra
formula para o erro padrao de x
1 x
2 , dado por
s
SE =
s21
s2
+ 2.
n1 n2
SE =
(7.734)2 (9.750)2
+
= 2.93 kg
20
17
49
7.2
Amostras pareadas
0.9
d 0
=
= 2.73.
0.33
SE(d)
Note que este valor e negativo (porque a mudanca media observada foi a reduc
ao na
concentracao do poluente um valor positivo seria um aumento na concentrac
ao do
poluente). Observamos o valor absoluto da estatstica de teste (2.73) na tabela, usando a
linha com n 1 = 5 graus de liberdade.
A quinta linha da tabela mostra que 0.01 < p < 0.05 (porque o valor 2.73 esta entre os
valores tabelados 2.571 e 4.032). Ent
ao, rejeitamos a hipotese nula ao nvel de 5%. Existe
evidencia ao nvel de 5% de que a
area em estudo sofreu uma reduc
ao em media nos nveis
do contaminante durante o perodo de seis meses.
50
51
7.3
Comparando proporc
oes
Intervalo de confian
ca para a diferen
ca em propor
c
oes
p2 = 0.600,
SE =
p1 (1 p1 ) p2 (1 p2 )
+
.
n1
n2
52
SE =
7.4
Exerccios 6
1. Um experimento (hipotetico) sobre o efeito do alcool na habilidade perceptual motora e conduzido. 10 indivduos sao testado duas vezes, uma depois de ter tomado
dois drinks e uma depois de tomado dois copos de agua. Os dois testes foram realizados em dois dias diferentes para evitar influencia do efeito do alcool. Metade
dos indivduos tomou a bebida alcoolica primeiro e a outra metade agua. Os escores
dos 10 indivduos sao mostrados abaixo. Escores mais altos refletem uma melhor
performance. Deseja-se testar se a bebida alcoolica teve um efeito singificante. Use
um nvel de significancia de 1%.
-----------------------------------indiv
duo
1 2 3 4 5 6 7 8 9 10
-----------------------------------agua
16 15 11 20 19 14 13 15 14 16
alcool 13 13 12 16 16 11 10 15 9 16
------------------------------------
53
54
8
8.1
Correlac
ao
Relaco
es entre vari
aveis
0.68
2.05
0.85
1.83
0.66
1.84
0.50
1.87
1.86
1.82
2.33
1.85
2.17
1.75
1.83
1.51
1.68
1.38
diametro de sedimentos x
0.79
0.55
0.65
0.47
0.81
0.59
0.74
0.47
0.22
0.50
0.23
0.52
0.25
0.47
0.26
0.42
0.41
0.37
A associa
c
ao linear entre duas vari
aveis e avaliada usando correla
c
ao. Para predizer o
valor de uma variavel contnua a partir de uma outra vari
avel e para descrever a relac
ao
entre duas variaveis utiliza-se regress
ao (veja o proximo captulo).
O primeiro estagio em qualquer um dos casos e produzir um gr
afico de pontos dos dados
para obter alguma ideia da forma e grau de associac
ao entre duas vari
aveis.
55
2.0
1.5
0.5
1.0
0.2
0.3
0.4
0.5
0.6
0.7
0.8
8.2
Definico
es
sxy =
sxy
.
sx sy
(xi x
)(yi y)
=
n1
xi yi n
xy
.
n1
Assim como para medias e desvios padrao, existe uma letra Grega especial que utlizamos
para o coeficiante de correla
c
ao populacional: . Podemos considerar r como sendo
uma estimativa de , exatamente como x
e uma estimativa da media populacional .
Abaixo estao exemplos de dados com seus coeficientes de correlac
ao correspondentes.
56
8.3
r=0.4
r=0.7
r=1.0
r=-0.3
r=-0.6
r=-0.9
Interpreta
c
ao do coeficiente de correlac
ao
Valores de r
negativos
positivos
negativa
positiva
Uma
Uma
Uma
Uma
Uma
Interpretac
ao
correlac
ao bem fraca
correlac
ao fraca
correlac
ao moderada
correlac
ao forte
correlac
ao muito forte
Note que correlacoes nao dependem da escala de valores de x ou y. (Por exemplo, obteramos o mesmo valor se medssemos altura e peso em metros e kilogramas ou em pes e
libras.)
57
8.4
Linearidade e normalidade
8
Log Military expenditure
Military expenditure
6000
4000
2000
50000
2
100000 150000
10
11
58
12
8.5
Coeficiente de determinac
ao, R2
8.6
Associac
ao n
ao
e causalidade
8.7
Exerccios 7
1. Um estudo geoqumico orientador realizado, utilizando amostras compostas de sedimentos de corrente com granulometria de 100-150 mesh e profundidade de 40cm,
provenientes de riachos correndo sobre granulitos, revelou os seguintes resultados em
ppm:
59
Ni
5.2
5.0
6.8
7.5
2.5
5.0
7.5
7.0
8.0
4.0
Cr
16.8
20.0
14.2
17.5
10.1
15.5
13.8
18.2
13.0
15.0
Ni
4.5
5.4
8.8
18.0
6.2
20.5
10.0
4.0
4.4
15.9
Cr
15.5
13.0
12.5
20.2
12.5
13.5
17.8
12.8
12.2
13.0
angulo de inclinacao y
0.68
2.05
0.85
1.83
0.66
1.84
0.50
1.87
1.86
1.82
2.33
1.85
2.17
1.75
1.83
1.51
1.68
1.38
profundidade x
12.4
13.3
11.4
14.1
10.7
13.4
11.6
13.5
11.3
13.3
10.7
14.4
11.1
14.1
12.8
15.3
13.3
14.0
(a) Faca o grafico desses dados com profundidade da lamina dagua no eixo x.
(b) Calcule o coeficiente de correlac
ao, r e interprete o resultado obtido.
(c) Qual proporcao da variabilidade em angulo de inclinac
ao pode ser explicada
por profundidade da lamina dagua?
60
9
9.1
Regress
ao
Id
eia b
asica
40
50
60
Weight (kg)
70
80
90
Retorne aos dados de altura e peso de estudantes na pagina 13. Denote as alturas por
x1 , x2 , . . . , xn , e os pesos por y1 , y2 , . . . , yn . (Por enquanto vamos ignorar se eles sao do
sexo masculino ou feminino). Se estamos interessados em predizer peso de altura ent
ao nao
temos uma relacao simetrica entre as duas vari
aveis. Chamamos peso a vari
avel resposta
ou dependente, e altura a variavel explanat
oria, preditora ou independente. A
variavel resposta e sempre disposta no eixo vertical y, e a vari
avel explanatoria e sempre
disposta no eixo x.
140
150
160
170
Height (cm)
180
190
200
61
O metodo padrao para obter a melhor reta ajustada e chamado mnimos quadrados
o qual literalmente miniza a soma dos quadrados das distancias de yi `
a reta ajustada.
Em princpio isto requer tracar retas possveis, calculando a soma dos quadrados das
distancias:
n
n
S=
(yi yi )2
i=1
i=1
b=
xi yi n
xy
(yi y)(xi x
)
sxy
P
= P 2
= 2
2
2
(xi x
)
x n
x
sx
e
a = y b
x.
Para os dados de altura e peso a = 51.17kg e b = 0.68kg/cm; ent
ao a reta de regressao e
y = 51.17 + 0.68x.
Nossa reta ajustada e uma estimativa da reta de regress
ao populacional, y = +x.
9.2
Modelo de regress
ao linear simples
62
O modelo de regress
ao linear e
yi = + xi + i
onde i representa desvios independentes aleatorios da relac
ao linear entre y e x e (para
satisfazer nossas tres suposicoes acima)
i Normal(0, 2 ).
Note que e sao par
ametros da populac
ao, e eles sao frequentemente conhecidos como
coeficientes. Em particular, e denominado coeficiente, ou efeito, de x.
0.0
0.2
0.4
sqrt(y)
0.6
0.8
1.0
1.2
1.4
0.0
0.2
0.4
0.6
0.8
1.0
1.5
0.0
0.5
1.0
0.0
0.2
0.4
0.6
x
63
0.8
1.0
9.3
Estimando os par
ametros do modelo
= sxy /s2
e
= y x
x
Em aplicacoes, nao existe garantia de que o modelo de regressao linear sera resoavel para
sobre um scatterplot
nossos dados. Devemos sempre sobrepor a reta ajustada y =
+ x
dos dados para checar se o modelo e razoavel. Devemos procurar por evidencias de uma
relacao nao-linear, ou desvios muito extremos da reta ajustada.
Se acharmos que o modelo esta razoavel, podemos tambem estimar 2 , a vari
ancia dos
erros i , usando a formula
(n 1) 2 2 2
2 =
{s sx }
(n 2) y
onde s2y e s2x denotam a variancia amostral de y e de x, respectivamente.
9.3.1
Exemplo
40
50
60
Weight (kg)
70
80
90
140
150
160
170
Height (cm)
180
190
200
O ajuste da reta nao parece tao bom. Existem dois pontos bem distantes da reta ajustada,
e o da esquerda em particular parece ter uma grande influencia na reta ajustada. Na
pratica e aconselhavel investigar a acuracia destes valores e/ou verificar quanto muda a
reta ajsutada quando estes pontos sao removidos. Contudo, por enquanto prosseguiremos
assumindo que esta tudo ok!
64
sx = 11.38700,
sy = 11.70791,
sxy = 88.77102.
2 =
36
{(11.707912 ) (0.68462532 )(11.387002 )} = 78.48
35
Entao uma estimativa do desvio padrao dos desvios aleatorios i em torno da reta e
= 78.48 = 8.86
9.4
SE =
2 /{(n 1)s2x }
Podemos tambem ter interesse em testar a hipotese H0 : = 0, ou seja, de que nao exista
relacao entre x e y. Nesse caso, procedemos como segue:
1. Calcule t = ( 0)/SE.
2. Procure na tabela t, o p-valor correspondente ao seu valor de t na linha r = n 2
da tabela para sumarizar a evidencia contra H0 .
9.4.1
Exemplo
Para os dados dos estudantes, um teste da hipotese nula de nao existencia de relac
ao entre
altura e peso fica como segue.
q
SE =
65
9.5
Transforma
c
oes de dados
9.6
Resumo
Regressao permite-nos:
Descrever suscintamente o nvel geral de uma vari
avel que esta associada com cada
nvel de outra.
importante aqui distinguir entre
Predizer uma variavel de uma outra vari
avel. E
interpola
c
ao (predicao dentro da amplitude dos dados amostrados; no exemplo,
predicao do peso de uma pessoa de altura 170 cm) e extrapola
c
ao (predic
ao fora
da amplitude dos dados; no exemplo, predic
ao do peso de alguem com altura 70cm
como sendo aproximadamente 3kg!).
9.7
Exerccios 8
1. Com relacao aos dados apresentados no Captulo 8 sobre processos praianos condicionando a inclinacao da zona pos-praia abaixa da linha da mare baixa.
(a) Ajuste um modelo de regressao linear simples a partir do qual podemos predizer a inclinacao do fundo oceanico situado logo apos a linha da mare baixa a
estirancio em termos do diametro medio do sedimento do fundo oceanico. Adicione a reta ajustada ao grafico de dispersao apresentado no captulo anterior.
(b) Explique em palavras o que a equac
ao de regressao esta lhe dizendo.
(c) Quais suposicoes foram feitas para obrter essa equac
ao?
(d) Como voce poderia decidir se a aparente associac
ao entre inclinac
ao e diametro
foi ou nao meramente casual?
(e) Com base nesse equacao, qual seria sua predic
ao para a inclinac
ao da zona pospraia para um diametro medio do sedimento do fundo oceanico de 0.50mm?
66