Escolar Documentos
Profissional Documentos
Cultura Documentos
Fbio Rampazzo Mathias a Fernando Henrique Ferraz Pereira da Rosa Matheus Moreira Costa Vagner Aparecido Pedro Junior Paulo Eduardo Bani de Carvalho 22 de novembro de 2003
Lista 5 1. A tabela abaixo contm os valores de altura (cm) e comprimento do ane tebrao (cm) de 10 mulheres adultas. c altura 165.80 169.80 170.70 167.80 157.50 165.90 158.70 169.00 158.70 161.50 antebraco 28.20 29.10 29.50 28.60 27.30 29.00 27.80 28.80 27.20 27.80
1 2 3 4 5 6 7 8 9 10
(a) Qual a estrutura dos dados. Classique as variveis. a As duas variveis so quantitativas cont a a nuas e medidas pareadas para cada indiv duo amostrado. (b) Construa o diagrama de disperso entre as variveis. Comente. a a Na gura 1 temos o diagrama de disperso entre as duas vari a aveis. Parece haver uma associacao linear entre as duas. (c) Como prever a altura de mulheres a partir do comprimento de seu antebrao? Obtenha a reta de m c nimos quadrados que pode ser ajustada a estes dados. Interprete os valores dos parmetros obtidos. a Qual a altura esperada de mulheres com 28 cm de antebrao? c Podemos prever a altura de mulheres a patir do comprimento de seu antebrao fazendo uma regresso linear do tipo c a 1
altura
158
160
162
164
166
168
170
27.5
28.0
28.5 antebrao
29.0
29.5
altura = + antebrao c Pelo mtodo dos m e nimos quadrados, obtemos a reta ajuste altura = 4.4925 + 5.9666 antebraco O primeiro um parmetro de locaao entre as duas variveis, e nesse e a c a caso no tem algum signicado especial a no ser xar a distncia. a a a O segundo parmetro quer dizer que para uma variaao de 1 cm no a c tamanho do antebrao, implicar em uma variaao de 6 cm na altura c a c do indiv duo. Na gura 2 temos o diagrama de disperso com a reta de m a nimos quadrados. A altura esperada de mulheres com 28 cm de antebrao pode ser c obtida atravs da avaliaao da funao cujos parmetros estimamos e c c a por m nimos quadrados no ponto 28: 162.57.
altura
158
160
162
164
166
168
170
27.5
28.0
28.5 antebrao
29.0
29.5
Figura 2: Regresso por M a nimos Quadrados (d) Agora, para cada um dos 10 valores amostrais de antebrao obtenha o c valor ajustado e residual da altura. Construa um grco de disperso a a dos res duos pelos valores ajustados. Comente. Na tabela 1 temos os valores pedidos e na gura 3 temos o grco a de disperso. Parece haver distribuiao normal dos res a c duos, no a havendo nenhuma tendncia evidente. e (e) Obtenha a varincia amostral da altura das mulheres adultas. Cala cule tambm a variabilidade dos valores ajustados e a varincia dos e a res duos. Como usar estas medidas de variabilidade na anlise do a relacionamento funcional entre a altura e antebrao? (Lembre-se da c decomposiao da soma de quadrados total em componentes ortogoc nais, do coeciente de determinaao e da estat c stica F). A varincia amostral da altura das mulheres adultas se 25.176, a e enquanto a varincia dos valores ajustados dada por 22.234 e a a e varincia dos res a duos dada por 2.9420. Esses valores querem dizer e que a maior parte da variabilidade da varivel resposta est sendo a a explicada pela varivel preditiva (atravs do modelo linear), enquanto a e que h ainda uma pequena parcela de informaao contida no res a c duo.
Residuals vs Fitted
1
Residuals
3 158
160
162
164
166
168
170
172
1 2 3 4 5 6 7 8 9 10
antebraco 28.20 29.10 29.50 28.60 27.30 29.00 27.80 28.80 27.20 27.80
altura 165.80 169.80 170.70 167.80 157.50 165.90 158.70 169.00 158.70 161.50
altura.predita 163.76 169.13 171.52 166.15 158.39 168.54 161.38 167.34 157.80 161.38
residuo 2.04 0.67 0.82 1.65 0.89 2.64 2.68 1.66 0.90 0.12
2. Considere o arquivo PULSE do Minitab. Ns j estudamos como a coro a rida inuencia a pulsaao dos estudantes atravs de anlises descritivas c e a de comparaao entre mdias (em amostras dependentes e independentes). c e Agora para a mesma nalidade vamos usar anlise de regresso. Construa a a um diagrama de disperso das variveis Pulse2 x Pulse1 identicando os a a estudantes que correram e os que no correram. Obtenha a reta de m a nimos quadrados para cada grupo e interprete os parmetros obtidos. Existe a efeito da corrida? Temos o diagrama de disperso na gura 4. E o diagrama de disperso com a a a regresso por m a nimos quadrados em 5. Para os que correram obtemos: P ulse2 = 18.471 + 1.0060 P ulse2 E para os que no correram: a P ulse2 = 10.832 + 0.84898 P ulse2 Notemos que ambos os parmetros da regresso no caso dos que correram a a foram mais altos que no dos que no correram. O parmetro de inclinia a naao aumentou de cerca de 0.8 para cerca de 1: o aumento na inclinaao c c da reta foi moderado mas no poderiamos esperar muito mais que isso em a se tratando de pulsaoes. O outro parmetro, de interceptaao, subiu de c a c 10 para 18, reetindo o aumento no nmero de pulsaoes. Desta forma, u c conclu mos que existe efeito da corrida sobre as pulsaoes. c
140
50
60
70 Pulse1
80
90
100
50
60
70
80
90
100
Correu
140
No Correu
120
Pulse2
100
80
60
50
60
70
80
90
100
Pulse1
3. Considere o arquivo TREES do Minitab. (a) Faa dois diagramas de disperso: Volume x Dimetro e Volume x c a a Altura. Comente. Os diagramas de disperso podem ser observados nas guras 6 e 7. a H uma clara associaao linear bem mais evidente entre Volume e a c Dimetro. a The following object(s) are masked from pulse : Height
Volume
10 8
20
30
40
50
60
70
10
12
14 Diameter
16
18
20
Figura 6: Diagrama de disperso: Volume x Dimetro a a (b) Numa reserva orestal como seria mais fcil prever o volume de uma a arvore: pelo seu dimetro ou altura? Justique. a Certamente pelo seu dimetro, pois como vimos pelos diagrams de a disperso a associaao linear bem mais evidente. a c e
Volume
10
20
30
40
50
60
70
65
70
75 Height
80
85
10
4. Considere o arquivo CHOLEST do Minitab. Calcule o coeciente de correlaao entre as medidas de colesterol do 2o., 4o. e 14o dia ps a cirurgia. c o Estime tambm a matriz de varincia e covarincia destes dados. Que e a a estrutura parecer ser mais adequada para modelar a dependncia neste e caso: uma estrutura de correlaao uniforme, serial o no estruturada? c a A estrutura mais adequada parece uma estrutura de correlaao serial: c note-se que h correleao entre o 2o. e o 4o. dia, e ela mantida entre o a c e 4o. e o 14o. dia. Entretanto ela no se mantm to forte entre o 2o. e o a e a 14o. dias. X2.Day X4.Day X14.Day X2.Day 2299.04 1448.91 813.26 X4.Day 1448.91 1924.58 1348.91 X14.Day 813.26 1348.91 1864.82
11
5. Considere o arquivo Fa do Minitab. (a) Para as variveis (X, Y 1), (X, Y 2), (X, Y 3) e (X4, Y 4) obtenha os a correspondentes coecientes de correlaao linear de Pearson e os ajusc tes de regresso linear simples. Comente os resultados. a 0.816 3 0.5 0.816 3 0.5 0.816 3 0.5 0.817 3 0.5
Como pode-se notar pela tabela, todos os valores so iguais, como se a estivessemos lidando com o mesmo conjunto de dados em cada caso. (b) Agora, em cada caso, obtenha os diagramas de disperso com o dea senho da reta ajustada correspondente. Comente a qualidade dos ajustes obtidos. Podemos ver esses diagramas na gura 8. Os ajustes esto muito a ruins, a descontar o primeiro.
11
4 5 6 7 8 9
Y1
Y2 4 6 8 X 10 12 14
3 4
8 X
10
12
14
12
Y3
10
Y4 8 6 4 6 8 X 10 12 14 6 8 8
10
12
10
12
14 X4
16
18
12
(c) Obtenha, em cada caso, os grcos de disperso do res a a duo x ajustado. Qual o melhor ajuste? e Podemos ver esses diagramas na gura 9 esses diagramas. Claramente o primeiro (X, Y 1) o melhor ajuste. e
Residuals vs Fitted
2
9
Residuals vs Fitted
4
Residuals
Residuals
10 3
1
8
10
10
Fitted values
Fitted values
Residuals vs Fitted
3
3
Residuals vs Fitted
2 Residuals 1 2 7
7 4 5
Residuals
10
10
11
12
Fitted values
Fitted values
13
6. Os dados a seguir referem-se a uma medida de contaminaao de um tipo c de fruto pela aotoxina. Esta contaminaao caracteriza-se pela ocorrncia c e muito concentrada em pequenas partes do produto, o que conduz a grandes variaoes entre as mensuraoes. Foram examinados 11 frutos, cada um em c c 16 regies. o 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1 121 72 118 91 105 151 125 84 138 83 117 91 101 75 137 146 2 95 56 72 59 115 42 99 54 90 92 67 92 100 77 92 66 3 20 20 25 22 25 21 19 24 24 20 12 24 15 15 23 22 4 22 33 23 68 28 27 29 29 52 29 22 29 37 41 24 36 5 30 26 26 36 48 50 16 31 22 27 23 35 52 28 37 NA 6 11 19 13 13 12 17 13 18 18 17 16 14 11 15 16 12 7 29 33 37 25 25 36 49 38 29 29 32 40 36 31 32 NA 8 34 28 35 33 32 29 32 33 31 32 29 26 37 28 31 32 9 17 18 11 12 25 20 17 9 15 21 17 19 23 17 15 17 10 8 6 7 5 7 7 12 8 9 14 13 11 5 7 4 12 11 53 113 70 100 87 83 83 65 74 112 98 85 82 95 60 NA
(a) Descreva a estrutura dos dados. Os dados consistem em 16 variveis (correspondentes a regies dos a o frutos), medidas cada uma em 11 frutos. As medidas no so indea a pendentres (quando tomamos varias variveis dentro de um mesmo a fruto), pois esperado que haja correlaao, j que est se medindo o e c a a n de ocorrncia da concentraao por fruto. vel e c (b) Construa um grco de disperso entre os 11 valores da mdia e desa a e vio padro. Comente. Como ca esse relacionamento se considerara mos uma transformaao logar c tmica dos dados? Essa transformaao c estabilizou a varincia? Comente. a O grco de disperso mdia x dp est na gura 10. Parece haver a a e a uma relaao linear positiva entre a mdia o desvio-padro: quanto c e a maior a mdia, maior o desvio-padro. e a O mesmo grco para os dados transformados est na gura 11, A a a transformaao logar c tmica estabilizou a varincia, fazendo desaparea cer a relaao linear que antes havia entre mdia e desvio-padro. c e a (c) Calcule os coecientes de variaao e seu valor mdio para os 11 fruc e tos. Apresente uma estimativa para a variaao na contaminaao do c c produto. Na tabela 2 temos os coecientes de variaao para cada fruto e e temos c que sua mdia dada por 24.1. Isso nos leva a concluir que a variaao e e c 14
dp
10
15
20
25
20
40
60 media
80
100
Figura 10: Grco de Disperso de Mdia versus Desvio-Padro a a e a pela contamiao est em torno de 25%, com algumas execesses como c a o no caso do fruto 8, em que a variaao menor. c e 1 23.36 2 25.88 3 18.66 4 36.82 5 32.74 6 18.05 7 18.66 8 9.08 9 24.54 10 36.46 11 21.12
15
dp(log(x))
0.10 2.0
0.15
0.20
0.25
0.30
0.35
2.5
3.0
3.5 media(log(x))
4.0
4.5
Figura 11: Grco de Disperso de Mdia versus Desvio-Padro (dados transa a e a formados)
16
7. Considere o arquivo GRADES do Minitab. (a) Qual a correlaao entre as notas de aptido verbal (C1) e as notas c a de um teste de aptido em Matemtica (C2)? Comente o grau de a a relacionamento. O coeciente de correlaao de Pearson para essas duas variveis de c a e 0.275. H uma correlaao baixa entre das duas variveis. a c a (b) O coeciente de correlaao de Spearman uma alternativa ao de Pec e arson, com a diferna que ele no calculado diretamente nos dados, c a e mas sim a partir da ordem em que aparecem. Deve-se atribuir postos as observaoes de cada varivel e em seguida calcular o coeciente de ` c a correlaao de Pearson. Apresente uma interpretaao intuitiva para a c c associaao medida por este coeciente. Calcule este coeciente para c os dados C1 e C2. Esse coeciente representa uma medida de concordncia entre os posa tos dos dados. Para o caso dos dados de aptido verbal e em matea mtica, o que ele est medindo se a posiao relativa que um dado a a e c aluno recebeu na nota do teste de matemtica, foi prxima da que a o ele recebeu no teste de aptido verbal. Para esses dados o valor desse a coeciente de 0.266, o que no indica um grau forte de concordncia e a a entre as duas avaliaoes. c
17
Verbal
400 450
500
600
700
500
550
600 Math
650
700
750
800
18
8. Os dados a seguir correspondem aos recordes de atletas de 10 pa na ses Ol mpiada de Los Angeles em 1984 em algumas provas de atletismo. (a) Descreva a estrutura dos dados. Os dados consistem de medidas de desempenho de atletas, por pa s e por sexo, para 4 tipos de provas diferentes. (b) Construa diagramas de disperso e calcule coeciente de correlaao a c entre as variveis. Discuta os resultados. a Comecemos com uma matriz de grcos de disperso para os dois a a grupos de dados, homens e mulheres. Na gura 13 temos os grcos a de disperso para os homens e na gura 14 os para as mulheres. Os a coecientes de correlaao para essas matrizes seguem nas tabelas 3 e c 4. m100 m400 m3000 maratona m100 1.00 0.75 0.10 0.14 m400 0.75 1.00 0.55 0.48 m3000 0.10 0.55 1.00 0.88 maratona 0.14 0.48 0.88 1.00
Tabela 3: Matriz de correlaao entre os desempenhos nas corridas: homens c m100 1.00 0.86 0.55 0.70 m400 0.86 1.00 0.65 0.66 m3000 0.55 0.65 1.00 0.84 maratona 0.70 0.66 0.84 1.00
Tabela 4: Matriz de correlaao entre os desempenhos nas corridas: mulheres c Os diagramas de disperso e os coecientes de correlaao mostram a c que h algumas associaoes lineares entre os tempos de corrida para a c algumas provas entre mulheres e homens, por pa Em especial, h s. a uma forte correlaao liner entre o tempo de prova na Maratona e c nos 3000m metros, tanto para homens, quanto para mulheres, para os diferentes pa ses. Outra associaao linear vis entre o desemc vel e penho nas provas de 100m e 400m, tanto para homens quanto para mulheres. Outra anlise poss a dos coecientes de correlaao de Spearman, a vel e c para vericar o grau de concordncia entre as colocaoes dos atletas a c entre os pa de acordo com o sexo. Intuitivamente, dada uma prova ses o que esse coeciente estar medindo se o desempenho dos atletas a e por pa variou de acordo com o sexo. Ou seja, se os homens de s um dado pais vo bem as mulheres tambm vo e vice-versa. Esses a e a coecientes se encontram na tabela 5. Eles mostram que h uma a 19
44.0
45.0
46.0
128
132
136
46.0
44.0
45.0
m400
14.0
m3000
136
128
132
maratona
10.0
10.2
10.4
13.2
13.6
14.0
Figura 13: Grcos de disperso para homens a a concordncia signicativa, principalmente para as provas de menor a comprimento, como a dos 100m. m100 0.82 0.65 0.04 0.30 m400 0.65 0.78 0.38 0.44 m3000 0.50 0.58 0.65 0.71 maratona 0.61 0.43 0.31 0.53
20
13.2
13.6
10.0
10.2
m100
10.4
48
50
52
54
150
170 12.0
52
54
m400
9.8
48
50
170
maratona
150
10.8
11.2
11.6
12.0
8.6
9.0
9.4
9.8
21
8.6
9.0
m3000
9.4
10.8
11.2
m100
11.6
9. Em horticultura, um pesquisador conduziu um experimento para valiar se a correlaao entre o tamanho de um canteiro (varivel X, em m2 ) e o c a nmero de hores por arvore (varivel Y) depende do tratamento (tipos u a de fertilizante: F1,F2,F3 e F4). Y 60.00 77.00 80.00 95.00 64.00 98.00 55.00 60.00 75.00 65.00 87.00 78.00 71.00 80.00 86.00 82.00 46.00 55.00 76.00 68.00 43.00 47.00 62.00 70.00 X 4.00 7.00 9.00 14.00 5.00 15.00 4.00 5.00 8.00 7.00 13.00 11.00 10.00 12.00 14.00 13.00 2.00 3.00 11.00 10.00 2.00 3.00 7.00 9.00 fertilizante F1 F1 F1 F1 F1 F1 F2 F2 F2 F2 F2 F2 F3 F3 F3 F3 F3 F3 F4 F4 F4 F4 F4 F4
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
(a) Faa os grcos de disperso de Y x X, para cada n de fertilizante, c a a vel e calcule os coecientes de correlaao correspondentes. c Os grcos de disperso se encontram na gura 15. Temos que os a a coecientes de correlaao de pearson so dados por: c a F1 0.986 F2 0.976 F3 0.99 F4 0.99
Ambas as informaoes sugerem uma alt c ssima associaao linear entre c as variveis, por fator de fertilizante. a (b) Agora, imagine que os dados, na vredade, representam 24 observaoes c das variveis Y e X, independente do n de fertilizante. Construa a vel um grco de disperso para estes dados e calcule o coeciente de a a variaao. c 22
10
15 100 90 80 70 60 50
F3
F4
F1
100 90 80 70 60 50
F2
10
15
Figura 15: Diagramas de disperso Y x X por fertilizante a O novo diagrama de disperso pode ser visto na gura 16 e o coea ciente de correlaao de Pearson ser dado por 0.944. A associaao c a c linear entre as variveis perdeu um pouco de fora, indicando evidna c e cias de que pode haver inuncia do fertilizante na correlaao entre e c nmero de folhas e tamanho do canteiro. Em particular os fertiliu zantes F 1 e F 2 parecem ter um nmero de folhas por tamanho de u canteiro proporcionalmente maiores qu os dos fertilizantes F 3 e F 4.
23
50 2
60
70
80
90
100
8 X
10
12
14
24
10. Considere o arquivo LAKE do Minitab. (a) Faa um diagrama de disperso entre as variveis PH e Hions. Calc a a cule o coeciente de correlaao e comente. c O diagrama pode ser visto na gura 17. O coeciente de correlaao c e dado por 0.766. Parece haver uma forte associaao entre as varic a veis mas ela no aparenta ser linear, mas logaritmica. O coeciente a de correlaao mostra uma correlaao negativa mdia entre as duas c c e variveis. a
0.0e+00
5.0e07
1.0e06
Hions
1.5e06
2.0e06
6.0
6.5
7.0 PH
7.5
8.0
8.5
Figura 17: Diagrama de disperso entre PH e Hions a (b) Agora faa um diagrama de disperso entre as variveis area e proc a a fundidade dos lagos. Calcule o coeciente de correlaao e comente. c O diagrama pode ser visto na gura 18. O cociente de correlaao c e dado por 0.200. No parece haver uma correlaao linear signicativa a c entre os dados. (c) Retire a observaao 55 e repita b). Compare e comente. c O diagrama de disperso pode ser visto na gura 19. O coeciente a de correlaao linear dado por 0.255. Pelo aumento no coeciente de c e correlaao linear e pelo grco de disperso nota-se que a correlaao c a a c linear aumentou um pouco, mas ainda se encontra bem moderada. 25
Depth 20 0 40
60
80
500
1000
1500
2000 Area
2500
3000
3500
26
Depth 20 0 40
60
80
500 Area
1000
1500
27
Sobre
A verso eletrnica desse arquivo pode ser obtida em http://www.feferraz. a o net Copyright (c) 1999-2005 Fernando Henrique Ferraz Pereira da Rosa. dada permiss~o para copiar, distribuir e/ou modificar este documento E a sob os termos da Licena de Documentaao Livre GNU (GFDL), vers~o 1.2, c c~ a publicada pela Free Software Foundation; Uma cpia da licena em est inclusa na seao intitulada o c a c~ "Sobre / Licena de Uso". c
28