Você está na página 1de 28

MAE0217 - Estatstica Descritiva

Fbio Rampazzo Mathias a Fernando Henrique Ferraz Pereira da Rosa Matheus Moreira Costa Vagner Aparecido Pedro Junior Paulo Eduardo Bani de Carvalho 22 de novembro de 2003
Lista 5 1. A tabela abaixo contm os valores de altura (cm) e comprimento do ane tebrao (cm) de 10 mulheres adultas. c altura 165.80 169.80 170.70 167.80 157.50 165.90 158.70 169.00 158.70 161.50 antebraco 28.20 29.10 29.50 28.60 27.30 29.00 27.80 28.80 27.20 27.80

1 2 3 4 5 6 7 8 9 10

(a) Qual a estrutura dos dados. Classique as variveis. a As duas variveis so quantitativas cont a a nuas e medidas pareadas para cada indiv duo amostrado. (b) Construa o diagrama de disperso entre as variveis. Comente. a a Na gura 1 temos o diagrama de disperso entre as duas vari a aveis. Parece haver uma associacao linear entre as duas. (c) Como prever a altura de mulheres a partir do comprimento de seu antebrao? Obtenha a reta de m c nimos quadrados que pode ser ajustada a estes dados. Interprete os valores dos parmetros obtidos. a Qual a altura esperada de mulheres com 28 cm de antebrao? c Podemos prever a altura de mulheres a patir do comprimento de seu antebrao fazendo uma regresso linear do tipo c a 1

altura

158

160

162

164

166

168

170

27.5

28.0

28.5 antebrao

29.0

29.5

Figura 1: Diagrama de Disperso a

altura = + antebrao c Pelo mtodo dos m e nimos quadrados, obtemos a reta ajuste altura = 4.4925 + 5.9666 antebraco O primeiro um parmetro de locaao entre as duas variveis, e nesse e a c a caso no tem algum signicado especial a no ser xar a distncia. a a a O segundo parmetro quer dizer que para uma variaao de 1 cm no a c tamanho do antebrao, implicar em uma variaao de 6 cm na altura c a c do indiv duo. Na gura 2 temos o diagrama de disperso com a reta de m a nimos quadrados. A altura esperada de mulheres com 28 cm de antebrao pode ser c obtida atravs da avaliaao da funao cujos parmetros estimamos e c c a por m nimos quadrados no ponto 28: 162.57.

altura

158

160

162

164

166

168

170

27.5

28.0

28.5 antebrao

29.0

29.5

Figura 2: Regresso por M a nimos Quadrados (d) Agora, para cada um dos 10 valores amostrais de antebrao obtenha o c valor ajustado e residual da altura. Construa um grco de disperso a a dos res duos pelos valores ajustados. Comente. Na tabela 1 temos os valores pedidos e na gura 3 temos o grco a de disperso. Parece haver distribuiao normal dos res a c duos, no a havendo nenhuma tendncia evidente. e (e) Obtenha a varincia amostral da altura das mulheres adultas. Cala cule tambm a variabilidade dos valores ajustados e a varincia dos e a res duos. Como usar estas medidas de variabilidade na anlise do a relacionamento funcional entre a altura e antebrao? (Lembre-se da c decomposiao da soma de quadrados total em componentes ortogoc nais, do coeciente de determinaao e da estat c stica F). A varincia amostral da altura das mulheres adultas se 25.176, a e enquanto a varincia dos valores ajustados dada por 22.234 e a a e varincia dos res a duos dada por 2.9420. Esses valores querem dizer e que a maior parte da variabilidade da varivel resposta est sendo a a explicada pela varivel preditiva (atravs do modelo linear), enquanto a e que h ainda uma pequena parcela de informaao contida no res a c duo.

Residuals vs Fitted
1

Residuals

3 158

160

162

164

166

168

170

172

Fitted values lm(altura ~ antebraco)

Figura 3: Grco de disperso dos res a a duos x valores ajustados

1 2 3 4 5 6 7 8 9 10

antebraco 28.20 29.10 29.50 28.60 27.30 29.00 27.80 28.80 27.20 27.80

altura 165.80 169.80 170.70 167.80 157.50 165.90 158.70 169.00 158.70 161.50

altura.predita 163.76 169.13 171.52 166.15 158.39 168.54 161.38 167.34 157.80 161.38

residuo 2.04 0.67 0.82 1.65 0.89 2.64 2.68 1.66 0.90 0.12

Tabela 1: Tabela dos valores ajustados e res duos

2. Considere o arquivo PULSE do Minitab. Ns j estudamos como a coro a rida inuencia a pulsaao dos estudantes atravs de anlises descritivas c e a de comparaao entre mdias (em amostras dependentes e independentes). c e Agora para a mesma nalidade vamos usar anlise de regresso. Construa a a um diagrama de disperso das variveis Pulse2 x Pulse1 identicando os a a estudantes que correram e os que no correram. Obtenha a reta de m a nimos quadrados para cada grupo e interprete os parmetros obtidos. Existe a efeito da corrida? Temos o diagrama de disperso na gura 4. E o diagrama de disperso com a a a regresso por m a nimos quadrados em 5. Para os que correram obtemos: P ulse2 = 18.471 + 1.0060 P ulse2 E para os que no correram: a P ulse2 = 10.832 + 0.84898 P ulse2 Notemos que ambos os parmetros da regresso no caso dos que correram a a foram mais altos que no dos que no correram. O parmetro de inclinia a naao aumentou de cerca de 0.8 para cerca de 1: o aumento na inclinaao c c da reta foi moderado mas no poderiamos esperar muito mais que isso em a se tratando de pulsaoes. O outro parmetro, de interceptaao, subiu de c a c 10 para 18, reetindo o aumento no nmero de pulsaoes. Desta forma, u c conclu mos que existe efeito da corrida sobre as pulsaoes. c

140

Correu No Correu 120 Pulse2 60 80 100

50

60

70 Pulse1

80

90

100

Figura 4: Diagrama de disperso para as pulsaoes a c

50

60

70

80

90

100

Correu
140

No Correu

120

Pulse2

100

80

60

50

60

70

80

90

100

Pulse1

Figura 5: Diagrama de disperso com regresso por m a a nimos quadrados

3. Considere o arquivo TREES do Minitab. (a) Faa dois diagramas de disperso: Volume x Dimetro e Volume x c a a Altura. Comente. Os diagramas de disperso podem ser observados nas guras 6 e 7. a H uma clara associaao linear bem mais evidente entre Volume e a c Dimetro. a The following object(s) are masked from pulse : Height

Volume

10 8

20

30

40

50

60

70

10

12

14 Diameter

16

18

20

Figura 6: Diagrama de disperso: Volume x Dimetro a a (b) Numa reserva orestal como seria mais fcil prever o volume de uma a arvore: pelo seu dimetro ou altura? Justique. a Certamente pelo seu dimetro, pois como vimos pelos diagrams de a disperso a associaao linear bem mais evidente. a c e

Volume

10

20

30

40

50

60

70

65

70

75 Height

80

85

Figura 7: Diagrama de disperso: Volume x Altura a

10

4. Considere o arquivo CHOLEST do Minitab. Calcule o coeciente de correlaao entre as medidas de colesterol do 2o., 4o. e 14o dia ps a cirurgia. c o Estime tambm a matriz de varincia e covarincia destes dados. Que e a a estrutura parecer ser mais adequada para modelar a dependncia neste e caso: uma estrutura de correlaao uniforme, serial o no estruturada? c a A estrutura mais adequada parece uma estrutura de correlaao serial: c note-se que h correleao entre o 2o. e o 4o. dia, e ela mantida entre o a c e 4o. e o 14o. dia. Entretanto ela no se mantm to forte entre o 2o. e o a e a 14o. dias. X2.Day X4.Day X14.Day X2.Day 2299.04 1448.91 813.26 X4.Day 1448.91 1924.58 1348.91 X14.Day 813.26 1348.91 1864.82

11

5. Considere o arquivo Fa do Minitab. (a) Para as variveis (X, Y 1), (X, Y 2), (X, Y 3) e (X4, Y 4) obtenha os a correspondentes coecientes de correlaao linear de Pearson e os ajusc tes de regresso linear simples. Comente os resultados. a 0.816 3 0.5 0.816 3 0.5 0.816 3 0.5 0.817 3 0.5

(X, Y 1) (X, Y 2) (X, Y 3) (X4, Y 4)

Como pode-se notar pela tabela, todos os valores so iguais, como se a estivessemos lidando com o mesmo conjunto de dados em cada caso. (b) Agora, em cada caso, obtenha os diagramas de disperso com o dea senho da reta ajustada correspondente. Comente a qualidade dos ajustes obtidos. Podemos ver esses diagramas na gura 8. Os ajustes esto muito a ruins, a descontar o primeiro.

11

4 5 6 7 8 9

Y1

Y2 4 6 8 X 10 12 14

3 4

8 X

10

12

14

12

Y3

10

Y4 8 6 4 6 8 X 10 12 14 6 8 8

10

12

10

12

14 X4

16

18

Figura 8: Diagramas de disperso e reta de regresso a a

12

(c) Obtenha, em cada caso, os grcos de disperso do res a a duo x ajustado. Qual o melhor ajuste? e Podemos ver esses diagramas na gura 9 esses diagramas. Claramente o primeiro (X, Y 1) o melhor ajuste. e

Residuals vs Fitted
2
9

Residuals vs Fitted
4

Residuals

Residuals
10 3

1
8

10

10

Fitted values

Fitted values

Residuals vs Fitted
3
3

Residuals vs Fitted
2 Residuals 1 2 7
7 4 5

Residuals

10

10

11

12

Fitted values

Fitted values

Figura 9: Em sentido horrio, plot dos residuos x ajustados a

13

6. Os dados a seguir referem-se a uma medida de contaminaao de um tipo c de fruto pela aotoxina. Esta contaminaao caracteriza-se pela ocorrncia c e muito concentrada em pequenas partes do produto, o que conduz a grandes variaoes entre as mensuraoes. Foram examinados 11 frutos, cada um em c c 16 regies. o 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1 121 72 118 91 105 151 125 84 138 83 117 91 101 75 137 146 2 95 56 72 59 115 42 99 54 90 92 67 92 100 77 92 66 3 20 20 25 22 25 21 19 24 24 20 12 24 15 15 23 22 4 22 33 23 68 28 27 29 29 52 29 22 29 37 41 24 36 5 30 26 26 36 48 50 16 31 22 27 23 35 52 28 37 NA 6 11 19 13 13 12 17 13 18 18 17 16 14 11 15 16 12 7 29 33 37 25 25 36 49 38 29 29 32 40 36 31 32 NA 8 34 28 35 33 32 29 32 33 31 32 29 26 37 28 31 32 9 17 18 11 12 25 20 17 9 15 21 17 19 23 17 15 17 10 8 6 7 5 7 7 12 8 9 14 13 11 5 7 4 12 11 53 113 70 100 87 83 83 65 74 112 98 85 82 95 60 NA

(a) Descreva a estrutura dos dados. Os dados consistem em 16 variveis (correspondentes a regies dos a o frutos), medidas cada uma em 11 frutos. As medidas no so indea a pendentres (quando tomamos varias variveis dentro de um mesmo a fruto), pois esperado que haja correlaao, j que est se medindo o e c a a n de ocorrncia da concentraao por fruto. vel e c (b) Construa um grco de disperso entre os 11 valores da mdia e desa a e vio padro. Comente. Como ca esse relacionamento se considerara mos uma transformaao logar c tmica dos dados? Essa transformaao c estabilizou a varincia? Comente. a O grco de disperso mdia x dp est na gura 10. Parece haver a a e a uma relaao linear positiva entre a mdia o desvio-padro: quanto c e a maior a mdia, maior o desvio-padro. e a O mesmo grco para os dados transformados est na gura 11, A a a transformaao logar c tmica estabilizou a varincia, fazendo desaparea cer a relaao linear que antes havia entre mdia e desvio-padro. c e a (c) Calcule os coecientes de variaao e seu valor mdio para os 11 fruc e tos. Apresente uma estimativa para a variaao na contaminaao do c c produto. Na tabela 2 temos os coecientes de variaao para cada fruto e e temos c que sua mdia dada por 24.1. Isso nos leva a concluir que a variaao e e c 14

dp

10

15

20

25

20

40

60 media

80

100

Figura 10: Grco de Disperso de Mdia versus Desvio-Padro a a e a pela contamiao est em torno de 25%, com algumas execesses como c a o no caso do fruto 8, em que a variaao menor. c e 1 23.36 2 25.88 3 18.66 4 36.82 5 32.74 6 18.05 7 18.66 8 9.08 9 24.54 10 36.46 11 21.12

Tabela 2: Coecientes de variaao para cada fruto c

15

dp(log(x))

0.10 2.0

0.15

0.20

0.25

0.30

0.35

2.5

3.0

3.5 media(log(x))

4.0

4.5

Figura 11: Grco de Disperso de Mdia versus Desvio-Padro (dados transa a e a formados)

16

7. Considere o arquivo GRADES do Minitab. (a) Qual a correlaao entre as notas de aptido verbal (C1) e as notas c a de um teste de aptido em Matemtica (C2)? Comente o grau de a a relacionamento. O coeciente de correlaao de Pearson para essas duas variveis de c a e 0.275. H uma correlaao baixa entre das duas variveis. a c a (b) O coeciente de correlaao de Spearman uma alternativa ao de Pec e arson, com a diferna que ele no calculado diretamente nos dados, c a e mas sim a partir da ordem em que aparecem. Deve-se atribuir postos as observaoes de cada varivel e em seguida calcular o coeciente de ` c a correlaao de Pearson. Apresente uma interpretaao intuitiva para a c c associaao medida por este coeciente. Calcule este coeciente para c os dados C1 e C2. Esse coeciente representa uma medida de concordncia entre os posa tos dos dados. Para o caso dos dados de aptido verbal e em matea mtica, o que ele est medindo se a posiao relativa que um dado a a e c aluno recebeu na nota do teste de matemtica, foi prxima da que a o ele recebeu no teste de aptido verbal. Para esses dados o valor desse a coeciente de 0.266, o que no indica um grau forte de concordncia e a a entre as duas avaliaoes. c

17

Verbal

400 450

500

600

700

500

550

600 Math

650

700

750

800

Figura 12: Diagrama de disperso para as notas a

18

8. Os dados a seguir correspondem aos recordes de atletas de 10 pa na ses Ol mpiada de Los Angeles em 1984 em algumas provas de atletismo. (a) Descreva a estrutura dos dados. Os dados consistem de medidas de desempenho de atletas, por pa s e por sexo, para 4 tipos de provas diferentes. (b) Construa diagramas de disperso e calcule coeciente de correlaao a c entre as variveis. Discuta os resultados. a Comecemos com uma matriz de grcos de disperso para os dois a a grupos de dados, homens e mulheres. Na gura 13 temos os grcos a de disperso para os homens e na gura 14 os para as mulheres. Os a coecientes de correlaao para essas matrizes seguem nas tabelas 3 e c 4. m100 m400 m3000 maratona m100 1.00 0.75 0.10 0.14 m400 0.75 1.00 0.55 0.48 m3000 0.10 0.55 1.00 0.88 maratona 0.14 0.48 0.88 1.00

Tabela 3: Matriz de correlaao entre os desempenhos nas corridas: homens c m100 1.00 0.86 0.55 0.70 m400 0.86 1.00 0.65 0.66 m3000 0.55 0.65 1.00 0.84 maratona 0.70 0.66 0.84 1.00

m100 m400 m3000 maratona

Tabela 4: Matriz de correlaao entre os desempenhos nas corridas: mulheres c Os diagramas de disperso e os coecientes de correlaao mostram a c que h algumas associaoes lineares entre os tempos de corrida para a c algumas provas entre mulheres e homens, por pa Em especial, h s. a uma forte correlaao liner entre o tempo de prova na Maratona e c nos 3000m metros, tanto para homens, quanto para mulheres, para os diferentes pa ses. Outra associaao linear vis entre o desemc vel e penho nas provas de 100m e 400m, tanto para homens quanto para mulheres. Outra anlise poss a dos coecientes de correlaao de Spearman, a vel e c para vericar o grau de concordncia entre as colocaoes dos atletas a c entre os pa de acordo com o sexo. Intuitivamente, dada uma prova ses o que esse coeciente estar medindo se o desempenho dos atletas a e por pa variou de acordo com o sexo. Ou seja, se os homens de s um dado pais vo bem as mulheres tambm vo e vice-versa. Esses a e a coecientes se encontram na tabela 5. Eles mostram que h uma a 19

44.0

45.0

46.0

128

132

136

46.0

44.0

45.0

m400
14.0

m3000

136

128

132

maratona

10.0

10.2

10.4

13.2

13.6

14.0

Figura 13: Grcos de disperso para homens a a concordncia signicativa, principalmente para as provas de menor a comprimento, como a dos 100m. m100 0.82 0.65 0.04 0.30 m400 0.65 0.78 0.38 0.44 m3000 0.50 0.58 0.65 0.71 maratona 0.61 0.43 0.31 0.53

m100 m400 m3000 maratona

Tabela 5: Coecientes de correlaao de spearman homens x mulheres c

20

13.2

13.6

10.0

10.2

m100

10.4

48

50

52

54

150

170 12.0

52

54

m400
9.8

48

50

170

maratona
150

10.8

11.2

11.6

12.0

8.6

9.0

9.4

9.8

Figura 14: Grcos de disperso para mulheres a a

21

8.6

9.0

m3000

9.4

10.8

11.2

m100

11.6

9. Em horticultura, um pesquisador conduziu um experimento para valiar se a correlaao entre o tamanho de um canteiro (varivel X, em m2 ) e o c a nmero de hores por arvore (varivel Y) depende do tratamento (tipos u a de fertilizante: F1,F2,F3 e F4). Y 60.00 77.00 80.00 95.00 64.00 98.00 55.00 60.00 75.00 65.00 87.00 78.00 71.00 80.00 86.00 82.00 46.00 55.00 76.00 68.00 43.00 47.00 62.00 70.00 X 4.00 7.00 9.00 14.00 5.00 15.00 4.00 5.00 8.00 7.00 13.00 11.00 10.00 12.00 14.00 13.00 2.00 3.00 11.00 10.00 2.00 3.00 7.00 9.00 fertilizante F1 F1 F1 F1 F1 F1 F2 F2 F2 F2 F2 F2 F3 F3 F3 F3 F3 F3 F4 F4 F4 F4 F4 F4

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

(a) Faa os grcos de disperso de Y x X, para cada n de fertilizante, c a a vel e calcule os coecientes de correlaao correspondentes. c Os grcos de disperso se encontram na gura 15. Temos que os a a coecientes de correlaao de pearson so dados por: c a F1 0.986 F2 0.976 F3 0.99 F4 0.99

Ambas as informaoes sugerem uma alt c ssima associaao linear entre c as variveis, por fator de fertilizante. a (b) Agora, imagine que os dados, na vredade, representam 24 observaoes c das variveis Y e X, independente do n de fertilizante. Construa a vel um grco de disperso para estes dados e calcule o coeciente de a a variaao. c 22

10

15 100 90 80 70 60 50

F3

F4

F1
100 90 80 70 60 50

F2

10

15

Figura 15: Diagramas de disperso Y x X por fertilizante a O novo diagrama de disperso pode ser visto na gura 16 e o coea ciente de correlaao de Pearson ser dado por 0.944. A associaao c a c linear entre as variveis perdeu um pouco de fora, indicando evidna c e cias de que pode haver inuncia do fertilizante na correlaao entre e c nmero de folhas e tamanho do canteiro. Em particular os fertiliu zantes F 1 e F 2 parecem ter um nmero de folhas por tamanho de u canteiro proporcionalmente maiores qu os dos fertilizantes F 3 e F 4.

23

50 2

60

70

80

90

100

8 X

10

12

14

Figura 16: Diagrama de disperso para todas as variveis juntas. a a

24

10. Considere o arquivo LAKE do Minitab. (a) Faa um diagrama de disperso entre as variveis PH e Hions. Calc a a cule o coeciente de correlaao e comente. c O diagrama pode ser visto na gura 17. O coeciente de correlaao c e dado por 0.766. Parece haver uma forte associaao entre as varic a veis mas ela no aparenta ser linear, mas logaritmica. O coeciente a de correlaao mostra uma correlaao negativa mdia entre as duas c c e variveis. a

0.0e+00

5.0e07

1.0e06

Hions

1.5e06

2.0e06

6.0

6.5

7.0 PH

7.5

8.0

8.5

Figura 17: Diagrama de disperso entre PH e Hions a (b) Agora faa um diagrama de disperso entre as variveis area e proc a a fundidade dos lagos. Calcule o coeciente de correlaao e comente. c O diagrama pode ser visto na gura 18. O cociente de correlaao c e dado por 0.200. No parece haver uma correlaao linear signicativa a c entre os dados. (c) Retire a observaao 55 e repita b). Compare e comente. c O diagrama de disperso pode ser visto na gura 19. O coeciente a de correlaao linear dado por 0.255. Pelo aumento no coeciente de c e correlaao linear e pelo grco de disperso nota-se que a correlaao c a a c linear aumentou um pouco, mas ainda se encontra bem moderada. 25

Depth 20 0 40

60

80

500

1000

1500

2000 Area

2500

3000

3500

Figura 18: Diagrama de disperso entre Area e Profundidade a

26

Depth 20 0 40

60

80

500 Area

1000

1500

Figura 19: Diagrama de disperso entre Area e Profundidade (obs 55 eliminada) a

27

Sobre
A verso eletrnica desse arquivo pode ser obtida em http://www.feferraz. a o net Copyright (c) 1999-2005 Fernando Henrique Ferraz Pereira da Rosa. dada permiss~o para copiar, distribuir e/ou modificar este documento E a sob os termos da Licena de Documentaao Livre GNU (GFDL), vers~o 1.2, c c~ a publicada pela Free Software Foundation; Uma cpia da licena em est inclusa na seao intitulada o c a c~ "Sobre / Licena de Uso". c

28

Você também pode gostar