Você está na página 1de 28

MAE0217 - Estat stica Descritiva

F abio Rampazzo Mathias Fernando Henrique Ferraz Pereira da Rosa Matheus Moreira Costa Vagner Aparecido Pedro Junior Paulo Eduardo Bani de Carvalho 22 de novembro de 2003
Lista 5 1. A tabela abaixo cont em os valores de altura (cm) e comprimento do antebra co (cm) de 10 mulheres adultas. altura 165.80 169.80 170.70 167.80 157.50 165.90 158.70 169.00 158.70 161.50 antebraco 28.20 29.10 29.50 28.60 27.30 29.00 27.80 28.80 27.20 27.80

1 2 3 4 5 6 7 8 9 10

(a) Qual a estrutura dos dados. Classique as vari aveis. As duas vari aveis s ao quantitativas cont nuas e medidas pareadas para cada indiv duo amostrado. (b) Construa o diagrama de dispers ao entre as vari aveis. Comente. Na gura 1 temos o diagrama de dispers ao entre as duas vari aveis. Parece haver uma associacao linear entre as duas. (c) Como prever a altura de mulheres a partir do comprimento de seu antebra co? Obtenha a reta de m nimos quadrados que pode ser ajustada a estes dados. Interprete os valores dos par ametros obtidos. Qual a altura esperada de mulheres com 28 cm de antebra co? Podemos prever a altura de mulheres a patir do comprimento de seu antebra co fazendo uma regress ao linear do tipo 1

altura

158

160

162

164

166

168

170

27.5

28.0

28.5 antebrao

29.0

29.5

Figura 1: Diagrama de Dispers ao

altura = + antebra co Pelo m etodo dos m nimos quadrados, obtemos a reta ajuste altura = 4.4925 + 5.9666 antebraco O primeiro e um par ametro de loca ca o entre as duas vari aveis, e nesse caso n ao tem algum signicado especial a n ao ser xar a dist ancia. O segundo par ametro quer dizer que para uma varia ca o de 1 cm no tamanho do antebra co, implicar a em uma varia ca o de 6 cm na altura do indiv duo. Na gura 2 temos o diagrama de dispers ao com a reta de m nimos quadrados. A altura esperada de mulheres com 28 cm de antebra co pode ser obtida atrav es da avalia ca o da fun ca o cujos par ametros estimamos por m nimos quadrados no ponto 28: 162.57.

altura

158

160

162

164

166

168

170

27.5

28.0

28.5 antebrao

29.0

29.5

Figura 2: Regress ao por M nimos Quadrados (d) Agora, para cada um dos 10 valores amostrais de antebra co obtenha o valor ajustado e residual da altura. Construa um gr aco de dispers ao dos res duos pelos valores ajustados. Comente. Na tabela 1 temos os valores pedidos e na gura 3 temos o gr aco de dispers ao. Parece haver distribui ca o normal dos res duos, n ao havendo nenhuma tend encia evidente. (e) Obtenha a vari ancia amostral da altura das mulheres adultas. Calcule tamb em a variabilidade dos valores ajustados e a vari ancia dos res duos. Como usar estas medidas de variabilidade na an alise do relacionamento funcional entre a altura e antebra co? (Lembre-se da decomposi ca o da soma de quadrados total em componentes ortogonais, do coeciente de determina ca o e da estat stica F). A vari ancia amostral da altura das mulheres adultas e se 25.176, enquanto a vari ancia dos valores ajustados e dada por 22.234 e a vari ancia dos res duos e dada por 2.9420. Esses valores querem dizer que a maior parte da variabilidade da vari avel resposta est a sendo explicada pela vari avel preditiva (atrav es do modelo linear), enquanto que h a ainda uma pequena parcela de informa ca o contida no res duo.

Residuals vs Fitted
1

Residuals

3 158

160

162

164

166

168

170

172

Fitted values lm(altura ~ antebraco)

Figura 3: Gr aco de dispers ao dos res duos x valores ajustados

1 2 3 4 5 6 7 8 9 10

antebraco 28.20 29.10 29.50 28.60 27.30 29.00 27.80 28.80 27.20 27.80

altura 165.80 169.80 170.70 167.80 157.50 165.90 158.70 169.00 158.70 161.50

altura.predita 163.76 169.13 171.52 166.15 158.39 168.54 161.38 167.34 157.80 161.38

residuo 2.04 0.67 0.82 1.65 0.89 2.64 2.68 1.66 0.90 0.12

Tabela 1: Tabela dos valores ajustados e res duos

2. Considere o arquivo PULSE do Minitab. N os j a estudamos como a corrida inuencia a pulsa ca o dos estudantes atrav es de an alises descritivas de compara ca o entre m edias (em amostras dependentes e independentes). Agora para a mesma nalidade vamos usar an alise de regress ao. Construa um diagrama de dispers ao das vari aveis Pulse2 x Pulse1 identicando os estudantes que correram e os que n ao correram. Obtenha a reta de m nimos quadrados para cada grupo e interprete os par ametros obtidos. Existe efeito da corrida? Temos o diagrama de dispers ao na gura 4. E o diagrama de dispers ao com a regress ao por m nimos quadrados em 5. Para os que correram obtemos: P ulse2 = 18.471 + 1.0060 P ulse2 E para os que n ao correram: P ulse2 = 10.832 + 0.84898 P ulse2 Notemos que ambos os par ametros da regress ao no caso dos que correram foram mais altos que no dos que n ao correram. O par ametro de inclinina ca o aumentou de cerca de 0.8 para cerca de 1: o aumento na inclina ca o da reta foi moderado mas n ao poderiamos esperar muito mais que isso em se tratando de pulsa co es. O outro par ametro, de intercepta ca o, subiu de 10 para 18, reetindo o aumento no n umero de pulsa co es. Desta forma, conclu mos que existe efeito da corrida sobre as pulsa co es.

140

Correu No Correu 120 Pulse2 60 80 100

50

60

70 Pulse1

80

90

100

Figura 4: Diagrama de dispers ao para as pulsa co es

50

60

70

80

90

100

Correu
140

No Correu

120

Pulse2

100

80

60

50

60

70

80

90

100

Pulse1

Figura 5: Diagrama de dispers ao com regress ao por m nimos quadrados

3. Considere o arquivo TREES do Minitab. (a) Fa ca dois diagramas de dispers ao: Volume x Di ametro e Volume x Altura. Comente. Os diagramas de dispers ao podem ser observados nas guras 6 e 7. H a uma clara associa ca o linear bem mais evidente entre Volume e Di ametro. The following object(s) are masked from pulse : Height

Volume

10 8

20

30

40

50

60

70

10

12

14 Diameter

16

18

20

Figura 6: Diagrama de dispers ao: Volume x Di ametro (b) Numa reserva orestal como seria mais f acil prever o volume de uma a rvore: pelo seu di ametro ou altura? Justique. Certamente pelo seu di ametro, pois como vimos pelos diagrams de dispers ao a associa ca o linear e bem mais evidente.

Volume

10

20

30

40

50

60

70

65

70

75 Height

80

85

Figura 7: Diagrama de dispers ao: Volume x Altura

10

4. Considere o arquivo CHOLEST do Minitab. Calcule o coeciente de correla ca o entre as medidas de colesterol do 2o., 4o. e 14o dia p os a cirurgia. Estime tamb em a matriz de vari ancia e covari ancia destes dados. Que estrutura parecer ser mais adequada para modelar a depend encia neste caso: uma estrutura de correla ca o uniforme, serial o n ao estruturada? A estrutura mais adequada parece uma estrutura de correla ca o serial: note-se que h a correle ca o entre o 2o. e o 4o. dia, e ela e mantida entre o 4o. e o 14o. dia. Entretanto ela n ao se mant em t ao forte entre o 2o. e o 14o. dias. X2.Day X4.Day X14.Day X2.Day 2299.04 1448.91 813.26 X4.Day 1448.91 1924.58 1348.91 X14.Day 813.26 1348.91 1864.82

11

5. Considere o arquivo Fa do Minitab. (a) Para as vari aveis (X, Y 1), (X, Y 2), (X, Y 3) e (X 4, Y 4) obtenha os correspondentes coecientes de correla ca o linear de Pearson e os ajustes de regress ao linear simples. Comente os resultados. 0.816 3 0.5 0.816 3 0.5 0.816 3 0.5 0.817 3 0.5

(X, Y 1) (X, Y 2) (X, Y 3) (X 4, Y 4)

Como pode-se notar pela tabela, todos os valores s ao iguais, como se estivessemos lidando com o mesmo conjunto de dados em cada caso. (b) Agora, em cada caso, obtenha os diagramas de dispers ao com o desenho da reta ajustada correspondente. Comente a qualidade dos ajustes obtidos. Podemos ver esses diagramas na gura 8. Os ajustes est ao muito ruins, a descontar o primeiro.

11

4 5 6 7 8 9

Y1

Y2 4 6 8 X 10 12 14

3 4

8 X

10

12

14

12

Y3

10

Y4 8 6 4 6 8 X 10 12 14 6 8 8

10

12

10

12

14 X4

16

18

Figura 8: Diagramas de dispers ao e reta de regress ao

12

(c) Obtenha, em cada caso, os gr acos de dispers ao do res duo x ajustado. Qual e o melhor ajuste? Podemos ver esses diagramas na gura 9 esses diagramas. Claramente o primeiro (X, Y 1) e o melhor ajuste.

Residuals vs Fitted
2
9

Residuals vs Fitted
4

Residuals

Residuals
10 3

1
8

10

10

Fitted values

Fitted values

Residuals vs Fitted
3
3

Residuals vs Fitted
2 Residuals 1 2 7
7 4 5

Residuals

10

10

11

12

Fitted values

Fitted values

Figura 9: Em sentido hor ario, plot dos residuos x ajustados

13

6. Os dados a seguir referem-se a uma medida de contamina ca o de um tipo de fruto pela aotoxina. Esta contamina ca o caracteriza-se pela ocorr encia muito concentrada em pequenas partes do produto, o que conduz a grandes varia co es entre as mensura co es. Foram examinados 11 frutos, cada um em 16 regi oes. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1 121 72 118 91 105 151 125 84 138 83 117 91 101 75 137 146 2 95 56 72 59 115 42 99 54 90 92 67 92 100 77 92 66 3 20 20 25 22 25 21 19 24 24 20 12 24 15 15 23 22 4 22 33 23 68 28 27 29 29 52 29 22 29 37 41 24 36 5 30 26 26 36 48 50 16 31 22 27 23 35 52 28 37 NA 6 11 19 13 13 12 17 13 18 18 17 16 14 11 15 16 12 7 29 33 37 25 25 36 49 38 29 29 32 40 36 31 32 NA 8 34 28 35 33 32 29 32 33 31 32 29 26 37 28 31 32 9 17 18 11 12 25 20 17 9 15 21 17 19 23 17 15 17 10 8 6 7 5 7 7 12 8 9 14 13 11 5 7 4 12 11 53 113 70 100 87 83 83 65 74 112 98 85 82 95 60 NA

(a) Descreva a estrutura dos dados. Os dados consistem em 16 vari aveis (correspondentes a regi oes dos frutos), medidas cada uma em 11 frutos. As medidas n ao s ao independentres (quando tomamos varias vari aveis dentro de um mesmo fruto), pois e esperado que haja correla ca o, j a que est a se medindo o n vel de ocorr encia da concentra ca o por fruto. (b) Construa um gr aco de dispers ao entre os 11 valores da m edia e desvio padr ao. Comente. Como ca esse relacionamento se considerarmos uma transforma ca o logar tmica dos dados? Essa transforma ca o estabilizou a vari ancia? Comente. O gr aco de dispers ao m edia x dp est a na gura 10. Parece haver uma rela ca o linear positiva entre a m edia o desvio-padr ao: quanto maior a m edia, maior o desvio-padr ao. O mesmo gr aco para os dados transformados est a na gura 11, A transforma ca o logar tmica estabilizou a vari ancia, fazendo desaparecer a rela ca o linear que antes havia entre m edia e desvio-padr ao. (c) Calcule os coecientes de varia ca o e seu valor m edio para os 11 frutos. Apresente uma estimativa para a varia ca o na contamina ca o do produto. Na tabela 2 temos os coecientes de varia ca o para cada fruto e e temos que sua m edia e dada por 24.1. Isso nos leva a concluir que a varia ca o 14

dp

10

15

20

25

20

40

60 media

80

100

Figura 10: Gr aco de Dispers ao de M edia versus Desvio-Padr ao pela contami ca o est a em torno de 25%, com algumas execess oes como no caso do fruto 8, em que a varia ca o e menor. 1 23.36 2 25.88 3 18.66 4 36.82 5 32.74 6 18.05 7 18.66 8 9.08 9 24.54 10 36.46 11 21.12

Tabela 2: Coecientes de varia ca o para cada fruto

15

dp(log(x))

0.10 2.0

0.15

0.20

0.25

0.30

0.35

2.5

3.0

3.5 media(log(x))

4.0

4.5

Figura 11: Gr aco de Dispers ao de M edia versus Desvio-Padr ao (dados transformados)

16

7. Considere o arquivo GRADES do Minitab. (a) Qual a correla ca o entre as notas de aptid ao verbal (C1) e as notas de um teste de aptid ao em Matem atica (C2)? Comente o grau de relacionamento. O coeciente de correla ca o de Pearson para essas duas vari aveis e de 0.275. H a uma correla ca o baixa entre das duas vari aveis. (b) O coeciente de correla ca o de Spearman e uma alternativa ao de Pearson, com a difern ca que ele n ao e calculado diretamente nos dados, mas sim a partir da ordem em que aparecem. Deve-se atribuir postos a `s observa co es de cada vari avel e em seguida calcular o coeciente de correla ca o de Pearson. Apresente uma interpreta ca o intuitiva para a associa ca o medida por este coeciente. Calcule este coeciente para os dados C1 e C2. Esse coeciente representa uma medida de concord ancia entre os postos dos dados. Para o caso dos dados de aptid ao verbal e em matem atica, o que ele est a medindo e se a posi ca o relativa que um dado aluno recebeu na nota do teste de matem atica, foi pr oxima da que ele recebeu no teste de aptid ao verbal. Para esses dados o valor desse coeciente e de 0.266, o que n ao indica um grau forte de concord ancia entre as duas avalia co es.

17

Verbal

400 450

500

600

700

500

550

600 Math

650

700

750

800

Figura 12: Diagrama de dispers ao para as notas

18

8. Os dados a seguir correspondem aos recordes de atletas de 10 pa ses na Ol mpiada de Los Angeles em 1984 em algumas provas de atletismo. (a) Descreva a estrutura dos dados. Os dados consistem de medidas de desempenho de atletas, por pa s e por sexo, para 4 tipos de provas diferentes. (b) Construa diagramas de dispers ao e calcule coeciente de correla ca o entre as vari aveis. Discuta os resultados. Comecemos com uma matriz de gr acos de dispers ao para os dois grupos de dados, homens e mulheres. Na gura 13 temos os gr acos de dispers ao para os homens e na gura 14 os para as mulheres. Os coecientes de correla ca o para essas matrizes seguem nas tabelas 3 e 4. m100 m400 m3000 maratona m100 1.00 0.75 0.10 0.14 m400 0.75 1.00 0.55 0.48 m3000 0.10 0.55 1.00 0.88 maratona 0.14 0.48 0.88 1.00

Tabela 3: Matriz de correla ca o entre os desempenhos nas corridas: homens m100 1.00 0.86 0.55 0.70 m400 0.86 1.00 0.65 0.66 m3000 0.55 0.65 1.00 0.84 maratona 0.70 0.66 0.84 1.00

m100 m400 m3000 maratona

Tabela 4: Matriz de correla ca o entre os desempenhos nas corridas: mulheres Os diagramas de dispers ao e os coecientes de correla ca o mostram que h a algumas associa co es lineares entre os tempos de corrida para algumas provas entre mulheres e homens, por pa s. Em especial, h a uma forte correla ca o liner entre o tempo de prova na Maratona e nos 3000m metros, tanto para homens, quanto para mulheres, para os diferentes pa ses. Outra associa ca o linear vis vel e entre o desempenho nas provas de 100m e 400m, tanto para homens quanto para mulheres. Outra an alise poss vel e a dos coecientes de correla ca o de Spearman, para vericar o grau de concord ancia entre as coloca co es dos atletas entre os pa ses de acordo com o sexo. Intuitivamente, dada uma prova o que esse coeciente estar a medindo e se o desempenho dos atletas por pa s variou de acordo com o sexo. Ou seja, se os homens de um dado pais v ao bem as mulheres tamb em v ao e vice-versa. Esses coecientes se encontram na tabela 5. Eles mostram que h a uma 19

44.0

45.0

46.0

128

132

136

46.0

44.0

45.0

m400
14.0

m3000

136

128

132

maratona

10.0

10.2

10.4

13.2

13.6

14.0

Figura 13: Gr acos de dispers ao para homens concord ancia signicativa, principalmente para as provas de menor comprimento, como a dos 100m. m100 0.82 0.65 0.04 0.30 m400 0.65 0.78 0.38 0.44 m3000 0.50 0.58 0.65 0.71 maratona 0.61 0.43 0.31 0.53

m100 m400 m3000 maratona

Tabela 5: Coecientes de correla ca o de spearman homens x mulheres

20

13.2

13.6

10.0

10.2

m100

10.4

48

50

52

54

150

170 12.0

52

54

m400
9.8

48

50

170

maratona
150

10.8

11.2

11.6

12.0

8.6

9.0

9.4

9.8

Figura 14: Gr acos de dispers ao para mulheres

21

8.6

9.0

m3000

9.4

10.8

11.2

m100

11.6

9. Em horticultura, um pesquisador conduziu um experimento para valiar se a correla ca o entre o tamanho de um canteiro (vari avel X, em m2 ) e o n umero de hores por a rvore (vari avel Y) depende do tratamento (tipos de fertilizante: F1,F2,F3 e F4). Y 60.00 77.00 80.00 95.00 64.00 98.00 55.00 60.00 75.00 65.00 87.00 78.00 71.00 80.00 86.00 82.00 46.00 55.00 76.00 68.00 43.00 47.00 62.00 70.00 X 4.00 7.00 9.00 14.00 5.00 15.00 4.00 5.00 8.00 7.00 13.00 11.00 10.00 12.00 14.00 13.00 2.00 3.00 11.00 10.00 2.00 3.00 7.00 9.00 fertilizante F1 F1 F1 F1 F1 F1 F2 F2 F2 F2 F2 F2 F3 F3 F3 F3 F3 F3 F4 F4 F4 F4 F4 F4

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

(a) Fa ca os gr acos de dispers ao de Y x X, para cada n vel de fertilizante, e calcule os coecientes de correla ca o correspondentes. Os gr acos de dispers ao se encontram na gura 15. Temos que os coecientes de correla ca o de pearson s ao dados por: F1 0.986 F2 0.976 F3 0.99 F4 0.99

Ambas as informa co es sugerem uma alt ssima associa ca o linear entre as vari aveis, por fator de fertilizante. (b) Agora, imagine que os dados, na vredade, representam 24 observa co es das vari aveis Y e X, independente do n vel de fertilizante. Construa um gr aco de dispers ao para estes dados e calcule o coeciente de varia ca o. 22

10

15 100 90 80 70 60 50

F3

F4

F1
100 90 80 70 60 50

F2

10

15

Figura 15: Diagramas de dispers ao Y x X por fertilizante O novo diagrama de dispers ao pode ser visto na gura 16 e o coeciente de correla ca o de Pearson ser a dado por 0.944. A associa ca o linear entre as vari aveis perdeu um pouco de for ca, indicando evid encias de que pode haver inu encia do fertilizante na correla ca o entre n umero de folhas e tamanho do canteiro. Em particular os fertilizantes F 1 e F 2 parecem ter um n umero de folhas por tamanho de canteiro proporcionalmente maiores qu os dos fertilizantes F 3 e F 4.

23

50 2

60

70

80

90

100

8 X

10

12

14

Figura 16: Diagrama de dispers ao para todas as vari aveis juntas.

24

10. Considere o arquivo LAKE do Minitab. (a) Fa ca um diagrama de dispers ao entre as vari aveis PH e Hions. Calcule o coeciente de correla ca o e comente. O diagrama pode ser visto na gura 17. O coeciente de correla ca o e dado por 0.766. Parece haver uma forte associa ca o entre as vari aveis mas ela n ao aparenta ser linear, mas logaritmica. O coeciente de correla ca o mostra uma correla ca o negativa m edia entre as duas vari aveis.

0.0e+00

5.0e07

1.0e06

Hions

1.5e06

2.0e06

6.0

6.5

7.0 PH

7.5

8.0

8.5

Figura 17: Diagrama de dispers ao entre PH e Hions (b) Agora fa ca um diagrama de dispers ao entre as vari aveis a rea e profundidade dos lagos. Calcule o coeciente de correla ca o e comente. O diagrama pode ser visto na gura 18. O cociente de correla ca o e dado por 0.200. N ao parece haver uma correla ca o linear signicativa entre os dados. (c) Retire a observa ca o 55 e repita b). Compare e comente. O diagrama de dispers ao pode ser visto na gura 19. O coeciente de correla ca o linear e dado por 0.255. Pelo aumento no coeciente de correla ca o linear e pelo gr aco de dispers ao nota-se que a correla ca o linear aumentou um pouco, mas ainda se encontra bem moderada. 25

Depth 20 0 40

60

80

500

1000

1500

2000 Area

2500

3000

3500

Figura 18: Diagrama de dispers ao entre Area e Profundidade

26

Depth 20 0 40

60

80

500 Area

1000

1500

Figura 19: Diagrama de dispers ao entre Area e Profundidade (obs 55 eliminada)

27

Sobre
A vers ao eletr onica desse arquivo pode ser obtida em http://www.feferraz. net Copyright (c) 1999-2005 Fernando Henrique Ferraz Pereira da Rosa. E dada permiss~ ao para copiar, distribuir e/ou modificar este documento sob os termos da Licen ca de Documenta ca ~o Livre GNU (GFDL), vers~ ao 1.2, publicada pela Free Software Foundation; Uma c opia da licen ca em est a inclusa na se ca ~o intitulada "Sobre / Licen ca de Uso".

28

Você também pode gostar