Escolar Documentos
Profissional Documentos
Cultura Documentos
Analise de Regressão
Analise de Regressão
F abio Rampazzo Mathias Fernando Henrique Ferraz Pereira da Rosa Matheus Moreira Costa Vagner Aparecido Pedro Junior Paulo Eduardo Bani de Carvalho 22 de novembro de 2003
Lista 5 1. A tabela abaixo cont em os valores de altura (cm) e comprimento do antebra co (cm) de 10 mulheres adultas. altura 165.80 169.80 170.70 167.80 157.50 165.90 158.70 169.00 158.70 161.50 antebraco 28.20 29.10 29.50 28.60 27.30 29.00 27.80 28.80 27.20 27.80
1 2 3 4 5 6 7 8 9 10
(a) Qual a estrutura dos dados. Classique as vari aveis. As duas vari aveis s ao quantitativas cont nuas e medidas pareadas para cada indiv duo amostrado. (b) Construa o diagrama de dispers ao entre as vari aveis. Comente. Na gura 1 temos o diagrama de dispers ao entre as duas vari aveis. Parece haver uma associacao linear entre as duas. (c) Como prever a altura de mulheres a partir do comprimento de seu antebra co? Obtenha a reta de m nimos quadrados que pode ser ajustada a estes dados. Interprete os valores dos par ametros obtidos. Qual a altura esperada de mulheres com 28 cm de antebra co? Podemos prever a altura de mulheres a patir do comprimento de seu antebra co fazendo uma regress ao linear do tipo 1
altura
158
160
162
164
166
168
170
27.5
28.0
28.5 antebrao
29.0
29.5
altura = + antebra co Pelo m etodo dos m nimos quadrados, obtemos a reta ajuste altura = 4.4925 + 5.9666 antebraco O primeiro e um par ametro de loca ca o entre as duas vari aveis, e nesse caso n ao tem algum signicado especial a n ao ser xar a dist ancia. O segundo par ametro quer dizer que para uma varia ca o de 1 cm no tamanho do antebra co, implicar a em uma varia ca o de 6 cm na altura do indiv duo. Na gura 2 temos o diagrama de dispers ao com a reta de m nimos quadrados. A altura esperada de mulheres com 28 cm de antebra co pode ser obtida atrav es da avalia ca o da fun ca o cujos par ametros estimamos por m nimos quadrados no ponto 28: 162.57.
altura
158
160
162
164
166
168
170
27.5
28.0
28.5 antebrao
29.0
29.5
Figura 2: Regress ao por M nimos Quadrados (d) Agora, para cada um dos 10 valores amostrais de antebra co obtenha o valor ajustado e residual da altura. Construa um gr aco de dispers ao dos res duos pelos valores ajustados. Comente. Na tabela 1 temos os valores pedidos e na gura 3 temos o gr aco de dispers ao. Parece haver distribui ca o normal dos res duos, n ao havendo nenhuma tend encia evidente. (e) Obtenha a vari ancia amostral da altura das mulheres adultas. Calcule tamb em a variabilidade dos valores ajustados e a vari ancia dos res duos. Como usar estas medidas de variabilidade na an alise do relacionamento funcional entre a altura e antebra co? (Lembre-se da decomposi ca o da soma de quadrados total em componentes ortogonais, do coeciente de determina ca o e da estat stica F). A vari ancia amostral da altura das mulheres adultas e se 25.176, enquanto a vari ancia dos valores ajustados e dada por 22.234 e a vari ancia dos res duos e dada por 2.9420. Esses valores querem dizer que a maior parte da variabilidade da vari avel resposta est a sendo explicada pela vari avel preditiva (atrav es do modelo linear), enquanto que h a ainda uma pequena parcela de informa ca o contida no res duo.
Residuals vs Fitted
1
Residuals
3 158
160
162
164
166
168
170
172
1 2 3 4 5 6 7 8 9 10
antebraco 28.20 29.10 29.50 28.60 27.30 29.00 27.80 28.80 27.20 27.80
altura 165.80 169.80 170.70 167.80 157.50 165.90 158.70 169.00 158.70 161.50
altura.predita 163.76 169.13 171.52 166.15 158.39 168.54 161.38 167.34 157.80 161.38
residuo 2.04 0.67 0.82 1.65 0.89 2.64 2.68 1.66 0.90 0.12
2. Considere o arquivo PULSE do Minitab. N os j a estudamos como a corrida inuencia a pulsa ca o dos estudantes atrav es de an alises descritivas de compara ca o entre m edias (em amostras dependentes e independentes). Agora para a mesma nalidade vamos usar an alise de regress ao. Construa um diagrama de dispers ao das vari aveis Pulse2 x Pulse1 identicando os estudantes que correram e os que n ao correram. Obtenha a reta de m nimos quadrados para cada grupo e interprete os par ametros obtidos. Existe efeito da corrida? Temos o diagrama de dispers ao na gura 4. E o diagrama de dispers ao com a regress ao por m nimos quadrados em 5. Para os que correram obtemos: P ulse2 = 18.471 + 1.0060 P ulse2 E para os que n ao correram: P ulse2 = 10.832 + 0.84898 P ulse2 Notemos que ambos os par ametros da regress ao no caso dos que correram foram mais altos que no dos que n ao correram. O par ametro de inclinina ca o aumentou de cerca de 0.8 para cerca de 1: o aumento na inclina ca o da reta foi moderado mas n ao poderiamos esperar muito mais que isso em se tratando de pulsa co es. O outro par ametro, de intercepta ca o, subiu de 10 para 18, reetindo o aumento no n umero de pulsa co es. Desta forma, conclu mos que existe efeito da corrida sobre as pulsa co es.
140
50
60
70 Pulse1
80
90
100
50
60
70
80
90
100
Correu
140
No Correu
120
Pulse2
100
80
60
50
60
70
80
90
100
Pulse1
3. Considere o arquivo TREES do Minitab. (a) Fa ca dois diagramas de dispers ao: Volume x Di ametro e Volume x Altura. Comente. Os diagramas de dispers ao podem ser observados nas guras 6 e 7. H a uma clara associa ca o linear bem mais evidente entre Volume e Di ametro. The following object(s) are masked from pulse : Height
Volume
10 8
20
30
40
50
60
70
10
12
14 Diameter
16
18
20
Figura 6: Diagrama de dispers ao: Volume x Di ametro (b) Numa reserva orestal como seria mais f acil prever o volume de uma a rvore: pelo seu di ametro ou altura? Justique. Certamente pelo seu di ametro, pois como vimos pelos diagrams de dispers ao a associa ca o linear e bem mais evidente.
Volume
10
20
30
40
50
60
70
65
70
75 Height
80
85
10
4. Considere o arquivo CHOLEST do Minitab. Calcule o coeciente de correla ca o entre as medidas de colesterol do 2o., 4o. e 14o dia p os a cirurgia. Estime tamb em a matriz de vari ancia e covari ancia destes dados. Que estrutura parecer ser mais adequada para modelar a depend encia neste caso: uma estrutura de correla ca o uniforme, serial o n ao estruturada? A estrutura mais adequada parece uma estrutura de correla ca o serial: note-se que h a correle ca o entre o 2o. e o 4o. dia, e ela e mantida entre o 4o. e o 14o. dia. Entretanto ela n ao se mant em t ao forte entre o 2o. e o 14o. dias. X2.Day X4.Day X14.Day X2.Day 2299.04 1448.91 813.26 X4.Day 1448.91 1924.58 1348.91 X14.Day 813.26 1348.91 1864.82
11
5. Considere o arquivo Fa do Minitab. (a) Para as vari aveis (X, Y 1), (X, Y 2), (X, Y 3) e (X 4, Y 4) obtenha os correspondentes coecientes de correla ca o linear de Pearson e os ajustes de regress ao linear simples. Comente os resultados. 0.816 3 0.5 0.816 3 0.5 0.816 3 0.5 0.817 3 0.5
Como pode-se notar pela tabela, todos os valores s ao iguais, como se estivessemos lidando com o mesmo conjunto de dados em cada caso. (b) Agora, em cada caso, obtenha os diagramas de dispers ao com o desenho da reta ajustada correspondente. Comente a qualidade dos ajustes obtidos. Podemos ver esses diagramas na gura 8. Os ajustes est ao muito ruins, a descontar o primeiro.
11
4 5 6 7 8 9
Y1
Y2 4 6 8 X 10 12 14
3 4
8 X
10
12
14
12
Y3
10
Y4 8 6 4 6 8 X 10 12 14 6 8 8
10
12
10
12
14 X4
16
18
12
(c) Obtenha, em cada caso, os gr acos de dispers ao do res duo x ajustado. Qual e o melhor ajuste? Podemos ver esses diagramas na gura 9 esses diagramas. Claramente o primeiro (X, Y 1) e o melhor ajuste.
Residuals vs Fitted
2
9
Residuals vs Fitted
4
Residuals
Residuals
10 3
1
8
10
10
Fitted values
Fitted values
Residuals vs Fitted
3
3
Residuals vs Fitted
2 Residuals 1 2 7
7 4 5
Residuals
10
10
11
12
Fitted values
Fitted values
13
6. Os dados a seguir referem-se a uma medida de contamina ca o de um tipo de fruto pela aotoxina. Esta contamina ca o caracteriza-se pela ocorr encia muito concentrada em pequenas partes do produto, o que conduz a grandes varia co es entre as mensura co es. Foram examinados 11 frutos, cada um em 16 regi oes. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1 121 72 118 91 105 151 125 84 138 83 117 91 101 75 137 146 2 95 56 72 59 115 42 99 54 90 92 67 92 100 77 92 66 3 20 20 25 22 25 21 19 24 24 20 12 24 15 15 23 22 4 22 33 23 68 28 27 29 29 52 29 22 29 37 41 24 36 5 30 26 26 36 48 50 16 31 22 27 23 35 52 28 37 NA 6 11 19 13 13 12 17 13 18 18 17 16 14 11 15 16 12 7 29 33 37 25 25 36 49 38 29 29 32 40 36 31 32 NA 8 34 28 35 33 32 29 32 33 31 32 29 26 37 28 31 32 9 17 18 11 12 25 20 17 9 15 21 17 19 23 17 15 17 10 8 6 7 5 7 7 12 8 9 14 13 11 5 7 4 12 11 53 113 70 100 87 83 83 65 74 112 98 85 82 95 60 NA
(a) Descreva a estrutura dos dados. Os dados consistem em 16 vari aveis (correspondentes a regi oes dos frutos), medidas cada uma em 11 frutos. As medidas n ao s ao independentres (quando tomamos varias vari aveis dentro de um mesmo fruto), pois e esperado que haja correla ca o, j a que est a se medindo o n vel de ocorr encia da concentra ca o por fruto. (b) Construa um gr aco de dispers ao entre os 11 valores da m edia e desvio padr ao. Comente. Como ca esse relacionamento se considerarmos uma transforma ca o logar tmica dos dados? Essa transforma ca o estabilizou a vari ancia? Comente. O gr aco de dispers ao m edia x dp est a na gura 10. Parece haver uma rela ca o linear positiva entre a m edia o desvio-padr ao: quanto maior a m edia, maior o desvio-padr ao. O mesmo gr aco para os dados transformados est a na gura 11, A transforma ca o logar tmica estabilizou a vari ancia, fazendo desaparecer a rela ca o linear que antes havia entre m edia e desvio-padr ao. (c) Calcule os coecientes de varia ca o e seu valor m edio para os 11 frutos. Apresente uma estimativa para a varia ca o na contamina ca o do produto. Na tabela 2 temos os coecientes de varia ca o para cada fruto e e temos que sua m edia e dada por 24.1. Isso nos leva a concluir que a varia ca o 14
dp
10
15
20
25
20
40
60 media
80
100
Figura 10: Gr aco de Dispers ao de M edia versus Desvio-Padr ao pela contami ca o est a em torno de 25%, com algumas execess oes como no caso do fruto 8, em que a varia ca o e menor. 1 23.36 2 25.88 3 18.66 4 36.82 5 32.74 6 18.05 7 18.66 8 9.08 9 24.54 10 36.46 11 21.12
15
dp(log(x))
0.10 2.0
0.15
0.20
0.25
0.30
0.35
2.5
3.0
3.5 media(log(x))
4.0
4.5
16
7. Considere o arquivo GRADES do Minitab. (a) Qual a correla ca o entre as notas de aptid ao verbal (C1) e as notas de um teste de aptid ao em Matem atica (C2)? Comente o grau de relacionamento. O coeciente de correla ca o de Pearson para essas duas vari aveis e de 0.275. H a uma correla ca o baixa entre das duas vari aveis. (b) O coeciente de correla ca o de Spearman e uma alternativa ao de Pearson, com a difern ca que ele n ao e calculado diretamente nos dados, mas sim a partir da ordem em que aparecem. Deve-se atribuir postos a `s observa co es de cada vari avel e em seguida calcular o coeciente de correla ca o de Pearson. Apresente uma interpreta ca o intuitiva para a associa ca o medida por este coeciente. Calcule este coeciente para os dados C1 e C2. Esse coeciente representa uma medida de concord ancia entre os postos dos dados. Para o caso dos dados de aptid ao verbal e em matem atica, o que ele est a medindo e se a posi ca o relativa que um dado aluno recebeu na nota do teste de matem atica, foi pr oxima da que ele recebeu no teste de aptid ao verbal. Para esses dados o valor desse coeciente e de 0.266, o que n ao indica um grau forte de concord ancia entre as duas avalia co es.
17
Verbal
400 450
500
600
700
500
550
600 Math
650
700
750
800
18
8. Os dados a seguir correspondem aos recordes de atletas de 10 pa ses na Ol mpiada de Los Angeles em 1984 em algumas provas de atletismo. (a) Descreva a estrutura dos dados. Os dados consistem de medidas de desempenho de atletas, por pa s e por sexo, para 4 tipos de provas diferentes. (b) Construa diagramas de dispers ao e calcule coeciente de correla ca o entre as vari aveis. Discuta os resultados. Comecemos com uma matriz de gr acos de dispers ao para os dois grupos de dados, homens e mulheres. Na gura 13 temos os gr acos de dispers ao para os homens e na gura 14 os para as mulheres. Os coecientes de correla ca o para essas matrizes seguem nas tabelas 3 e 4. m100 m400 m3000 maratona m100 1.00 0.75 0.10 0.14 m400 0.75 1.00 0.55 0.48 m3000 0.10 0.55 1.00 0.88 maratona 0.14 0.48 0.88 1.00
Tabela 3: Matriz de correla ca o entre os desempenhos nas corridas: homens m100 1.00 0.86 0.55 0.70 m400 0.86 1.00 0.65 0.66 m3000 0.55 0.65 1.00 0.84 maratona 0.70 0.66 0.84 1.00
Tabela 4: Matriz de correla ca o entre os desempenhos nas corridas: mulheres Os diagramas de dispers ao e os coecientes de correla ca o mostram que h a algumas associa co es lineares entre os tempos de corrida para algumas provas entre mulheres e homens, por pa s. Em especial, h a uma forte correla ca o liner entre o tempo de prova na Maratona e nos 3000m metros, tanto para homens, quanto para mulheres, para os diferentes pa ses. Outra associa ca o linear vis vel e entre o desempenho nas provas de 100m e 400m, tanto para homens quanto para mulheres. Outra an alise poss vel e a dos coecientes de correla ca o de Spearman, para vericar o grau de concord ancia entre as coloca co es dos atletas entre os pa ses de acordo com o sexo. Intuitivamente, dada uma prova o que esse coeciente estar a medindo e se o desempenho dos atletas por pa s variou de acordo com o sexo. Ou seja, se os homens de um dado pais v ao bem as mulheres tamb em v ao e vice-versa. Esses coecientes se encontram na tabela 5. Eles mostram que h a uma 19
44.0
45.0
46.0
128
132
136
46.0
44.0
45.0
m400
14.0
m3000
136
128
132
maratona
10.0
10.2
10.4
13.2
13.6
14.0
Figura 13: Gr acos de dispers ao para homens concord ancia signicativa, principalmente para as provas de menor comprimento, como a dos 100m. m100 0.82 0.65 0.04 0.30 m400 0.65 0.78 0.38 0.44 m3000 0.50 0.58 0.65 0.71 maratona 0.61 0.43 0.31 0.53
20
13.2
13.6
10.0
10.2
m100
10.4
48
50
52
54
150
170 12.0
52
54
m400
9.8
48
50
170
maratona
150
10.8
11.2
11.6
12.0
8.6
9.0
9.4
9.8
21
8.6
9.0
m3000
9.4
10.8
11.2
m100
11.6
9. Em horticultura, um pesquisador conduziu um experimento para valiar se a correla ca o entre o tamanho de um canteiro (vari avel X, em m2 ) e o n umero de hores por a rvore (vari avel Y) depende do tratamento (tipos de fertilizante: F1,F2,F3 e F4). Y 60.00 77.00 80.00 95.00 64.00 98.00 55.00 60.00 75.00 65.00 87.00 78.00 71.00 80.00 86.00 82.00 46.00 55.00 76.00 68.00 43.00 47.00 62.00 70.00 X 4.00 7.00 9.00 14.00 5.00 15.00 4.00 5.00 8.00 7.00 13.00 11.00 10.00 12.00 14.00 13.00 2.00 3.00 11.00 10.00 2.00 3.00 7.00 9.00 fertilizante F1 F1 F1 F1 F1 F1 F2 F2 F2 F2 F2 F2 F3 F3 F3 F3 F3 F3 F4 F4 F4 F4 F4 F4
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
(a) Fa ca os gr acos de dispers ao de Y x X, para cada n vel de fertilizante, e calcule os coecientes de correla ca o correspondentes. Os gr acos de dispers ao se encontram na gura 15. Temos que os coecientes de correla ca o de pearson s ao dados por: F1 0.986 F2 0.976 F3 0.99 F4 0.99
Ambas as informa co es sugerem uma alt ssima associa ca o linear entre as vari aveis, por fator de fertilizante. (b) Agora, imagine que os dados, na vredade, representam 24 observa co es das vari aveis Y e X, independente do n vel de fertilizante. Construa um gr aco de dispers ao para estes dados e calcule o coeciente de varia ca o. 22
10
15 100 90 80 70 60 50
F3
F4
F1
100 90 80 70 60 50
F2
10
15
Figura 15: Diagramas de dispers ao Y x X por fertilizante O novo diagrama de dispers ao pode ser visto na gura 16 e o coeciente de correla ca o de Pearson ser a dado por 0.944. A associa ca o linear entre as vari aveis perdeu um pouco de for ca, indicando evid encias de que pode haver inu encia do fertilizante na correla ca o entre n umero de folhas e tamanho do canteiro. Em particular os fertilizantes F 1 e F 2 parecem ter um n umero de folhas por tamanho de canteiro proporcionalmente maiores qu os dos fertilizantes F 3 e F 4.
23
50 2
60
70
80
90
100
8 X
10
12
14
24
10. Considere o arquivo LAKE do Minitab. (a) Fa ca um diagrama de dispers ao entre as vari aveis PH e Hions. Calcule o coeciente de correla ca o e comente. O diagrama pode ser visto na gura 17. O coeciente de correla ca o e dado por 0.766. Parece haver uma forte associa ca o entre as vari aveis mas ela n ao aparenta ser linear, mas logaritmica. O coeciente de correla ca o mostra uma correla ca o negativa m edia entre as duas vari aveis.
0.0e+00
5.0e07
1.0e06
Hions
1.5e06
2.0e06
6.0
6.5
7.0 PH
7.5
8.0
8.5
Figura 17: Diagrama de dispers ao entre PH e Hions (b) Agora fa ca um diagrama de dispers ao entre as vari aveis a rea e profundidade dos lagos. Calcule o coeciente de correla ca o e comente. O diagrama pode ser visto na gura 18. O cociente de correla ca o e dado por 0.200. N ao parece haver uma correla ca o linear signicativa entre os dados. (c) Retire a observa ca o 55 e repita b). Compare e comente. O diagrama de dispers ao pode ser visto na gura 19. O coeciente de correla ca o linear e dado por 0.255. Pelo aumento no coeciente de correla ca o linear e pelo gr aco de dispers ao nota-se que a correla ca o linear aumentou um pouco, mas ainda se encontra bem moderada. 25
Depth 20 0 40
60
80
500
1000
1500
2000 Area
2500
3000
3500
26
Depth 20 0 40
60
80
500 Area
1000
1500
27
Sobre
A vers ao eletr onica desse arquivo pode ser obtida em http://www.feferraz. net Copyright (c) 1999-2005 Fernando Henrique Ferraz Pereira da Rosa. E dada permiss~ ao para copiar, distribuir e/ou modificar este documento sob os termos da Licen ca de Documenta ca ~o Livre GNU (GFDL), vers~ ao 1.2, publicada pela Free Software Foundation; Uma c opia da licen ca em est a inclusa na se ca ~o intitulada "Sobre / Licen ca de Uso".
28