Você está na página 1de 24

MAE0261 Introducao a` Analise de Dados

II semestre de 2015
Lista de Exerccios 7 - Regressao e Quiquadrado C A S A - (gabarito)

Exerccio 1.
(13,0 pontos). Deseja-se provar a eficiencia de certo fungicida para o controle de pragas em
plantacoes de trigo. Diferentes doses (em gr/ha) de um fungicida foram aplicadas em 10 canteiros de producao, contendo 100 plantas cada um. Apos 15 dias da aplicacao do fungicida foi
feita a contagem do n
umero de plantas doentes. A tabela a seguir apresenta para cada canteiro
o n
umero de plantas doentes (Y) e a dose aplicada (X):

Dados:

x = 2700,

y = 273,

x2 = 822500,

y 2 = 9695,

xy = 59450.

(a) (2,5 pontos). Construa o diagrama de dispersao, calcule o coeficiente de correlacao linear
de Pearson e interprete o relacionamento entre as variaveis Y e X.
Resposta:

Coeficiente de correla
c
ao de Pearson:

sP
SX =

n
i=1

x2i n
x2
=
(n 1)

822500 10 (270)2
= 101, 9.
9

Pagina 1 de 24
http://www.ime.usp.br/~mae0261

MAE0261 Introducao a` Analise de Dados


II semestre de 2015
Lista de Exerccios 7 - Regressao e Quiquadrado C A S A - (gabarito)

sP
SY =

n
i=1

yi2 n
y2
=
(n 1)

9695 10 (27, 3)2


= 15, 78.
9

Pn
r=

xi yi n
xy 59450 10 270 27, 3
=
= 0, 985.
(n 1)SX SY
9 101, 9 15, 78
i=1

Interpreta
c
ao: Parece existir uma relacao linear negativa entre o n
umero de plantas doentes e a dose de fungicida aplicada, ou seja, o n
umero de plantas doentes diminui a medida
que a dose (gr/ha) de fungicida aumenta.


(b) (1,0 ponto). Escreva a equacao do modelo de regressao linear simples, com as suposicoes.
Resposta:
Modelo
Yi = + xi + ei , i = 1, . . . , 10
Suposicoes:
ei N (0, 2 ) independentes Yi N ( + xi , 2 ) independentes.

(c) (2,0 pontos). Ajuste uma reta de regressao para a relacao entre as variaveis Y: n
umero de
plantas doentes (dependente) e X: dose (independente). Interprete o valor do coeficiente
angular da reta ajustada.
Resposta:

P
x y n
xy
P i 2i
xi n
x2
59450 10 270 27, 3
=
822500 10 (270)2
14260
=
93500
= 0, 1525

= y x
= 27, 3 + 0, 1525 270
= 68, 475

Pagina 2 de 24
http://www.ime.usp.br/~mae0261

MAE0261 Introducao a` Analise de Dados


II semestre de 2015
Lista de Exerccios 7 - Regressao e Quiquadrado C A S A - (gabarito)

Reta estimada:
y = 68, 475 0, 1525xi
Interpreta
c
ao: Aumentando-se 1 dose (em gr/ha) de fungicida, estima-se que o n
umero
medio de plantas doentes diminua 0,1525.


(d) (4,5 pontos). Obtenha a ANOVA e analise o resultado.


Resposta:
ANOVA
Queremos testar as seguintes hipoteses:
H0 : = 0
H1 : 6= 0
Medidas necess
arias:
SQT =

n
X

(yi y)2

i=1

n
X

yi2 n
y2

i=1

= 9695 10 (27, 3)2 = 2242, 1.

SQRes =

n
X

(yi yi )2 = 69, 12

i=1

SQReg = SQT SQRes = 2242, 1 69, 12 = 2172, 98.

QM T =

2242, 1
SQT
=
= 249, 122 = SY2 .
n1
9

QM Res =

SQRes
69, 12
=
= 8, 64 = Se2 .
n2
8

Pagina 3 de 24
http://www.ime.usp.br/~mae0261

MAE0261 Introducao a` Analise de Dados


II semestre de 2015
Lista de Exerccios 7 - Regressao e Quiquadrado C A S A - (gabarito)

QM Reg =

Fobs =

SQReg
= 2172, 98.
1

2172, 98
QM Reg
=
= 251, 5.
QM Res
8, 64

Tabela 1: Tabela da ANOVA


Fonte de variac
ao

g.l

Soma de quadrados

Quadrado medio

Teste F

Regress
ao
Resduo

1
8

2172,98
69,12

2172,98
8,64

251,5

Total

2242,1

Se H0 e verdadeira F F(1,8) . Para = 5%, RC = {F fc } = {F 5, 32} . Como


Fobs = 251, 5 RC rejeitamos H0 , ou seja, 6= 0.


(e) (0,5 pontos). Obtenha uma estimativa pontual para o n


umero esperado de plantas doentes
para cada 100 plantas tratadas com o fungicida na dose 260 gr/ha.
Resposta:
y(260) = 68, 475 0, 1525 260 = 28, 825

= 29 plantas doentes.

(f) (0,5 pontos). Se o fungicida na dose 260 gr/ha for aplicado em um novo canteiro, qual e
uma estimativa pontual para o n
umero de plantas doentes nesse canteiro?
Resposta:
A estimativa nao muda. y(260) = 28, 825

= 29.

(g) (2,0 pontos). Para as duas situacoes consideradas em (e) e (f) obtenha estimativas intervalares, com confianca de 95%.
Resposta:
As estimativas intervalares, com confianca de 95%, para as situacoes consideradas em (e)
e (f) sao dadas respectivamente por:

Pagina 4 de 24
http://www.ime.usp.br/~mae0261

MAE0261 Introducao a` Analise de Dados


II semestre de 2015
Lista de Exerccios 7 - Regressao e Quiquadrado C A S A - (gabarito)

t(8;0,95) = 2, 31, Se =

8, 64 = 2, 94:
s

(xi x)2
1
+ Pn
n
)2
i=1 (xi x
r
1
(28, 825 270)2
= (68, 475 0, 1525 260) 2, 31 2, 94
+
10
93500
= (23, 054; 34, 596)

i ) t(8;0,95) Se
IC((xi ); 0, 95) = (
+ x

1
(xi x)2
+ Pn
)2
n
i=1 (xi x
r
1
(28, 825 270)2
+
= (68, 475 0, 1525 260) 2, 31 2, 94 1 +
10
93500
= (19, 91; 37, 74)

f ) t(8;0,95) Se
IP (yf ; 0, 95) = (
+ x

1+

Exerccio 2.
(5,5 pontos). A pasta ARVORES do arquivo Lista 7 DADOS contem medidas de Diametro
(em polegadas), Altura (em pes) e Volume (em pes3 ) de 31 arvores.
(a) (1,0 ponto). Construa o grafico de dispersao relacionando o volume (Y) e a altura das
arvores (Z); e relacionando o volume (Y) e o diametro das arvores (X). Comente.
Resposta:

Pagina 5 de 24
http://www.ime.usp.br/~mae0261

MAE0261 Introducao a` Analise de Dados


II semestre de 2015
Lista de Exerccios 7 - Regressao e Quiquadrado C A S A - (gabarito)

Coment
ario: Existe uma relacao linear positiva entre as variaveis altura e diametro com a
variavel volume. Parece que o diametro esta mais associado com volume do que a altura. 

(b) (2,0 ponto). Encontre as retas ajustadas y = a + bx e y = c + dz.


Resposta:
Seguem os ajustes feitos no Rcmdr para encontrar as retas ajustadas y = a+bx e y = c+dz,
respectivamente:
Call:
lm(formula = Volume ~ Diametro, data = arvore)
Residuals:
Min
1Q Median
-8.065 -3.107 0.152

3Q
3.495

Max
9.587

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -36.9435
3.3651 -10.98 7.62e-12 ***
Diametro
5.0659
0.2474
20.48 < 2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 4.252 on 29 degrees of freedom
Multiple R-squared: 0.9353,Adjusted R-squared: 0.9331
F-statistic: 419.4 on 1 and 29 DF, p-value: < 2.2e-16
Logo, y = a
+ bx = 36.9435 + 5.0659x.
Tabela 2: Tabela da ANOVA
Fonte de variac
ao

g.l

Soma de quadrados

Quadrado medio

Teste F

Valor p

Regress
ao
Resduo

1
29

7581.8
524.3

7581.8
18.1

419.36

< 2.2e 16

Total

30

8106.1

Pagina 6 de 24
http://www.ime.usp.br/~mae0261

MAE0261 Introducao a` Analise de Dados


II semestre de 2015
Lista de Exerccios 7 - Regressao e Quiquadrado C A S A - (gabarito)

Call:
lm(formula = Volume ~ Altura, data = arvore)
Residuals:
Min
1Q
-21.274 -9.894

Median
-2.894

3Q
12.068

Max
29.852

Coefficients:
Estimate Std. Error t value
(Intercept) -87.1236
29.2731 -2.976
Altura
1.5433
0.3839
4.021
--Signif. codes: 0 *** 0.001 ** 0.01

Pr(>|t|)
0.005835 **
0.000378 ***
* 0.05 . 0.1 1

Residual standard error: 13.4 on 29 degrees of freedom


Multiple R-squared: 0.3579,Adjusted R-squared: 0.3358
F-statistic: 16.16 on 1 and 29 DF, p-value: 0.0003784
= 87.1236 + 1.5433z.
Logo, y = c + dz
Tabela 3: Tabela da ANOVA
Fonte de variac
ao

g.l

Soma de quadrados

Quadrado medio

Teste F

Valor p

Regress
ao
Resduo

1
29

2901.2
5204.9

2901.19
179.48

16.165

0.0003784

Total

30

3080.67

(c) (1,5 pontos). Numa reserva florestal, como seria melhor prever o Volume de uma arvore:
pelo diametro ou pela altura? Utilize a ANOVA e R2 para justificar sua resposta.
Resposta:
Com base nos resultados da ANOVA e R2 apresentados no item (b), temos:

Pagina 7 de 24
http://www.ime.usp.br/~mae0261

MAE0261 Introducao a` Analise de Dados


II semestre de 2015
Lista de Exerccios 7 - Regressao e Quiquadrado C A S A - (gabarito)

para a vari
avel altura: F = 16.16 com p value = 0.0003784 e R2 = 0, 3579.
para a vari
avel di
ametro: F = 419.4 com p value < 2.2e 16 e R2 = 0.9353.
Como o valor p da variavel Diametro e menor que o da Altura (mais significativo) e seu R2
e bem mais alto (modelo e mais adequado), conclumos que seria melhor prever o Volume
de uma arvore com base no Diametro.


(d) (1,0 ponto). De acordo com a decisao acima, obtenha um intervalo de confianca para o
volume medio de arvores com 18 polegadas de diametro e 79 pes de altura, com coeficiente
de confianca igual a 95%.
Resposta:
O intervalo de confianca para o volume medio de arvores com 18 polegadas de diametro,
com coeficiente de confianca igual a 95% e dado por:
t(29;0,95) = 2, 05

Se = 18, 1
= 4, 25
s
i ) t(29;0,95) Se
IC((xi ); 0, 95) = (
+ x

1
(xi x)2
+ Pn
)2
n
i=1 (xi x
r

= (36, 9435 + 5, 0659 18) 2, 05 4, 25

1
(28, 825 270)2
+
31
93500

= (47, 195; 61, 2904)




Exerccio 3.
(11,0 pontos). Um estudo pretende avaliar o efeito da obesidade na pressao sangunea. Para
tanto, foram avaliados os pesos de 10 indivduos e construda a variavel (X) representando a
razao entre os pesos real e ideal. Os dados abaixo correspondem a`s variaveis razao e pressao
sangunea.

Pagina 8 de 24
http://www.ime.usp.br/~mae0261

MAE0261 Introducao a` Analise de Dados


II semestre de 2015
Lista de Exerccios 7 - Regressao e Quiquadrado C A S A - (gabarito)

(a) (0,5 ponto). Construa a variavel auxiliar d = x x.


Resposta:
Rcmdr: Dados Modificacao de variaveis no conjunto de dados... Computar nova
variavel... Defina d como: X 1, 458 (
x = 1, 458).
Valores obtidos para d: -0,228; -0,038; -0,108; 0,212; 0,192; 0,102; 0,062; -0,148; 0,032;
-0,078.

(b) (1,0 pontos). Obtenha a equacao de regressao y =
+ d.
Resposta:
Ajuste no Rcmdr:
Call:
lm(formula = Pressao.sistolica ~ d, data = pressao)
Residuals:
Min
1Q Median
-2.6194 -0.8619 -0.3134

3Q
1.2949

Max
1.9028

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 133.3000
0.4885 272.849 < 2e-16 ***
d
17.9112
3.5428
5.056 0.000982 ***
---

Pagina 9 de 24
http://www.ime.usp.br/~mae0261

MAE0261 Introducao a` Analise de Dados


II semestre de 2015
Lista de Exerccios 7 - Regressao e Quiquadrado C A S A - (gabarito)

Signif. codes:

0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 1.545 on 8 degrees of freedom


Multiple R-squared: 0.7616,Adjusted R-squared: 0.7318
F-statistic: 25.56 on 1 and 8 DF, p-value: 0.0009823
Logo, y = 133.3 + 17.9112 d.

(c) (0,5 pontos). Qual e a interpretacao para


na reta obtida em (b)?
Resposta:
Interpreta
c
ao: quando d = 0, ou seja, quando a razao peso real/peso ideal e igual a
media dessas razoes, o valor medio (ou valor esperado) para pressao sangunea e 133,3. 

(d) (1,5 pontos). Qual e a pressao sistolica esperada para indivduos com razao peso ideal/peso
real igual a 1,25?
Resposta:
Ajuste:
Call:
lm(formula = Pressao.sistolica ~ Razao, data = pressao)
Residuals:
Min
1Q Median
-2.6194 -0.8619 -0.3134

3Q
1.2949

Max
1.9028

Coefficients:
Estimate Std. Error t value
(Intercept) 107.185
5.188 20.658
Razao
17.911
3.543
5.056
--Signif. codes: 0 *** 0.001 ** 0.01

Pr(>|t|)
3.16e-08 ***
0.000982 ***
* 0.05 . 0.1 1

Residual standard error: 1.545 on 8 degrees of freedom


Multiple R-squared: 0.7616,Adjusted R-squared: 0.7318
F-statistic: 25.56 on 1 and 8 DF, p-value: 0.0009823

Pagina 10 de 24
http://www.ime.usp.br/~mae0261

MAE0261 Introducao a` Analise de Dados


II semestre de 2015
Lista de Exerccios 7 - Regressao e Quiquadrado C A S A - (gabarito)

Logo, y = 107.185 + 17.911x. Segue que, a pressao sistolica para indivduos com razao
igual a 1,25 e y(1, 25) = 107.185 + 17.911 1, 25 = 129, 57375.


Exerccio 4.
(6,0 pontos). O administrador de um hospital deseja estudar a relacao entre o nvel de satisfacao
(Y) do paciente com a idade do paciente (X1 ), severidade da doenca (X2 ) e nvel de ansiedade
(X3 ). Os valores das variaveis Y, X2 e X3 sao ndices e valores altos indicam, respectivamente,
mais satisfacao, aumento na severidade da doenca e mais ansiedade. Para isso, foram obtidas
observacoes de 23 pacientes, aleatoriamente selecionados, e foi considerado, inicialmente, o
ajuste do modelo de regressao linear m
ultipla completo. As observacoes coletadas estao na
pasta HOSPITAL do arquivo Lista 7 DADOS.
(a) (1,0 ponto). Escreva a equacao do modelo de regressao linear m
ultipla, com as suposicoes.
Resposta:
Modelo de regress
ao linear m
ultipla:
yi = 0 + 1 x1 + 2 x2 + 3 x3 + i ; i = 1, . . . , 23.
Suposi
c
ao: i N (0, 2 ), independentes.

(b) (2,5 ponto). Encontre o modelo ajustado e teste a significancia da regressao a 10%. Escreva
as hipoteses estatsticas e conclua com base no nvel descritivo.
Resposta:
Ajustando o modelo completo:
Call:
lm(formula = Y ~ ANSIEDADE.X3 + IDADE.X1 + SEVERIDADE.X2, data = hosp)
Residuals:
Min
1Q
-16.954 -7.154

Median
1.550

3Q
6.599

Max
14.888

Coefficients:
Estimate Std. Error t value Pr(>|t|)

Pagina 11 de 24
http://www.ime.usp.br/~mae0261

MAE0261 Introducao a` Analise de Dados


II semestre de 2015
Lista de Exerccios 7 - Regressao e Quiquadrado C A S A - (gabarito)

(Intercept)
162.8759
25.7757
ANSIEDADE.X3
-8.6130
12.2413
IDADE.X1
-1.2103
0.3015
SEVERIDADE.X2 -0.6659
0.8210
--Signif. codes: 0 *** 0.001 **

6.319 4.59e-06 ***


-0.704 0.49021
-4.015 0.00074 ***
-0.811 0.42736
0.01 * 0.05 . 0.1 1

Residual standard error: 10.29 on 19 degrees of freedom


(1 observation deleted due to missingness)
Multiple R-squared: 0.6727,Adjusted R-squared: 0.621
F-statistic: 13.01 on 3 and 19 DF, p-value: 7.482e-05
Hip
otese: H0 : 1 = 2 = 3 = 0, valor-p= 7, 482 105 .
O valor-p para a ANSIEDADE.X3 e o maior (0,4902), logo H0 : 1 = 0 nao e rejeitada,
entao a variavel ANSIEDADE.X3 sera retirada do modelo.

Ajustando o modelo sem a variavel ANSIEDADE.X3:


Call:
lm(formula = Y ~ IDADE.X1 + SEVERIDADE.X2, data = hospital)
Residuals:
Min
1Q
-17.180 -8.758

Median
2.074

3Q
5.916

Max
16.036

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
166.5913
24.9084
6.688 1.65e-06 ***
IDADE.X1
-1.2605
0.2892 -4.359 0.000304 ***
SEVERIDADE.X2 -1.0893
0.5514 -1.976 0.062163 .
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 10.16 on 20 degrees of freedom

Pagina 12 de 24
http://www.ime.usp.br/~mae0261

MAE0261 Introducao a` Analise de Dados


II semestre de 2015
Lista de Exerccios 7 - Regressao e Quiquadrado C A S A - (gabarito)

(1 observation deleted due to missingness)


Multiple R-squared: 0.6641,Adjusted R-squared: 0.6305
F-statistic: 19.77 on 2 and 20 DF, p-value: 1.827e-05
Hip
otese: H0 : 2 = 3 = 0.
Aqui todos os valores-p sao menores do que 0,10, logo, ao nvel de significancia de 10%,
rejetamos H0 . As variaveis IDADE (X1 ) e SEVERIDADE (X2 ) sao significativas a 10%.


(c) (1,0 ponto). Obtenha o modelo ajustado final em que todas as variaveis presentes sejam
significantes a 10%. Qual e o coeficiente de explicacao ajustado para esse modelo?
Resposta:
Do item (c) temos que as variaveis IDADE (X1 ) e SEVERIDADE (X2 ) foram significativas
a 10%. Logo, o modelo final fica dado por:
yi = 166.5913 1.2605x1 1.0893x2 .
2 = 0.6305.
O coeficiente de explicacao ajustado para esse modelo foi: R

(d) (1,5 pontos). Para o modelo obtido em (c), interprete os coeficientes estimados.
Resposta:
Interpreta
c
ao 0 : nao tem interpretacao.
Interpreta
c
ao 1 : decrescimo medio na satisfacao do paciente, quando aumenta-se 1 ano
na idade, mantendo-se a severidade da doenca (X2 ) constante.
Interpreta
c
ao 2 : decrescimo medio na satisfacao do paciente, quando aumenta-se 1 grau
na severidade da doenca, mantendo-se a idade (X1 ) constante.


Exerccio 5.
(5,0 pontos). Um experimento foi conduzido para estudar o efeito de varias quantidades de um
ingrediente chamado de cinzas volantes (X) sobre a resistencia do concreto (Y). Foi coletada
uma amostra com 18 especimes de concreto com 28 dias de aplicacao, cuja porcentagem de
cinzas volantes no concreto varia de 0 a 60%. Os dados obtidos estao pasta CINZAS do
arquivo Lista 7 DADOS.

Pagina 13 de 24
http://www.ime.usp.br/~mae0261

MAE0261 Introducao a` Analise de Dados


II semestre de 2015
Lista de Exerccios 7 - Regressao e Quiquadrado C A S A - (gabarito)

(a) (1,5 pontos). Ajuste um modelo de regressao linear simples. Interprete os resultados da
ANOVA obtida.
Resposta:
Ajuste do modelo:
Call:
lm(formula = Resistencia.Y ~ X.Cinzas.Volantes.X, data = Cinzas)
Residuals:
Min
1Q
-835.02 -230.35

Median
81.65

3Q
294.60

Max
590.12

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
4954.595
191.636
25.85 1.77e-14 ***
X.Cinzas.Volantes.X
8.807
4.948
1.78
0.0941 .
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 414 on 16 degrees of freedom
Multiple R-squared: 0.1653,Adjusted R-squared: 0.1131
F-statistic: 3.168 on 1 and 16 DF, p-value: 0.09408
Modelo ajustado: y = 4954.595 + 8.807x. Como p valor = 0, 0941 > 0, 05 = , ao
nvel de significancia de 5% nao rejetamos H0 , ou seja, o coeficiente da variavel X (Cinzas
Volantes) e zero (1 = 0).


(b) (1,0 ponto). Faca a analise de resduos do modelo em (a). O modelo ajustado parece
adequado? Justifique.
Resposta:

Pagina 14 de 24
http://www.ime.usp.br/~mae0261

MAE0261 Introducao a` Analise de Dados


II semestre de 2015
Lista de Exerccios 7 - Regressao e Quiquadrado C A S A - (gabarito)

Conclus
oes: O grafico sugere que existe uma relacao entre os valores ajustados e o resduo
padronizado, indicando que o modelo linear nao e adequado.


(c) (1,5 pontos). Ajuste um modelo de regressao polinomial de grau 2, ou seja,


Y = 0 + 1 X + 2 X 2 + e.
Interprete os resultados da ANOVA obtida.
Resposta:
Ajuste:
Call:
lm(formula = Resistencia.Y ~ X2 + X.Cinzas.Volantes.X, data = cinzas)
Residuals:
Min
1Q Median
-443.3 -182.3
64.9

3Q
160.1

Max
387.1

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
4536.4603
143.0929 31.703 3.68e-15 ***
X2
-0.8363
0.1610 -5.194 0.000109 ***
X.Cinzas.Volantes.X
58.9833
10.1310
5.822 3.36e-05 ***

Pagina 15 de 24
http://www.ime.usp.br/~mae0261

MAE0261 Introducao a` Analise de Dados


II semestre de 2015
Lista de Exerccios 7 - Regressao e Quiquadrado C A S A - (gabarito)

--Signif. codes:

0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 255.6 on 15 degrees of freedom


Multiple R-squared: 0.7018,Adjusted R-squared: 0.662
F-statistic: 17.65 on 2 and 15 DF, p-value: 0.0001146
Para testar H0 : 1 = 2 = 0, temos F = 17.65 com valor-p= 0.0001146. Alem disso,
H0 : 1 = 0 H1 : 1 6= 0, tem valor-p= 0, 000109 rejeito H0 e
H0 : 2 = 0 H1 : 2 6= 0, tem valor-p= 3, 36 105 rejeito H0 .
Logo,
Modelo ajustado: y = 4536.4603 + 58.9833x 0.8363x2 .


(d) (1,0 ponto). Faca a analise de resduos do modelo em (c). O modelo ajustado parece adequado? Justifique.
Resposta:

Coment
ario: os resduos parecem estar distribudos de forma aleatoria , sustentando as
suposicoes de independencia dos erros e variancia constante. O modelo parece estar adequado.


Pagina 16 de 24
http://www.ime.usp.br/~mae0261

MAE0261 Introducao a` Analise de Dados


II semestre de 2015
Lista de Exerccios 7 - Regressao e Quiquadrado C A S A - (gabarito)

Exerccio 6.
(8,0 pontos). Os dados da pasta ESTUDANTES do arquivo Lista 7 DADOS, referem-se a
uma amostra de 393 estudantes, em que foram observadas as variaveis: genero (masculino ou
feminino), ano que cursa (9o ano do ensino fundamental ou 3o do ensino medio) e pratica de
esportes (nao ou sim) de cada aluno.
(a) (0,5 pontos). Construa uma tabela de frequencias relacionando as variaveis genero e pratica
de esporte.
Resposta:
1-masculino
1-pratica esporte
2-feminino
0-nao pratica esporte
Frequency table:
esportes
genero
0
1
1 172 23
2 118 80


(b) (1,0 ponto). Qual e a estimativa da proporcao de estudantes que praticam esportes? E
qual e essa proporcao entre os estudantes do genero masculino?
Resposta:
0, 26 (26%).
proporcao de estudantes que praticam esportes: 23+80
393 =
23
proporcao de estudantes que praticam entre os do genero masculino: 195
= 0, 12 (12%). 

(c) (1,0 ponto). Se a pratica de esportes independe do genero, qual seria o n


umero esperado
de estudantes do genero masculino e que praticam esportes? E para os que nao praticam?
Resposta:
O n
umero esperado de estudantes do genero masculino que,
praticam esportes e:

195103
393

nao praticam esporte e:

= 51, 1;

195290
393

= 143, 89.


Pagina 17 de 24
http://www.ime.usp.br/~mae0261

MAE0261 Introducao a` Analise de Dados


II semestre de 2015
Lista de Exerccios 7 - Regressao e Quiquadrado C A S A - (gabarito)

(d) (1,5 pontos). Por meio de um teste estatstico, voce diria que a pratica de esportes e independente do genero? Escreva as hipoteses adequadas e conclua usando o nvel descritivo,
para um nvel de significancia de 5%.
Resposta:
Hip
oteses:
H0 : Pratica de esporte e genero sao variaveis independentes.
H1 : Pratica de esporte e genero nao sao variaveis independentes.
Teste de Independ
encia:
data: .Table
X-squared = 41.5784, df = 1, p-value = 1.132e-10
> .Test$expected # Expected Counts
1
2
1 143.8931 51.10687
2 146.1069 51.89313
> round(.Test$residuals^2, 2) # Chi-square Components
1
2
1 5.49 15.46
2 5.41 15.22
O nvel descritivo (Valor P): P = 1.132e 10 < 0, 05 = . Assim, temos evidencias para
rejeitar a independencia entre as variaveis genero e pratica de esporte ao nvel de 5% de
significancia, isto e, a pratica de esporte depende do sexo do estudante.


(e) (4,0 pontos). Repita os itens anteriores, trocando a variavel genero por ano que cursa. Nos
itens (b) e (c) troque genero masculino por 9o ano do ensino fundamental.
Resposta:
EF-ensino fundamental
EM-ensino Medio

1-pratica esporte
0-nao pratica esporte

Frequency table:

Pagina 18 de 24
http://www.ime.usp.br/~mae0261

MAE0261 Introducao a` Analise de Dados


II semestre de 2015
Lista de Exerccios 7 - Regressao e Quiquadrado C A S A - (gabarito)

esportes
Ano
0
1
EF 185 58
EM 105 45
A estimativa da proporcao de
estudantes que praticam esportes e:

58+45
393

= 0, 26 (26%).

estudantes que praticam esportes entre os que cursam o 9o ano do ensino fundamental
58
e: 243
= 0, 24 (24%).
Se a pratica de esporte independe do ano que o aluno cursa, o n
umero esperado de estudantes que cursam o 9o ano do ensino fundamental que,
praticam esportes e:

(185+58)(58+45)
393

nao praticam esporte e:

243103
393

(185+58)(185+105)
393

= 63, 69;

243290
393

= 179, 3.

Teste de Independ
encia:
Pearsons Chi-squared test
data: .Table
X-squared = 1.8031, df = 1, p-value = 0.1793

> .Test$expected # Expected Counts


1
2
1 179.313 63.68702
2 110.687 39.31298
O nvel descritivo (Valor P): P = 0, 1793 > 0, 05 = . Dessa forma, nao rejeitamos a
hipotese de independencia entre as variaveis ano cursado e pr
atica de esporte ao nvel
de 5% de significancia, isto e, a pratica de esporte independe do ano cursado.


Exerccio 7.
(5,0 pontos). O tempo residual do efeito de um agrotoxico esta sendo analisado. Estudos anteriores, com produtos similares, indicam que o modelo exponencial em que a probabilidade do

Pagina 19 de 24
http://www.ime.usp.br/~mae0261

MAE0261 Introducao a` Analise de Dados


II semestre de 2015
Lista de Exerccios 7 - Regressao e Quiquadrado C A S A - (gabarito)

tempo residual nos intervalos [0, 1), [1, 2), [2, 3), [3, 4), [4, 5), [5, 6) e [6, ) sao, respectivamente,
0,283; 0,203; 0,146; 0,104; 0,075; 0,054 e 0,135 e adequado. Para verificar se esse modelo
tambem e indicado para o agrotoxico em estudo, foi feita uma analise em laboratorio de uma
amostra de 300 aplicacoes do agrotoxico, obtendo os seguintes resultados:

(a) (1,5 pontos). Se o modelo exponencial for adequado, quantas amostras sao esperadas com
tempo residual no intervalo [3, 4). E no intervalo [0, 1)? E quantas foram observadas em
cada caso?
Resposta:
Se o modelo exponencial for adequado, sao esperadas
E4 = n p4 = 300 0, 104 = 31, 4
com tempo residual no intervalo [3, 4). No intervalo [0, 1) sao esperados:
E1 = n p1 = 300 0, 283 = 84, 9.
Para cada caso, as amostras observadas foram O4 = 40 e O1 = 89, respectivamente.

(b) (1,0 ponto). Formule as hipoteses estatsticas H0 e H1 de um teste de hipoteses apropriado


ao problema.
Resposta:

Hip
oteses:
H0 : o modelo exponencial e adequado.
H1 : o modelo exponencial nao e adequado.
ou equivalentemente,

Pagina 20 de 24
http://www.ime.usp.br/~mae0261

MAE0261 Introducao a` Analise de Dados


II semestre de 2015
Lista de Exerccios 7 - Regressao e Quiquadrado C A S A - (gabarito)

H0 : p1 = 0, 283; p2 = 0, 203; p3 = 0, 146; p4 = 0, 104; p5 = 0, 075; p6 = 0, 054; p7 = 0, 135


H1 : existe pelo menos uma diferenca.


(c) (1,5 pontos). Para o teste das hipoteses formuladas acima, obtenha o valor observado da
estatstica 2 (especifique o numero de graus de liberdade) e o correspondente nvel descritivo (valor P).
Resposta:
P
2
i)
A estatstica do teste de aderencia e dada por: 2 = ki=1 (Oi E
em que 2 2q com
Ei
q = k 1 graus de liberdade.

C
alculo da estatstica do teste (k = 7):
(89 84, 9)2 (60 60, 9)2 (43 43, 8)2 (40 31, 2)2
+
+
+
84, 9
60, 9
43, 8
31, 2
2
2
2
(22 16, 2)
(21 40, 5)
(25 22, 5)
+
+
+
22, 5
16, 2
40, 5
= 14, 452.

2obs =

Usando a distribuicao de qui-quadrado com q = 7 1 = 6 graus de liberdade, o nvel



descritivo e calculado por P = P (26 14, 452)
= 0, 025.

(d) (1,0 ponto). Com base no valor encontrado para o nvel descritivo, qual e a conclusao sobre
suas hipoteses, considerando nvel de significancia de 5%?
Resposta:
Para = 0, 05, como P = 0, 025 < 0, 05 ha evidencias para rejeitarmos a hipotese H0 , isto
e, ao nvel de significancia de 5%, conclumos que o modelo exponencial nao e adequado.


Exerccio 8.
(6,0 pontos). Um levantamento foi conduzido com o intuito de verificar se existe um componente
genetico que influi no alcoolismo. Uma amostra de 500 pessoas adultas de certa populacao foi
sorteada e foram observadas duas variaveis para cada pessoa: dependencia de alcool (sim/nao) e
n
umero de progenitores com dependencia (0, 1 ou 2). Entre os 150 portadores de dependencia,
43 nao tinham qualquer progenitor dependente e 42 tinham 1 progenitor dependente. Das

Pagina 21 de 24
http://www.ime.usp.br/~mae0261

MAE0261 Introducao a` Analise de Dados


II semestre de 2015
Lista de Exerccios 7 - Regressao e Quiquadrado C A S A - (gabarito)

500 pessoas entrevistadas, 149 tinham 1 progenitor dependente e 108 tinham 2 progenitores
dependentes.
(a) (1,0 ponto). Coloque as informacoes em uma tabela de contingencia.
Resposta:
Considere as variaveis,
D.A: dependencia de alcool.
P.D: n
umero de progenitores com dependencia de alcool.
H

HH
H

P.D

TOTAL

sim
nao

43
200

42
107

65
43

150
350

TOTAL

243

149

108

500

D.A

HH
H
H

(b) (1,0 ponto). De uma estimativa para a proporcao de pessoas que tem dependencia do
alcool e nenhum progenitor dependente, e para a proporcao de pessoas com 1 progenitor
dependente dentre as que nao sao dependentes do alcool.
Resposta:
43
proporcao de pessoas com dependencia e nenhum progenitor dependente: 500
= 0, 086
0, 31

proporcao de pessoas sem dependencia e um progenitor dependente: 107
350 =

(c) (1,0 ponto). Se as variaveis nao estao associadas, quantas pessoas dependentes do alcool
e com 1 progenitor dependente esperaramos observar? E quantas nao dependentes com 2
progenitores dependentes? Quantas foram observadas em cada caso?
Resposta:

Os valores esperados sao:


E12 =
E23 =

150149
500
108350
500

= 44, 7 pessoas dependentes com 1 progenitor dependente.


= 75, 6 pessoas nao dependentes com 2 progenitores dependentes.

Os valores observados sao:

Pagina 22 de 24
http://www.ime.usp.br/~mae0261

MAE0261 Introducao a` Analise de Dados


II semestre de 2015
Lista de Exerccios 7 - Regressao e Quiquadrado C A S A - (gabarito)

O12 = 42 pessoas dependentes com 1 progenitor dependente.


O23 = 43 pessoas nao dependentes com 2 progenitores dependentes.


(d) (3,0 pontos). Por meio de um teste de hipoteses adequado, voce diria que existe um componente genetico que influi no alcoolismo, a um nvel de significancia de 3%? Especifique
as hipoteses estatsticas H0 e H1 apropriadas, o n
umero de graus de liberdade associado `a
estatstica do teste e conclua com base no nvel descritivo.
Resposta:
Hip
oteses:
H0 : As variaveis D.A e P.D sao independentes.
H1 : Existe dependencia entre as variaveis.

Tabela 4: Tabela de valores observados e esperados (entre parenteses)


HH

HH P.D
D.A HHH
H

TOTAL

sim
nao

43 (72,9)
200 (170,1)

42 (44,7)
107 (104,3)

65 (32,4)
43 (75,6)

150
350

TOTAL

243

149

108

500

C
alculo da estatstica qui-quadrado:
(43 72, 9)2 (42 44, 7)2 (65 32, 4)2 (200 170, 1)2
+
+
+
72, 9
44, 7
32, 4
170, 1
2
2
(107 104, 3)
(43 75, 6)
+
+
104, 3
75, 6
= 12, 26 + 0, 16 + 32, 8 + 5, 26 + 0, 07 + 14, 06

2obs =

= 64, 61.
Determina
c
ao do n
umero de graus de liberdade:
Categorias de D.A: s = 2
Categorias de P.D: r = 3

Pagina 23 de 24
http://www.ime.usp.br/~mae0261

MAE0261 Introducao a` Analise de Dados


II semestre de 2015
Lista de Exerccios 7 - Regressao e Quiquadrado C A S A - (gabarito)

q = (r 1) (s 1) = 2 1 = 2.
O nvel descritivo (Valor P): P = P (22 64, 61) = 9.335052e 15 < 0, 0001.
Supondo = 0, 03, temos P < . Assim, temos evidencia para rejeitar a independencia
entre as variaveis D.A e P.D ao nvel de significancia de 3%, ou seja, parece existir um
componente genetico que influi no alcoolismo.


Pagina 24 de 24
http://www.ime.usp.br/~mae0261

Você também pode gostar