Escolar Documentos
Profissional Documentos
Cultura Documentos
elisa kaori
novembro de 2023
Questão 1
library(ISLR)
dados <- Carseats[1:100,1:6]
y <- dados$Sales
x1 <- dados$CompPrice
x2 <- dados$Income
x3 <- dados$Advertising
x4 <- dados$Population
Questão A
Ajuste um modelo de regressão linear múltipla considerando todas as variáveis independentes. Verifique a
multicolinearidade entre as variáveis independentes, e se há necessidade de excluir alguma delas por esse
critério. Em caso afirmativo, ajuste novo modelo sem essa variável. Apresente todos os valores de Vif.
Modelo Completo
##
## Call:
## lm(formula = y ~ x1 + x2 + x3 + x4)
1
##
## Coefficients:
## (Intercept) x1 x2 x3 x4
## -1.465082 0.047792 0.023345 0.155848 0.002213
Modelo ajustado:
Y = β0 + β1 × X1 + β2 × X2 + β3 × X3 + β4 × X4
library(faraway)
vif(modelo_completo)
## x1 x2 x3 x4
## 1.011242 1.013304 1.019325 1.006159
Como nenhum valor de VIF é considerado alto (>10), não há indícios de multicolinearidade entre as variáveis.
Questão B
Escreva as hipóteses, decisão e conclusão do teste F para o modelo. Use o p-valor da saída do software para
o teste. Faça a interpretação do coeficiente de determinação.
O teste F é utilizado para avaliar a significância global do modelo de regressão. As hipóteses são definidas
da seguinte maneira:
H0 : β 1 = β 2 = β 3 = β 4 = 0
H0 : βi ̸= 0
Hipótese nula (H0 ): Todos os coeficientes do modelo são zero, ou seja, o modelo não é significativo.
Hipótese alternativa (HA ): Pelo menos um dos coeficientes é diferente de zero, indicando que o modelo
é significativo.
summary(modelo_completo)
##
## Call:
## lm(formula = y ~ x1 + x2 + x3 + x4)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.1534 -2.0968 -0.3338 1.9398 8.5855
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
2
## (Intercept) -1.465082 2.322968 -0.631 0.529755
## x1 0.047792 0.016666 2.868 0.005096 **
## x2 0.023345 0.010427 2.239 0.027499 *
## x3 0.155848 0.043145 3.612 0.000487 ***
## x4 0.002213 0.001877 1.179 0.241156
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 2.794 on 95 degrees of freedom
## Multiple R-squared: 0.2227, Adjusted R-squared: 0.19
## F-statistic: 6.804 on 4 and 95 DF, p-value: 7.358e-05
Interpretação: Com a estatística F do teste igual a 6.804 e com o p-valor do modelo igual a 7.358e-05,
isso sugere forte evidência para rejeitar a hipótese nula de que todos os coeficientes do modelo de regressão
são iguais a zero. Portanto, indica que o modelo é significativo, ou seja, pelo menos uma das variáveis
independentes tem um impacto significativo na variável dependente.
O coeficiente de determinação encontrado foi R2 = 0.2227. Isso sugere que o modelo de regressão é não é eficaz
na explicação da variabilidade da variável dependente com base nas variáveis independentes utilizadas. Ou
seja, aproximadamente 22.27% da variação da variável dependente é capturada pelas variáveis independentes
no modelo.
Questão C
Escreva as hipóteses, decisão e conclusão do teste t para todos os parâmetros do modelo. Decida quais
variáveis não são importantes neste modelo e porque. Use 5% de significância, e considere a regra do pvalor
para decisão.
Hipótese nula (H0 ): O coeficiente β1 é igual a zero, indicando que a variável independente associada não
tem efeito significativo no modelo.
Hipótese alternativa (HA ): O coeficiente β1 é diferente de zero, sugerindo que a variável independente
tem um efeito significativo no modelo.
##
## Call:
## lm(formula = y ~ x1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.4409 -2.4862 0.1172 1.6357 6.8011
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.73900 2.24242 1.221 0.2248
3
## x1 0.03973 0.01807 2.199 0.0303 *
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 3.046 on 98 degrees of freedom
## Multiple R-squared: 0.04701, Adjusted R-squared: 0.03729
## F-statistic: 4.834 on 1 and 98 DF, p-value: 0.03025
Interpretação: Com o p-valor do modelo 0.03025 < 0.05, isso sugere que, a 5% de significancia, rejeita-se
a hipótese nula. Portanto, indica que a variável x1 é estatisticamente diferente de zero, ou seja, ela tem um
impacto significativo na variável depentende y.
O coeficiente de determinação encontrado foi R2 = 0.04701. Isso sugere que o modelo reduzido apenas com
x1 não é tão eficaz na explicação da variabilidade das vendas.
Hipótese nula (H0 ): O coeficiente β2 é igual a zero, indicando que a variável independente associada não
tem efeito significativo no modelo.
Hipótese alternativa (HA ): O coeficiente β2 é diferente de zero, sugerindo que a variável independente
tem um efeito significativo no modelo.
##
## Call:
## lm(formula = y ~ x2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.2144 -2.1827 -0.0674 1.9909 8.2145
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.90507 0.85282 6.924 4.61e-10 ***
## x2 0.02439 0.01130 2.158 0.0334 *
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 3.049 on 98 degrees of freedom
## Multiple R-squared: 0.04536, Adjusted R-squared: 0.03562
## F-statistic: 4.656 on 1 and 98 DF, p-value: 0.03338
Interpretação: Com o p-valor do modelo 0.03338 < 0.05, rejeita-se a hipótese nula, a 5% de significan-
cia. Portanto, indica que a variável x2 é estatisticamente diferente de zero, ou seja, ela tem um impacto
significativo na variável depentende y.
O coeficiente de determinação encontrado foi R2 = 0.04536. Isso sugere que o modelo reduzido apenas com
x2 não é tão eficaz na explicação da variabilidade do emprego derivado total.
4
Teste para o Beta 3
H0 : β3 = 0
H0 : β3 ̸= 0
Hipótese nula (H0 ): O coeficiente β2 é igual a zero, indicando que a variável independente associada não
tem efeito significativo no modelo.
Hipótese alternativa (HA ): O coeficiente β2 é diferente de zero, sugerindo que a variável independente
tem um efeito significativo no modelo.
##
## Call:
## lm(formula = y ~ x3)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.0138 -2.1789 -0.0029 2.1037 8.3044
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.59564 0.41539 15.878 < 2e-16 ***
## x3 0.15768 0.04499 3.505 0.00069 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 2.941 on 98 degrees of freedom
## Multiple R-squared: 0.1114, Adjusted R-squared: 0.1023
## F-statistic: 12.29 on 1 and 98 DF, p-value: 0.0006901
Interpretação: Com o p-valor do modelo 0.0006901 < 0.05, rejeita-se a hipótese nula, a 5% de significan-
cia. Portanto, indica que a variável x3 é estatisticamente diferente de zero, ou seja, ela tem um impacto
significativo na variável depentende y.
O coeficiente de determinação encontrado foi R2 = 0.1114. Isso sugere que o modelo reduzido apenas com
x3 não é tão eficaz na explicação da variabilidade do emprego derivado total.
Hipótese nula (H0 ): O coeficiente β2 é igual a zero, indicando que a variável independente associada não
tem efeito significativo no modelo.
Hipótese alternativa (HA ): O coeficiente β2 é diferente de zero, sugerindo que a variável independente
tem um efeito significativo no modelo.
5
##
## Call:
## lm(formula = y ~ x4)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.4281 -2.6092 0.0323 1.8242 7.4543
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.016514 0.602362 11.648 <2e-16 ***
## x4 0.002439 0.002075 1.175 0.243
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 3.098 on 98 degrees of freedom
## Multiple R-squared: 0.0139, Adjusted R-squared: 0.00384
## F-statistic: 1.382 on 1 and 98 DF, p-value: 0.2427
Interpretação: Com o p-valor do modelo 0.2427 > 0.05, aceita-se a hipótese nula, a 5% de significancia.
Portanto, indica que a variável x4 é estatisticamente igual a zero, ou seja, ela não tem um impacto significativo
na variável depentende y.
O coeficiente de determinação encontrado foi R2 = 0.0139. Isso sugere que o modelo reduzido apenas com
x4 não é eficaz na explicação da variabilidade do emprego derivado total.
Questão D
Utilize o método Backward de seleção de variáveis para encontrar o melhor conjunto de preditoras para essa
variável y. Escreva a equação do modelo ajustado e a interpretação, para todas as variáveis que restaram no
modelo. Considere 5% de significância. Apresente os valores dos testes em cada passo, com a interpretação.
Modelo:
##
## Call:
## lm(formula = y ~ x1 + x2 + x3 + x4)
##
## Coefficients:
## (Intercept) x1 x2 x3 x4
## -1.465082 0.047792 0.023345 0.155848 0.002213
6
Fcalc = 1.3912
Achamos o Fmin = 1.3912. A seguir, calcularemos o Ftab .
qf(0.95, 1, 96)
## [1] 3.940163
Temos que Ftab = 3.940163. Como Fmin < Ftab , não se rejeita H0 a um nível de significância de 5%. Ou
seja, a variável x4 não é significativa e podemos retirá-la do modelo.
mx1x2x3
##
## Call:
## lm(formula = y ~ x1 + x2 + x3)
##
## Coefficients:
## (Intercept) x1 x2 x3
## -0.86009 0.04741 0.02292 0.15936
Fcalc = 8.0633
7
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 96 752.51
## 2 97 790.26 -1 -37.752 4.8161 0.03061 *
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Fcalc = 4.8161
mx1x2<- lm(y~x1+x2)
anova(mx1x2x3, mx1x2)
Fcalc = 13.653
Achamos o Fmin = 4.8161. A seguir, calcularemos o Ftab .
qf(0.95, 1, 97)
## [1] 3.939126
Temos que Ftab = 3.940163. Como Fmin > Ftab , se rejeita H0 a um nível de significância de 5%. Ou seja, a
variável x2 é significativa e não podemos retirá-la do modelo.
mx1x2x3
##
## Call:
## lm(formula = y ~ x1 + x2 + x3)
##
## Coefficients:
## (Intercept) x1 x2 x3
## -0.86009 0.04741 0.02292 0.15936
8
Questão E
Utilize o método Forward de seleção de variáveis para encontrar o melhor conjunto de preditoras para essa
variável y. Escreva a equação do modelo ajustado e compare com o modelo obtido em (d).
Calcularemos as correlações entre y e as variáveis independentes.
cor(y, x1)
## [1] 0.2168187
cor(y, x2)
## [1] 0.2129731
cor(y, x3)
## [1] 0.3337596
cor(y, x4)
## [1] 0.1179092
Como x3 possui a maior correlação com y, o modelo reduzido inicial é o modelo mx3. Realizaremos o
procedimento Forward para adicionar as variáveis ao modelo reduzido.
Fcalc = 7.0676
9
## Analysis of Variance Table
##
## Model 1: y ~ x3
## Model 2: y ~ x3 + x2
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 98 847.84
## 2 97 815.72 1 32.126 3.8202 0.05352 .
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Fcalc = 3.8202
Achamos o Fmax = 7.0676. A seguir, calcularemos o Ftab .
qf(0.95, 1, 97)
## [1] 3.939126
Temos que Ftab = 3.939126. Como Fmax > Ftab , se rejeita H0 a um nível de significância de 5%. Ou seja, a
variável x1 é significativa, então a adicionaremos ao modelo. Aceita-se o modelo mx3x1.
Fcalc = 10.1
A seguir, calcularemos o Ftab .
qf(0.95, 1, 96)
## [1] 3.940163
Temos que Ftab = 3.939126. Como Fcalc > Ftab , se rejeita H0 a um nível de significância de 5%. Ou seja, a
variável x2 é significativa, então a adicionaremos ao modelo. Aceita-se o modelo mx3x1x2.
mx3x1x2
10
##
## Call:
## lm(formula = y ~ x3 + x1 + x2)
##
## Coefficients:
## (Intercept) x3 x1 x2
## -0.86009 0.15936 0.04741 0.02292
Questão F
Escolha um dos modelos ajustados em (d) ou (e) e faça a análise completa dos resíduos do modelo, verificando
todas as pressuposições do modelo. Apresente os gráficos dos resíduos padronizados contra: y estimado,
variáveis independentes, ordem das observações. Apresente todas as conclusões. Complemente as conclusões
com os testes de Shapiro Wilk, Durbin Watson. Discuta sobre a necessidade de transformação na variável
resposta, ou de usar mínimos quadrados ponderados, justificando.
plot(novo_mcompleto$fitted.values, residuos)
11
Resíduos Padronizados
5
0
−5
5 6 7 8 9 10 11
Valores Preditos
Interpretação: Em um modelo linear bem ajustado, os resíduos padronizados devem ser distribuídos aleato-
riamente em torno do zero, sem seguir um padrão particular. Isso sugere que o modelo de regressão atende
à pressuposição de homoscedasticidade e independência dos resíduos.
Os resíduos parecem estar distribuidos aleatoriamente.
shapiro.test(residuos)
##
## Shapiro-Wilk normality test
##
## data: residuos
## W = 0.98365, p-value = 0.2529
Interpretação: Com o p-valor = 0.2529, obtido no teste de Shapiro-Wilk aplicado aos resíduos de um modelo,
não há evidências suficientes para rejeitar a hipótese nula de normalidade a um nível de significância de 5%.
12
library(lmtest)
##
## Attaching package: ’zoo’
dwtest(mx1x2x3)
##
## Durbin-Watson test
##
## data: mx1x2x3
## DW = 2.2125, p-value = 0.8663
## alternative hypothesis: true autocorrelation is greater than 0
Interpretação: Se a estatística de Durbin-Watson for próximo de 2, isso sugere que não há autocorrelação
significativa nos resíduos. Como DW = 2.2125, há indícios para se acreditar que os resíduios sejam indepen-
dentes.
Gráfico de dispersão dos residuos vs. Preço cobrado pela concorrência em cada localidade
13
Resíduos Padronizados
5
0
−5
Valores Preditos
14
Resíduos Padronizados
5
0
−5
Valores Preditos
15
Resíduos Padronizados
5
0
−5
7 8 9 10
Valores Preditos
16
Resíduos Padronizados
5
0
−5
Valores Preditos
plot(1:length(residuos), residuos)
17
5
residuos
0
−5
0 20 40 60 80 100
1:length(residuos)
Interpretação: Os resíduos parecem estar distribuidos aleatoriamente em torno do zero, sem seguir um
padrão particular. Isso sugere que o modelo está bem ajustado.
Questão A
Escreva a equação do modelo ajustado, capaz de descrever o relacionamento existente entre a ocorrência de
sinistro e as variáveis em estudo;
18
##
## Call:
## glm(formula = sinistro$Sinistro ~ sinistro$Idade + sinistro$ECivil +
## sinistro$Sexo, family = binomial(link = "logit"))
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 3.78103 1.94470 1.944 0.05186 .
## sinistro$Idade -0.18957 0.07228 -2.623 0.00872 **
## sinistro$ECivil -3.62511 1.65160 -2.195 0.02817 *
## sinistro$Sexo 3.70268 1.67313 2.213 0.02690 *
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 42.541 on 35 degrees of freedom
## Residual deviance: 20.990 on 32 degrees of freedom
## AIC: 28.99
##
## Number of Fisher Scoring iterations: 6
Questão B
Questão C
Teste a significância do modelo por meio do Teste de razão de verossimilhança, apresentando as hipóteses e
conclusão. Teste a significância dos parâmetros do modelo e apresente as conclusões, em termos das variáveis.
Use 1% de significância.
summary(modelo)
##
## Call:
## glm(formula = sinistro$Sinistro ~ sinistro$Idade + sinistro$ECivil +
19
## sinistro$Sexo, family = binomial(link = "logit"))
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 3.78103 1.94470 1.944 0.05186 .
## sinistro$Idade -0.18957 0.07228 -2.623 0.00872 **
## sinistro$ECivil -3.62511 1.65160 -2.195 0.02817 *
## sinistro$Sexo 3.70268 1.67313 2.213 0.02690 *
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 42.541 on 35 degrees of freedom
## Residual deviance: 20.990 on 32 degrees of freedom
## AIC: 28.99
##
## Number of Fisher Scoring iterations: 6
TRV = 42.541-20.990
TRV
## [1] 21.551
qchisq(0.99, 3)
## [1] 11.34487
H0 : Modelo reduzido é igualmente bom ou melhor que o completo H1 : O modelo completo é estatisticamente
melhor que o modelo reduzido
Como 21.551 > 11.34487, rejeita-se H0 a um nível de significância de 1% e conclue-se que o modelo é
significativo.
Questão D
ICbeta=confint.default(modelo,level=0.95)
ICbeta
Intervalos de confiança
## 2.5 % 97.5 %
## (Intercept) -0.03051846 7.59258396
## sinistro$Idade -0.33123689 -0.04790661
## sinistro$ECivil -6.86218543 -0.38803500
## sinistro$Sexo 0.42339383 6.98195617
20
OR=exp(modelo$coefficients)
OR
Interpretação: A razão de chance para a idade é 0.83. Ou seja, para cada aumento unitário na idade do
indivíduo,a chance de ocorrência do sinistro diminui em cerca de 17%. A razão de chance para o estado
civil é 0.03. Isso indica que a chance de ocorrência do sinistro para um indivíduo solteiro é cerca de 97%
menor em comparação com um indivíduo casado. A razão de chance para o sexo é 40.56. Isso significa que a
chance de ocorrência do sinistro para um indivíduo do sexo feminino é cerca de 40 vezes maior do que para
um indivíduo do sexo masculino.
Questão E
Estime a probabilidade de sinistro associada a um cliente do sexo masculino, casado com 25 anos de idade;
idade <- 25
sexo <- 0 # Masculino
ecivil <- 0 # Casado
## (Intercept)
## 0.2772265
Questão F
Para o mesmo cliente citado no item anterior, qual a probabilidade de sinistro se ele for solteiro?
idade <- 25
sexo <- 0 # Masculino
ecivil <- 1 # Solteiro
## (Intercept)
## 0.01011698
21
Questão G
Compare os resultados obtidos nos dois itens anteriores e reflita sobre as estratégias que poderiam ser
adotadas pela companhia para atrair novos clientes.
P (sinistro)casado = 0.2772265 P (sinistro)solteiro = 0.01011698
Essa diferença nas probabilidades nos diz que o estado civil tem uma influência bastante significativa na
chance de ocorrência de sinistro. Clientes solteiros parecem ter uma probabilidade muito menor de sinistro
do que os clientes casados.
Pensando nisso, uma estratégia seria direcionar a divulgação das campanhas para o público-alvo solteiro,
criando estratégias de marketing específicas para cada segmento.
Questão H
Considere um nível de significância de 1% para excluir variáveis do modelo e comparar o modelo reduzido
com o modelo completo, usando o teste de razão de verossimilhança. Decida qual o melhor modelo, com
base nesse teste.
summary(modelo)
##
## Call:
## glm(formula = sinistro$Sinistro ~ sinistro$Idade + sinistro$ECivil +
## sinistro$Sexo, family = binomial(link = "logit"))
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 3.78103 1.94470 1.944 0.05186 .
## sinistro$Idade -0.18957 0.07228 -2.623 0.00872 **
## sinistro$ECivil -3.62511 1.65160 -2.195 0.02817 *
## sinistro$Sexo 3.70268 1.67313 2.213 0.02690 *
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 42.541 on 35 degrees of freedom
## Residual deviance: 20.990 on 32 degrees of freedom
## AIC: 28.99
##
## Number of Fisher Scoring iterations: 6
##
## Call:
## glm(formula = sinistro$Sinistro ~ sinistro$ECivil, family = binomial(link = "logit"))
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
22
## (Intercept) -0.4055 0.4564 -0.888 0.3744
## sinistro$ECivil -1.5404 0.8830 -1.744 0.0811 .
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 42.541 on 35 degrees of freedom
## Residual deviance: 38.977 on 34 degrees of freedom
## AIC: 42.977
##
## Number of Fisher Scoring iterations: 4
## [1] 17.98712
qchisq(0.99, 3)
## [1] 11.34487
H0 : Modelo reduzido é igualmente bom ou melhor que o completo H1 : O modelo completo é estatisticamente
melhor que o modelo reduzido
Como TRV (17.98712) > 11.34487, rejeita-se H0 a um nível de significância de 1% e conclue-se que o modelo
completo é melhor do que o reduzido.
23