Lista de Regressão Linear

Exercícios de regressão
elisa kaori
novembro de 2023
Questão 1
Apresentação do conjunto de dados
Considere o conjunto de dados apresentado sobre as vendas de cadeirinhas infantis.

y = Vendas unitárias (em milhares) em cada localidade
x1 = Preço cobrado pela concorrência em cada localidade
x2 = Renda da população (em milhares de dólares)
x3 = Orçamento de publicidade local para a empresa em cada localidade (em milhares de dólares)
x4 = Tamanho da população na região (em milhares)
library(ISLR)
dados <- Carseats[1:100,1:6]
y <- dados$Sales
x1 <- dados$CompPrice
x2 <- dados$Income
x3 <- dados$Advertising
x4 <- dados$Population
Questão A
Ajuste um modelo de regressão linear múltipla considerando todas as variáveis independentes. Verifique a
multicolinearidade entre as variáveis independentes, e se há necessidade de excluir alguma delas por esse
critério. Em caso afirmativo, ajuste novo modelo sem essa variável. Apresente todos os valores de Vif.
modelo_completo <- lm(y~x1+x2+x3+x4)

modelo_completo
Modelo Completo
##
## Call:
## lm(formula = y ~ x1 + x2 + x3 + x4)
1
##
## Coefficients:
## (Intercept) x1 x2 x3 x4
## -1.465082 0.047792 0.023345 0.155848 0.002213
Modelo ajustado:
Y = β0 + β1 × X1 + β2 × X2 + β3 × X3 + β4 × X4
Onde: β0 = 1.5430267 é o intercepto, β1 = 0.0404870 é o coeficiente para X1 , β2 = 0.0078061 é o coeficiente

para X2 , β3 = 0.1776821 é o coeficiente para X3 e β4 = 0.0007496 é o coeficiente para X4 .
library(faraway)
vif(modelo_completo)
Calculando o VIF (Fator de Inflação da Variância)
## x1 x2 x3 x4
## 1.011242 1.013304 1.019325 1.006159
Como nenhum valor de VIF é considerado alto (>10), não há indícios de multicolinearidade entre as variáveis.
Questão B
Escreva as hipóteses, decisão e conclusão do teste F para o modelo. Use o p-valor da saída do software para
o teste. Faça a interpretação do coeficiente de determinação.
O teste F é utilizado para avaliar a significância global do modelo de regressão. As hipóteses são definidas
da seguinte maneira:
H0 : β 1 = β 2 = β 3 = β 4 = 0
H0 : βi ̸= 0
Hipótese nula (H0 ): Todos os coeficientes do modelo são zero, ou seja, o modelo não é significativo.
Hipótese alternativa (HA ): Pelo menos um dos coeficientes é diferente de zero, indicando que o modelo
é significativo.
summary(modelo_completo)
##
## Call:
## lm(formula = y ~ x1 + x2 + x3 + x4)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.1534 -2.0968 -0.3338 1.9398 8.5855
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
2
## (Intercept) -1.465082 2.322968 -0.631 0.529755
## x1 0.047792 0.016666 2.868 0.005096 **
## x2 0.023345 0.010427 2.239 0.027499 *
## x3 0.155848 0.043145 3.612 0.000487 ***
## x4 0.002213 0.001877 1.179 0.241156
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 2.794 on 95 degrees of freedom
## Multiple R-squared: 0.2227, Adjusted R-squared: 0.19
## F-statistic: 6.804 on 4 and 95 DF, p-value: 7.358e-05
Interpretação: Com a estatística F do teste igual a 6.804 e com o p-valor do modelo igual a 7.358e-05,
isso sugere forte evidência para rejeitar a hipótese nula de que todos os coeficientes do modelo de regressão
são iguais a zero. Portanto, indica que o modelo é significativo, ou seja, pelo menos uma das variáveis
independentes tem um impacto significativo na variável dependente.
O coeficiente de determinação encontrado foi R2 = 0.2227. Isso sugere que o modelo de regressão é não é eficaz
na explicação da variabilidade da variável dependente com base nas variáveis independentes utilizadas. Ou
seja, aproximadamente 22.27% da variação da variável dependente é capturada pelas variáveis independentes
no modelo.
Questão C
Escreva as hipóteses, decisão e conclusão do teste t para todos os parâmetros do modelo. Decida quais
variáveis não são importantes neste modelo e porque. Use 5% de significância, e considere a regra do pvalor
para decisão.
Teste para o Beta 1

H0 : β1 = 0
H0 : β1 ̸= 0
Hipótese nula (H0 ): O coeficiente β1 é igual a zero, indicando que a variável independente associada não
tem efeito significativo no modelo.
Hipótese alternativa (HA ): O coeficiente β1 é diferente de zero, sugerindo que a variável independente
tem um efeito significativo no modelo.
mx1 <- lm(y ~ x1)

summary(mx1)
##
## Call:
## lm(formula = y ~ x1)
##
## Residuals:
## -6.4409 -2.4862 0.1172 1.6357 6.8011
##
## Coefficients:
## (Intercept) 2.73900 2.24242 1.221 0.2248
3
## x1 0.03973 0.01807 2.199 0.0303 *
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## F-statistic: 4.834 on 1 and 98 DF, p-value: 0.03025
Interpretação: Com o p-valor do modelo 0.03025 < 0.05, isso sugere que, a 5% de significancia, rejeita-se
a hipótese nula. Portanto, indica que a variável x1 é estatisticamente diferente de zero, ou seja, ela tem um
impacto significativo na variável depentende y.
O coeficiente de determinação encontrado foi R2 = 0.04701. Isso sugere que o modelo reduzido apenas com
x1 não é tão eficaz na explicação da variabilidade das vendas.
Teste para o Beta 2

H0 : β2 = 0
H0 : β2 ̸= 0
mx2<- lm(y ~ x2)

summary(mx2)
##
## Call:
##
## Residuals:
## -7.2144 -2.1827 -0.0674 1.9909 8.2145
##
## Coefficients:
## (Intercept) 5.90507 0.85282 6.924 4.61e-10 ***
## x2 0.02439 0.01130 2.158 0.0334 *
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
Interpretação: Com o p-valor do modelo 0.03338 < 0.05, rejeita-se a hipótese nula, a 5% de significan-
cia. Portanto, indica que a variável x2 é estatisticamente diferente de zero, ou seja, ela tem um impacto
significativo na variável depentende y.
x2 não é tão eficaz na explicação da variabilidade do emprego derivado total.
4
Teste para o Beta 3
H0 : β3 = 0
H0 : β3 ̸= 0
mx3<- lm(y ~ x3)

summary(mx3)
##
## Call:
##
## Residuals:
## -8.0138 -2.1789 -0.0029 2.1037 8.3044
##
## Coefficients:
## (Intercept) 6.59564 0.41539 15.878 < 2e-16 ***
## x3 0.15768 0.04499 3.505 0.00069 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
Interpretação: Com o p-valor do modelo 0.0006901 < 0.05, rejeita-se a hipótese nula, a 5% de significan-
cia. Portanto, indica que a variável x3 é estatisticamente diferente de zero, ou seja, ela tem um impacto
significativo na variável depentende y.
x3 não é tão eficaz na explicação da variabilidade do emprego derivado total.
Teste para o Beta 4

H0 : β4 = 0
H0 : β4 ̸= 0
mx4<- lm(y ~ x4)

summary(mx4)
5
##
## Call:
##
## Residuals:
## -6.4281 -2.6092 0.0323 1.8242 7.4543
##
## Coefficients:
## (Intercept) 7.016514 0.602362 11.648 <2e-16 ***
## x4 0.002439 0.002075 1.175 0.243
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
Interpretação: Com o p-valor do modelo 0.2427 > 0.05, aceita-se a hipótese nula, a 5% de significancia.
Portanto, indica que a variável x4 é estatisticamente igual a zero, ou seja, ela não tem um impacto significativo
na variável depentende y.
x4 não é eficaz na explicação da variabilidade do emprego derivado total.
Questão D
Utilize o método Backward de seleção de variáveis para encontrar o melhor conjunto de preditoras para essa
variável y. Escreva a equação do modelo ajustado e a interpretação, para todas as variáveis que restaram no
modelo. Considere 5% de significância. Apresente os valores dos testes em cada passo, com a interpretação.
Modelo:
##
## Call:
## lm(formula = y ~ x1 + x2 + x3 + x4)
##
## Coefficients:
## (Intercept) x1 x2 x3 x4
## -1.465082 0.047792 0.023345 0.155848 0.002213
Retirando x4 Primeiro, verificaremos a contribuição de x4.
mx1x2x3 <- lm(y~x1+x2+x3)

anova(modelo_completo, mx1x2x3)
## Analysis of Variance Table

##
## Model 1: y ~ x1 + x2 + x3 + x4
## Model 2: y ~ x1 + x2 + x3
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 95 741.65
## 2 96 752.51 -1 -10.861 1.3912 0.2412
6
Fcalc = 1.3912
Achamos o Fmin = 1.3912. A seguir, calcularemos o Ftab .
qf(0.95, 1, 96)
## [1] 3.940163
Temos que Ftab = 3.940163. Como Fmin < Ftab , não se rejeita H0 a um nível de significância de 5%. Ou
seja, a variável x4 não é significativa e podemos retirá-la do modelo.
Novo modelo reduzido:

Y = β0 + β1 × X1 + β2 × X2 + β3 × X3
mx1x2x3
##
## Call:
## lm(formula = y ~ x1 + x2 + x3)
##
## Coefficients:
## (Intercept) x1 x2 x3
## -0.86009 0.04741 0.02292 0.15936
mx2x3 <- lm(y~x2+x3)

anova(mx1x2x3, mx2x3)

##
## Model 1: y ~ x1 + x2 + x3
## Model 2: y ~ x2 + x3
## 1 96 752.51
## 2 97 815.72 -1 -63.206 8.0633 0.005514 **
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Fcalc = 8.0633


##
## Model 1: y ~ x1 + x2 + x3
## Model 2: y ~ x1 + x3
7
## 1 96 752.51
## 2 97 790.26 -1 -37.752 4.8161 0.03061 *
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Fcalc = 4.8161
mx1x2<- lm(y~x1+x2)

##
## Model 1: y ~ x1 + x2 + x3
## Model 2: y ~ x1 + x2
## 1 96 752.51
## 2 97 859.53 -1 -107.02 13.653 0.0003657 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Fcalc = 13.653
Achamos o Fmin = 4.8161. A seguir, calcularemos o Ftab .
qf(0.95, 1, 97)
## [1] 3.939126
Temos que Ftab = 3.940163. Como Fmin > Ftab , se rejeita H0 a um nível de significância de 5%. Ou seja, a
variável x2 é significativa e não podemos retirá-la do modelo.
mx1x2x3
##
## Call:
## lm(formula = y ~ x1 + x2 + x3)
##
## Coefficients:
## -0.86009 0.04741 0.02292 0.15936
Sendo assim, nosso modelo ajustado pelo método Backward é:
Y = −0.86009 + 0.04741 × X1 + 0.02292 × X2 + 0.15936 × X4
8
Questão E
Utilize o método Forward de seleção de variáveis para encontrar o melhor conjunto de preditoras para essa
variável y. Escreva a equação do modelo ajustado e compare com o modelo obtido em (d).
Calcularemos as correlações entre y e as variáveis independentes.
cor(y, x1)
## [1] 0.2168187
cor(y, x2)
## [1] 0.2129731
cor(y, x3)
## [1] 0.3337596
cor(y, x4)
## [1] 0.1179092
Como x3 possui a maior correlação com y, o modelo reduzido inicial é o modelo mx3. Realizaremos o
procedimento Forward para adicionar as variáveis ao modelo reduzido.
Adicionando x1 Primeiro, verificaremos a contribuição de x1.

anova(mx3, mx3x1)

##
## Model 1: y ~ x3
## Model 2: y ~ x3 + x1
## 1 98 847.84
## 2 97 790.26 1 57.58 7.0676 0.009182 **
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Fcalc = 7.0676

anova(mx3, mx3x2)
9
##
## Model 1: y ~ x3
## Model 2: y ~ x3 + x2
## 1 98 847.84
## 2 97 815.72 1 32.126 3.8202 0.05352 .
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Fcalc = 3.8202
Achamos o Fmax = 7.0676. A seguir, calcularemos o Ftab .
qf(0.95, 1, 97)
## [1] 3.939126
Temos que Ftab = 3.939126. Como Fmax > Ftab , se rejeita H0 a um nível de significância de 5%. Ou seja, a
variável x1 é significativa, então a adicionaremos ao modelo. Aceita-se o modelo mx3x1.
mx3x1x2 <- lm(y~x3+x1+x2)

anova(mx2, mx3x1x2)

##
## Model 1: y ~ x2
## Model 2: y ~ x3 + x1 + x2
## 1 98 910.85
## 2 96 752.51 2 158.34 10.1 0.0001045 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Fcalc = 10.1
A seguir, calcularemos o Ftab .
qf(0.95, 1, 96)
## [1] 3.940163
Temos que Ftab = 3.939126. Como Fcalc > Ftab , se rejeita H0 a um nível de significância de 5%. Ou seja, a
variável x2 é significativa, então a adicionaremos ao modelo. Aceita-se o modelo mx3x1x2.
mx3x1x2
10
##
## Call:
## lm(formula = y ~ x3 + x1 + x2)
##
## Coefficients:
## -0.86009 0.15936 0.04741 0.02292
Sendo assim, nosso modelo ajustado pelo método Forward é:
Y = −0.86009 + 0.04741 × X1 + 0.02292 × X2 + 0.15936 × X4
Questão F
Escolha um dos modelos ajustados em (d) ou (e) e faça a análise completa dos resíduos do modelo, verificando
todas as pressuposições do modelo. Apresente os gráficos dos resíduos padronizados contra: y estimado,
variáveis independentes, ordem das observações. Apresente todas as conclusões. Complemente as conclusões
com os testes de Shapiro Wilk, Durbin Watson. Discuta sobre a necessidade de transformação na variável
resposta, ou de usar mínimos quadrados ponderados, justificando.
residuos <- residuals(mx1x2x3)
Gráfico de dispersão dos residuos vs. valores ajustados
plot(novo_mcompleto$fitted.values, residuos)
plot(mx1x2x3$fitted.values, residuos,xlab = "Valores Preditos", ylab = "Resíduos Padronizados")
11
Resíduos Padronizados
5
0
−5
5 6 7 8 9 10 11
Valores Preditos
Interpretação: Em um modelo linear bem ajustado, os resíduos padronizados devem ser distribuídos aleato-
riamente em torno do zero, sem seguir um padrão particular. Isso sugere que o modelo de regressão atende
à pressuposição de homoscedasticidade e independência dos resíduos.
Os resíduos parecem estar distribuidos aleatoriamente.
Teste de Shapiro-Wilk para Normalidade dos Resíduos
H0 : Os resíduos possuem distribuição normal H1 : Os resíduos não possuem distribuição normal
shapiro.test(residuos)
##
## Shapiro-Wilk normality test
##
## data: residuos
## W = 0.98365, p-value = 0.2529
Interpretação: Com o p-valor = 0.2529, obtido no teste de Shapiro-Wilk aplicado aos resíduos de um modelo,
não há evidências suficientes para rejeitar a hipótese nula de normalidade a um nível de significância de 5%.
Teste de Durbin-Watson para Autocorrelação dos Resíduos
H0 : Os resíduos possuem autocorrelação H1 : Os resíduos não possuem autocorrelação
12
library(lmtest)
## Carregando pacotes exigidos: zoo
##
## Attaching package: ’zoo’
## The following objects are masked from ’package:base’:

##
## as.Date, as.Date.numeric
dwtest(mx1x2x3)
##
## Durbin-Watson test
##
## data: mx1x2x3
## DW = 2.2125, p-value = 0.8663
## alternative hypothesis: true autocorrelation is greater than 0
Interpretação: Se a estatística de Durbin-Watson for próximo de 2, isso sugere que não há autocorrelação
significativa nos resíduos. Como DW = 2.2125, há indícios para se acreditar que os resíduios sejam indepen-
dentes.
Gráfico de dispersão dos residuos vs. Preço cobrado pela concorrência em cada localidade
plot(mx1$fitted.values, residuos,xlab = "Valores Preditos", ylab = "Resíduos Padronizados")
13
5
0
−5
6.0 6.5 7.0 7.5 8.0 8.5 9.0
Valores Preditos
Interpretação: Os resíduos parecem estar distribuidos aleatoriamente.
Gráfico de dispersão dos residuos vs. Renda da população
14
5
0
−5
6.5 7.0 7.5 8.0 8.5
Valores Preditos
Gráfico de dispersão dos residuos vs. Orçamento de publicidade
15
5
0
−5
7 8 9 10
Valores Preditos
Gráfico de dispersão dos residuos vs. Tamanho da população na região
16
5
0
−5
7.2 7.4 7.6 7.8 8.0 8.2
Valores Preditos
Gráfico de dispersão dos residuos vs. Ordem das observações
plot(1:length(residuos), residuos)
17
5
residuos
0
−5
0 20 40 60 80 100
1:length(residuos)
Interpretação: Os resíduos parecem estar distribuidos aleatoriamente em torno do zero, sem seguir um
padrão particular. Isso sugere que o modelo está bem ajustado.
Questão 2 - Regressão Logística

O gerente de uma seguradora de veículos está interessado em aprimorar a sua política de vendas para expandir
a base de clientes. Ele acredita que em muitas situações teria condições de realizar contratos a preços mais
competitivos se tivesse uma melhor percepção da taxa de risco a que se expõe em cada operação. Recorrendo
à sua base de dados, resolveu extrair uma amostra aleatória de 36 elementos para identificar quais são as
variáveis que mais contribuem para diferencia-los quanto a ocorrência de sinistros. Com isso, espera poder
estimar de forma mais racional o risco que ficará exposto em futuras operações e, consequentemente, conceder
descontos mais adequados. Em relação a cada indivíduo, foram levantadas as seguintes informações: idade,
estado civil (Solteiro-1; Casado-0), sexo (Feminino-1; Masculino-0) em relação a variável resposta sinistro
(Houve sinistro-1; Não houve sinistro-0). Os resultados são apresentados a seguir.
sinistro <-read.table("dadosSinistro.txt", sep = ",", header = T)
Questão A
Escreva a equação do modelo ajustado, capaz de descrever o relacionamento existente entre a ocorrência de
sinistro e as variáveis em estudo;
modelo <- glm(sinistro$Sinistro ~ sinistro$Idade + sinistro$ECivil + sinistro$Sexo, family = binomial(li

summary(modelo)
18
##
## Call:
## glm(formula = sinistro$Sinistro ~ sinistro$Idade + sinistro$ECivil +
## sinistro$Sexo, family = binomial(link = "logit"))
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 3.78103 1.94470 1.944 0.05186 .
## sinistro$Idade -0.18957 0.07228 -2.623 0.00872 **
## sinistro$ECivil -3.62511 1.65160 -2.195 0.02817 *
## sinistro$Sexo 3.70268 1.67313 2.213 0.02690 *
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 42.541 on 35 degrees of freedom
## Residual deviance: 20.990 on 32 degrees of freedom
## AIC: 28.99
##
## Number of Fisher Scoring iterations: 6
Questão B
Explicar o significado de cada componente do modelo;

β1 = −0.18957 : Isso significa que à medida que a idade aumenta em uma unidade, a razão de chances de
ocorrer o sinistro diminui 0.18957. Pode-se interpretar que, de acordo com o modelo, com o aumento da
idade, há uma menor chance de ocorrência do sinistro.
β2 = −3.62511 : Significa que um aumento unitário na variável ECivil (de casado para solteiro) está associado
a uma diminuição de aproximadamente 3.62 na razão de chances de ocorrência do sinistro. Ou seja, quando
comparados com os casados, os solteiros tem menos chances de ocorrência de sinistro.
β3 = 3.70268 : Quando comparado com os indivíduos do sexo masculino (codificados como 0), a razão de
chance de ocorrência do sinistro é cerca de 3.70268 maior para os indivíduos do sexo feminino (codificados
como 1). Ou seja, indivíduos do sexo feminino possuem mais chances de ocorrência da doença.
Questão C
Teste a significância do modelo por meio do Teste de razão de verossimilhança, apresentando as hipóteses e
conclusão. Teste a significância dos parâmetros do modelo e apresente as conclusões, em termos das variáveis.
Use 1% de significância.
summary(modelo)
Teste de razão de verossimilhança
##
## Call:
19
##
## Coefficients:
## (Intercept) 3.78103 1.94470 1.944 0.05186 .
## sinistro$Idade -0.18957 0.07228 -2.623 0.00872 **
## sinistro$ECivil -3.62511 1.65160 -2.195 0.02817 *
## sinistro$Sexo 3.70268 1.67313 2.213 0.02690 *
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
##
## AIC: 28.99
##
TRV = 42.541-20.990
TRV
## [1] 21.551
qchisq(0.99, 3)
## [1] 11.34487
H0 : Modelo reduzido é igualmente bom ou melhor que o completo H1 : O modelo completo é estatisticamente
melhor que o modelo reduzido
Como 21.551 > 11.34487, rejeita-se H0 a um nível de significância de 1% e conclue-se que o modelo é
significativo.
Questão D
Interprete as razões de chance e os intervalos de confiança obtidas para todos os parâmetros;
ICbeta=confint.default(modelo,level=0.95)
ICbeta
Intervalos de confiança
## 2.5 % 97.5 %
## (Intercept) -0.03051846 7.59258396
## sinistro$Idade -0.33123689 -0.04790661
## sinistro$ECivil -6.86218543 -0.38803500
## sinistro$Sexo 0.42339383 6.98195617
20
OR=exp(modelo$coefficients)
OR
Razões de chance (Odds Ratio)
## (Intercept) sinistro$Idade sinistro$ECivil sinistro$Sexo

## 43.86131610 0.82731335 0.02664616 40.55564586
Interpretação: A razão de chance para a idade é 0.83. Ou seja, para cada aumento unitário na idade do
indivíduo,a chance de ocorrência do sinistro diminui em cerca de 17%. A razão de chance para o estado
civil é 0.03. Isso indica que a chance de ocorrência do sinistro para um indivíduo solteiro é cerca de 97%
menor em comparação com um indivíduo casado. A razão de chance para o sexo é 40.56. Isso significa que a
chance de ocorrência do sinistro para um indivíduo do sexo feminino é cerca de 40 vezes maior do que para
um indivíduo do sexo masculino.
Questão E
Estime a probabilidade de sinistro associada a um cliente do sexo masculino, casado com 25 anos de idade;
coeficientes <- coef(modelo)
idade <- 25
sexo <- 0 # Masculino
ecivil <- 0 # Casado
log_odds <- coeficientes[1] + coeficientes[2] * idade + coeficientes[3] * ecivil + coeficientes[4] * sex
probabilidade <- exp(log_odds) / (1 + exp(log_odds))

probabilidade
## (Intercept)
## 0.2772265
Questão F
Para o mesmo cliente citado no item anterior, qual a probabilidade de sinistro se ele for solteiro?
coeficientes <- coef(modelo)
idade <- 25
sexo <- 0 # Masculino
ecivil <- 1 # Solteiro
log_odds <- coeficientes[1] + coeficientes[2] * idade + coeficientes[3] * ecivil + coeficientes[4] * sex
probabilidade <- exp(log_odds) / (1 + exp(log_odds))

probabilidade
## (Intercept)
## 0.01011698
21
Questão G
Compare os resultados obtidos nos dois itens anteriores e reflita sobre as estratégias que poderiam ser
adotadas pela companhia para atrair novos clientes.
P (sinistro)casado = 0.2772265 P (sinistro)solteiro = 0.01011698
Essa diferença nas probabilidades nos diz que o estado civil tem uma influência bastante significativa na
chance de ocorrência de sinistro. Clientes solteiros parecem ter uma probabilidade muito menor de sinistro
do que os clientes casados.
Pensando nisso, uma estratégia seria direcionar a divulgação das campanhas para o público-alvo solteiro,
criando estratégias de marketing específicas para cada segmento.
Questão H
Considere um nível de significância de 1% para excluir variáveis do modelo e comparar o modelo reduzido
com o modelo completo, usando o teste de razão de verossimilhança. Decida qual o melhor modelo, com
base nesse teste.
summary(modelo)
##
## Call:
##
## Coefficients:
## (Intercept) 3.78103 1.94470 1.944 0.05186 .
## sinistro$Idade -0.18957 0.07228 -2.623 0.00872 **
## sinistro$ECivil -3.62511 1.65160 -2.195 0.02817 *
## sinistro$Sexo 3.70268 1.67313 2.213 0.02690 *
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
##
## AIC: 28.99
##
modelo_reduzido <- glm(sinistro$Sinistro ~ sinistro$ECivil, family = binomial(link = "logit"))

summary(modelo_reduzido)
##
## Call:
## glm(formula = sinistro$Sinistro ~ sinistro$ECivil, family = binomial(link = "logit"))
##
## Coefficients:
22
## (Intercept) -0.4055 0.4564 -0.888 0.3744
## sinistro$ECivil -1.5404 0.8830 -1.744 0.0811 .
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
##
## AIC: 42.977
##
TRV = modelo_reduzido$deviance - modelo$deviance

TRV
## [1] 17.98712
qchisq(0.99, 3)
## [1] 11.34487
H0 : Modelo reduzido é igualmente bom ou melhor que o completo H1 : O modelo completo é estatisticamente
melhor que o modelo reduzido
Como TRV (17.98712) > 11.34487, rejeita-se H0 a um nível de significância de 1% e conclue-se que o modelo
completo é melhor do que o reduzido.
23

Lista de Regressão Linear

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Lista de Regressão Linear

Enviado por

Direitos autorais:

Formatos disponíveis

Exercícios de regressão

Apresentação do conjunto de dados

Considere o conjunto de dados apresentado sobre as vendas de cadeirinhas infantis.

modelo_completo <- lm(y~x1+x2+x3+x4)

Onde: β0 = 1.5430267 é o intercepto, β1 = 0.0404870 é o coeficiente para X1 , β2 = 0.0078061 é o coeficiente

Calculando o VIF (Fator de Inflação da Variância)

Teste para o Beta 1

mx1 <- lm(y ~ x1)

Teste para o Beta 2

mx2<- lm(y ~ x2)

mx3<- lm(y ~ x3)

Teste para o Beta 4

mx4<- lm(y ~ x4)

Retirando x4 Primeiro, verificaremos a contribuição de x4.

mx1x2x3 <- lm(y~x1+x2+x3)

## Analysis of Variance Table

Novo modelo reduzido:

Retirando x1 Primeiro, verificaremos a contribuição de x1.

mx2x3 <- lm(y~x2+x3)

## Analysis of Variance Table

Retirando x2 Primeiro, verificaremos a contribuição de x2.

mx1x3 <- lm(y~x1+x3)

## Analysis of Variance Table

Retirando x3 Primeiro, verificaremos a contribuição de x3.

## Analysis of Variance Table

Sendo assim, nosso modelo ajustado pelo método Backward é:

Y = −0.86009 + 0.04741 × X1 + 0.02292 × X2 + 0.15936 × X4

Adicionando x1 Primeiro, verificaremos a contribuição de x1.

mx3x1 <- lm(y~x3+x1)

## Analysis of Variance Table

Adicionando x2 Primeiro, verificaremos a contribuição de x2.

mx3x2 <- lm(y~x3+x2)

Adicionando x2 Primeiro, verificaremos a contribuição de x2.

mx3x1x2 <- lm(y~x3+x1+x2)

## Analysis of Variance Table

Sendo assim, nosso modelo ajustado pelo método Forward é:

Y = −0.86009 + 0.04741 × X1 + 0.02292 × X2 + 0.15936 × X4

residuos <- residuals(mx1x2x3)

Gráfico de dispersão dos residuos vs. valores ajustados

plot(mx1x2x3$fitted.values, residuos,xlab = "Valores Preditos", ylab = "Resíduos Padronizados")

Teste de Shapiro-Wilk para Normalidade dos Resíduos

H0 : Os resíduos possuem distribuição normal H1 : Os resíduos não possuem distribuição normal

Teste de Durbin-Watson para Autocorrelação dos Resíduos

H0 : Os resíduos possuem autocorrelação H1 : Os resíduos não possuem autocorrelação

## Carregando pacotes exigidos: zoo

## The following objects are masked from ’package:base’:

plot(mx1$fitted.values, residuos,xlab = "Valores Preditos", ylab = "Resíduos Padronizados")

6.0 6.5 7.0 7.5 8.0 8.5 9.0

Interpretação: Os resíduos parecem estar distribuidos aleatoriamente.

Gráfico de dispersão dos residuos vs. Renda da população

plot(mx2$fitted.values, residuos,xlab = "Valores Preditos", ylab = "Resíduos Padronizados")

6.5 7.0 7.5 8.0 8.5

Interpretação: Os resíduos parecem estar distribuidos aleatoriamente.

Gráfico de dispersão dos residuos vs. Orçamento de publicidade

plot(mx3$fitted.values, residuos,xlab = "Valores Preditos", ylab = "Resíduos Padronizados")

Interpretação: Os resíduos parecem estar distribuidos aleatoriamente.

Gráfico de dispersão dos residuos vs. Tamanho da população na região

plot(mx4$fitted.values, residuos,xlab = "Valores Preditos", ylab = "Resíduos Padronizados")

7.2 7.4 7.6 7.8 8.0 8.2

Interpretação: Os resíduos parecem estar distribuidos aleatoriamente.

Gráfico de dispersão dos residuos vs. Ordem das observações

Questão 2 - Regressão Logística

sinistro <-read.table("dadosSinistro.txt", sep = ",", header = T)