Você está na página 1de 23

Exercícios de regressão

elisa kaori

novembro de 2023

Questão 1

Apresentação do conjunto de dados

Considere o conjunto de dados apresentado sobre as vendas de cadeirinhas infantis.


y = Vendas unitárias (em milhares) em cada localidade
x1 = Preço cobrado pela concorrência em cada localidade
x2 = Renda da população (em milhares de dólares)
x3 = Orçamento de publicidade local para a empresa em cada localidade (em milhares de dólares)
x4 = Tamanho da população na região (em milhares)

library(ISLR)
dados <- Carseats[1:100,1:6]

y <- dados$Sales
x1 <- dados$CompPrice
x2 <- dados$Income
x3 <- dados$Advertising
x4 <- dados$Population

Questão A

Ajuste um modelo de regressão linear múltipla considerando todas as variáveis independentes. Verifique a
multicolinearidade entre as variáveis independentes, e se há necessidade de excluir alguma delas por esse
critério. Em caso afirmativo, ajuste novo modelo sem essa variável. Apresente todos os valores de Vif.

modelo_completo <- lm(y~x1+x2+x3+x4)


modelo_completo

Modelo Completo

##
## Call:
## lm(formula = y ~ x1 + x2 + x3 + x4)

1
##
## Coefficients:
## (Intercept) x1 x2 x3 x4
## -1.465082 0.047792 0.023345 0.155848 0.002213

Modelo ajustado:
Y = β0 + β1 × X1 + β2 × X2 + β3 × X3 + β4 × X4

Onde: β0 = 1.5430267 é o intercepto, β1 = 0.0404870 é o coeficiente para X1 , β2 = 0.0078061 é o coeficiente


para X2 , β3 = 0.1776821 é o coeficiente para X3 e β4 = 0.0007496 é o coeficiente para X4 .

library(faraway)
vif(modelo_completo)

Calculando o VIF (Fator de Inflação da Variância)

## x1 x2 x3 x4
## 1.011242 1.013304 1.019325 1.006159

Como nenhum valor de VIF é considerado alto (>10), não há indícios de multicolinearidade entre as variáveis.

Questão B

Escreva as hipóteses, decisão e conclusão do teste F para o modelo. Use o p-valor da saída do software para
o teste. Faça a interpretação do coeficiente de determinação.
O teste F é utilizado para avaliar a significância global do modelo de regressão. As hipóteses são definidas
da seguinte maneira:

H0 : β 1 = β 2 = β 3 = β 4 = 0
H0 : βi ̸= 0

Hipótese nula (H0 ): Todos os coeficientes do modelo são zero, ou seja, o modelo não é significativo.
Hipótese alternativa (HA ): Pelo menos um dos coeficientes é diferente de zero, indicando que o modelo
é significativo.

summary(modelo_completo)

##
## Call:
## lm(formula = y ~ x1 + x2 + x3 + x4)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.1534 -2.0968 -0.3338 1.9398 8.5855
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)

2
## (Intercept) -1.465082 2.322968 -0.631 0.529755
## x1 0.047792 0.016666 2.868 0.005096 **
## x2 0.023345 0.010427 2.239 0.027499 *
## x3 0.155848 0.043145 3.612 0.000487 ***
## x4 0.002213 0.001877 1.179 0.241156
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 2.794 on 95 degrees of freedom
## Multiple R-squared: 0.2227, Adjusted R-squared: 0.19
## F-statistic: 6.804 on 4 and 95 DF, p-value: 7.358e-05

Interpretação: Com a estatística F do teste igual a 6.804 e com o p-valor do modelo igual a 7.358e-05,
isso sugere forte evidência para rejeitar a hipótese nula de que todos os coeficientes do modelo de regressão
são iguais a zero. Portanto, indica que o modelo é significativo, ou seja, pelo menos uma das variáveis
independentes tem um impacto significativo na variável dependente.
O coeficiente de determinação encontrado foi R2 = 0.2227. Isso sugere que o modelo de regressão é não é eficaz
na explicação da variabilidade da variável dependente com base nas variáveis independentes utilizadas. Ou
seja, aproximadamente 22.27% da variação da variável dependente é capturada pelas variáveis independentes
no modelo.

Questão C

Escreva as hipóteses, decisão e conclusão do teste t para todos os parâmetros do modelo. Decida quais
variáveis não são importantes neste modelo e porque. Use 5% de significância, e considere a regra do pvalor
para decisão.

Teste para o Beta 1


H0 : β1 = 0
H0 : β1 ̸= 0

Hipótese nula (H0 ): O coeficiente β1 é igual a zero, indicando que a variável independente associada não
tem efeito significativo no modelo.
Hipótese alternativa (HA ): O coeficiente β1 é diferente de zero, sugerindo que a variável independente
tem um efeito significativo no modelo.

mx1 <- lm(y ~ x1)


summary(mx1)

##
## Call:
## lm(formula = y ~ x1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.4409 -2.4862 0.1172 1.6357 6.8011
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.73900 2.24242 1.221 0.2248

3
## x1 0.03973 0.01807 2.199 0.0303 *
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 3.046 on 98 degrees of freedom
## Multiple R-squared: 0.04701, Adjusted R-squared: 0.03729
## F-statistic: 4.834 on 1 and 98 DF, p-value: 0.03025

Interpretação: Com o p-valor do modelo 0.03025 < 0.05, isso sugere que, a 5% de significancia, rejeita-se
a hipótese nula. Portanto, indica que a variável x1 é estatisticamente diferente de zero, ou seja, ela tem um
impacto significativo na variável depentende y.
O coeficiente de determinação encontrado foi R2 = 0.04701. Isso sugere que o modelo reduzido apenas com
x1 não é tão eficaz na explicação da variabilidade das vendas.

Teste para o Beta 2


H0 : β2 = 0
H0 : β2 ̸= 0

Hipótese nula (H0 ): O coeficiente β2 é igual a zero, indicando que a variável independente associada não
tem efeito significativo no modelo.
Hipótese alternativa (HA ): O coeficiente β2 é diferente de zero, sugerindo que a variável independente
tem um efeito significativo no modelo.

mx2<- lm(y ~ x2)


summary(mx2)

##
## Call:
## lm(formula = y ~ x2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.2144 -2.1827 -0.0674 1.9909 8.2145
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.90507 0.85282 6.924 4.61e-10 ***
## x2 0.02439 0.01130 2.158 0.0334 *
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 3.049 on 98 degrees of freedom
## Multiple R-squared: 0.04536, Adjusted R-squared: 0.03562
## F-statistic: 4.656 on 1 and 98 DF, p-value: 0.03338

Interpretação: Com o p-valor do modelo 0.03338 < 0.05, rejeita-se a hipótese nula, a 5% de significan-
cia. Portanto, indica que a variável x2 é estatisticamente diferente de zero, ou seja, ela tem um impacto
significativo na variável depentende y.
O coeficiente de determinação encontrado foi R2 = 0.04536. Isso sugere que o modelo reduzido apenas com
x2 não é tão eficaz na explicação da variabilidade do emprego derivado total.

4
Teste para o Beta 3
H0 : β3 = 0
H0 : β3 ̸= 0

Hipótese nula (H0 ): O coeficiente β2 é igual a zero, indicando que a variável independente associada não
tem efeito significativo no modelo.
Hipótese alternativa (HA ): O coeficiente β2 é diferente de zero, sugerindo que a variável independente
tem um efeito significativo no modelo.

mx3<- lm(y ~ x3)


summary(mx3)

##
## Call:
## lm(formula = y ~ x3)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.0138 -2.1789 -0.0029 2.1037 8.3044
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.59564 0.41539 15.878 < 2e-16 ***
## x3 0.15768 0.04499 3.505 0.00069 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 2.941 on 98 degrees of freedom
## Multiple R-squared: 0.1114, Adjusted R-squared: 0.1023
## F-statistic: 12.29 on 1 and 98 DF, p-value: 0.0006901

Interpretação: Com o p-valor do modelo 0.0006901 < 0.05, rejeita-se a hipótese nula, a 5% de significan-
cia. Portanto, indica que a variável x3 é estatisticamente diferente de zero, ou seja, ela tem um impacto
significativo na variável depentende y.
O coeficiente de determinação encontrado foi R2 = 0.1114. Isso sugere que o modelo reduzido apenas com
x3 não é tão eficaz na explicação da variabilidade do emprego derivado total.

Teste para o Beta 4


H0 : β4 = 0
H0 : β4 ̸= 0

Hipótese nula (H0 ): O coeficiente β2 é igual a zero, indicando que a variável independente associada não
tem efeito significativo no modelo.
Hipótese alternativa (HA ): O coeficiente β2 é diferente de zero, sugerindo que a variável independente
tem um efeito significativo no modelo.

mx4<- lm(y ~ x4)


summary(mx4)

5
##
## Call:
## lm(formula = y ~ x4)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.4281 -2.6092 0.0323 1.8242 7.4543
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.016514 0.602362 11.648 <2e-16 ***
## x4 0.002439 0.002075 1.175 0.243
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 3.098 on 98 degrees of freedom
## Multiple R-squared: 0.0139, Adjusted R-squared: 0.00384
## F-statistic: 1.382 on 1 and 98 DF, p-value: 0.2427

Interpretação: Com o p-valor do modelo 0.2427 > 0.05, aceita-se a hipótese nula, a 5% de significancia.
Portanto, indica que a variável x4 é estatisticamente igual a zero, ou seja, ela não tem um impacto significativo
na variável depentende y.
O coeficiente de determinação encontrado foi R2 = 0.0139. Isso sugere que o modelo reduzido apenas com
x4 não é eficaz na explicação da variabilidade do emprego derivado total.

Questão D
Utilize o método Backward de seleção de variáveis para encontrar o melhor conjunto de preditoras para essa
variável y. Escreva a equação do modelo ajustado e a interpretação, para todas as variáveis que restaram no
modelo. Considere 5% de significância. Apresente os valores dos testes em cada passo, com a interpretação.
Modelo:

##
## Call:
## lm(formula = y ~ x1 + x2 + x3 + x4)
##
## Coefficients:
## (Intercept) x1 x2 x3 x4
## -1.465082 0.047792 0.023345 0.155848 0.002213

Retirando x4 Primeiro, verificaremos a contribuição de x4.

mx1x2x3 <- lm(y~x1+x2+x3)


anova(modelo_completo, mx1x2x3)

## Analysis of Variance Table


##
## Model 1: y ~ x1 + x2 + x3 + x4
## Model 2: y ~ x1 + x2 + x3
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 95 741.65
## 2 96 752.51 -1 -10.861 1.3912 0.2412

6
Fcalc = 1.3912
Achamos o Fmin = 1.3912. A seguir, calcularemos o Ftab .

qf(0.95, 1, 96)

## [1] 3.940163

Temos que Ftab = 3.940163. Como Fmin < Ftab , não se rejeita H0 a um nível de significância de 5%. Ou
seja, a variável x4 não é significativa e podemos retirá-la do modelo.

Novo modelo reduzido:


Y = β0 + β1 × X1 + β2 × X2 + β3 × X3

mx1x2x3

##
## Call:
## lm(formula = y ~ x1 + x2 + x3)
##
## Coefficients:
## (Intercept) x1 x2 x3
## -0.86009 0.04741 0.02292 0.15936

Retirando x1 Primeiro, verificaremos a contribuição de x1.

mx2x3 <- lm(y~x2+x3)


anova(mx1x2x3, mx2x3)

## Analysis of Variance Table


##
## Model 1: y ~ x1 + x2 + x3
## Model 2: y ~ x2 + x3
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 96 752.51
## 2 97 815.72 -1 -63.206 8.0633 0.005514 **
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Fcalc = 8.0633

Retirando x2 Primeiro, verificaremos a contribuição de x2.

mx1x3 <- lm(y~x1+x3)


anova(mx1x2x3, mx1x3)

## Analysis of Variance Table


##
## Model 1: y ~ x1 + x2 + x3
## Model 2: y ~ x1 + x3

7
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 96 752.51
## 2 97 790.26 -1 -37.752 4.8161 0.03061 *
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Fcalc = 4.8161

Retirando x3 Primeiro, verificaremos a contribuição de x3.

mx1x2<- lm(y~x1+x2)
anova(mx1x2x3, mx1x2)

## Analysis of Variance Table


##
## Model 1: y ~ x1 + x2 + x3
## Model 2: y ~ x1 + x2
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 96 752.51
## 2 97 859.53 -1 -107.02 13.653 0.0003657 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Fcalc = 13.653
Achamos o Fmin = 4.8161. A seguir, calcularemos o Ftab .

qf(0.95, 1, 97)

## [1] 3.939126

Temos que Ftab = 3.940163. Como Fmin > Ftab , se rejeita H0 a um nível de significância de 5%. Ou seja, a
variável x2 é significativa e não podemos retirá-la do modelo.

mx1x2x3

##
## Call:
## lm(formula = y ~ x1 + x2 + x3)
##
## Coefficients:
## (Intercept) x1 x2 x3
## -0.86009 0.04741 0.02292 0.15936

Sendo assim, nosso modelo ajustado pelo método Backward é:

Y = −0.86009 + 0.04741 × X1 + 0.02292 × X2 + 0.15936 × X4

8
Questão E

Utilize o método Forward de seleção de variáveis para encontrar o melhor conjunto de preditoras para essa
variável y. Escreva a equação do modelo ajustado e compare com o modelo obtido em (d).
Calcularemos as correlações entre y e as variáveis independentes.

cor(y, x1)

## [1] 0.2168187

cor(y, x2)

## [1] 0.2129731

cor(y, x3)

## [1] 0.3337596

cor(y, x4)

## [1] 0.1179092

Como x3 possui a maior correlação com y, o modelo reduzido inicial é o modelo mx3. Realizaremos o
procedimento Forward para adicionar as variáveis ao modelo reduzido.

Adicionando x1 Primeiro, verificaremos a contribuição de x1.

mx3x1 <- lm(y~x3+x1)


anova(mx3, mx3x1)

## Analysis of Variance Table


##
## Model 1: y ~ x3
## Model 2: y ~ x3 + x1
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 98 847.84
## 2 97 790.26 1 57.58 7.0676 0.009182 **
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Fcalc = 7.0676

Adicionando x2 Primeiro, verificaremos a contribuição de x2.

mx3x2 <- lm(y~x3+x2)


anova(mx3, mx3x2)

9
## Analysis of Variance Table
##
## Model 1: y ~ x3
## Model 2: y ~ x3 + x2
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 98 847.84
## 2 97 815.72 1 32.126 3.8202 0.05352 .
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Fcalc = 3.8202
Achamos o Fmax = 7.0676. A seguir, calcularemos o Ftab .

qf(0.95, 1, 97)

## [1] 3.939126

Temos que Ftab = 3.939126. Como Fmax > Ftab , se rejeita H0 a um nível de significância de 5%. Ou seja, a
variável x1 é significativa, então a adicionaremos ao modelo. Aceita-se o modelo mx3x1.

Adicionando x2 Primeiro, verificaremos a contribuição de x2.

mx3x1x2 <- lm(y~x3+x1+x2)


anova(mx2, mx3x1x2)

## Analysis of Variance Table


##
## Model 1: y ~ x2
## Model 2: y ~ x3 + x1 + x2
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 98 910.85
## 2 96 752.51 2 158.34 10.1 0.0001045 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Fcalc = 10.1
A seguir, calcularemos o Ftab .

qf(0.95, 1, 96)

## [1] 3.940163

Temos que Ftab = 3.939126. Como Fcalc > Ftab , se rejeita H0 a um nível de significância de 5%. Ou seja, a
variável x2 é significativa, então a adicionaremos ao modelo. Aceita-se o modelo mx3x1x2.

mx3x1x2

10
##
## Call:
## lm(formula = y ~ x3 + x1 + x2)
##
## Coefficients:
## (Intercept) x3 x1 x2
## -0.86009 0.15936 0.04741 0.02292

Sendo assim, nosso modelo ajustado pelo método Forward é:

Y = −0.86009 + 0.04741 × X1 + 0.02292 × X2 + 0.15936 × X4

Questão F

Escolha um dos modelos ajustados em (d) ou (e) e faça a análise completa dos resíduos do modelo, verificando
todas as pressuposições do modelo. Apresente os gráficos dos resíduos padronizados contra: y estimado,
variáveis independentes, ordem das observações. Apresente todas as conclusões. Complemente as conclusões
com os testes de Shapiro Wilk, Durbin Watson. Discuta sobre a necessidade de transformação na variável
resposta, ou de usar mínimos quadrados ponderados, justificando.

residuos <- residuals(mx1x2x3)

Gráfico de dispersão dos residuos vs. valores ajustados

plot(novo_mcompleto$fitted.values, residuos)

plot(mx1x2x3$fitted.values, residuos,xlab = "Valores Preditos", ylab = "Resíduos Padronizados")

11
Resíduos Padronizados

5
0
−5

5 6 7 8 9 10 11

Valores Preditos

Interpretação: Em um modelo linear bem ajustado, os resíduos padronizados devem ser distribuídos aleato-
riamente em torno do zero, sem seguir um padrão particular. Isso sugere que o modelo de regressão atende
à pressuposição de homoscedasticidade e independência dos resíduos.
Os resíduos parecem estar distribuidos aleatoriamente.

Teste de Shapiro-Wilk para Normalidade dos Resíduos

H0 : Os resíduos possuem distribuição normal H1 : Os resíduos não possuem distribuição normal

shapiro.test(residuos)

##
## Shapiro-Wilk normality test
##
## data: residuos
## W = 0.98365, p-value = 0.2529

Interpretação: Com o p-valor = 0.2529, obtido no teste de Shapiro-Wilk aplicado aos resíduos de um modelo,
não há evidências suficientes para rejeitar a hipótese nula de normalidade a um nível de significância de 5%.

Teste de Durbin-Watson para Autocorrelação dos Resíduos

H0 : Os resíduos possuem autocorrelação H1 : Os resíduos não possuem autocorrelação

12
library(lmtest)

## Carregando pacotes exigidos: zoo

##
## Attaching package: ’zoo’

## The following objects are masked from ’package:base’:


##
## as.Date, as.Date.numeric

dwtest(mx1x2x3)

##
## Durbin-Watson test
##
## data: mx1x2x3
## DW = 2.2125, p-value = 0.8663
## alternative hypothesis: true autocorrelation is greater than 0

Interpretação: Se a estatística de Durbin-Watson for próximo de 2, isso sugere que não há autocorrelação
significativa nos resíduos. Como DW = 2.2125, há indícios para se acreditar que os resíduios sejam indepen-
dentes.

Gráfico de dispersão dos residuos vs. Preço cobrado pela concorrência em cada localidade

plot(mx1$fitted.values, residuos,xlab = "Valores Preditos", ylab = "Resíduos Padronizados")

13
Resíduos Padronizados

5
0
−5

6.0 6.5 7.0 7.5 8.0 8.5 9.0

Valores Preditos

Interpretação: Os resíduos parecem estar distribuidos aleatoriamente.

Gráfico de dispersão dos residuos vs. Renda da população

plot(mx2$fitted.values, residuos,xlab = "Valores Preditos", ylab = "Resíduos Padronizados")

14
Resíduos Padronizados

5
0
−5

6.5 7.0 7.5 8.0 8.5

Valores Preditos

Interpretação: Os resíduos parecem estar distribuidos aleatoriamente.

Gráfico de dispersão dos residuos vs. Orçamento de publicidade

plot(mx3$fitted.values, residuos,xlab = "Valores Preditos", ylab = "Resíduos Padronizados")

15
Resíduos Padronizados

5
0
−5

7 8 9 10

Valores Preditos

Interpretação: Os resíduos parecem estar distribuidos aleatoriamente.

Gráfico de dispersão dos residuos vs. Tamanho da população na região

plot(mx4$fitted.values, residuos,xlab = "Valores Preditos", ylab = "Resíduos Padronizados")

16
Resíduos Padronizados

5
0
−5

7.2 7.4 7.6 7.8 8.0 8.2

Valores Preditos

Interpretação: Os resíduos parecem estar distribuidos aleatoriamente.

Gráfico de dispersão dos residuos vs. Ordem das observações

plot(1:length(residuos), residuos)

17
5
residuos

0
−5

0 20 40 60 80 100

1:length(residuos)

Interpretação: Os resíduos parecem estar distribuidos aleatoriamente em torno do zero, sem seguir um
padrão particular. Isso sugere que o modelo está bem ajustado.

Questão 2 - Regressão Logística


O gerente de uma seguradora de veículos está interessado em aprimorar a sua política de vendas para expandir
a base de clientes. Ele acredita que em muitas situações teria condições de realizar contratos a preços mais
competitivos se tivesse uma melhor percepção da taxa de risco a que se expõe em cada operação. Recorrendo
à sua base de dados, resolveu extrair uma amostra aleatória de 36 elementos para identificar quais são as
variáveis que mais contribuem para diferencia-los quanto a ocorrência de sinistros. Com isso, espera poder
estimar de forma mais racional o risco que ficará exposto em futuras operações e, consequentemente, conceder
descontos mais adequados. Em relação a cada indivíduo, foram levantadas as seguintes informações: idade,
estado civil (Solteiro-1; Casado-0), sexo (Feminino-1; Masculino-0) em relação a variável resposta sinistro
(Houve sinistro-1; Não houve sinistro-0). Os resultados são apresentados a seguir.

sinistro <-read.table("dadosSinistro.txt", sep = ",", header = T)

Questão A

Escreva a equação do modelo ajustado, capaz de descrever o relacionamento existente entre a ocorrência de
sinistro e as variáveis em estudo;

modelo <- glm(sinistro$Sinistro ~ sinistro$Idade + sinistro$ECivil + sinistro$Sexo, family = binomial(li


summary(modelo)

18
##
## Call:
## glm(formula = sinistro$Sinistro ~ sinistro$Idade + sinistro$ECivil +
## sinistro$Sexo, family = binomial(link = "logit"))
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 3.78103 1.94470 1.944 0.05186 .
## sinistro$Idade -0.18957 0.07228 -2.623 0.00872 **
## sinistro$ECivil -3.62511 1.65160 -2.195 0.02817 *
## sinistro$Sexo 3.70268 1.67313 2.213 0.02690 *
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 42.541 on 35 degrees of freedom
## Residual deviance: 20.990 on 32 degrees of freedom
## AIC: 28.99
##
## Number of Fisher Scoring iterations: 6

Questão B

Explicar o significado de cada componente do modelo;


β1 = −0.18957 : Isso significa que à medida que a idade aumenta em uma unidade, a razão de chances de
ocorrer o sinistro diminui 0.18957. Pode-se interpretar que, de acordo com o modelo, com o aumento da
idade, há uma menor chance de ocorrência do sinistro.
β2 = −3.62511 : Significa que um aumento unitário na variável ECivil (de casado para solteiro) está associado
a uma diminuição de aproximadamente 3.62 na razão de chances de ocorrência do sinistro. Ou seja, quando
comparados com os casados, os solteiros tem menos chances de ocorrência de sinistro.
β3 = 3.70268 : Quando comparado com os indivíduos do sexo masculino (codificados como 0), a razão de
chance de ocorrência do sinistro é cerca de 3.70268 maior para os indivíduos do sexo feminino (codificados
como 1). Ou seja, indivíduos do sexo feminino possuem mais chances de ocorrência da doença.

Questão C

Teste a significância do modelo por meio do Teste de razão de verossimilhança, apresentando as hipóteses e
conclusão. Teste a significância dos parâmetros do modelo e apresente as conclusões, em termos das variáveis.
Use 1% de significância.

summary(modelo)

Teste de razão de verossimilhança

##
## Call:
## glm(formula = sinistro$Sinistro ~ sinistro$Idade + sinistro$ECivil +

19
## sinistro$Sexo, family = binomial(link = "logit"))
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 3.78103 1.94470 1.944 0.05186 .
## sinistro$Idade -0.18957 0.07228 -2.623 0.00872 **
## sinistro$ECivil -3.62511 1.65160 -2.195 0.02817 *
## sinistro$Sexo 3.70268 1.67313 2.213 0.02690 *
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 42.541 on 35 degrees of freedom
## Residual deviance: 20.990 on 32 degrees of freedom
## AIC: 28.99
##
## Number of Fisher Scoring iterations: 6

TRV = 42.541-20.990
TRV

## [1] 21.551

qchisq(0.99, 3)

## [1] 11.34487

H0 : Modelo reduzido é igualmente bom ou melhor que o completo H1 : O modelo completo é estatisticamente
melhor que o modelo reduzido
Como 21.551 > 11.34487, rejeita-se H0 a um nível de significância de 1% e conclue-se que o modelo é
significativo.

Questão D

Interprete as razões de chance e os intervalos de confiança obtidas para todos os parâmetros;

ICbeta=confint.default(modelo,level=0.95)
ICbeta

Intervalos de confiança

## 2.5 % 97.5 %
## (Intercept) -0.03051846 7.59258396
## sinistro$Idade -0.33123689 -0.04790661
## sinistro$ECivil -6.86218543 -0.38803500
## sinistro$Sexo 0.42339383 6.98195617

20
OR=exp(modelo$coefficients)
OR

Razões de chance (Odds Ratio)

## (Intercept) sinistro$Idade sinistro$ECivil sinistro$Sexo


## 43.86131610 0.82731335 0.02664616 40.55564586

Interpretação: A razão de chance para a idade é 0.83. Ou seja, para cada aumento unitário na idade do
indivíduo,a chance de ocorrência do sinistro diminui em cerca de 17%. A razão de chance para o estado
civil é 0.03. Isso indica que a chance de ocorrência do sinistro para um indivíduo solteiro é cerca de 97%
menor em comparação com um indivíduo casado. A razão de chance para o sexo é 40.56. Isso significa que a
chance de ocorrência do sinistro para um indivíduo do sexo feminino é cerca de 40 vezes maior do que para
um indivíduo do sexo masculino.

Questão E
Estime a probabilidade de sinistro associada a um cliente do sexo masculino, casado com 25 anos de idade;

coeficientes <- coef(modelo)

idade <- 25
sexo <- 0 # Masculino
ecivil <- 0 # Casado

log_odds <- coeficientes[1] + coeficientes[2] * idade + coeficientes[3] * ecivil + coeficientes[4] * sex

probabilidade <- exp(log_odds) / (1 + exp(log_odds))


probabilidade

## (Intercept)
## 0.2772265

Questão F
Para o mesmo cliente citado no item anterior, qual a probabilidade de sinistro se ele for solteiro?

coeficientes <- coef(modelo)

idade <- 25
sexo <- 0 # Masculino
ecivil <- 1 # Solteiro

log_odds <- coeficientes[1] + coeficientes[2] * idade + coeficientes[3] * ecivil + coeficientes[4] * sex

probabilidade <- exp(log_odds) / (1 + exp(log_odds))


probabilidade

## (Intercept)
## 0.01011698

21
Questão G

Compare os resultados obtidos nos dois itens anteriores e reflita sobre as estratégias que poderiam ser
adotadas pela companhia para atrair novos clientes.
P (sinistro)casado = 0.2772265 P (sinistro)solteiro = 0.01011698
Essa diferença nas probabilidades nos diz que o estado civil tem uma influência bastante significativa na
chance de ocorrência de sinistro. Clientes solteiros parecem ter uma probabilidade muito menor de sinistro
do que os clientes casados.
Pensando nisso, uma estratégia seria direcionar a divulgação das campanhas para o público-alvo solteiro,
criando estratégias de marketing específicas para cada segmento.

Questão H

Considere um nível de significância de 1% para excluir variáveis do modelo e comparar o modelo reduzido
com o modelo completo, usando o teste de razão de verossimilhança. Decida qual o melhor modelo, com
base nesse teste.

summary(modelo)

##
## Call:
## glm(formula = sinistro$Sinistro ~ sinistro$Idade + sinistro$ECivil +
## sinistro$Sexo, family = binomial(link = "logit"))
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 3.78103 1.94470 1.944 0.05186 .
## sinistro$Idade -0.18957 0.07228 -2.623 0.00872 **
## sinistro$ECivil -3.62511 1.65160 -2.195 0.02817 *
## sinistro$Sexo 3.70268 1.67313 2.213 0.02690 *
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 42.541 on 35 degrees of freedom
## Residual deviance: 20.990 on 32 degrees of freedom
## AIC: 28.99
##
## Number of Fisher Scoring iterations: 6

modelo_reduzido <- glm(sinistro$Sinistro ~ sinistro$ECivil, family = binomial(link = "logit"))


summary(modelo_reduzido)

##
## Call:
## glm(formula = sinistro$Sinistro ~ sinistro$ECivil, family = binomial(link = "logit"))
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)

22
## (Intercept) -0.4055 0.4564 -0.888 0.3744
## sinistro$ECivil -1.5404 0.8830 -1.744 0.0811 .
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 42.541 on 35 degrees of freedom
## Residual deviance: 38.977 on 34 degrees of freedom
## AIC: 42.977
##
## Number of Fisher Scoring iterations: 4

TRV = modelo_reduzido$deviance - modelo$deviance


TRV

## [1] 17.98712

qchisq(0.99, 3)

## [1] 11.34487

H0 : Modelo reduzido é igualmente bom ou melhor que o completo H1 : O modelo completo é estatisticamente
melhor que o modelo reduzido
Como TRV (17.98712) > 11.34487, rejeita-se H0 a um nível de significância de 1% e conclue-se que o modelo
completo é melhor do que o reduzido.

23

Você também pode gostar