Modelos de Regressao Regression Models

Universidade do Estado do Rio de Janeiro
Faculdade de Administração e Finanças

Departamento de Ciências Contábeis
Aula 3 Business Intelligence e Mineração de Dados

Regressão com o programa R
linear
José Francisco Moreira Pessanha
Regressão
Instituto de Matemática e Estatística - Uerj
quantílica professorjfmp@hotmail.com
LOESS
Nadaraya-
Watson
Regressão
Logística Rio de Janeiro , 27 Maio de 2017
Galton's correlation diagram 1886
Sir Francis Galton
1822 - 1911
Em média, crianças de pais altos

são menores que seus pais,
enquanto crianças de pais baixos
são maiores que seus pais.
Galton chamou isso de regressão

para a média
http://galton.org/essays/1880-
1889/galton-1886-jaigi-
regression-stature.pdf
Regressão linear
O Avô da Inteligência Artificial Supervisionada
John W. Foreman
Modelo de Regressão Linear
Finalidade: Ajustar uma equação linear que relaciona uma variável dependente (ou
explicada) Y com uma ou mais variáveis independentes (ou explicativas) X1, X2,...,Xk, a
partir de n observações (dados) dos vetores (Yi,Xi,1,Xi,2,...,Xi,k)  i=1,n:
y = 0 + 1x1 + 2x2 +...+ kxk + 
Os coeficientes 0, 1, 2, ..., k não são conhecidos, mas podem ser estimados pela
aplicação do método dos mínimos quadrados ordinários (MQO) ao conjunto de n
observações amostradas (yi,xi,1,xi,2,...,xi,k)  i=1,n.
O erro , não observável, captura a natureza aleatória da variável dependente Y, os

erros nas medições das variáveis envolvidas e o efeito de possíveis variáveis
explicativas que foram ignoradas na especificação do modelo de regressão.
Qual o propósito de ajustar um modelo de regressão linear ?
 Previsão: prever o valor da variável dependente em função dos valores conhecidos

das variáveis independentes.
 Compreender o relacionamento entre as variáveis: estimação de parâmetros
econômicos, por exemplo, custos marginais, elasticidades e coeficiente Beta (CAPM).
Modelo de Regressão Linear
Para fins didáticos são classificados em dois tipos:
 Modelo de regressão linear simples
 Modelo de regressão linear Múltipla
Regressão linear simples: apenas uma variável independente

Exemplo: Relação entre vendas e despesas com propaganda
variável dependente y = vendas y = 0 + 1x + 
variável independente x = despesas com propaganda
Regressão linear múltipla: duas ou mais variáveis independentes

Exemplo: Precificação de imóveis
variável dependente y = preço do apartamento
variável independente x1 = área
variável independente x2 = nº de quartos
variável independente x3 = nº de banheiros
y = 0 + 1x1 + ... + 8x8 + 
variável independente x4 = idade do imóvel
variável independente x5 = tem garagem, Sim ou Não ?
variável independente x6 = andar
variável independente x7 = bairro
variável independente x8 = prédio com ou sem elevador ?
Estimação dos parâmetros do modelo
y   0  1 x1   2 x2     k xk   =?
=?
amostras de x e y em n objetos selecionados aleatoriamente
yi  0  1xi,1   2 xi,2     k xi, k   i i  1,, n

uma equação para cada objeto selecionado aleatoriamente
Y  Xβ   Notação matricial
Vetor da variável Matriz das variáveis Vetor de coeficientes Vetor de erros

dependente explicativas de regressão (Vetor aleatório)
 y1  1 x1,1  x1, k   1   1 
y  1 x  x     
X
2, k 
Y   2 β   2    2
2,1
       
       
 yn  1 xn,1  xn, k   k   n 
Premissas do modelo de regressão linear
Relação linear entre as variáveis dependente e independentes
y   0  1 x1   2 x2     k xk  
As variáveis explicativas x são fixas (não aleatórias)
Erro  é uma variável aleatória

•Normalmente distribuída
•Com média zero
•Variância constante (homocedasticidade)
•Erros não autocorrelacionados (covariância nula entre erros)
1   0  2 0  0 
     
 0 0  2
 0 
  2
~ N n   ,  

          
   
   2
 n   0  0 0     
Premissas do modelo de regressão linear
Caso da regressão lienar simples
Amostra
sinal ruído N(0, 2)
Y
y = 0 + 1xx + 
Densidade de probabilidade do erro y
y ~ Normal
X
E(y) = 0 + 1x
V(y) = 2
E(y) = 0 + 1x
Estimador de mínimos quadrados ordinários
Equação de interesse y   0  1x1   2 x2     k xk  
E  y   0  1x1   2 x2     k xk
 
n
Mínimos quadrados Min y  
 i 0 1 i,1
β  β X  ...  β X
k i, k  2
β 0 ,β1 ,...,β k i 1
X e y são valores conhecidos de uma
amostra aleatória de tamanho n
 ˆ0 
ˆ

Estimador de
Mínimos quadrados 

β̂   1   X T X X T Y
1

 
 ˆk 
Estimador da média
Equação de previsão yˆ  ˆ0  ˆ1 x1  ˆ2 x2    ˆk xk de y em função das
variáveis explicativas
Estimador de mínimos quadrados ordinários
 ˆ0   ˆ0 
ˆ ˆ
β̂  

1 
 
1 T
 X X X Y
T
β̂  

1 
 
~ N k β, Σ β̂
   
 ˆk   ˆk 
Não tendencioso
 Var ˆ1   
Cov ˆ1 , ˆ2  
 Cov ˆ1 , ˆk  
   T
Σ β̂  E β̂  β β̂  β 

 
Cov ˆ2 , ˆ1  Var ˆ  
2  
 Cov ˆ2 , ˆk   
  2 X T X 
1
       


Cov ˆk , ˆ1  
Cov ˆk , ˆ2   ˆ
Var  k   

  yi  yi 
ˆ 2
ˆ 2  i 1
n  k  1
Estimador de mínimos quadrados generalizados
Aplicado nos casos de heterocedasticidade ou de autocorreção serial
do erro do modelo de regressão
 ˆ0   ˆ0 
ˆ ˆ

 
β̂   1   X T  -1X X T  -1Y

1
β̂  

1 
 
~ N k β, Σ β̂
   
 ˆk   ˆk 
Matriz  determinada pela especificação de um modelo para a variância do

erro (caso de heterocedasticidade) ou processo estocástico para o erro (caso
de erros autocorrelacionados)


   T

Σ β̂  E β̂  β β̂  β    X  X

2 T -1
  1
Modelo de Regressão Linear no R
Função lm, no R digite help(lm)
Y ~ X1 + X2 + X3 Y = 0 +1X1 + 2X2 + 3X3+

Exemplo 1 (Ragsdale, 2009) – Regulação econômica
Nolan Ragsdale é um auditor da Comissão de Serviços Públicos do
Estado da Geórgia, um órgão governamental responsável por garantir
que as companhias de serviços públicos (monopólios de água, energia,
telefonia e transporte) em toda a Geórgia realizem suas operações
eficientemente, dentro dos padrões de qualidade e com preços justos
http://www.psc.state.ga.us/
Geórgia
Ray Charles
Exemplo 1 Regulação econômica
Um grande problema que Nolan enfrenta é determinar se as despesas
lançadas pelas companhias de serviços públicos são razoáveis.
Por exemplo, quando Nolan analisa o relatório financeiro para uma

companhia telefônica local, ele precisa determinar se os custos de
manutenção da linha da ordem de US$ 1.345.948 são razoáveis.
As companhias diferem em tamanho e por esta razão Nolan não pode

comparar diretamente com os valores apresentados por outras
companhias. Da mesma forma, não é recomendável comparar a
participação das despesas com manutenção na receita total.
Nolan coletou dados das despesas com manutenção e número de

clientes (proxy do tamanho da companhia) de 12 companhias
telefônicas locais.
Como ajudar na solução do problema ?
Exemplo 1 Leitura de dados em planilha Excel
Dados disponibilizados pelo Nolan na planilha CSPGEORGIA.XLSX
clientes (1000) despesas com manutenção (1000 US$)
25.3 484.6
36.4 672.3
37.9 839.4
45.9 694.9
53.4 836.4
66.8 681.9
78.4 1037
82.6 1095.6
93.8 1563.1
97.5 1377.9
105.7 1711.7
124.3 2138.6
Sequência de comandos para importar o arquivo no R

library(xlsx) # carrega pacote para ler planilha MS Excel
setwd("c:/curso R/dados") # diretório de trabalho
dados=read.xlsx("CSPGEORGIA.xlsx",header=TRUE,startRow=1, sheetIndex=1)
head(dados) # mostra as seis primeiras linhas de dados
header= T, primeira linha contém rótulos dos dados

startRow=1, inicie a leitura na primeira linha da planilha
sheetinde=1, leia a primeira pasta da planilha
Exemplo 1 Leitura de dados em arquivo CSV
Dados disponibilizados pelo Nolan na planilha CSPGEORGIA.CSV
clientes (1000) despesas com manutenção (1000 US$)
25.3 484.6
36.4 672.3
37.9 839.4
45.9 694.9
53.4 836.4
66.8 681.9
78.4 1037
82.6 1095.6
93.8 1563.1
97.5 1377.9
105.7 1711.7
124.3 2138.6
Sequência de comandos para importar o arquivo no R

dados=read.csv2("CSPGEORGIA.csv",header=TRUE,sep=";",dec=".")
header= T, primeira linha contém rótulos dos dados
sep= searador de colunas
dec = separador decimal
Exemplo 1 Análise Exploratória de Dados
Resultado da sequência de comandos usados na importação do arquivo
dados[,1] dados[,2]
Diagrama de dispersão
plot(dados[,1],dados[,2],xlab="Clientes",ylab="Despesas US$")
Correlação
cor(dados[,1],dados[,2]) 0.9346278
Conclusão da análise exploratória de dados:

É razoável admitier uma relação linear entre a
despesa com manutenção e o número de clientes
despesa = 0 + 1 clientes + 
Exemplo 1 Ajuste do modelo
Sequência de comandos para ajustar o modelo de regressão linear simples
X = dados[,1] # variável independente , número de clientes
Y = dados[,2] # variável dependente , despesas com manutenção
modelo = lm( Y ~ X )
summary(modelo)
Estimador do valor esperado das despesas em
função do número de clientes
Yˆ  33,321  15,016 X
̂ 0 ̂1
Coeficiente 1 do número de
clientes é significativamente
diferente de zero, há relação
entere as despesas e o
tamanho da companhia
R2, 87,35% da variação

total dos custos é
explicada pelo número
de clientes
Exemplo 1 Intervalos de confiança dos coeficientes de regressão
confint(modelo) informa os intervalos com 95% de

confiança para os coeficientes de regressão
 275,73   0  342,37
10,99  1  19,04
confint(modelo) informa os intervalos com 99% de

confiança para os coeficientes de regressão
Exemplo 1 Gráfico da reta de regressão
plot(X,Y,xlab="Clientes",ylab="Despesas US$") # faz diagrama de dispersão
abline(coef(modelo)) # desenha a reta A reta de regressão
informa o valor
esperado da despesa
coef(modelo) retorna as estimativas com mautenção para
dos coeficientes de regressão B0 e B1 um dado número de
clientes
̂ 0 ̂1 Companhia
mais eficiente
Valores estimados para as despesas
esperadas das 12 companhias
consideradas (reta de regressão)
Estes valores podem ser comparados com os dados fornecidos pelas

companhias para identificar as companhias eficientes e ineficientes.
Exemplo 1 Resíduos
Os desvios entre os valores informados para as despesas e as respectivas estimativas

fornecidas pelo modelo de regressão são quantificados pelos resíduos da estimação
Valor informado Estimativa da despesa esperada dada o nº de clientes
 
ˆi  Yi  ˆ0  ˆ1 X i i  1, n
ˆi  Yi  33,32057  15,01598 X i  i  1, n
Resíduos negativos indicam as companhias que operam com custos abaixo das
respectivas estimativas para a despesa esperada. Resíduos positivos indicam
companhias com custos maiores que o eeperado.
Logo a companhia 6 é a mais eficiente e a companhia 12 a mais ineficiente

Exemplo 1 Previsão
Uma companhia com 75.000 (X=75) clientes informou uma despesa com
manutenção da ordem de US$ 1.500.000 (Y=1500). Com base no modelo de
regressão ajustado o valor informado é razoável ou excessivo ?
Estimativa do valor esperado da despesa com mantenção
Yˆ  E Y | X  75  33,321  15,016  75  1.159,519
A despesa informada está acima da despesa esperada. Adicionalmente, o valor

informado também está acima do limite superior do intervalo com 95% de confiança
da despesa esperada para uma companhia com 75.000 clientes. Logo 1.500.000 pode
ser considerado um valor excessivo para uma empresa com 75.000 clientes
1037,526  E Y | X  75  1281,512

Exemplo 1 Intervalos de previsão
Intervalo com 95% de confiança da despesa esperada para cada uma das 12
companhias consideradas no estudo
confianca=predict(modelo,interval="confidence")
plot(dados[,1],dados[,2],xlab="Clientes",ylab="Despesas US$")
lines(X,confianca[,1]) # insere a reta de regressão no gráfico (fit)
lines(X,confianca[,2],col="blue") # insere os limites inferiores (lwr) dos intervalos de confiança
lines(X,confianca[,3] ,col="blue") # insere os limites superiores (upr) dos intervalos de confiança
points(75,1500) # insere o dado informado pela empresa com 75000 clientes
arrows(70,1400,75,1500) # adiciona seta para indicar a companhia com 75000 clientes
text(60,1400,"X=75 e Y=1500") # insere texto explicativo na companhia com 75000 clientes
Exemplo 2 (Kutner et al, 2004) – Previsão de vendas
Uma empresa de artigos infantis opera em 21 cidades de médio porte.
A empresa está analisando a possibilidade de expansão em outras
cidades de médio porte (cidades candidatas).
A decisão depende de uma estimativa de vendas em cada cidade
candidata. Mas como prever as vendas nestas cidades, onde a
empresa não possui filiais ?
As vendas nas cidades candidatas podem ser estimadas por meio do
seguinte modelo de regressão linear múltipla, ajustado com as
observações provenientes das atuais 21 lojas da empresa.
Vendas  0  1POP16   2 RPC  

População até 16 anos Renda per capita da
da cidade cidade
Exemplo 2 Leitura de dados em planilha XLSX
Os dados estão disponíveis no arquivo KUTNER.xlsx.
dados=read.xlsx("KUTNER.xlsx",header=TRUE,startRow=1, sheetIndex=1)
Matriz de correlações, cor(dados)
Correlações elevadas entre vendas e as variáveis explicativas, especificação linear é razoável

Os dados estão disponíveis no arquivo KUTNER.csv.
dados=read.csv2("KUTNER.csv",header=TRUE,sep=";",dec=".")
Matriz de correlações, cor(dados)
Correlações elevadas entre vendas e as variáveis explicativas, especificação linear é razoável

Sequência de comandos para ajustar o modelo de regressão linear múltipla
POP16 = dados[,1] # variável independente , população até 16 anos de idade
RPC = dados[,2] # variável independente , renda per capita
VENDAS = dados[,3] # variável dependente , vendas
modelo = lm( VENDAS ~ POP16 + RPC )
summary(modelo)
Yˆ  68,8571  1,4546 POP16  9,3655 RPC

̂ 0 ̂1 ̂ 2
Coeficiente 1 e 2 são
estatisticamente diferente de zero
R2, 91,67% da variação

total das vendas é
explicada pelo modelo
Coeficiente 1 e 2 são
simultanemente não
nulos
Os dados das 21 localidades podem ser dispostos em um gráfico, onde cada localidade
é representada por um ponto.
A equação de regressão E Yi X 1 , X 2    0  1 X 1   2 X 2 define um plano
passando pelo meio da nuvem de pontos. Este plano representa o valor esperado das
vendas em função da renda e da população abaixo de 16 anos em uma localidade
library(car)
scatter3d(VENDAS ~ POP16 + RPC,fit="linear")
Exemplo 2 Análise dos resíduos
Gráficos dos resíduos contra cada variável explicativa e a variável explicada exibem um
padrão aleatório e a dispersão parece constante e, portanto, estão coerentes com as
hipóteses (pressupostos) de covariâncias nulas entre os erros e variância do erro
constante.
par(mfrow=c(2,2))
plot(modelo$fitted,modelo$residuals)
plot(POP16,modelo$residuals)
plot(RPC,modelo$residuals)
plot(POP16*RPC,modelo$residuals)
O gráfico de probabilidade normal índica que a distribuição dos resíduos é normal,
portanto, coerente com a hipótese (pressuposto) de distribuição normal para o erro.
qqnorm(modelo$residuals)
qqline(modelo$residuals)
Outros gráficos
Residuals vs Fitted Normal Q-Q
20
2
5 5
Standardized residuals
10
1
Residuals
par(mfrow=c(2,2))
0
plot(modelo)
-10
-1
18
18
-20
16
16
140 160 180 200 220 -2 -1 0 1 2

Não há
Fitted values Theoretical Quantiles
observações
influentes
Scale-Location Residuals vs Leverage
5
16
2
5 0.5
1.2
18
1
0.8
0
0.4
-1
15
Cook's distance
16
-2
0.0
0.5
140 160 180 200 220 0.00 0.05 0.10 0.15 0.20 0.25
Fitted values Leverage

Exemplo 2 Matriz de covariâncias dos estimadores
Matriz de covariâncias dos estimadores dos coeficiente de regressão
vcov(modelo)
ˆ2 
S     X X T

1

Variâncias na diagonal principal

Covariâncias fora da diagonal
principal
Erros padrão dos

ˆ ˆ  ˆ 2ˆ  3602,0347  60,0170
estimadores dos 0 0
coeficientes de regressão ˆ ˆ  ˆ 2ˆ  0,0449  0,2118

(valores informados pelo 1 1
ajuste de regressão no
Excel)
ˆ ˆ  ˆ 2ˆ  16,5158  4,0640
2 2
confint(modelo) informa os intervalos com 95% de confiança para os

coeficientes de regressão
 194,948  0  57,2339
1,0096  1  1,8995
0,8274   2  17,9036
Exemplo 2 Previsões das vendas esperadas nas cidades A e B
Cidade A
número de pessoas com até 16 anos de idades = 65.400 (POP16 = 65,4)
renda per capita na localidade = 17.600 (RPC=17,6)
E VendasA | POP16 A , RPC A   68,86  1,45  65,4  9,37 17,6  191,10
Cidade B
número de pessoas com até 16 anos de idades = 53.100 (POP16 = 53,1)
renda per capita na localidade = 17.700 (RPC = 17,7)
E VendasA | POP16 A , RPC A   68,86  1,45  53,1  9,37 17,7  174,15
novodado=data.frame(rbind(c(65.4,17.6),c(53.1,17.7)))
colnames(novodado)=c("POP16","RPC")
rownames(novodado)=c("A","B")
predict(modelo,novodado)
Intervalo com 95% de confiança para

a venda esperada em cada cidade
Intervalos de
confiança Expectativas de vendas
Exemplo 2 Intervalos de previsão e de confiança de 95%
Intervalo de previsão: intervalo para uma realização da variável dependente Y dado X
Intervalo de confiança: intervalo para a média da variável dependente E(Y|X).
predict(modelo, interval="predict") predict(modelo, interval="confidence")
Intervalos
calculados
para cada par
(POP16, RPC)
observado na
amostra
Intervalo de previsão Intervalo de confiança

Exemplo 3 (Ledolter, 2013) – Precificação de automóveis
Um vendedor de automoveis deseja construir
um aplicativo para precificação de carros
usados, em especial de Toyota Corollas usados.
O modelo deve fornecer estimativas de preço a

partir de algumas características do carro
usado.
Ajuste um modelo de regressão linear múltipla

a partir das observações de 1436 Toyota
Corollas disponíveis no arquivo
ToyotaCorolla.csv.
Exemplo 3 Dados
Importação dos dados para o R
dados=read.csv("c:/curso R/dados/ToyotaCorolla.csv",sep=",") # importa arquivo csv
Há variáveis qualitativas:
FuelType: CNG (GNV), Diesel, Petrol
MetColor: 1 cor metálica, 0 caso contrário
Automatic: 1 direção automática, 0 caso contrário
summary(dados)
Para chamar cada variável por seu nome digite attach(dados)
attach(dados)
par(mfrow=c(1,2)) # prepara para receber dois gráficos lado a lado
hist(Price,xlab="Preço",ylab="Frequência",main="Histograma do Preço")
hist(log(Price),xlab="log(Preço)",ylab="Frequência",main="Histograma do log(Preço)“)
Distribuição A transformação logaritmica

muito reduz a assimetria e torna a
assimétrica distribuição da variável
dependente (Preço) mais
próxima da hipótese de
normalidade assumida pelo
modelo de regressão
Idade x Preço
plot(log(Price)~Age,xlab=“Idade",ylab="log(Preço)")
abline(lm(log(Price)~Age))
KM x Preço
plot(log(Price)~KM,xlab="Km",ylab="log(Preço)")
abline(lm(log(Price)~KM))
Modelo
Log(Price) = 0 + 1Age +2KM + 
modelo=lm(log(Price) ~Age+KM)
summary(modelo)
O diagnóstico dos resíduos do modelo permite identificar violações

dos pressupostos assumidos pelo modelo de mínimos quadrados para
a componente de erro :
• média nula E() = 0

• variância contante (homocedasticidade) V() é contante
• não autocorrelacionados E(i, j) = 0  ij
• erros normalmente distribuídos
Exemplo 3 Avaliação da normalidade
library(MASS)
sresid <- studres(modelo) # resíduos padronizados
hist(sresid, freq=FALSE,xlab="resíduo padronizado",ylab="densidade",main="",ylim=c(0,0.5))
xfit = seq(min(sresid),max(sresid),length=40)
yfit = dnorm(xfit)
lines(xfit, yfit,col="blue",lwd=2)
Testes de aderência H0 : erro normal

H1: erro não normal
Teste de Kolmogorov-Smirnov
ks.test(sresid,"pnorm")
Rejeita H0 ao nível de significância de 5%
Teste de Anderson-Darling
library(nortest)
ad.test(sresid)
Exemplo 3 Avaliação da normalidade
QQplot útil na avaliação da premissa de normalidade
qqnorm(sresid)
qqline(sresid,distribution=qnorm)
Contribuições
contra a premissa
de normalidade
dos erros
Exemplo 3 Avaliação da homocedasticidade
Gráfico dos resíduos normalizados contra os valores estimados pelo
modelo para a variável dependente
plot(modelo$fitted,sresid)
Teste de Breusch – Pagan
H0 : erro homocedástico
H1: erro heterocedástico
library(lmtest)
bptest(modelo)
Rejeita H0 ao nível de significância de 5%

Exemplo 3 Avaliação da homocedasticidade
Gráfico dos resíduos normalizados contra os valores estimados pelo
modelo para a variável dependente
plot(modelo$fitted,sresid)
Teste de Goldfeld – Quandt
H0 : erro homocedástico
library(lmtest)
gqtest(modelo)
Não rejeita H0 ao nível de significância de 5%

Exemplo 3 Remoção de observações influentes
Uma observação é influente se sua exclusão dos dados provoca uma mudança
substancial nos valores ajustados
saída é uma variável lógica: saida=influence.measures(modelo)$is.inf

•FALSE se observação não é influente head(saida) # mostra a 6 primeiras observações
•TRUE se observação é influente
7 Métricas para identificação de

observações influentes: dfb1,
dfbAge, dfbKM, dffit, covr,
cookd, hat
indice=which(saida[,4]==T) # índices das observações influentes segundo dffit = TRUE
Y=log(Price[-indice]) Remove observações

X1=Age[-indice] influentes identificadas
X2=KM[-indice] pelo critério dffit
http://www.portalaction.com.br/analise-de-regressao/343-pontos-influentes
Exemplo 3 Novo ajuste
modelo1=lm(Y ~ X1+X2)
summary(modelo1)
Novo ajuste sem as

observações
influentes
sresid <- studres(modelo1) # resíduos padronizados

H0 : erro normal
H1: erro não normal Não rejeita H0
bptest(modelo1)
H0 : erro homocedástico Não rejeita H0
Exemplo 4 (Berndt, 1991) – Previsão do consumo de energia elétrica
A previsão de longo prazo do consumo de energia elétrica é uma
informação fundamental para o planejamento da expansão de um
sistema elétrico, cujo objetivo consiste em estabelecer um cronograma
de entrada em operação das novas instalações de geração, transmissão
e distribuição de energia elétrica a fim de assegurar um atendimento
confiável e de custo mínimo à demanda futura de energia elétrica.
Exemplo 4 Modelo
Um modelo de previsão do consumo de energia elétrico poderia ter a
seguinte especificação (Cobb-Douglas)
kWht  exp 0  Pelect GNPt exp t 1 2
kWH = total de energia consumida nos EUA em bilhões de kWh ou TWh
PELEC = preço da eletricidade por kWh (em centavos de dólar de 1972)
GNP = PIB dos EUA em bilhões de dólares (a preços de 1972)
A especificação linear é alcançada por meio de uma transformação

logaritimica
LnkWht   0  1 LnPelec t   2 LnGNPt   t

1 e 2 são as elasticidades preço e renda respectivamente
Exemplo 4 Leitura de dados em planilha XLSX
Séries temporais anuais do consumo de energia elétrica , PIB e preço

médio da energia elétrica no período 1951 - 1984 estão disponíveis no
arquivo ENERGIA_ELÉTRICA.xlsx
dados=read.xlsx(“ENERGIA_ELÉTRICA.xlsx",header=TRUE,startRow=1, sheetIndex=1)
Séries temporais anuais do consumo de energia elétrica , PIB e preço

médio da energia elétrica no período 1951 - 1984 estão disponíveis no
arquivo ENERGIA_ELÉTRICA.csv
setwd("c:/curso R/dados") # diretório de
trabalhodados=read.csv2("ENERGIA_ELÉTRICA.csv",header=TRUE,sep=";",dec=".")
Exemplo 4 Séries temporais
Transforma o tipo do objeto dados para séries temporais
series=ts(dados[,2:4],start=1951,end=1984,frequency=1)
plot(series,xlab="Anos",main="Séries Temporais")
Exemplo 4 Ajusta modelo
logseries=log(series) # transformação logaritmica
logKWh=logseries[,1]
logPELEC=logseries[,2]
logPIB=logseries[,3]
modelo=lm(logKWh ~ logPELEC + logPIB)

summary(modelo)
Elasticidades
observe que
os sinais estão
coerentes com a
teoria econômica
library(MASS)
sresid = studres(modelo) # resíduos padronizados
hist(sresid, freq=FALSE,xlab="resíduo padronizado",ylab="densidade",main="")
xfit = seq(min(sresid),max(sresid),length=40)
yfit = dnorm(xfit)
A premissa de
lines(xfit, yfit,col="blue",lwd=2)
normalidade dos erros
não foi violada
residuos=ts(modelo$residuals,start=1951,end=1984,frequency=1)
plot(residuos,xlab="Anos") A sequência dos sinais
dos resíduos ao longo do
tempo não exibe um
padrão aleatório, logo a
premissa de erros não
Gráfico dos resíduos
ao longo do tempo autocorrelacionados foi
violada
Funções de
autocorrelação(FAC ou
ACF) e autocorrelção
parcial (FACP ou PACF) Decaimento exponencial Apenas a primeira FACP é
dos resíduos da FAC típico de um significativa
par(mfrow=c(1,2)) processo AR
acf(residuos,36)
pacf(residuos,36)
Mostra até lag 36
A premissa de erros não autocorrelacionados foi violada

Erros são autocorrelacionado e seguem um processor AR(1) : t = t-1 +vt
library(lmtest)
dwtest(modelo) # teste de Durbin - Watson
H0: Erro não é AR(1)
H1: Erro é AR(1)
A hipótese nula é rejeitada, logo James Durbin Geoffrey Watson

erro sergue processo AR(1) 1923-2012 1921 - 1998
Exemplo 4 Novo modelo considera a autocorrelação AR(1) do erro
Equação principal
LnkWht   0  1 LnPelec t   2 LnGNPt   t
Coeficiente de autocorrelação ].1,1[
 t   t 1  vt Ruído branco
Equação do erro
Parâmetros do modelo estimados

por mínimos quadrados generalizados - MQG
Exemplo 4 Estimação por MQG
Procedimento de Cochrane-Orcutt (Prais-Winsten)
library(prais)
dados=cbind(logKWh,logPELEC,logPIB)
modeloMQG = prais.winsten(logKWh ~ logPELEC + logPIB,data=dados)
print(modeloMQG)
Elasticidades
Estimativa do coeficiente de autocorrelação ].1,1[

Exemplo 4 Comparação MQO x MQG
Estimativas por mínimos quadrados ordinários - MQO
(considera os erros não autocorrelacionados)
Estimativas pelo método de Cochrane-Orcutt . MQG

(reconhece que os erros são autocorrelacionados e
corrige o efeito da autocorrelação do erro)
Comparando os dois conjuntos de estimativas pode-se observar que os coeficientes

de regressão são da mesma ordem de grandeza.
Porém, conforme esperado, o MQO subestima os erros-padrão

Exemplo 4 Equação de previsão
Último erro de previsão
ˆt  LnkWht   4,755  0,239 LnPelect  1,727 LnGNPt 
Equação de previsão h passos à frente

LnkWht  h  4,755  0,239 LnPelec t  h  1,727 LnGNPt  h  0,827 h ˆt
Exemplo 4 Gráfico MQO x MQG
# consumo de energia elétrica no período 1951-1984
plot(logKWh,xlab="Anos",lwd=2)
# valores estimados pelo MQO para o período 1951-1984

lines(seq(1951,1984,1),modelo$fitted.values,col=“red”,lwd=2)
# valores estimados pelo MQG para o período 1951-1984

betasMQG=modeloMQG[[1]]$coefficients[1:3]
X=cbind(rep(1,dim(dados)[1]),dados[,2:3])
residuos=logKWh-X%*%betasMQG
Rho=modeloMQG[[2]]$Rho
erros=c(0,residuos[1:(dim(dados)[1]-1)])
estimadosMQG=X%*%betasMQG+Rho*erros
lines(seq(1951,1984,1),estimadosMQG,col="blue",lwd=2)
Cálculo da equação de previsão 1 passo a frente (h=1) para o período entre 1951 e 1984
LnkWht  h  4,755  0,239 LnPelec t  h  1,727 LnGNPt  h  0,827 h ˆt
# insere legenda no gráfico

legend(1950,7.5,c("Valores observados","Estimativas MQO","Estimativas MQG"),
lty=c(1,1,1),col=c("black","red","blue"))
Exemplo 4 Gráfico MQO x MQG
LOESS
LOESS
Procedimento não paramétrico proposto por Cleveland (1979)
W. S. Cleveland. Robust Locally Weighted Regression and

Smoothing Scatterplots. Journal of the American Statistical
Association, 74:829–836, 1979.
Útil no ajuste de regressões, na identificação e remoção de

outliers, bem como na imputação de dados (preenchimento
de lacunas de dados)
William S. Cleveland
http://www.stat.purdue.edu/~wsc/
LOESS
Regressões ajustadas por mínimos quadrados ponderados, MQG com matriz 

diagonal e cujos elementos ponderam as observações
http://streaming.stat.iastate.edu/~stat416/LectureNotes/handout_LOWESS.pdf
LOESS
Valor
Valor suavizado
suavizado
As ponderações são maiores na

vizinhaça do ponto em que se deseja
calcular a regressão
LOESS
Dados e curva suavizada gerada pelo proceditmento LOESS
X
https://en.wikipedia.org/wiki/Local_regression
Função loess do R
help(loess)
Equação do modelo y ~ x1 + x2
grau do polinomio utilizado na
regressão, normalmente 1 ou 2.
Tamanho da vizinhança (número entre 0 e 1)

controla o grau de suavização
Exemplo 5 Função loess do R
preco = dados$Price
km = dados$KM
plot(km,preco,xlab="km",ylab="preço") Preço = funcão(km)
modelo=loess(preco ~ km, span=0.1, degree=1)

precosuavizado=modelo$fitted
points(km, precosuavizado,xlab="km",ylab="preço",col="green")
Testando valores de span (tamanho da vizinhança) e degree (grau do polinômio)
par(mfrow=c(1,3))
plot(km,preco,xlab="km",ylab="preço",main="span=0.05 degree=1")


Exemplo 5 Função loess do R – Previsão
# Estimativa do preço para um veículo que percorreu 1000 km
previsao=predict(modelo,1000,se=TRUE)
previsao$fit # preço previsto
previsao$se.fit # erro padrão

Exemplo 5 Função loess do R – SuperfÍcie de preços
# ajuste o modelo
age=dados$Age # preço e km foram definidos anteriormente
modelo=loess(preco ~ km + age, span=0.15, degree=1)
# estimativa para o preço US$ de um Corolla com 12 meses e 1000 km rodados

predict(modelo,newdata=t(c(1000,12))) 20341.86
# cria grade bidimensional de tamanho len para fazer a superfície de preços

len=50
price=matrix(NA,len,len)
quilometragem=seq(min(km),max(km),len=len)
idade=seq(min(age),max(age),len=len)
for (i in 1:len){
for (j in 1:len){
x=c(quilometragem[i],idade[j]) # ponto x em que será avaliado o preço
price[i,j]=predict(modelo,t(x)) # preço médio estimado pelo loess
}
}
# gráfico da superfície de preços

persp(quilometragem,idade,price, theta = 30, phi = 30, expand = 0.5,
col = "lightblue",ltheta = 120, shade = 0.75, xlab="idade", ylab="KM",zlab="preco“)
Exemplo 5 Função loess do R – SuperfÍcie de preços
LOESS na suavização dos dados de curva de carga
Demanda diária de energia elétrica em cada minuto do dia
curva com 1440 pontos
Curva
suavizada
dados
outlier
outlier
Regressão Quantílica
Regressão quantílica
Roger Koenker
https://pdfs.semanticscholar.org/a3cd/bfbba2ef3ce285980edc1213a4ac56f05bb1.pdf
Regressão quantílica
Quantil  da variável resposta y é função das variáveis explicativas
Q  y   0  1x1   2 x2     k xk
Regressões estimadas separadamente para cada quantil
Para mediana  = 0,5
Para o primeiro quartil  = 0,25 Quantile loss function
Para o terceiro quartil  = 0,75
yi  β 0  β1Xi1  ...  β k Xik   i

ui   i se  i  0
yi  β 0  β1Xi1  ...  β k Xik  ui  vi
vi   i se  i  0
n
Min
β 0 ,β1 ,...,β k
   yi  β0  β1Xi1  ...  β k Xik  Estimativas obtidas pela minimização
i 1 da função perda dos erros
i
n n
Min   ui  1    vi
u, v,β i 1 i 1
Coeficientes estimados por meio da solução
s.a.
de um problema de programação linear
yi  X iT   ui  vi i  1, n (algoritmos simplex ou pontos interiores)
  R k , u  0, v  0
Exemplo 6 Regressão quantílica no R (pacote quantreg)
# leitura de dados
preco = dados$Price
age = dados$Age
# ajusta modelo de regressão quantílica para os quantis de 10% até 90%

library(quantreg)
modelo=rq(preco~age, tau=seq(0.1,0.9,by=0.1))
plot(modelo)
Preço = b0 + b1Age + erro
Estimativas dos coeficientes

em cada quantil avaliado
quantis
# intervalos de confiança dos coeficientes nos diferentes quantis
plot(summary(modelo))
Intercepto estimado pela

regressão linear (MQO)
20294,059
IC 95% (20007,47 ; 20580,65)
Coeficientes estimados
quantis pela regressão quantílica
para diferentes quantis
Coeficiente estimado pela

regressão linear (MQO)
-170,934
IC 95% (-175,79 ; -166,07)
quantis
Exemplo 6 Quantis do preço em função da idade do veículo
# estimativas dos quantis de preços para diferentes idades
estimativas= predict(modelo,newdata=data.frame(age),type="")
dados=cbind(preco,estimativas)
plot(preco~age)
for (i in 2:10) {
lines(dados[,i]~age,col="blue")
}
Nadaraya – Watson (Kernel regression)
Nadaraya - Watson
Nadaraya, E. A. 1964. On estimating regression. Theory of Probability and Its Application 9: 141–142
A study is made of certain properties of an approximation to the
regression line on:the basis of sampling data when the sample
size increases unboundedly
http://www.mathnet.ru/php/archive.phtml?wshow=paper&jrnid=tvp&paperid=356&option_lang=eng
Watson, G. S. 1964. Smooth regression analysis. Sankhy¯a Series A 26: 359–372..
The present paper gives a simple computer

method for obtaining a “graph” from a large
number of observations.
Nadaraya - Watson
y  mx    Equação de regressão
E  y x   mx  Xi e Yi são observações da

amostra de tamanhao n
n  x  Xi 
 K  h   Yi
 x 
m x  
ˆ i 1 Estimador Nadaraya Watson
n  x  Xi 
 K  h 
i 1  x 
Exemplo 7 Nadaraya – Watson (função ksmooth)
dados=read.csv("c:/curso R/dados/ToyotaCorolla.csv",sep=",") # importa dados
preco = dados$Price
km = dados$KM
Preço = funcão(km)
plot(km,preco,xlab="km",ylab="preço")
modelo=ksmooth(km,preco,kernel="normal",bandwidth=6000)
precosuavizado=modelo$y
points(modelo$x, precosuavizado,xlab="km",ylab="preço",col="green")
The present paper gives a simple computer

method for obtaining a “graph” from a large
number of observations.
Exemplo 7 Nadaraya – Watson com o pacote np
preco = dados$Price https://cran.r-project.org/web/packages/np/vignettes/np.pdf
km = dados$KM
Preço = funcão(km)
library(np) # carrega pacote
modelo=npreg(preco~km) # regressão não paramétrica Estimativas de E(y|x)
names(modelo) Erro padrão das
bandwidth estimativas
Medidas de
qualidade de
modelo$bw # bandwidth ajuste
hx
plot(modelo)
Gráfico das estimativas de E(preço | km)
plot(km,preco)
points(km,modelo$mean,col="blue")
Correlação entre os
preços estimados e
observados
Quadrado da correrlação entre os preços

observados e verificados (R2)
Erro médio absoluto (Mean Absolute Error)
Erro médio relativo (Mean Absolute Percentage Error)

Neste caso o MAPE = 17,5%
Raiz do erro médio quadrático (Root Mean Square Error)

preco = dados$Price
km = dados$KM
idade = dados$Age Preço = funcão(km,idade)
library(np) # carrega pacote

modelo=npreg(preco~km+idade) # regressão não paramétrica
plot(modelo)
Com duas variáveis explicativas o comando plot(modelo) abre uma janela com o
gráfico das médias estimadas em função da idade e quilometragem.
Após o primeiro gráfico o próprio programa inicia a rotação do gráfico, interrompida

apenas pelo comando ESC.
Modelo de escolha binária - regressão Logística
Regressão logística
David Roxbee Cox, DR. The regression analysis of binary sequences (with
discussion). Journal of the Royal Statistical Society. Series B, 20: 215-242, 1958.
David Roxbee Cox
https://www.nuffield.ox.ac.uk/users/cox/cox48.pdf
https://papers.tinbergen.nl/02119.pdf
Regressão logística
Neste caso a variável dependente é binária Y  {0,1} e representa, por
exemplo, uma decisão entre duas escolhas ou um desfecho entre dois
resultados possíveis.
1
PY  1 
1  exp  0  1 X1  ...   k X k   
1
PY  0  1  PY  1  1 
1  exp  0  1 X1  ...   k X k   
Coeficientes de regressão.estimados pelo método da máxima

verossimilhança:
1 yi yi
n  1   1 
Max  1    
 0 , 1 ,..., k i 1  1  exp  0  1 X i1  ...   k X ik  1  exp  0  1 X i1  ...   k X ik 
log
n 
  1  1 
Max  1  yi  log   yi log 
 0 , 1 ,..., k i 1 
  1  exp  0  1 X i1  ...   k X ik   1  exp  0  1 X i1  ...   k X ik  
Exemplo 8 (Neter et al, 1985) – Classificação entre falha e sucesso
O RH de uma desenvolvedora de software está estudando o efeito do
tempo de experiência em programação computacional sobre a habilidade
para completar, dentro de um determinado prazo, uma tarefa difícil. Para
o estudo foi realizado um experimento com vinte e cinco programadores
em que todos receberam a mesma tarefa. A experiência (em meses) de
cada programador e o respectivo desfecho do experimento (1 tarefa
concluída, 0 tarefa não concluída) são apresentados a seguir:
experiencia=c(14,29,6,25,18,4,18,12,22,6,30,11,30,5,20,13,9,32,24,13,19,4,28,22,8)
desfecho=c(0,0,0,1,1,0,0,0,1,0,1,0,1,0,1,0,0,1,0,1,0,0,1,1,1)
plot(experiencia,desfecho)
Exemplo 8 Boxplots
boxplot(experiencia~desfecho,xlab="desfecho",ylab="experiência")
Maior experiência
para o grupo que
concluiu a tarefa
dentro do prazo
tapply(experiencia,desfecho,mean)
# Ajuste do modelo de regressão logístico
modelo=glm(desfecho~experiencia,family=binomial)
summary(modelo) Pdesfecho  1 | experiencia   1
1 exp (  0  1experienci a )
Parameter Estimates
Variable DF Estimate Std Error Chi-Sq Pr > Chi-Sq
INTERCEPT 1 -3.0597 1.2594 5.9029 0.0151
EXPERIE 1 0.1615 0.0650 6.1760 0.0129
Pdesfecho  1 | experiencia   1
1 exp ( 3,0597  0,1615 experienci a ) 
Exemplo 8 Probabilidades estimadas
plot(experiencia,modelo$fitted,xlab="esperiência",ylab="Probabilidade(desfecho=1)")
Chance (odds)
Pdesfecho 1|experienci a 
odds 
1 Pdesfecho 1|experienci a 
Pdesfecho  1 | experiencia   1
1 exp (  0  1experienci a )
 P desfecho 1|experienci a  
log    0  1experienci a
 1 P desfecho 1|experienci a  
Logito = log(odds)
Razão de chances (Odds ratio)
 P desfecho 1|experienci a  
log    0  1experienci a
 1 P desfecho 1|experienci a  
 P desfecho 1|experienci a 1 
log    0  1 experienci a  1
 1 P desfecho 1|experienci a 1 
 P desfecho 1|experienci a 1   P desfecho 1|experienci a  

log
       log 1 P desfecho 1|experienci a    1
 1 P desfecho 1| experienci a 1   
P desfecho 1|experienci a 1

1 P desfecho 1|experienci a 1
 exp 1
P desfecho 1|experienci a 
Odds ratio
1 P desfecho 1|experienci a 
Medida do efeito do incremento de uma unidade na variável explicativa

Exemplo 8 Odds ratio
odds ratio  exp(0,1615)  1,175
A chance aumenta em 17,5% para um mês adicional de experiência.

Exemplo 9 Aceitação de empréstimo (Ledolter, 2013)
Uma campanha do Universalbank mostrou que cerca de 9% de seus

clientes aceitaram propostas de empréstimos pessoais oferecidas pelo
banco.
Visando aumentar este percentual o banco tem interesse em desenvolver

um modelo capaz de identificar os clientes mais propensos à aceitação
de propostas de empréstimos. Com base nos resultados fornecidos pelo
modelo, o banco poderá aprimorar as propostas de empréstimos
pessoais oferecidas aos clientes
Para alcançar este objetivo a equipe de BI do banco conta com um

conjunto de dados de 5000 clientes, contendo uma variedade de
informações demográficas (idade, renda, etc), relacionamentos dos
clientes com o banco (correntistas, hipotecas, seguros, etc) e respostas
dos clientes à proposta de empréstimo (aceitação ou recusa) ao longo da
última campanha realizada pelo banco.
# carrega dados dos 5000 clientes

loan = read.csv("C:/curso R/aula3/UniversalBank.csv“)
Exemplo 9 Dados
head(loan) # mostra dados dos 6 primeiros clientes no objeto loan
Age = idade em anos

Experience = experiência profissional em anos
Income = renda do cliente
ZIP.code = CEP
Family = tamanho da família (1, 2, 3, 4)
CCAvg = despesa média mensal no cartão de crédito
Education = undergraduate, graduate, professional
Mortgage = tamanho da hipoteca
PersonalLoan = Aceita ou Recusa proposta de empréstimo
SecuritiesAccount = Sim ou Não
CDAccount = Capital Dividend Account Sim ou Não
Online = Sim ou Não
CreditCard = Sim ou Não
Exemplo 9 Recodifica variáveis
# Recodificação das variáveis

response=loan$PersonalLoan # respostas dos clientes Sim = 1, Não = 0
MeanRes=mean(response) # proporção de respostas positivas
# Families: 4 grupos (1, 2, 3, 4) e 3 dummies

# categoria de referência : família unipessoal
v1=rep(1,dim(loan)[1])
v2=rep(0,dim(loan)[1])
loan$FamSize2=ifelse(loan$Family==2,v1,v2)
# Escolaridade: 3 níveis e 2 dummies

# categoria de referência : undergraduate
loan$Educ2=ifelse(loan$Education==2,v1,v2)
loan$Educ3=ifelse(loan$Education==3,v1,v2)
Exemplo 9 Matriz de dados
# Matriz de dados
xx=cbind(response,Age=loan$Age,Exp=loan$Experience,Inc=loan$Income,Fa
m2=loan$FamSize2,Fam3=loan$FamSize3,Fam4=loan$FamSize4,CCAve=loa
n$CCAvg,Mort=loan$Mortgage,SecAcc=loan$SecuritiesAccount,CD=loan$CD
Account,Online=loan$Online,CreditCard=loan$CreditCard,Educ2=loan$Educ2,
Educ3=loan$Educ3)
Variável Variáveis
dependente independentes
Exemplo 9 Amostras de treinamento e validação
# Divide o conjunto de dados em amostra de treinamento (in sample)

# e amostra de validação (out sample).
n=dim(loan)[1] # número de clientes, tamanho da base
n1=floor(n*(0.6)) # tamanho do conjunto in sample 60% da base de dados
n2=n-n1 # tamanho do conjunto out sample 40% da base de dados
# conjunto de treinamento é uma AAS de tamanho n1 dos 5000 clientes

train=sample(1:n,n1) # índices dos clientes na amostra insample
xx=xx[,-1] # retira variável resposta (primeira coluna)
# conjunto de treinamento
xtrain = xx[train,] # variáveis explicativas
ytrain = response[train] # variável dependente
# conjunto de validação
xnew = xx[-train,] # variáveis explicativas
ynew = response[-train] # variável expllicativa
Exemplo 9 Ajusta modelo
m2=glm(response~.,family=binomial,data=data.frame(response=ytrain,xtrain))
summary(m2)
Exemplo 9 Probabilidades estimadas
# probabilidades de respostas positivas dos clientes do conjunto de validação
ptest=predict(m2,newdata=data.frame(xnew),type="response")
# probabilidades previstas contra respostas dos clientes

plot(ptest,ynew)
Respostas positivas
Respostas negativas
P(resposta positiva)
Exemplo 9 Matriz de confusão
SE P(resposta positiva) > 0,5 ENTÃO resposta será positiva

SE P(resposta positiva)  0,5 ENTÃO resposta será negativa
previsao = floor(ptest+0.5)
observado = ynew
tabela = table(observado,previsao)
tabela
erro=(tabela[1,2]+tabela[2,1])/n2
erro
(19 + 67) / 2000
19 + 67 2000 = total
total de de clientes no
classificações conjunto
erradas out sample
Exemplo 9 Matriz de confusão

previsao = floor(ptest+0.5)
observado = ynew
tabela
Acurácia = (1785 + 129) / 2000 = 0,957 (acertos / total de casos)
Sensibilidade = 129 / (129 + 19) = 0,872
Especificidade = 1785 / (1785 + 67) = 0,964

Exemplo 9 Curva ROC - Receiver Operating Characteristic Curve
# função para desenhar a curva ROC
roc = function(p,y){
y = factor(y)
n = length(p)
p = as.vector(p)
Q <- p > matrix(rep(seq(0,1,length=500),n),ncol=500,byrow=TRUE)
fp = colSums((y==levels(y)[1])*Q)/sum(y==levels(y)[1])
tp = colSums((y==levels(y)[2])*Q)/sum(y==levels(y)[2])
plot(fp, tp, xlab="1-Specificity", ylab="Sensitivity")
abline(a=0,b=1,lty=2,col=1)
}
# desenha a curva ROC

roc(p=ptest,y=ynew)
Exemplo 9 Curva ROC com pacote ROCR
# Pacote ROCR
library(ROCR)
data=data.frame(ptest,ynew)
pred = prediction(data$ptest,data$ynew)
# sensibilidade e especificidade (taxa de falso positivo)

perf = performance(pred, "sens", "fpr")
plot(perf)
Exemplo 10 Empresas concordatárias e saudáveis (Corrar et al, 2007)
Um dos pontos de interesse em trabalhos de perícia contábil voltados
para processos de concordatas é a emissão de uma opinião sobre a
capacidade da empresa de recuperar-se financeiramente e retomar a sua
rotina, após a concessão desse benefício legal.
Emitir uma opinião dessa natureza é sempre uma tarefa sujeita ao

questionamento por parte dos interessados, ou até mesmo da justiça,
sobretudo quando levada a efeito sem bases objetivas.
Uma forma de prevenir problemas dessa natureza pode ser a comparação

estatística da empresa em relação a outras, ou seja, buscar identificar se
a empresa que pleiteia a concordata possui características indicadoras
de que a sua classificação é compatível com a de uma empresa que se
encontre em condições financeiras saudáveis.
Considere que o perito esteja diante dessa situação e tenha que avaliar a
capacidade da empresa P&R de passar pela concordata e sair com todos
os seus compromissos honrados e em condições de continuar operando
normalmente como outras empresas. Uma abordagem para solucionar o
problema consiste em utilizar a análise discriminante.
Variável dependente (CLASS_Y): variável categórica com duas categorias
Empresas insolventes concordatárias (codificada com 1)
Empresas solventes (codificada com 2)
Variáveis independentes (X)

Sigla Nome Composição
LS Liquidez seca Ativo circulante – Estoques / Passivo circulante
GA Giro do ativo Receita de vendas / Ativo total
AVDREC Representatividade de duplicatas Estoque / Ativo total

a receber
AVEST Representatividade de estoques Passivo circulante / Passivo total
AVPC Representatividade do passivo Estoque / Custo

circulante
ESTCUS Estoque a preço de custo Fornecedores / Receita de Vendas
FORNVEN Relação fornecedores x Receita Fornecedores / Receita de vendas

de vendas
# leitura de dados
setwd("c:/cursoR")
filename="empresas.csv"
dados=read.csv2(filename,header=T,sep=",",dec=".")
names(dados)
# recodifica CLASS_Y
CLASS_Y=ifelse(dados[,1]==1,0,1)
dim(dados) # 91 empresas e 9 variáveis

length(which(CLASS_Y==0)) # CLASS_Y=0 # 49 empresas concordatárias
length(which(CLASS_Y==1)) # CLASS_Y=1 # 42 empresas solventes
# identficação das variáveis com maior capacidade de discriminar as empresas

# concordatárias e solventes
par(mfrow=c(2,4))
for (i in 2:8){
boxplot(dados[,i] ~ CLASS_Y,main=names(dados)[i],xlab="CLASS_Y")
}
AVEST e AVPC são boas variáveis discriminantes

# as empresas foram classificadas em duas amostras: insample e outsample
length(which(dados[,9]==0))
# 64 empresas na amostra insample, variável ALEAT = 0
length(which(dados[,9]==1))
# 27 empresas na amostra outsample, variável ALEAT = 1
# conjunto de treinamento (insample)

insample=which(dados[,9]==0) # ALEAT = 0
y=CLASS_Y[insample]
x=data.frame(y,dados[insample,5],dados[insample,6])
colnames(x)=c("y","AVEST","AVPC")
attach(x)
# ajusta modelo de regressão logística

modelo=glm(y~AVEST + AVPC,family=binomial)
summary(modelo)
# previsão de probabilidade de solvência
prob=predict(modelo,newdata=data.frame(AVEST,AVPC),type="response")

previsao = floor(prob+0.5)
Performance observado = y
insample # tabela de confusão
tabela
# erro aparente
erro=(tabela[1,2]+tabela[2,1])/sum(tabela)
erro
# conjunto de validação (outsample)
outsample=which(dados[,9]==1) # bservações na amostra outample
y=CLASS_Y[outsample]
x=data.frame(y,dados[outsample,5],d ados[outsample,6])
colnames(x)=c("y","AVEST","AVPC")
# previsão das probabilidades de solvência

pout=predict(modelo,newdata=x[,2:3],type="response")
Performance outsample
previsao = floor(pout+0.5)
observado = y
# tabela de confusão
tabela
# erro aparente
erro=(tabela[1,2]+tabela[2,1])/sum(tabela)
erro
Atividade extra 1 (Corrar et al, 2007)
O gerente de uma seguradora de veículos está interessado em aprimorar a sua
política de vendas para expandir a base de clientes. Ele acredita que em muitas
situações teria condições de realizar contratos a preços mais competititvos se
tivesse uma melhor percepção da taxa de risco a que se expõe em cada operação.
Recorrendo à sua base de dados, resolveu extrair uma maostra aleatória de 36
clientes para identificar quais são as variáveis que mais contribuem para
diferenciá-los quanto à ocorrência de sisnistros. Com isso, espera poder estimar
de forma mais racionalo risco a que ficará exposto em futuras operações e,
consequentemente, conceder descontos mais adequados. A amostra de 36
clientes é apresentada a seguir:
Dados no arquivo CORRAR.csv

Atividade extra 1 (Corrar et al, 2007)
Ajuste um modelo de regressão logística capaz de descrever o relacionamento
entre a ocorrência de sinistro e as variáveis sexo, idade e estado civil. Inteprete
os coeficientes estimados.
Estime a probabilidade de sinistro para um cliente do sexo masculino, casado e

com 25 anos de idade.
Para o mesmo cliente acima qual a probabildade se ele fosse solteiro.
Use o modelo estimado para classificar todos os 36 clientes da amostra, monte a

matriz de confusão e calcule a curva ROC.
Use a mesma amostra para implementar um classificador Naive Bayes,

classifique os 36 clientes, monte a matriz de confusão e calcule a curva ROC.
A aplicação do classificador Naive Bayes requer a categorização da variável idade
por meio de faixas etárias.
Faça um gráfico com as duas curvas ROC e identifique o melhor classificador

Atividade extra 2 (Peternelli e Mello, 2011)
Considere os 100 dados simulados pelo seguinte programa R
x=rep(1:10,10) # repete 10 vezes a sequência de 1 a 10
y=as.numeric(gl(10,10))
z=rnorm(100,30,15)
coord=data.frame(x,y,z)
Estime o modelo o modelo de regressão linear múltipla.

z   0  1x   2 y   3 x 2   4 xy   5 y 2  
Dica: para estimar o modelo faça

modelo = z ~ x + y +I(x^2) + I(x*y) + I(y^2)
resultado=lm(modelo,coord)
Estime o modelo pelo método LOESS e gere e superfície de resposta.

Atividade extra 3 (Kleiber e Zeileis, 2008)
A aplicação da metodologia bootstrap em modelos de regressão pode ser
útil nos casos com pequenas amostras, dado que os modelos baseiam-se
aproximações assintóticas.
Considerando os dados do exemplo 1 no slide 15 aplique a metodologia

bootstrap para obter o intervalo de confiança do coeficiente da variável
explicativa no modelo Custos = b0 + b1Clientes + .
Execute o seguinte programa:

dados=read.xlsx("CSPGEORGIA.xlsx",header=TRUE,startRow=1, sheetIndex=1)
colnames(dados)=c("clientes","custos")
refit=function(data,i) coef(lm(custos ~clientes,data=dados[i,]))
library(boot)
bootstrap=boot(dados,statistic=refit,R=999) # betas estimados por bootstrap
boot.ci(bootstrap,index=1) # intervalo de confiança para b0
boot.ci(bootstrap,index=2) # intervalo de confiança para b1
Compare os resultados obtidos com os encontrados pelo método

convencional no exemplo 1.
Atividade extra 4 Registros anemométricos de São João do Cariri (Projeto Sonda)
No arquivo ventos.xls encontram-se 30 perfis diários da velocidade do
vento a 50 metros de altura coletados na estação anemométrica de Sâo
João do Cariri na Paraíba. Cada linha do arquivo contém um perfil diário
com 144 observações (resolução temporal de 10 minutos).
Faça um programa R para suavizar os perfis diários visando remover

eventuais outliers. Use o método Loess e como variável explicativa
considere a sequência de 1 até 144 (seq(1,144,1) em que cada elemento
representa um intervalo de 10 minutos ao longo do dia.
Faça gráficos para ilustrar a qualidade da suavização de dados.
http://sonda.ccst.inpe.br/
Atividade extra 5 Estimação robusta
O estimador de mínimos quadrados é sensível aos outliers e observações
influentes. Uma alternativa ao estimador de mínimos quadrados é o
estimador de mínimos desvios absoluto LAD e que corresponde à
obtenção de estimativas da mediana da variável resposta condicionadas
aos valores das variáveis explicativas. Portanto, trata-se de um caso da
regressão quantílica para  =0,5.
O modelo de precificação de automóveis desenvolvido no exemplo 3

(slide 36) e estimado por mínimos quadrados foi bastante afetado por
observações influentes. Aplique a regressão quantílica para estimar a
mediana do preço condicionada aos valores de idade e distância
percorrida pelos veículos.
Compare os resultados obtidos pela regressão quantílica com os

alcançados pelo estimador de mínimos quadrados.
Referências bibliográficas
Berndt, E.R. The practice of econometrics classic and contemporary, Addison Wesley, California,
1991.
Bhowmik, R. Data mining techniques in fraud detection, Journal of Forensics, Security and Law,
v. 3, n.3, pp. 35- 54, 2008
Corrar, L.J.M Paulo, E.; Dias Filho, J.M. Análise multivariada para os cursos de administração,
ciências contábeis e economia, São Paulo: Editora Atlas, 2007.
Kleiber, C.; Zeileis, A. Applied Econometrics with R, Springer, 2008.
Kutner, M.H.; Nachtsheim, C.J.; Neter, J. Applied linear regression models, New York: McGraw-
Hill Irwin, 2004.
Ledolter, J. Data mining and business analytics with R, New Jersey: Wiley, 2013.
Neter, J.; Kutner, M.H.; Wasserman,C.J. Applied linear regression models, New York: McGraw-Hill
Irwin, 1985.
Peternelli, L.A.; Mello, M.P. Conhecendo o R: uma visão estatística, Viçosa: Editora UFV, 2011.
Ragsdale, C.T. Modelagem e Análise de Decisão, São Paulo, Cengage Learning, 2009
Se a sua intenção é retratar a verdade, faça-a com a
simplicidade e a elegância de um alfaiate.
Albert Einstein

Modelos de Regressao Regression Models

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Modelos de Regressao Regression Models

Enviado por

Direitos autorais:

Formatos disponíveis

Universidade do Estado do Rio de Janeiro

Faculdade de Administração e Finanças

Aula 3 Business Intelligence e Mineração de Dados

Em média, crianças de pais altos

Galton chamou isso de regressão

y = 0 + 1x1 + 2x2 +...+ kxk + 

O erro , não observável, captura a natureza aleatória da variável dependente Y, os

Qual o propósito de ajustar um modelo de regressão linear ?

 Previsão: prever o valor da variável dependente em função dos valores conhecidos

Regressão linear simples: apenas uma variável independente

Regressão linear múltipla: duas ou mais variáveis independentes

yi  0  1xi,1   2 xi,2     k xi, k   i i  1,, n

Vetor da variável Matriz das variáveis Vetor de coeficientes Vetor de erros

Erro  é uma variável aleatória

Matriz  determinada pela especificação de um modelo para a variância do

Y ~ X1 + X2 + X3 Y = 0 +1X1 + 2X2 + 3X3+

Por exemplo, quando Nolan analisa o relatório financeiro para uma

As companhias diferem em tamanho e por esta razão Nolan não pode

Nolan coletou dados das despesas com manutenção e número de

Sequência de comandos para importar o arquivo no R

header= T, primeira linha contém rótulos dos dados

Sequência de comandos para importar o arquivo no R

Conclusão da análise exploratória de dados:

R2, 87,35% da variação

confint(modelo) informa os intervalos com 95% de

confint(modelo) informa os intervalos com 99% de

Estes valores podem ser comparados com os dados fornecidos pelas

Os desvios entre os valores informados para as despesas e as respectivas estimativas

Valor informado Estimativa da despesa esperada dada o nº de clientes

Logo a companhia 6 é a mais eficiente e a companhia 12 a mais ineficiente

Yˆ  E Y | X  75  33,321  15,016  75  1.159,519

A despesa informada está acima da despesa esperada. Adicionalmente, o valor

1037,526  E Y | X  75  1281,512

Vendas  0  1POP16   2 RPC  

Matriz de correlações, cor(dados)

Correlações elevadas entre vendas e as variáveis explicativas, especificação linear é razoável

Matriz de correlações, cor(dados)

Correlações elevadas entre vendas e as variáveis explicativas, especificação linear é razoável

Yˆ  68,8571  1,4546 POP16  9,3655 RPC

R2, 91,67% da variação

A equação de regressão E Yi X 1 , X 2    0  1 X 1   2 X 2 define um plano

140 160 180 200 220 -2 -1 0 1 2

Fitted values Leverage

Matriz de covariâncias dos estimadores dos coeficiente de regressão

Variâncias na diagonal principal

Erros padrão dos

coeficientes de regressão ˆ ˆ  ˆ 2ˆ  0,0449  0,2118

confint(modelo) informa os intervalos com 95% de confiança para os

Intervalo com 95% de confiança para

predict(modelo, interval="predict") predict(modelo, interval="confidence")

Intervalo de previsão Intervalo de confiança

O modelo deve fornecer estimativas de preço a

Ajuste um modelo de regressão linear múltipla

Distribuição A transformação logaritmica

O diagnóstico dos resíduos do modelo permite identificar violações

• média nula E() = 0

Testes de aderência H0 : erro normal

Rejeita H0 ao nível de significância de 5%

Rejeita H0 ao nível de significância de 5%

Não rejeita H0 ao nível de significância de 5%

saída é uma variável lógica: saida=influence.measures(modelo)$is.inf

7 Métricas para identificação de

indice=which(saida[,4]==T) # índices das observações influentes segundo dffit = TRUE

Y=log(Price[-indice]) Remove observações