Você está na página 1de 65

Covariância e

coeficiente de correlação

Prof. Edmilson Alves de Moraes

Prof. Abraham Laredo Sicsu


Variação conjunta

10,0
9,0
8,0
7,0
6,0
nota

5,0
4,0
3,0
2,0
1,0
- 10,0
50 60 70 80 90 100 9,0
110 120 130
tempo de prova (minutos) 8,0
7,0
6,0
nota

5,0
4,0
3,0
2,0
1,0
-
50 60 70 80 90 100 110 120
tempo de prova (minutos)
diagrama de dispersão

gasto mensal de mulheres em produtos de beleza versus sua idade


diagrama de dispersão
gasto mensal de mulheres em produtos de beleza versus sua idade

exponencial

polinomial

logarítmica

é ótimo para identificar possíveis correlações!


coeficiente de correlação linear
 indica quão correlacionadas linearmente são 2 variáveis
contínuas (comportamentos comuns);
 exemplo: índice de desemprego e taxa de juros (quando um
aumenta o outro aumenta também); neste caso, existe
correlação, mas não está claro o processo de causalidade
(quem gera quem);
 varia entre -1 e 1:
 quanto mais perto de 1, maior a associação positiva;
 quanto mais perto de -1, maior a associação negativa;
 quando próxima de 0, não existe associação linear;
coeficiente de correlação linear

r = -0,952

r = 0,952

r = 0,069

r = 0,558
Variáveis bidimensionais: Covariância

i X Y XX YY (X  X)(Y  Y)


1 70 108 15,8 42,6 673,08
2 62 100 7,8 34,6 269,88
3 25 14 -29,2 -51,4 1500,88
4 42 21 -12,2 -44,4 541,68
5 40 55 -14,2 -10,4 147,68
6 84 97 29,8 31,6 941,68
7 56 60 1,8 -5,4 -9,72
8 90 138 35,8 72,6 2599,08
9 28 39 -26,2 -26,4 691,68
10 45 22 -9,2 -43,4 399,28
média 54,2 65,4 7755,2
desv. pad. 22,26 42,96

Cov(X, Y) 
 (X  X)( Y  Y) 7755,2
  861,69
n 1 9
Variáveis bidimensionais: Covariância

i X Y XX YY (X  X)(Y  Y)


1 70 1,08 15,8 0,426 6,7308
2 62 1 7,8 0,346 2,6988
3 25 0,14 -29,2 -0,514 15,0088
4 42 0,21 -12,2 -0,444 5,4168
5 40 0,55 -14,2 -0,104 1,4768
6 84 0,97 29,8 0,316 9,4168
7 56 0,6 1,8 -0,054 -0,0972
8 90 1,38 35,8 0,726 25,9908
9 28 0,39 -26,2 -0,264 6,9168
10 45 0,22 -9,2 -0,434 3,9928
média 54,2 0,654 77,55
desv. pad. 22,26 0,4296

Cov( X , Y ) 
 ( X  X )(Y  Y ) 77,55
  8,6169
n 1 9
Coeficiente de Correlação

Cov(X, Y)
r  Corr(X, Y) 
sX  sY
Primeiro exemplo Segundo exemplo
861,69
r  0,90 r  8,6169  0,90
22,26  42,96 22,26  0,4296

Propriedade:

 1  r  1
Variáveis bidimensionais: Covariância (Exercício)

X Y X- X Y - Y (X - X)(Y - Y)
1 12 7,2 -19,6 0,8 -14,7
2 16 7,4 -15,6 1,0 -14,82
3 18 7,0 -13,6 0,6 -7,48
4 20 6,5 -11,6 0,0 -0,58
5 28 6,6 -3,6 0,1 -0,54
6 30 6,7 -1,6 0,3 -0,4
7 40 6,0 8,4 -0,5 -3,78
8 48 5,6 16,4 -0,9 -13,94
9 50 6,0 18,4 -0,5 -8,28
10 54 5,5 22,4 -1,0 -21,28
média 31,6 6,45 -85,8
desv. pad. 15,43 0,66

Cov(X, Y) 
 (X  X)( Y  Y)  85,8
  9,53
n 1 9
Cov(X, Y)  9,53
r  Corr (X, Y)    0,94
sX  sY 15,43  0,66
Regressão Linear

Prof. Edmilson Alves de Moraes


Correlação
VENDEDOR TESTE VENDAS
1 70 108
2 62 100
3 25 14
4 42 21
5 40 55
6 84 97
7 56 60
8 90 138
9 28 39
10 45 22

Uma empresa produtora de azeite extra-virgem


Amostra de 10 vendedores selecionada aleatoriamente

Teste: Pontos obtidos em um teste de aptidão


Vendas: Média mensal de vendas (em 1000 litros) em 2005
Perguntas

1) Como varia "VENDAS" em função de "TESTE"?

2) É possível prever VENDAS a partir de TESTE? Como?

3) Como medir o grau de associação


entre VENDAS e TESTE?
Diagrama de Dispersão
150
VENDAS

120

90

60

30
TESTE
0
0 20 40 60 80 100

1) Gráfico sugere uma relação linear entre as variáveis.


2) Qual a reta que melhor se ajusta aos pontos ?
3) Qual o grau de associação linear entre as duas variáveis ?
Correlação Linear

X e Y : duas variáveis aleatórias.

Amostra de n pares ( x, y )

r = coeficiente de correlação linear amostral

r - mede o grau de associação linear entre X e Y


Correlação Linear
Y
r = 0,98

X
r =
.98
Y
r = 0,46

X
r =
.46
Y
r = - 0,11

X
r = -
.11
Correlação Linear

Um alto valor de r não significa que X e Y guardam entre


si uma relação de causa e efeito.
Ou ambas estão sendo influenciadas por outras variáveis
e acabam tendo uma forte relação linear "por tabela", ou
pode ser mera coincidência.

Taxa de mortalidade Cidades em um


infantil país longínquo

TVs / lar
Teste dos
10 vendedores

VENDEDOR TESTE VENDAS


1 70 108
2 62 100
3 25 14
4 42 21
5 40 55
6 84 97
7 56 60
8 90 138
9 28 39
10 45 22

Como medir o grau de associação entre VENDAS e TESTE?

Cov (teste, vendas)


Resposta: r = corr (teste, vendas) = = 0,90
dp(teste) . dp(vendas)

r é correlação amostral
Perguntas do pessoal de RH

 Vamos esquecer essa AMOSTRA de 10 vendedores.


 Vamos pensar no caso geral dos vendedores que
podemos contratar (POPULAÇÃO).

1) Como varia "VENDAS" em função de "TESTE"?

2) É possível prever VENDAS a partir de TESTE? Como?

3) É possível encontrar um MODELO DETERMINÍSTICO que permita explicar


VENDAS a partir de TESTE?
(ex.:VENDAS = a + b . TESTE)

4) É possível encontrar um MODELO PROBABILÍSTICO que permita explicar


VENDAS a partir de TESTE?
(ex.:VENDAS = 0 + 1 . TESTE + e)
Modelo Probabilístico Linear

Vendas População ou
“de 1ª ordem”

Teste
0

VENDAS = 0 + 1 . TESTE + e
Erro ou Resíduo
Variável explicativa ou independente
Coeficiente angular (quanto aumenta vendas quando t
aumenta 1)
Intercepto
Intercepto(na
(nateoria:
teoria:vendas
vendasquando teste
quando =0)= 0)
teste
Variável explicada ou dependente
Resíduo para cada vendedor

População
Vendas

Resíduo ou erro e

Teste

VENDASi = 0 + 1 . TESTEi + ei
Resíduo do vendedor i

Nota no teste do vendedor i

Valor real das vendas do vendedor i


Equação de E(vendas)

Vendas População

E(vendas) E(vendas) = 0 + 1 . teste


para
teste = p
Teste
p
vendas = 0 + 1 . teste + e
A reta da regressão “passa” na venda média para cada valor de teste.
Para um vendedor qualquer que tenha obtido nota p no teste, quanto se espera que
ele venda? Resposta: 0 + 1 . teste
Em média, quanto venderão os que tiveram nota p? Resposta: 0 + 1 . teste
Todos vendedores com nota p no teste terão as mesmas vendas? Resposta: não!
Como estimar o e 1 ?
^ ^
1) A estimativa o do intercepto o e a estimativa 1 do coeficiente
angular 1 podem ser calculadas a partir dos dados de uma amostra.

2) Vamos pegar a amostra dos 10 vendedores e ajustar uma reta.

160 vendas = 1,7398.teste - 28,896 3) Mas qual reta?


140
120
vendas

100
80
60
40
20
0
0 20 40 60 80 100

teste
Como ajustar uma reta à amostra?

 Critério dos Mínimos Quadrados. Minimizar  e2


 Existem muitas retas onde  e = 0. Entre essas, escolhe-se aquela em
que a soma dos quadrados de todos os resíduos seja mínima.
 Excel nos ajuda nisso.

160 vendas = 1,7398.teste - 28,896


140
120
vendas

100
80
60
40
20
0
0 20 40 60 80 100

teste
Como calcular o e 1?
^ ^

Para minimizar  e2 , demonstra-se que:

ˆ SSXY
1  ˆ0  Y  ˆ1 X
SSXX

SSXX = Soma de quadrados da variável X


n
 n 2 2
SSXX   ( X i  X )    X i   nX
2 Y
i 1  i 1 
n
 n 
SSXY   ( X i  X )(Yi  Y )    X iYi   nXY
i 1  i 1 
X
n = tamanho da amostra
Da amostra à população

 Podemos então assumir que o = ^o = - 28,896? E que 1 = ^1 =


^ ^
1,7398? Não, visto que obtemos diferentes o e 1 para cada amostra
que usarmos.
^ ^
 o e 1 são bons estimadores para o e 1 (e poderemos depois
determinar Intervalos de Confiança para o e 1).

160 vendas = 1,7398.teste - 28,896


140
120
vendas

100
80
60
40
20
0
0 20 40 60 80 100

teste
Exemplos de uso do modelo
1) Se um indivíduo fizer 50 pontos no teste, qual
o valor esperado para suas vendas?
TESTE = 50
E(VENDAS) = - 28,90 + 1,74 x 50 = 58,10 (1000 litros)

2) Todos os indivíduos que fizerem 50 pontos no teste terão vendas igual a


58,10 litros? Por que?

3) Se um indivíduo fizer 10 pontos no teste, qual a previsão de suas vendas?


E(VENDAS) = - 28,90 + 1,74 x 10 = -11,5 !!!
(onde erramos???)
O modelo obtido é significativo?

1) Usando uma amostra de 10 vendedores, com o uso


do Excel obtivemos a equação da reta ajustada à amostra
vendas = - 28,90 + 1,74 . teste

^ ^
2) Como o e 1 são bons estimadores para o e 1, assumimos que o
modelo que explica vendas em função da nota no teste (na população) é

E(vendas) = - 28,90 + 1,74 . teste

ou

vendas = - 28,90 + 1,74 . teste + e


O modelo obtido é significativo?
3) Mas, será que este modelo é de fato útil para prever vendas?
Dado um novo vendedor, usar esse modelo para prever
suas vendas é de fato melhor que simplesmente
usar a média das vendas entre os vendedores, ou seja, vendas?
4) Em outras palavras, vendas depende mesmo da nota do teste? Ou, ainda, 1 é de fato
diferente de zero?
5) No exemplo abaixo (amostra de 3 vendedores), qual modelo é melhor?
vendas = 74 + e ou vendas = - 39,1 + 2,2 . teste + e

120

100

80 vendas = 74
vendas

60
vendas = -39,1 + 2,2 . teste
40

20

0
60 62 64 66 68 70 72
teste
Como saber se o modelo é significativo?

Hipóteses:
 H0: 1 = 0 (não há relação linear entre as variáveis)
 Ha: 1  0 (há relação linear entre as variáveis)

Em Regressão Linear Simples, há duas formas:


a) decomposição da variabilidade da variável explicada (teste F)
b) exame da distribuição de 1 (veremos mais tarde)

A partir daqui, usaremos nomenclatura genérica:


y ao invés de vendas
x ao invés de teste
Nomenclatura para amostra e população
Y Amostra
 Amostra:
^ ^ ^
y= o + 1 . x
^ ^ ^
y= o + 1 . x + e X

• População: Y População
E(y) = o + 1 . x

y = o + 1 . x + 
X
Decomposição da variabilidade de Y
n n n

 ( y i  y)
i1
2
  (yi  yˆ i )
i1
2
  i
( ˆ
y 
i1
y ) 2

Variabilidade = Variabilidade + Variabilidade devida


TOTAL residual à regressão

Y
Y Y

y y

X
X X

SQTotal (SST) = SQRes (SSE) + SQReg (SSR)


Tabela de ANOVA
Soma de Graus de Quadrado
Fonte da variação F
Quadrados liberdade Médio
SSR QMReg
Regressão SSR 1 QMReg  F
1 QMErro

SSE
Erro SSE n-2 QMErro 
n-2

Total SST n-1

H0: 1 = 0 (não há relação linear entre as variáveis)


Ha: 1  0 (há relação linear entre as variáveis)

QM Re g
Rejeito H0
A estatística do teste é: F 
QMErro

Rejeito H0 se F > FCRÍTICO
0 Fcrítico
R2 - Coeficiente de Determinação
SSR SST  SSE
R2  
SST SST
Y
Y Y

X
X X

SST = SSE + SSR

2
- R é o quadrado do coeficiente de correlação.

2
- R mede quanto a variável X explica a variabilidade de Y

2
- Como poderíamos aumentar R ?
Vendas e teste: usando Excel
Vamos supor  = 5% (topo rejeitar H0: 1=0 com
RESUMO DOS RESULTADOS
probabilidade de errar = 0,05, ou seja, topo concluir
que há uma relação linear com probabilidade de
Estatística de regressão errar = 0,05).
R múltiplo 0,901
R-Quadrado 0,812 Como p-value é 0,00037, menor que 0,05, então
R-quadrado ajustado 0,789 entendemos que há indícios para rejeitar H0, ou
Erro padrão 19,749
seja, para concluirmos que existe uma relação
Observações 10
linear.
ANOVA
gl SQ MQ F F de significação
Regressão 1 13492,27 13492,27 34,59 0,00037
Resíduo 8 3120,13 390,02
Total 9 16612,40

Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores


Interseção -28,90 17,21 -1,68 0,13158 -68,57 10,78
teste ^
 1,74 0,30 5,88 0,00037 1,06 2,42
0

^
 IC de 1 não inclui
1
zero.
Análise dos Resíduos
^ ^
resíduo = e = VENDAS - VENDAS
(diferença entre o valor observado e o valor calculado)

140
VENDAS
120

100

80

60

40

20
TESTE
0
20 40 60 80 100
Análise dos Resíduos

Por que essa diferença?

 Influência de outras variáveis além de TESTE no valor


de VENDAS.

 A reta ajustada não é o “melhor modelo” para


representar a variação de VENDAS em função de
TESTE.
Análise dos Resíduos

Por construção, na amostra a soma dos resíduos


é zero (assim com a média dos resíduos)

 resíduos2
Variância Residual: s2 = = 390,02
n-2

Erro padrão: S (ou Se OU Sr) = 19,75

Resíduo padronizado: resíduo


s

^)
Std ( e
Análise dos Resíduos

TESTE VENDAS VENDAS e Std ( e )


1 70 108 92.89 15.11 0.77
2 62 100 78.97 21.03 1.06
3 25 14 14.60 -0.60 -0.03
4 42 21 44.17 -23.17 -1.17
5 40 55 40.70 14.30 0.72
6 84 97 117.25 -20.25 -1.03
7 56 603 68.53 -8.53 -0.43
8 90 1382 127.68 10.32 0.52
9 28 391 19.82 19.18 0.97
10 45 STD 22
(e) 0 49.39 -27.39 -1.39
-1

-2

-3
20 40 60 80 100
TESTE
Suposições do Modelo

1 - Erros são independentes;


2 - Erro tem média zero;

3 - Erro tem distribuição normal com variância e
2

4 - Variância do erro é constante ao longo do eixo X

f()

X2
X1

Yi ~ N E(Yi ); e2 
X
EYi    0  1Xi
Gráficos dos Resíduos
Como verificar se as suposições do modelo são válidas?

Variância não é constante

Distribuição não é normal

Teste
Erros não são independentes

0
resíduo

Teste
TH para o coeficiente angular 1

Venda explicada Propaganda $ Vendas


por propaganda 1 1
2 1
3 2
Estatística de regressão 4 2
R múltiplo 0,903696
5 4
R-Quadrado 0,816667
R-quadrado ajustado 0,755556 Estime a venda média quando o gasto
Erro padrão 0,60553 com propaganda é igual a $4 com = 5%
Observações 5

ANOVA
gl SQ MQ F F de significação
Regressão 1 4,9 4,9 13,36364 0,035352847
Resíduo 3 1,1 0,366667
Total 4 6

Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores


Interseção -0,1 0,635085296 -0,15746 0,884884 -2,12112675 1,92112675
Variável X 1 0,7 0,191485422 3,655631 0,035353 0,090607356 1,309392644
TH para o coeficiente angular 1
H0 : 1= 1*
^ distribuição normal com
Pode-se mostrar que, sob H0, 1 tem
média 1* e desvio-padrão  ̂
1

Desconhecido !!
vamos usar
S^

1
 ̂
1

1 ^
1

ˆ1  1*
Então, t  tem distribuição t-student com n-2 g.l.
sˆ
1
TH para o coeficiente angular 1

 H 0:  1 = 0 Estatística do teste:
 H a:  1  0
   .05  1   1* 0.70  0
 gl  5 - 2 = 3 t    3.656
S 0.1915
 Valores críticos: 1

Reject Reject Decisão:


Rejeito H0 com  = 0,05
.025 .025
Conclusão:
Há relação linear entre as
-3.1824 0 3.1824 t variáveis
Roteiro para Regressão Linear Simples

 Queremos um modelo para a população.


 Determinamos uma amostra.
 Sobre a amostra, com auxílio do Excel, ajustamos uma reta.
 Verificamos se o modelo é significativo (3 formas):
 teste F (ANOVA)
 IC do 1
 teste da hipótese H0: 1 = 0

 Verificamos se os pressupostos foram satisfeitos (Análise dos Resíduos)

 Se tudo OK:
 avaliamos R2
 usamos o modelo para previsões
 usamos o modelo para interpretações
Intervalo de Confiança para venda média
quando propaganda = $4
Yˆ  tn  2, / 2  SYˆ  E (Y )  Yˆ  t n  2, / 2  SYˆ

X  X 
2
1 p
SYˆ  S  n
n
 S  EX(Y   t
2
Yˆ  t n  2, / 2 Yˆ
) XYˆ
i n  2, / 2  SYˆ
i 1

Yˆ  0.1   0.7   4   2.7

 4  3
2
1
SYˆ  .60553   0.3316
5 10

2.7  3.1824   0.3316   E(Y )  2.7  3.1824   0.3316 


1.6445  E(Y )  3.755
Valor do imóvel explicado pela área
Y População Y Amostra

X X
Yi   0  1X i   i Yi  ˆ 0  ˆ1 Xi  ˆi
EYi    0  1Xi ˆ  ˆ  ˆ X
Yi 0 1 i

Y= valor de um imóvel com X m2 Y= valor de um imóvel com X m2


1= aumento no valor médio de um imóvel para ^ = estimativa do aumento no valor médio de
1
cada m2 a mais. um imóvel para cada m2 a mais.
E(Y)= valor médio de um imóvel com X m2
^Y= estimativa do valor médio de um imóvel
 = erro = diferença entre o valor de um imóvel com X m2
com X m2 e o valor médio dos imóveis com X ^ = diferença entre o valor de um imóvel com
m2 X m2 e o valor estimado pela reta de regressão
Previsões
Qual o valor médio de um imóvel Qual o valor de um imóvel
(E(Y)) que tenha Xp=60m2? qualquer (Y) que tenha
Xp=60m2?

Intervalo de confiança para E(Y) Intervalo de predição para Y

Yˆ  tn  2, / 2  SYˆ  E (Y )  Yˆ  t n  2, / 2  SYˆ Yˆ  t n  2, / 2  S Y Yˆ  YP  Yˆ  t n  2, / 2  S Y Yˆ


   

X  X   
2 2

1 p 1 XP  X
SYˆ  S  S Y Yˆ  S 1 
  n n

X 
n
n 2

X  X 
2
i X
i i 1
i 1

Atenção!!!
Intervalos em um gráfico
Limite do intervalo de
confiança superior
Y Limite do intervalo de
predição superior

^
 Xi
^
^= 0 + 1
Yi
Limite do intervalo d
confiança inferior

Limite do intervalo de
_ predição inferior
X
X XP
Pontos influentes
70
60
50
40
30
20
10
0
0 2 4 6 8 10

70
60
50
40
30
20
10
00 2 4 6 8 10
70
60
50
40
30
20
10
00 2 4 6 8 10
00 2 4 6 8 10
Análise de Regressão Múltipla
Modelo Matemático
- Uma variável dependente (Y)
- Várias variáveis independentes (X1, X2, X3, etc..)

Modelo populacional:

Inclinações Erro
Intercepto aleatório

Yi   0  1X1i   2 X2i  ...  k Xki   i


Variável Variáveis
dependente independentes

i = indexador do indivíduo
Modelo Matemático
Exemplo: modelo populacional com duas variáveis independentes

Yi =  0 +  1X1i +  2X2i +  i
Y (Y observado)

0 i
X2

X1 (X1i,X2i)
E(Y) =  0 +  1X1i +  2X2i
Modelo Matemático

Exemplo: modelo amostral com duas variáveis independentes

Yi = ^0 + ^1X1i + ^2X2i + ^i


Y (Y observado)

^0
i
^
X2

X1 (X1i,X2i)
^ ^ ^
Yi = 0 + 1X1i + ^2X2i
Interpretação dos parâmetros
Exemplo: prever preço de um imóvel (Y) pelo tamanho (X1) e idade (X2)

População Amostra

Yi   0  1 X1i   2 X 2i   i Yi  ˆ0  ˆ1 X1i  ˆ 2 X 2i  ˆi


E( Y )   0  1 X1i   2 X 2i ˆ  ˆ  ˆ X  ˆ X
Yi 0 1 1i 2 2i
0: valor médio de um imóvel quando ̂ 0 : valor médio de um imóvel quando
X1=0 e X2=0. X1=0 e X2=0.
1: aumento no valor médio de um ̂ : estimativa do aumento no valor médio
1
imóvel quando aumento 1m2 no de um imóvel quando aumento 1m2 no
tamanho, mantendo constante a tamanho, mantendo constante a idade.
idade. ̂ 2 : estimativa do aumento no valor médio
2: aumento no valor médio de um de um imóvel quando aumento 1 ano na
imóvel quando aumento 1 ano na idade, mantendo constante o tamanho.
idade, mantendo constante o Ŷi : preço médio estimado de um imóvel
tamanho. com determinada idade e tamanho.
E(Y)= valor médio de um imóvel com
Suposições e Hipóteses do Modelo
Suposições:
-erro tem distribuição normal com média 0 e variância s2
-erros são independentes

Hipóteses:
H0: 1 = 2 = ... = k = 0 k=número de variáveis independentes
Não há relação linear
Ha: Pelo menos um coeficiente é diferente de zero
(Pelo menos uma variável afeta o número de respostas Y)

Fonte de Soma de Graus de Quadrado F (estatística do teste)


variação quadrados liberdade médio
QMReg
Regressão SQR(SSR) k SQR/k F=
QMErro
Erro SQE(SSE) n-k-1 SQE/(n-k-1)

Total SQT(SST) n-1


Suposições e Hipóteses do Modelo

Se F > Fcrítico=Fk , n-k-1; => rejeito H0=> pelo menos uma variável
tem relação linear com Y.

Qual é essa variável?

Variável Estimativa erro padrão estatística t p-valor

ˆ 0
Intercepto ˆ 0 s ˆ
0 s ˆ
0

X1 ˆ1
s ˆ
1
ˆ1
s ˆ
1
...
... ... ...
ˆ
Xk ˆ k
s ˆ
k
k
s ˆ
k
Estimação dos Parâmetros
- Fórmula para calcular betas, intervalos de confiança e intervalos
de predição são complicadas

- Serão utilizadas informações presentes na saída do software

Intervalo de confiança de (1-)% para i:

ˆi  t n  k 1s ˆ
i
Ajuste do Modelo
SQ Re g SQErro
R 2
1
SQTot SQTot

- Chamado de coeficiente múltiplo de determinação


- R2 aumenta com o acréscimo de variáveis

Solução: olhar R2 ajustado para comparar modelos com diferentes


números de variáveis
SQErro
Raj2  1  n  k  1  1  QMErro
SQTotal QMTotal
n 1

O coeficiente ajustado é sempre menor que o R2.

k: número de variáveis do modelo


Exemplo
Número de respostas (Y) de acordo com o tamanho do anúncio e
com a circulação do jornal

respostas circulação (em mil) tamanho do anúncio


12 150 10
6 130 5
8 110 10
4 100 5
9 115 10
13 160 5
23 170 5
18 140 5
15 130 10
15 140 10
7 110 10
12 130 10
9 110 5
Saída do Excel

Estatística de regressão
R múltiplo 0.812
R-Quadrado 0.659
R-quadrado ajustado 0.591
Erro padrão 3.370
Observações 13 P-valor

ANOVA
gl SQ MQ F F de significação
Regressão 2 219.47 109.74 9.66 0.00
Resíduo 10 113.60 11.36
Total 12 333.08

Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores


Interseção -16.117 7.372 -2.186 0.054 -32.544 0.310
circulação (em mil) 0.204 0.047 4.361 0.001 0.100 0.308
tamanho do anúncio 0.145 0.384 0.379 0.713 -0.709 1.000

Intervalo de confiança
Análise de Resíduos
• A análise de resíduos deve ser feita antes de se chegar a
alguma conclusão. Se as suposições do modelo não
estiverem satisfeitas, o modelo não é válido.

• Suposições do modelo: erro tem distribuição normal com


variância constante (mesmas suposições da regressão
simples).

• Como verificar as suposições: gráficos de dispersão e


histograma dos resíduos.

Resíduo Resíduo Freq

Valor previsto para Y Variável X Resíduo

Um gráfico para cada variável X


Análise de Resíduos - exemplo anterior
Observação Y previsto Resíduos
1 15,95455 -3,954545
2 11,14601 -5,146006
6
3 7,789256 0,210744
4 5,022039 -1,022039 4
5 8,809917 0,190083
2
6 17,26997 -4,269972

resíduo
7 19,31129 3,688705 0
8 13,18733 4,812672 -2 0 5 10 15 20 25
9 11,8719 3,128099
10 13,91322 1,086777 -4
11 7,789256 -0,789256 -6
12 11,8719 0,128099 y previsto
13 7,063361 1,936639
4

3
Frequency

-6 -4 -2 0 2 4
resíduos

Conclusão: não parece haver nenhuma suposição não satisfeita, exceto a normalidade.
Conclusão
Admitindo que as suposições estão satisfeitas, podemos continuar
a análise.

p-valor <0,05 => rejeito H0: pelo menos uma das variáveis tem
relação linear com Y

Qual variável?

Circulação: p-valor=0,001
Tamanho: p-valor=0,713

Deve-se ajustar um novo modelo de regressão apenas com


circulação como variável independente, pois variáveis que não
são significantes não devem permanecer.
Multicolinearidade
• Ocorre quando há alta correlação entre variáveis independentes
• Coeficientes do modelo ficam instáveis

Formas de detectar multicolinearidade:

• matriz de correlação

anos de
num estudo
empregos nota de anos de após
sexo anteriores estat3 experiência graduação
sexo 1
num empregos anteriores 0,11 1
nota de estat3 0,21 0,45 1
anos de experiência 0,18 0,36 0,86 1
anos de estudo após graduação -0,13 0,31 0,54 0,69 1

• Variance Inflator Factor (VIF)


• disponível nos softwares estatísticos
• valores maiores que 5 indicam multicolinearidade

Você também pode gostar