Escolar Documentos
Profissional Documentos
Cultura Documentos
coeficiente de correlação
10,0
9,0
8,0
7,0
6,0
nota
5,0
4,0
3,0
2,0
1,0
- 10,0
50 60 70 80 90 100 9,0
110 120 130
tempo de prova (minutos) 8,0
7,0
6,0
nota
5,0
4,0
3,0
2,0
1,0
-
50 60 70 80 90 100 110 120
tempo de prova (minutos)
diagrama de dispersão
exponencial
polinomial
logarítmica
r = -0,952
r = 0,952
r = 0,069
r = 0,558
Variáveis bidimensionais: Covariância
Cov(X, Y)
(X X)( Y Y) 7755,2
861,69
n 1 9
Variáveis bidimensionais: Covariância
Cov( X , Y )
( X X )(Y Y ) 77,55
8,6169
n 1 9
Coeficiente de Correlação
Cov(X, Y)
r Corr(X, Y)
sX sY
Primeiro exemplo Segundo exemplo
861,69
r 0,90 r 8,6169 0,90
22,26 42,96 22,26 0,4296
Propriedade:
1 r 1
Variáveis bidimensionais: Covariância (Exercício)
X Y X- X Y - Y (X - X)(Y - Y)
1 12 7,2 -19,6 0,8 -14,7
2 16 7,4 -15,6 1,0 -14,82
3 18 7,0 -13,6 0,6 -7,48
4 20 6,5 -11,6 0,0 -0,58
5 28 6,6 -3,6 0,1 -0,54
6 30 6,7 -1,6 0,3 -0,4
7 40 6,0 8,4 -0,5 -3,78
8 48 5,6 16,4 -0,9 -13,94
9 50 6,0 18,4 -0,5 -8,28
10 54 5,5 22,4 -1,0 -21,28
média 31,6 6,45 -85,8
desv. pad. 15,43 0,66
Cov(X, Y)
(X X)( Y Y) 85,8
9,53
n 1 9
Cov(X, Y) 9,53
r Corr (X, Y) 0,94
sX sY 15,43 0,66
Regressão Linear
120
90
60
30
TESTE
0
0 20 40 60 80 100
Amostra de n pares ( x, y )
X
r =
.98
Y
r = 0,46
X
r =
.46
Y
r = - 0,11
X
r = -
.11
Correlação Linear
TVs / lar
Teste dos
10 vendedores
r é correlação amostral
Perguntas do pessoal de RH
Vendas População ou
“de 1ª ordem”
Teste
0
VENDAS = 0 + 1 . TESTE + e
Erro ou Resíduo
Variável explicativa ou independente
Coeficiente angular (quanto aumenta vendas quando t
aumenta 1)
Intercepto
Intercepto(na
(nateoria:
teoria:vendas
vendasquando teste
quando =0)= 0)
teste
Variável explicada ou dependente
Resíduo para cada vendedor
População
Vendas
Resíduo ou erro e
Teste
VENDASi = 0 + 1 . TESTEi + ei
Resíduo do vendedor i
Vendas População
100
80
60
40
20
0
0 20 40 60 80 100
teste
Como ajustar uma reta à amostra?
100
80
60
40
20
0
0 20 40 60 80 100
teste
Como calcular o e 1?
^ ^
ˆ SSXY
1 ˆ0 Y ˆ1 X
SSXX
100
80
60
40
20
0
0 20 40 60 80 100
teste
Exemplos de uso do modelo
1) Se um indivíduo fizer 50 pontos no teste, qual
o valor esperado para suas vendas?
TESTE = 50
E(VENDAS) = - 28,90 + 1,74 x 50 = 58,10 (1000 litros)
^ ^
2) Como o e 1 são bons estimadores para o e 1, assumimos que o
modelo que explica vendas em função da nota no teste (na população) é
ou
120
100
80 vendas = 74
vendas
60
vendas = -39,1 + 2,2 . teste
40
20
0
60 62 64 66 68 70 72
teste
Como saber se o modelo é significativo?
Hipóteses:
H0: 1 = 0 (não há relação linear entre as variáveis)
Ha: 1 0 (há relação linear entre as variáveis)
• População: Y População
E(y) = o + 1 . x
y = o + 1 . x +
X
Decomposição da variabilidade de Y
n n n
( y i y)
i1
2
(yi yˆ i )
i1
2
i
( ˆ
y
i1
y ) 2
Y
Y Y
y y
X
X X
SSE
Erro SSE n-2 QMErro
n-2
QM Re g
Rejeito H0
A estatística do teste é: F
QMErro
Rejeito H0 se F > FCRÍTICO
0 Fcrítico
R2 - Coeficiente de Determinação
SSR SST SSE
R2
SST SST
Y
Y Y
X
X X
2
- R é o quadrado do coeficiente de correlação.
2
- R mede quanto a variável X explica a variabilidade de Y
2
- Como poderíamos aumentar R ?
Vendas e teste: usando Excel
Vamos supor = 5% (topo rejeitar H0: 1=0 com
RESUMO DOS RESULTADOS
probabilidade de errar = 0,05, ou seja, topo concluir
que há uma relação linear com probabilidade de
Estatística de regressão errar = 0,05).
R múltiplo 0,901
R-Quadrado 0,812 Como p-value é 0,00037, menor que 0,05, então
R-quadrado ajustado 0,789 entendemos que há indícios para rejeitar H0, ou
Erro padrão 19,749
seja, para concluirmos que existe uma relação
Observações 10
linear.
ANOVA
gl SQ MQ F F de significação
Regressão 1 13492,27 13492,27 34,59 0,00037
Resíduo 8 3120,13 390,02
Total 9 16612,40
^
IC de 1 não inclui
1
zero.
Análise dos Resíduos
^ ^
resíduo = e = VENDAS - VENDAS
(diferença entre o valor observado e o valor calculado)
140
VENDAS
120
100
80
60
40
20
TESTE
0
20 40 60 80 100
Análise dos Resíduos
resíduos2
Variância Residual: s2 = = 390,02
n-2
^)
Std ( e
Análise dos Resíduos
-2
-3
20 40 60 80 100
TESTE
Suposições do Modelo
f()
X2
X1
Yi ~ N E(Yi ); e2
X
EYi 0 1Xi
Gráficos dos Resíduos
Como verificar se as suposições do modelo são válidas?
Teste
Erros não são independentes
0
resíduo
Teste
TH para o coeficiente angular 1
ANOVA
gl SQ MQ F F de significação
Regressão 1 4,9 4,9 13,36364 0,035352847
Resíduo 3 1,1 0,366667
Total 4 6
Desconhecido !!
vamos usar
S^
1
̂
1
1 ^
1
ˆ1 1*
Então, t tem distribuição t-student com n-2 g.l.
sˆ
1
TH para o coeficiente angular 1
H 0: 1 = 0 Estatística do teste:
H a: 1 0
.05 1 1* 0.70 0
gl 5 - 2 = 3 t 3.656
S 0.1915
Valores críticos: 1
Se tudo OK:
avaliamos R2
usamos o modelo para previsões
usamos o modelo para interpretações
Intervalo de Confiança para venda média
quando propaganda = $4
Yˆ tn 2, / 2 SYˆ E (Y ) Yˆ t n 2, / 2 SYˆ
X X
2
1 p
SYˆ S n
n
S EX(Y t
2
Yˆ t n 2, / 2 Yˆ
) XYˆ
i n 2, / 2 SYˆ
i 1
4 3
2
1
SYˆ .60553 0.3316
5 10
X X
Yi 0 1X i i Yi ˆ 0 ˆ1 Xi ˆi
EYi 0 1Xi ˆ ˆ ˆ X
Yi 0 1 i
X X
2 2
1 p 1 XP X
SYˆ S S Y Yˆ S 1
n n
X
n
n 2
X X
2
i X
i i 1
i 1
Atenção!!!
Intervalos em um gráfico
Limite do intervalo de
confiança superior
Y Limite do intervalo de
predição superior
^
Xi
^
^= 0 + 1
Yi
Limite do intervalo d
confiança inferior
Limite do intervalo de
_ predição inferior
X
X XP
Pontos influentes
70
60
50
40
30
20
10
0
0 2 4 6 8 10
70
60
50
40
30
20
10
00 2 4 6 8 10
70
60
50
40
30
20
10
00 2 4 6 8 10
00 2 4 6 8 10
Análise de Regressão Múltipla
Modelo Matemático
- Uma variável dependente (Y)
- Várias variáveis independentes (X1, X2, X3, etc..)
Modelo populacional:
Inclinações Erro
Intercepto aleatório
i = indexador do indivíduo
Modelo Matemático
Exemplo: modelo populacional com duas variáveis independentes
Yi = 0 + 1X1i + 2X2i + i
Y (Y observado)
0 i
X2
X1 (X1i,X2i)
E(Y) = 0 + 1X1i + 2X2i
Modelo Matemático
^0
i
^
X2
X1 (X1i,X2i)
^ ^ ^
Yi = 0 + 1X1i + ^2X2i
Interpretação dos parâmetros
Exemplo: prever preço de um imóvel (Y) pelo tamanho (X1) e idade (X2)
População Amostra
Hipóteses:
H0: 1 = 2 = ... = k = 0 k=número de variáveis independentes
Não há relação linear
Ha: Pelo menos um coeficiente é diferente de zero
(Pelo menos uma variável afeta o número de respostas Y)
Se F > Fcrítico=Fk , n-k-1; => rejeito H0=> pelo menos uma variável
tem relação linear com Y.
ˆ 0
Intercepto ˆ 0 s ˆ
0 s ˆ
0
X1 ˆ1
s ˆ
1
ˆ1
s ˆ
1
...
... ... ...
ˆ
Xk ˆ k
s ˆ
k
k
s ˆ
k
Estimação dos Parâmetros
- Fórmula para calcular betas, intervalos de confiança e intervalos
de predição são complicadas
ˆi t n k 1s ˆ
i
Ajuste do Modelo
SQ Re g SQErro
R 2
1
SQTot SQTot
Estatística de regressão
R múltiplo 0.812
R-Quadrado 0.659
R-quadrado ajustado 0.591
Erro padrão 3.370
Observações 13 P-valor
ANOVA
gl SQ MQ F F de significação
Regressão 2 219.47 109.74 9.66 0.00
Resíduo 10 113.60 11.36
Total 12 333.08
Intervalo de confiança
Análise de Resíduos
• A análise de resíduos deve ser feita antes de se chegar a
alguma conclusão. Se as suposições do modelo não
estiverem satisfeitas, o modelo não é válido.
resíduo
7 19,31129 3,688705 0
8 13,18733 4,812672 -2 0 5 10 15 20 25
9 11,8719 3,128099
10 13,91322 1,086777 -4
11 7,789256 -0,789256 -6
12 11,8719 0,128099 y previsto
13 7,063361 1,936639
4
3
Frequency
-6 -4 -2 0 2 4
resíduos
Conclusão: não parece haver nenhuma suposição não satisfeita, exceto a normalidade.
Conclusão
Admitindo que as suposições estão satisfeitas, podemos continuar
a análise.
p-valor <0,05 => rejeito H0: pelo menos uma das variáveis tem
relação linear com Y
Qual variável?
Circulação: p-valor=0,001
Tamanho: p-valor=0,713
• matriz de correlação
anos de
num estudo
empregos nota de anos de após
sexo anteriores estat3 experiência graduação
sexo 1
num empregos anteriores 0,11 1
nota de estat3 0,21 0,45 1
anos de experiência 0,18 0,36 0,86 1
anos de estudo após graduação -0,13 0,31 0,54 0,69 1