Escolar Documentos
Profissional Documentos
Cultura Documentos
Tópico 14
Tópico 14
Tópico 14
Anos de serviço 2 3 4 5 4 6 7 8 8 10
Nº de clientes 48 50 56 52 43 60 62 58 64 72
1
Vamos fazer um diagrama de dispersão
80
70
60
número de clientes
50
40
30
20
10
0
0 2 4 6 8 10 12
Tempo de serviço
Hipóteses:
2
Coeficiente de correlação
Coeficiente de correlação (r): Mede o grau de
relacionamento linear entre valores emparelhados x e y
(x x)(y y)
de uma amostra.
S xy
(x x) (y y)
r
2 2 S xx S yy
3
r : calculado para dados amostrais, ou seja, é
uma estatística amostral.
-1 ≤ r ≤ 1
4
Coeficiente de correlação de Pearson
H1 : ρ 0 1 r2
n 2
Valores críticos na tabela da distribuição de Student com gl = n-2.
x x x
(a) Correlação (b) Forte correlação (c) Correlação
positiva entre x e y Positiva entre x e y positiva perfeita
entre x e y
Diagrama de dispersão
5
Correlação linear negativa
y y y
x x x
(d) Correlação linear (e) Forte correlação linear (f) Correlação linear
negativa entre x e y negativa entre x e y negativa perfeita entre
xey
6
Correlação
Correlação
A correlação não implica causalidade!
Exemplo: (Box, Hunter & Hunter, Statistics for Experimenters, p.8) O
gráfico mostra a população de Oldemberg, Alemanha, no fim de cada
um dos 7 anos (Y) contra o número de cegonhas (pássaros) naquele
ano (X).
7
E se os pares (x,y) não tem uma
distribuição normal bivariada???
8
Notação para a equação de regressão
Parâmetro Estatísticas
populacional amostral
Intecepto y da equação 0 β̂ 0
de regressão
Coeficiente angular
da equação de regressão
1 β̂1
(y β̂
n n
ponto amostral e a reta procurada : (y i ŷ i ) 2 i 0 β̂1 x i )
2
i 1 i 1
Solução:
9
Pressupostos
1. Estamos considerando apenas relações lineares.
10
Previsões usando a equação de regressão.
Calcule r e teste a
Hipótese que r = 0
Use a equação
SIM de regressão
Existe correlação linear para fazer predições.
Significativa ?
NÂO
Dado um valor arbitrário de
uma variável, O melhor
predito da outra é sua
média amostral.
11
Exemplo: Novamente a amostra do tempo de serviço de
10 funcionários de uma companhia de seguros e o
número de clientes que cada um possui.
Anos de serviço 2 3 4 5 4 6 7 8 8 10
Nº de clientes 48 50 56 52 43 60 62 58 64 72
r = 0,88
β̂1 = 2,95
β̂ 0 = 39,67
80
y = 39,67 + 2,95 x
70
60
50
40
30
20
10
0
0 2 4 6 8 10 12
12
Para x = 7,5 anos de serviço, qual a estimativa de clientes?
Temos que testar se r =0,88 é significativo.
Ho: r = 0
H1: r ≠ 0
r 0,88
tteste 5,24
1 r2 1 0,882
n2 10 2
Para a = 0,05 e gl = n-2=10-2=8 temos: tc = ± 2,31
y i
onde y i
n
13
Exemplo:
y
(5, 19)
•
20
19
18
17 Desvio não explicado
16 ^)
(y - y
15 Desvio (5, 13)
total
•
14
13
12 (y - y ) Desvio explicado
^
11 (y - y)
•
10
9
8
7 (5, 9) y=9
6
5
4 y^ = 3 + 2x
3
2
x
1
0
0 1 2 3 4 5 6 7 8 9
75
y = 2.9518x + 39.675
72
70
65
64
62
60 60
58
56
55
52
50 50
y 56.5
48
45
43
40
0 2 4 6 8 10 12
14
para x = 6 temos:
y 60 (ponto amostral)
ŷ 39,67 2,95.(6) 57,37 (valor estimado)
y
y 56,5
n
Desvio total : (y - y) 60 - 56,5 3,5
Desvio explicado : (ŷ - y) 57,37 - 56,5 0,87
Desvio não explicado (resíduo) : (y - ŷ) 60 - 57,37 2,63
(y y) (ŷ - y) (y - ŷ)
(y y) 2
(yˆ - y) 2
(y - yˆ ) 2
15
Coeficiente de deteminação (r2): Valor da
variação de y que é explicado pela reta de
regressão
(ŷ y) 2
(y y)
variação explicada
R r
2 2
2 variação total
r2 = (0,88)2 = 0,7744
16
Soma dos quadrados dos erros (Sum of Square due Errors)
SSE
s
n 2
Inferência em regressão
17
(2) Intercepto
Estimador:
0
Estatística Teste:
Estimador: ŷ
ŷ
18
(4) Previsão para a resposta de um y para um dado
valor de x = x*
Estimador: ŷ
ŷ
19
Voltemos ao exemplo inicial
0
1
y = 2.9518x + 39.675
SSR
SSE
SST
SSR/1 SSE/(n-2)
20
Alguns modelos não lineares podem ser linearizados por meio
de transformações das variáveis. E o modelo de regressão
linear pode ser aplicado às variáveis transformadas.
21
Faça um histograma, diagrama de pontos, ou um
Normal-score gráfico dos resíduos para verificar normalidade:
O modelo assume distribuição normal
2 -1.11 -3
4
3 -0.84 -2
4 -0.62 -2 2
5 -0.43 -1
resíduos (ei)
6 -0.25 -1 0
-2.00 -1.50 -1.00 -0.50 0.00 0.50 1.00 1.50 2.00
7 -0.08 0
-2
8 0.08 0
9 0.25 0
-4
10 0.43 1
11 0.62 2 -6
12 0.84 3 Score_normal
13 1.11 3
14 1.50 5
22
Gráfico: resíduos ( ê i ) x valores previstos ( ŷ i )
Aleatóriamente distribuido
em torno de ŷ com
i
variância constante: OK
23
ê i
resíduos
Sugestão: verifique se os
valores discrepantes não são erros
de medida.
24
Alavancas (leverage points): têm valor não usual da variável
explicativa. Tem potencial de ser influentes
Nem toda alavanca é influente.
Mas um ponto influente é um outlier e/ou uma alavanca.
alavanca
x
Ponto influente
y
25
exemplo:
com outliers
intensidade luminosa sem outliers
e temperatura de superfície
no cluster de estrelas
CYG OBI
melhor estudar
os grupos separadamente
Atenção:
26