Escolar Documentos
Profissional Documentos
Cultura Documentos
Estatística Aplicada
Larson Farber
Seção 9.1
Correlação
Correlação
Uma relação entre duas variáveis.
40
30
20
10
0
0 2 4 6 8 10 12 14 16 18 20
Horas de treinamento
Correlação negativa: à medida
que x cresce, y decresce.
Mapas de dispersão
e tipos de correlação
x = nota no vestibular
y = média de notas na graduação
4,00
3,75
Média de notas
3,50
na graduação
3,25
3,00
2,75
2,50
2,25
2,00
1,75
1,50
300 350 400 450 500 550 600 650 700 750 800
Nota no vestibular
Correlação positiva: à medida
que x cresce, y cresce também.
Mapas de dispersão
e tipos de correlação
x = altura y = QI
160
150
140
130
QI
120
110
100
90
80
60 64 68 72 76 80
Altura
Não há correlação linear.
Coeficiente de correlação
Mede a intensidade e a direção da
relação linear entre duas variáveis.
O intervalo de r vai de –1 a 1.
–1 0 1
Se r está Se r está Se r está
próximo a –1, próximo de 0, próximo de 1,
há uma forte não há há uma forte
correlação correlação correlação
negativa. linear. positiva.
Aplicação
Nota
Faltas final
x y
95
90 8 78
85
2 92
Nota final
80
75
70 5 90
65
60
55
12 58
50
45 15 43
40
9 74
0 2 4 6 8 10 12 14 16
Faltas 6 81
X
Cálculo de r
x y xy x2 y2
1 8 78 624 64 6.084
2 2 92 184 4 8.464
3 5 90 450 25 8.100
4 12 58 696 144 3.364
5 15 43 645 225 1.849
6 9 74 666 81 5.476
7 6 81 486 36 6.561
57 516 3.751 579 39.898
(3.751)
(39.898)
3.155
0,975
13.030
Teste de hipóteses para
determinar a significância
r é o coeficiente de correlação em uma amostra.
O coeficiente de correlação populacional é (rô).
Em um teste bicaudal de significância:
H0 (A correlação não é significante.)
Ha (A correlação é significante.)
Para testar a significância
negativa ou positiva, no caso H0 H0
de cauda à esquerda e de cauda
à direita: Ha Ha
A distribuição amostral de r é uma distribuição t com
n – 2 g.l.
Estatística teste
padronizada:
Teste de significância
Você encontrou a correlação entre o número de faltas e a nota
final, r = –0,975. Há sete pares de dados. Teste a significância
dessa correlação. Use = 0,01.
1. Estabeleça as hipóteses nula e alternativa.
H0 (A correlação não é significante.)
Ha (A correlação é significante.)
2. Estabeleça o nível de significância.
= 0,01
3. Identifique a distribuição amostral.
Uma distribuição t com cinco graus de liberdade.
Regiões de rejeição
Valores críticos ± t0
t
–4,032 0 4,032
Regressão linear
A reta de regressão
Depois de constatar que existe uma correlação linear
significante, você pode escrever uma equação que
descreva a relação entre as variáveis x e y. Essa
equação chama-se reta de regressão ou reta do ajuste
ótimo.
Pode-se escrever a equação de uma reta como y = mx + b,
onde m é a inclinação da reta e b, o intercepto y.
Assim, a reta de regressão é:
A inclinação m é:
E o intercepto y é:
(xi,yi) = um ponto de dados
= um ponto na reta com o mesmo valor de x
= um resíduo
260
250
240
Receita
230
220
210
200
é um mínimo
190
180
1,5 2,0 2,5 3,0
Investimento em publicidade
x y xy x2 y2
Escreva a equação da
1 8 78 624 64 6.084
2 2 92 184 4 8.464
reta de regressão com
3 5 90 450 25 8.100 x = número de faltas
4 12 58 696 144 3.364 e y = nota final.
5 15 43 645 225 1.849
6 9 74 666 81 5.476
7 6 81 486 36 6.561
Calcule m e b.
57 516 3.751 579 39.898
(3.751)
3,924
95
90
85
Nota final
80
75
70
65
60
55
50
45
40
0 2 4 6 8 10 12 14 16
Faltas
Note que o ponto = (8,143, 73,714) está na reta.
Prevendo valores y
Com a reta de regressão, é possível prever valores de y
correspondentes aos valores de x que caiam em
determinado intervalo de dados.
A equação de regressão para o número de faltas e a nota final é:
= –3,924x + 105,667
Use essa equação para prever a nota esperada de um aluno com:
Medidas de
regressão e correlação
O coeficiente de determinação
O coeficiente de determinação, r2, é a razão entre a variação
explicada em y e a variação total em y.
Variação explicada
Variação total
O coeficiente de correlação entre as faltas e a nota final
era r = –0,975. O coeficiente de determinação é r2 =
(–0,975)2 = 0,9506.
Interpretação: cerca de 95% da variação nas notas finais
pode ser explicada pelo número de vezes que o aluno
falta. Os outros 5% são inexplicados e podem dever-se a
um erro amostral ou outras variáveis, como inteligência,
tempo dedicado ao estudo etc.
O erro padrão da estimativa
x y
1 8 78 74,275 13,8756
2 2 92 97,819 33,8608
3 5 90 86,047 15,6262
4 12 58 58,579 0,3352 92,767
5 15 43 46,807 14,4932
6 9 74 70,351 13,3152
7 6 81 82,123 1,2611
92,767
onde
2. Determine E:
8,14
2,015(4,307)
3. Determine os extremos.
– E = 82,123 – 9,438 = 72,685