Você está na página 1de 27

9 Correlação e regressão

Estatística Aplicada
Larson Farber
Seção 9.1

Correlação
Correlação
Uma relação entre duas variáveis.

Variável explanatória Variável resposta


(ou independente) (ou dependente)
x y
Horas de treinamento Número de acidentes
Número do sapato Altura
Cigarros fumados por dia Capacidade pulmonar
Nota no vestibular Média de notas na graduação
Altura QI
Que tipo de relação existe entre as duas variáveis?
A correlação é significante?
Mapas de dispersão
e tipos de correlação
x = horas de treinamento
60
y = número de acidentes
50
Acidentes

40
30

20

10
0
0 2 4 6 8 10 12 14 16 18 20
Horas de treinamento
Correlação negativa: à medida
que x cresce, y decresce.
Mapas de dispersão
e tipos de correlação
x = nota no vestibular
y = média de notas na graduação
4,00
3,75
Média de notas

3,50
na graduação

3,25
3,00
2,75
2,50
2,25
2,00
1,75
1,50

300 350 400 450 500 550 600 650 700 750 800
Nota no vestibular
Correlação positiva: à medida
que x cresce, y cresce também.
Mapas de dispersão
e tipos de correlação
x = altura y = QI
160
150
140
130
QI

120
110
100
90
80
60 64 68 72 76 80
Altura
Não há correlação linear.
Coeficiente de correlação
Mede a intensidade e a direção da
relação linear entre duas variáveis.

O intervalo de r vai de –1 a 1.

–1 0 1
Se r está Se r está Se r está
próximo a –1, próximo de 0, próximo de 1,
há uma forte não há há uma forte
correlação correlação correlação
negativa. linear. positiva.
Aplicação
Nota
Faltas final
x y
95
90 8 78
85
2 92
Nota final

80
75
70 5 90
65
60
55
12 58
50
45 15 43
40
9 74
0 2 4 6 8 10 12 14 16
Faltas 6 81
X
Cálculo de r
x y xy x2 y2
1 8 78 624 64 6.084
2 2 92 184 4 8.464
3 5 90 450 25 8.100
4 12 58 696 144 3.364
5 15 43 645 225 1.849
6 9 74 666 81 5.476
7 6 81 486 36 6.561
57 516 3.751 579 39.898
(3.751)

(39.898)

3.155
0,975
13.030
Teste de hipóteses para
determinar a significância
r é o coeficiente de correlação em uma amostra.
O coeficiente de correlação populacional é (rô).
Em um teste bicaudal de significância:
H0 (A correlação não é significante.)
Ha (A correlação é significante.)
Para testar a significância
negativa ou positiva, no caso H0 H0
de cauda à esquerda e de cauda
à direita: Ha Ha
A distribuição amostral de r é uma distribuição t com
n – 2 g.l.
Estatística teste
padronizada:
Teste de significância
Você encontrou a correlação entre o número de faltas e a nota
final, r = –0,975. Há sete pares de dados. Teste a significância
dessa correlação. Use = 0,01.
1. Estabeleça as hipóteses nula e alternativa.
H0 (A correlação não é significante.)
Ha (A correlação é significante.)
2. Estabeleça o nível de significância.
= 0,01
3. Identifique a distribuição amostral.
Uma distribuição t com cinco graus de liberdade.
Regiões de rejeição

Valores críticos ± t0
t
–4,032 0 4,032

4. Determine o valor crítico.

5. Determine a região de rejeição.

6. Determine a estatística teste.


0,975 0,975 0,975 0,975
9,811
, 0,049375 0,009875 0,09937
t
–4,032 0
–4,032

7. Tome sua decisão.

t = –9,811 cai na região de rejeição. Rejeite a hipótese nula.

8. Interprete sua decisão.

Há, sim, uma correlação significante entre o número de


faltas e as notas finais.
Seção 9.2

Regressão linear
A reta de regressão
Depois de constatar que existe uma correlação linear
significante, você pode escrever uma equação que
descreva a relação entre as variáveis x e y. Essa
equação chama-se reta de regressão ou reta do ajuste
ótimo.
Pode-se escrever a equação de uma reta como y = mx + b,
onde m é a inclinação da reta e b, o intercepto y.
Assim, a reta de regressão é:

A inclinação m é:

E o intercepto y é:
(xi,yi) = um ponto de dados
= um ponto na reta com o mesmo valor de x

= um resíduo
260
250
240
Receita

230
220
210
200
é um mínimo
190
180
1,5 2,0 2,5 3,0
Investimento em publicidade
x y xy x2 y2
Escreva a equação da
1 8 78 624 64 6.084
2 2 92 184 4 8.464
reta de regressão com
3 5 90 450 25 8.100 x = número de faltas
4 12 58 696 144 3.364 e y = nota final.
5 15 43 645 225 1.849
6 9 74 666 81 5.476
7 6 81 486 36 6.561
Calcule m e b.
57 516 3.751 579 39.898

(3.751)
3,924

73,714 (–3,924)(8,143) 105,667

A reta de regressão é: = –3,924x + 105,667


A reta de regressão
m = –3,924 e b = 105,667
A reta de regressão é: 3,924 105,667

95
90
85
Nota final

80
75
70
65
60
55
50
45
40
0 2 4 6 8 10 12 14 16
Faltas
Note que o ponto = (8,143, 73,714) está na reta.
Prevendo valores y
Com a reta de regressão, é possível prever valores de y
correspondentes aos valores de x que caiam em
determinado intervalo de dados.
A equação de regressão para o número de faltas e a nota final é:
= –3,924x + 105,667
Use essa equação para prever a nota esperada de um aluno com:

(a) 3 faltas (b) 12 faltas

(a) = –3,924(3) + 105,667 = 93,895


(b) = –3,924(12) + 105,667 = 58,579
Seção 9.3

Medidas de
regressão e correlação
O coeficiente de determinação
O coeficiente de determinação, r2, é a razão entre a variação
explicada em y e a variação total em y.
Variação explicada
Variação total
O coeficiente de correlação entre as faltas e a nota final
era r = –0,975. O coeficiente de determinação é r2 =
(–0,975)2 = 0,9506.
Interpretação: cerca de 95% da variação nas notas finais
pode ser explicada pelo número de vezes que o aluno
falta. Os outros 5% são inexplicados e podem dever-se a
um erro amostral ou outras variáveis, como inteligência,
tempo dedicado ao estudo etc.
O erro padrão da estimativa

O erro padrão da estimativa, se, é o desvio padrão dos


valores yi observados em torno do valor previsto.
O erro padrão da estimativa

x y
1 8 78 74,275 13,8756
2 2 92 97,819 33,8608
3 5 90 86,047 15,6262
4 12 58 58,579 0,3352 92,767
5 15 43 46,807 14,4932
6 9 74 70,351 13,3152
7 6 81 82,123 1,2611

92,767

Calcule 3,924x 105,667 para cada xi = 4,307


Intervalos de previsão
Dados uma equação de regressão linear específica e x0, um valor
específico de x, um intervalo de previsão c para y será:

onde

A estimativa pontual é e o erro máximo da estimativa é E.

Use uma distribuição t com n – 2 graus de liberdade.


Aplicação
Construa um intervalo de confiança de 90% para a nota final de
um estudante que faltou seis vezes.

1. Determine a 3,924 105,667


estimativa pontual: 105,667
3,924(6)
82,123

O ponto (6, 82,123) é o ponto na reta de regressão em que a


coordenada x é 6.
Aplicação
Construa um intervalo de confiança de 90% para a nota final de
um estudante que faltou seis vezes.

2. Determine E:

8,14
2,015(4,307)

2,015(4,307) 1,18273 9,438

A um nível de confiança de 90%, o erro máximo da


estimativa é 9,438.
Aplicação
Construa um intervalo de confiança de 90% para a nota final
de um estudante que faltou seis vezes.

3. Determine os extremos.
– E = 82,123 – 9,438 = 72,685

+ E = 82,123 + 9,438 = 91,561

72,685 < y < 91,561


Quando x = 6, o intervalo de confiança de 90%
vai de 72,685 a 91,586.

Você também pode gostar

  • Manova
    Manova
    Documento9 páginas
    Manova
    Vinicius Silva
    Ainda não há avaliações
  • Beamer 2
    Beamer 2
    Documento22 páginas
    Beamer 2
    lucashelal
    Ainda não há avaliações
  • Curso R
    Curso R
    Documento39 páginas
    Curso R
    Eneas Vaz
    Ainda não há avaliações
  • Curvas Compressores VSD
    Curvas Compressores VSD
    Documento33 páginas
    Curvas Compressores VSD
    HelenaVicenzaFardo
    Ainda não há avaliações
  • Relatório DOCTOR
    Relatório DOCTOR
    Documento12 páginas
    Relatório DOCTOR
    Alailson Holanda
    Ainda não há avaliações
  • Autocorrelacao
    Autocorrelacao
    Documento20 páginas
    Autocorrelacao
    Fabrício Albani Oliveira
    Ainda não há avaliações
  • Regressão Linear
    Regressão Linear
    Documento3 páginas
    Regressão Linear
    Leonardo Belandrino
    Ainda não há avaliações