Você está na página 1de 36

CAPÍTULO 9

CORRELAÇÃO e REGRESSÃO

FLAVIA CONDE KNEIP


Mestranda do PGOB
Orientanda do Prof. KINAS
Estrutura das aulas

Serão 2 aulas:

1. Teórica – conceitos da técnica.

2. Prática – exercícios no caderno e no


Excel.
CORRELAÇÃO e REGRESSÃO
No Capítulo anterior (Inferência com base em 2 Amostras)
foram estudados casos que envolviam 1 VARIÁVEL e 2
POPULAÇÕES.

Ex. Alturas (1 VARIÁVEL) de Homens e Mulheres (2


POPULAÇÕES).

Alturas
x Homens (cm) 170 182 179 168
y Mulheres (cm) 165 168 151 155
CORRELAÇÃO e REGRESSÃO
Agora vamos estudar casos que envolvem 2 VARIÁVEIS
e 1 POPULAÇÃO.

2 VARIÁVEIS correspondem a uma amostra de Dados


Emparelhados.

Ex. Pesos e Comprimentos (2 VARIÁVEIS ) de Ursos (1


POPULAÇÃO).

x Comprimento (in.) 53,0 67,5 72,0 72,0 73,5 68,5 73,0 37,0
y Peso (lb ) 80 344 416 348 262 360 332 34
Tab. 9.1 – Ursos
x Comprimento (in.) 53,0 67,5 72,0 72,0 73,5 68,5 73,0 37,0
y Peso (lb ) 80 344 416 348 262 360 332 34

Procurar determinar se há relação entre as 2 VARIÁVEIS


e, caso haja, identificar a relação.

CORRELAÇÃO

É usada para determinar SE há RELACIONAMENTO


entre 2 VARIÁVEIS.
RELACIONAMENTO CORRELAÇÃO
Importância⇒ a presença de uma correlação pode
conduzir-nos a um método para estimar uma
variável a partir da outra.
Ex: Estimar o PESO de ursos medindo seu COMPRIMENTO
PESAR MEDIR
SUPOSIÇÕES:

1. A amostra de Dados Emparelhados (x,y) é


aleatória;
2. Os pares de dados (x,y) têm Distribuição Normal
Bivariada (significa que para qquer valor fixo de x
os valores correspondentes de y têm distribuição
em forma de sino e que para qquer valor fixo de y
os valores correspondentes de x têm distribuição
em forma de sino).
A segunda Suposição é difícil de se verificar.
Comumente se faz a verificação parcial onde se
observa se x e y têm distribuição em forma de sino.
A RELAÇÃO entre as
variáveis é evidenciada
pela formação de um
PADRÃO no Diagrama
de Dispersão.

Ursos
450
400
350
300
250
Peso

200
150
100
50
0
30 40 50 60 70 80
Comprimento
As conclusões tiradas do gráficos são subjetivas. Precisamos
de métodos mais precisos e objetivos.

Utilizaremos o COEFICIENTE DE CORRELAÇÃO


LINEAR para detectar padrões lineares (somente os lineares).

COEFICIENTE DE CORRELAÇÃO LINEAR

COEFICIENTE r DE PEARSON
r
Mede o grau de relacionamento linear entre os valores
emparelhados x e y em uma amostra.

n∑ xy − (∑ x )(
. ∑ y)
r=
( ) (
n. ∑ x − (∑ x ) . n. ∑ y − (∑ y )
2 2 2
) 2
EXEMPLO p.237
⇒Com os dados ta tabela 9-1, calcule o coeficiente de correlação linear r.
⇓n=8 (8 pares de dados)
Construir tabela de Cálculo:

Aplicar os valores
na fórmula:
r/ρ x/µ
r - Estatística Amostral

ρ – (rô) Parâmetro Populacional que se obteria se


tivéssemos todos os pares x e y da população.

ARREDONDANDO r

3 casas decimais para poder comparar com os valores da


Tabela A6 (p.364). Arredondar somente no final para evitar
erros de cálculo.
INTERPRETANDO O COEFICIENTE DE CORRELAÇÃO LINEAR

• Estará sempre entre –1 e 1;


• Quanto mais proximo de 0, MENOR a CORRELAÇÃO LINEAR;
• Quanto mais proximo de ±1, MAIOR a CORRELAÇÃO LINEAR.

CRITERIO DE DECISÃO
Se o módulo do valor calculado, | r |, excede o valor da Tabela
A6,concluímos que há correlação linear SIGNIFICATIVA.
Caso contrario NÃO HÁ EVIDENCIA SUFICIENTE para apoiar a
existência de uma correlação linear significativa.
ERROS COMUNS NA INTERPRETAÇÃO

1. Concluir que a Correlação implica em CAUSALIDADE


⇒ pode haver uma variável oculta que afeta as variáveis
em estudo que não esta sendo levada em consideração.

Ex: Desidratação e consumo de sorvete

2. Usar como dados TAXAS e MÉDIAS ⇒ suprimimos a


variação entre indivíduos o que inflaciona o coeficiente

Ex: Renda e Nível de Educação – r=0,4→ r=0,7

3. Concluir que não há correlação entre as variáveis porque


não há correlação linear significativa ⇒ as variáveis podem
ter outro tipo de relação não linear.
IMPORTANCIA
Iniciar a análide com o diagrama de dispersão.

SOLUÇÕES
•Transformações
•Relações não lineares
(Não são vistos neste capítulo)
TESTES DE HIPÓTESES

H0: ρ=0 (não há correlação linear significativa)


H1: ρ≠0 (correlação linear significativa)

MÉTODO 1
Segue o formato apresentado anteriormente. Usa a distribuição t de Student

r
t=
1− r 2 gl=n-2
n−2

MÉTODO 2
Exige menos cálculo. Ao invés de calcular a estatística de teste, usamos r
como estimativa de teste. Usar a Tabela A6.
r
t= =
1− r 2

α=0,05 n−2 Notar a


n=8 r diferença do
2,447 =
gl=6 1 − (r ) 2 r em n.
8−2
r = 0,707
EXEMPLO p.245
⇒Com os dados da tabela 9-1, teste a afirmação de que há correlação linear entre
comprimentos e pesos de ursos.
H0: ρ=0 (não há correlação linear significativa)
H1: ρ≠0 (correlação linear significativa)
α=0,05
⇓Método 1:
r 0,897
n=8 t= = = 4,971
1− r 2
1 − (0,897 ) 2

r=0,897 n−2 8−2


tc→Tabela A3
EXEMPLO p.2
⇒Com os dados da tabela 9-1, teste a afirmação de que há correlação linear entre
comprimentos e pesos de ursos.
H0: ρ=0 (não há correlação linear significativa)
H0: ρ≠0 (correlação linear significativa)
α=0,05
⇓Método 1: ⇓Método 2:
r 0,897
n=8 t= = = 4,971 r=0,897
1− r 2
1 − (0,897 ) 2

r=0,897 n−2 8−2 rc→Tabela A6


tc→Tabela A3 →±2,447
EXEMPLO p.2
⇒Com os dados da tabela 9-1, teste a afirmação de que há correlação linear entre
comprimentos e pesos de ursos.
H0: ρ=0 (não há correlação linear significativa)
H0: ρ≠0 (correlação linear significativa)
α=0,05
⇓Método 1: ⇓Método 2:
r 0,897
n=8 t= = = 4,971 r=0,897
1− r 2
1 − (0,897 ) 2

r=0,897 n−2 8−2 rc→ Tabela A6 →±0,707


tc→Tabela A3 →±2,447

⇒A estatística de teste esta na região critica, rejeitamos H0.


Há evidencia amostral suficiente para apoiar a afirmação de que existe correlação
linear entre comprimentos e pesos de ursos.
REGRESSÃO LINEAR
Correlação ⇒ Determinar SE havia correlação linear significativa entre 2
variaveis.
REGRESSÃO ⇒ DESCREVER a relação traçando um gráfico e
determinando a Equação da reta que representa a relação.

EQUAÇÃO DE REGRESSÃO
Expressa a relação entre a VARIAVEL PREDITORA ( x ) e a
VARIAVEL RESPOSTA ( y )
^
y = b0 + b1 x
ARREDONDAMENTO
3 casas decimais
EXEMPLO p.245
Determine a equação de regressão usando as fórmulas.

∑ = 34525,75
x 2

b1 =
n(∑ xy ) − (∑ x )(∑ y )
=
∑ x = 516,5 n(∑ x ) − (∑ x )
2 2

8.(151879) − (516,5)(2176)
∑ y = 2176 =
8.(34525,75) − (516,5) 2
=

∑ y = 78520
2
=
91128
9433,75
= 9,65979 ≅ 9,66

∑ xy = 151879
Ursos
450
400
_ _
b0 = y − b1 x = 350
300

2176 516,5 250

( )
Peso

= − 9, 65979 . ≅ −352 200

8 8 150
100
^ 50

y = −352 + 9,66 x 0
30,0 40,0 50,0 60,0 70,0 80,0
Com prim ento
VARIAÇÃO MARGINAL ⇒ o quanto uma das variáveis varia quando
a outra varia 1 unidade. É REPRESENTADA POR b1

OUTLIERS ⇒ pontos muito afastados dos demais

PONTOS DE INFLUÊNCIA ⇒ pontos que influenciam fortemente a


reta.

PREDIÇÃO
As equações de regressão podem ser úteis para PREDIZER o valor de
uma variável, dado um valor determinado da outra variável.
Usar a equação de regressão somente quando r indicar correlação linear
significativa. E, usa-la somente dentro dos limites de valores disponíveis.
Quando não há correlação linear significativa, a melhor estimativa de
uma variável é sua média.
EXEMPLO p.247

Se um urso tem comprimento de 71,0 in., prediga seu peso.


Já sabemos o valor de r e que ele é significativo. Também já
conhecemos a equação de regressão. Podemos agora aplica-la.
^
y = −352 + 9,66 x O peso previsto para um urso de
^ 71,0 in. de comprimento é 334 lb.
y = −352 + 9,66.(71,0)
^
Se não houvesse correlação linear
y = 334 significativa, nossa melhor predição
seria o peso médio, 272 lb.

b0= -352 Intersepto de y


b1=9,66 Inclinação da reta = Variação Marginal (qto ganha em
Peso qdo o Comprimento varia em 1 unidade)
RESÍDUOS e a PROPRIEDADE DE MÍNIMOS QUADRADOS
O critério para determinar a reta que melhor se ajusta aos dados se baseia na
distância vertical entre os pontos originais e os estimados. RESÍDUOS são essas
distâncias.
Quando a soma dos quadrados dos resíduos é a menor possível, se verifica a
PROPRIEDADE DE MÍNIMOS QUADRADOS

EXEMPLO
x 1 2 4 5
y 4 24 8 32
^
y 9 13 21 25
^
y- y -5 11 -13 7
^
y = 5 + 4x
(-5)2+112+(-13)2+72=364
Ursos
450

400

350

300 Média
250
Peso

Tentativas
200
150
Resíduos
100

50

0
30,0 40,0 50,0 60,0 70,0 80,0
Com prim ento
INTERVALOS DE VARIAÇÃO

O valor de r também pode nos dar informações sobre a variação do pontos


amostrais em torno da reta de regressão.
•DESVIO TOTAL⇒(em relação à media) do pto (x,y) é a distância vertical
entre o pto (x,y) e a reta horizontal que passa pela média amostral.
_
y− y
•DESVIO EXPLICADO⇒ distância vertical entre o valor predito e a reta
horizontal que passa pela média amostral.
^ −
y− y
•DESVIO NÃO EXPLICADO⇒ distância vertical entre o pto (x,y) e a reta
de regressão. Também chamada de RESÍDUO.
^
y− y
COEFICIENTE DE DETERMINAÇÃO
É o valor da variável y que é explicado pela reta de regressão:
VariaçãoExplicada
r2 = =
VarTot = VarExplic + VarÑExplic VariaçãoTotal
^ −

_ ^ _ ^
∑ ( y − y ) 2 =∑ ( y − y ) 2 + ∑ ( y − y ) 2 ( y − y) 2

r 2
= −
∑ ( y − y) 2

Pode ser calculado pela fórmula ou elevando r ao quadrado

EXEMPLO p.251
⇒Usando a tabela 9-1, determine a percentagem da variação no no Peso que
pode ser explicada pela reta de regressão.
r = 0,897
r 2 = (0,897) 2 = 0,805(80,5%)
Podemos afirmar que 80,5% da variação total dos pesos dos ursos podem ser
explicados pela variação em seus comprimentos; os 19,5% restantes são
atribuidos a outros fatores.
INTERVALOS DE PREDIÇÃO
^
y É uma estimativa pontual de y. Porém, não sabemos quão
precisa ela é.

INTERVALO DE PREDIÇÃO ⇒ estimativa intervalar de


confiança de um valor predito.

se ⇒ERRO PADRÃO DA ESTIMATIVA ⇒medida das


distâncias entre os valores amostrais e os preditos.

se =
∑ ( y − y ) 2

=
∑ y 2 − b0 ∑ y − b1∑ xy
n−2 n−2
EXEMPLO p.252
⇒Encontre o Erro-Padrão da estimativa das medidas dos ursos
da tabela 9-1.
n=8
∑ = 728520
y 2
se =
∑ y 2 − b 0 ∑ y − b1∑ xy
=
∑ y = 2176 n−2
728520 − ( − 351 , 660 ).( 2176 ) − ( 9 , 65979 ).( 151879 )
= =
∑ xy = 151879 8−2
= 66 ,5994 ≅ 66 , 6
b0 = −351,660
b1 = 9,65979
Podemos avaliar a dispersão dos ptos amostrais em torno da
reta de regressão com:

s e ≅ 66 , 6
Qdo ursos foram anestesiados, foram medidos o
perímetro de seus tóraxes e obtidos seus pesos. Parece
haver relação entre per. do tórax e peso? Os resultados
são modificados se converter-mos os comprimentos para
pés(dividir por 12)? x y x.y x^2 y^2

x y
26 90
45 344
54 416
49 348
41 262
49 360
44 332
19 34
n∑ xy − (∑ x )(
. ∑ y)
r=
( ) 2
( )
n. ∑ x 2 − (∑ x ) . n. ∑ y 2 − (∑ y )
2

_ _
b0 = y − b1 x
^

n(∑ xy ) − (∑ x )(∑ y )
y = b 0 + b1 x
b1 =
n(∑ x ) − (∑ x )
2 2
x y x.y x^2 y^2
26 90 2340 676 8100
45 344 15480 2025 118336
54 416 22464 2916 173056
49 348 17052 2401 121104
41 262 10742 1681 68644
49 360 17640 2401 129600
44 332 14608 1936 110224
19 34 646 361 1156
327 2186 100972 14397 730220

r=0,993

polegadas

450
400
350
300
250
peso

200
150
100
50
0
0 10 20 30 40 50 60
toxax
∑ = 14397
x 2

n(∑ xy ) − (∑ x )(∑ y )
∑ x = 327 b1 =
( 2
)
n ∑ x − (∑ x )
2
=

∑ y = 2186 =
8.(100972) − (327)(2186)
8.(14397) − (327) 2
=

∑ y = 730220
2
≅ 11,3

∑ xy = 100972
polegadas
_ _
b0 = y − b1 x = 450
400

2186 327 350

= − (9, 65979 ). ≅ −187,5


300
250
peso

8 8 200
150
^ 100

y = −187,5 + 11,3 x 50
0
0 10 20 30 40 50 60
toxax
x y x.y x^2 y^2 x y x.y x^2 y^2
26 90 2340 676 8100 2,2 90 195 5 8100
45 344 15480 2025 118336 3,8 344 1290 14 118336
54 416 22464 2916 173056 4,5 416 1872 20 173056
49 348 17052 2401 121104 4,1 348 1421 17 121104
41 262 10742 1681 68644 3,4 262 895 12 68644
49 360 17640 2401 129600 4,1 360 1470 17 129600
44 332 14608 1936 110224 3,7 332 1217 13 110224
19 34 646 361 1156 1,6 34 54 3 1156
327 2186 100972 14397 730220 27,25 2186 8414,3 100,0 730220

r=0,993 r=0,993

y = 11,3x - 187,5 y = 135,3x - 187,5


polegadas pés
R2 = 0,9855 R2 = 0,9855
450 450
400 400
350 350
300 300
250 250
peso

peso

200 200
150 150
100 100
50 50
0 0
0 10 20 30 40 50 60 0 1 2 3 4 5
toxax toxax

Você também pode gostar