Você está na página 1de 45

Correlação e Regressão

Objetivo
Estudar a relação entre duas variáveis quantitativas.

Exemplos:
Idade e altura das crianças
Tempo de prática de esportes e ritmo cardíaco
Tempo de estudo e nota na prova
Taxa de desemprego e taxa de criminalidade
Expectativa de vida e taxa de analfabetismo
Investigaremos a presença ou ausência de
relação linear sob dois pontos de vista:

a) Quantificando a força dessa relação:


correlação.
b) Explicitando a forma dessa relação:
regressão.

Representação gráfica de duas variáveis


quantitativas: Diagrama de dispersão
Exemplo 1: nota da prova e tempo de estudo
X : tempo de estudo (em horas)
Y : nota da prova

Pares de observações (Xi , Yi) para cada estudante


Tempo(X) Nota(Y)
Diagrama de Dispersão
3,0 4,5
9,5
7,0 6,5
8,5
2,0 3,7 7,5
1,5 4,0
Nota
6,5

12,0 9,3 5,5

4,5

3,5
0 5 10
Tempo
Coeficiente de correlação linear
É uma medida que avalia o quanto a “nuvem de pontos”
no diagrama de dispersão aproxima-se de uma reta.
O coeficiente de correlação linear de Pearson é dado por:

sendo que,
X e Y são as médias amostrais de X e Y, respectivamente,
S X e S Y são os desvios padrão de X e Y, respectivamente.
Fórmula alternativa:
No exemplo:
- - - -
Tempo (X) Nota (Y) (X - X) (Y - Y) (X - X) (Y - Y)
3,0 4,5 -2,1 -1,1 2,31
7,0 6,5 1,9 0,9 1,71
2,0 3,7 -3,1 -1,9 5,89
1,5 4,0 -3,6 -1,6 5,76
12,0 9,3 6,9 3,7 25,53
25,5 28,0 0 0 41,2
- -
X  5,1 Y  5,6

2
(-2,1)  ...  (6,9) 2 78,2
S2
x    19,55  S x  4,42
4 4

2
(-1,1)  ...  (3,7) 2 21,9
S2
y    5,47  S y  2,34
4 4

Então,
41,2
r  0,9959
4 . 4,42 . 2,34
Propriedade: -1  r  1

Casos particulares:

r = 1  correlação linear positiva e perfeita


r = -1  correlação linear negativa e perfeita
r = 0  inexistência de correlação linear
Coeficiente de Correlação
Linear

O intervalo de r vai de –1 a 1.

–1 0 1
Se r está Se r está Se r está
próximo a –1, próximo de 0, próximo de 1,
há uma forte não há há uma forte
correlação correlação correlação
9
negativa. linear. positiva.
r = 1, correlação linear positiva e perfeita

r = -1, correlação linear negativa e perfeita


r 0

40

30

Y
20

10

10 20 30 40 50
X
r 1 r  -1
Linearidade da associação
Linearidade da associação
Correlação positiva

• Coeficiente de correlação (r) > 0

• Aumento nos valores de uma variável leva a


aumento na outra
Correlação negativa

• Coeficiente de correlação (r) < 0

• Aumento nos valores de uma variável leva a


diminuição nos valores da outra variável
Atenção

• O coeficiente de correlação mede


quanto a associação é linear, mas não
podemos interpretar:
– r = 0.3 como havendo uma concordância de
30% entre as duas variáveis
Exemplo 2: criminalidade e analfabetismo

Considere as duas variáveis observadas em 50


estados norte-americanos.

Y: taxa de criminalidade
X: taxa de analfabetismo
Diagrama de dispersão

Podemos notar que, conforme aumenta a taxa de


analfabetismo (X), a taxa de criminalidade (Y) tende
a aumentar. Nota-se também uma tendência linear.
Cálculo da correlação
_
Y= 7,38 (média de Y) e SY = 3,692 (desvio padrão de Y)
_
X= 1,17 (média de X) e Sx = 0,609 (desvio padrão de X)
XiYi = 509,12

Correlação entre X e Y:
Exemplo 3: expectativa de vida e
analfabetismo

Considere as duas variáveis observadas em 50


estados norte-americanos.

Y: expectativa de vida
X: taxa de analfabetismo
Diagrama de dispersão

Podemos notar que, conforme aumenta a taxa de


analfabetismo (X), a expectativa de vida (Y) tende a
diminuir. Nota-se também uma tendência linear.
Cálculo da correlação
_
_ 70,88 (média de Y) e SY = 1,342 (desvio padrão de Y)
Y=
X= 1,17 (média de X) e Sx = 0,609 (desvio padrão de X)
XiYi = 4122,8

Correlação entre X e Y:
Reta ajustada:

O que são a e b?
a: intercepto
b: inclinação

Interpretação de b:
Para cada aumento de uma unidade em X, temos
um aumento médio de b unidades em Y.
Reta ajustada
(método de mínimos quadrados)

Os coeficientes a e b são calculados da seguinte maneira:


No exemplo 2,
a reta ajustada é:

^
Y : valor predito para a taxa de criminalidade
X : taxa de analfabetismo

Interpretação de b:
Para um aumento de uma unidade na taxa do
analfabetismo (X), a taxa de criminalidade (Y)
aumenta, em média, 4,257 unidades.
Graficamente, temos

Como desenhar a reta no gráfico?


No exemplo 3,
a reta ajustada é:

^
Y : valor predito para a expectativ a de vida
X : taxa de analfabeti smo
Interpretação de b:
Para um aumento de uma unidade na taxa do
analfabetismo (X), a expectativa de vida (Y)
diminui, em média, 1,296 anos.
Graficamente, temos
Exemplo 4: consumo de cerveja e
temperatura

Y: consumo de cerveja diário por mil habitantes, em litros.


X: temperatura máxima (em ºC).

As variáveis foram observadas em nove


localidades com as mesmas características
demográficas e sócio-econômicas.
Dados:
Localidade Temperatura Consumo
(X) (Y)
1 16 290
2 31 374
3 38 393
4 39 425
5 37 406
6 36 370
7 36 365
8 22 320
9 10 269
Diagrama de dispersão

400
Consum o

350

300

10 20 30 40
Temperatura

A correlação entre X e Y é r = 0,962.


A reta ajustada é:

Qual a interpretação de b?
Aumentando-se um grau
de temperatura (X), o
consumo de cerveja (Y)
aumenta, em média, 4,74
litros por mil habitantes.

Qual o consumo previsto para uma temperatura de 25ºC?


^

Y  217,37  4,74.25  335,87 litros


Coeficiente de Correlação
Interpretações errôneas dos coeficientes de correlação

1. Um alto coeficiente de correlação nem sempre indica que


a equação de regressão estimada está bem ajustada aos
dados.
?
Y

Y
Y

Y
?
X X X X
X

Yi  Yi 1  yi yi  0
X i  X i 1  xi xi  0
Coeficiente de Correlação
Interpretações errôneas dos coeficientes de correlação

2. Um coeficiente de correlação próximo de zero nem


sempre indica que X e Y não são relacionadas.

Y
A
Y

Y
X X B
X
Exercício
• Suponha que um automóvel, para analisar o seu
consumo de combustível, efetuou 7 viagens, tendo-se
registrado a distância percorrida (km) e o consumo (l),
obtendo-se, então, os 7 pares de valores seguintes:
Exercício
• a) Escreva a equação da reta de regressão estimada
que relaciona distância em relação ao consumo.

• b) Com 16 litros de combustível qual das duas


distâncias lhe parece mais provável de ser percorrida:
190 km ou 205 km?

• c) Sendo o valor do litro de gasolina R$ 2,52, qual o


valor gasto (estimado) em um trajeto de 820 km?
Exercício
Exercício
M^= 1551,428571 – (9 x 124,285714)/( 111,857143-9^2)
M^= 14,0277778
b ^= 124,285714 – (14,0277778 x 9)
b^= -1,96428571

A equação da reta de regressão é :

Y= 14,0277778X - 1,96428571
Exercício
• b) Com 16 litros de combustível qual das duas
distâncias lhe parece mais provável de ser percorrida:
190 km ou 205 km?

R: y= 14,0277778X - 1,96428571
Y= 14,0277778 x (16) - 1,96428571

Y= 226,4087302

• Logo a distância de 205Km é a mais provável a ser


percorrida
Exercício
• c) Sendo o valor do litro de gasolina R$ 2,52, qual o
valor gasto (estimado) em um trajeto de 820 km?
Y= 14,0277778X - 1,96428571
820= 14,0277778X - 1,96428571
820+1,96428571= 14,0277778X
X= 58,59547383 KM
Gasto= 58,59547383 xR$ 2,52= R$ 147,66
• A correlação r para este caso é = 0,9968708 ou
99,68707999%, este coeficiente de correlação é
praticamente perfeito, pois a cada 1% de variação no
consumo ocorre uma variação de 99,68707999% na
distância.
Exercício
Exercícios
As exportações da castanha in natura, processadas pela
Empresa Castanheira Ltda., no período JAN a JUL,
encontram-se na tabela a seguir
Ano JAN FEV MAR ABR MAI JUN JUL
Quantida 50 46 36 31 25 11 18
de

Onde a variável quantidade está expressa em toneladas.


Pede-se:
A- a equação de regressão linear da quantidade sobre o
tempo.
B – O coeficiente de correlação linear.
C – A quantidade estimada para exportação em AGO.
Análise de Resíduos
“ideal” 2 não constante não linearidade
2.0 2.0 2.0
1.5 1.5 1.5
Resíduos Padronizados

Resíduos Padronizados
Resíduos Padronizados
1.0 1.0 1.0
0.5 0.5 0.5
0.0 0.0 0.0
-0.5 -0.5 -0.5
-1.0 -1.0 -1.0
-1.5 -1.5 -1.5
-2.0 -2.0 -2.0
0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10
X X X

“outlier” não independência


2.0 2.0
1.5 Resíduos Padronizados 1.5
Resíduos Padronizados

1.0 1.0
0.5 0.5
0.0 0.0
-0.5 -0.5
-1.0 -1.0
-1.5 -1.5
-2.0 -2.0
0 2 4 6 8 10 0 2 4 6 8 10
X tempo
X
Análise de Regressão no EXCEL

X Y 10
1 1.1 Y
Yˆ = 0,9983X
0,9983 X +0,1306
0,1306
8 2
2 1.9 R R
2 = 0,9496
0,9496

3 2.5 6

Y
4 4.3
4
5 6.1
RESUMO DOS RESULTADOS
6 6.3 2
Estatística de regressão
7 7.8 R múltiplo 0.9745
0
R-Quadrado 0.9496
8 7.0 R-quadrado ajustado 0.9424 0 2 4 6 8 10
Erro padrão 0.6735
X
9 9.1 Observações 9
s
ANOVA
gl SQ MQ F F de significação
Regressão 1 59.8002 59.8002 131.8267 8.54714E-06
Resíduo 7 3.1754 0.4536 valor-P
Total 8 62.9756
s2
Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores
Interseção 0.1306 0.4893 0.2668 0.7973 -1.0265 1.2876
X 0.9983 0.0870 11.4816 0.0000 0.7927 1.2039

OBS: Para regressão linear simples: teste F = teste t bilateral F = t2

Você também pode gostar