Você está na página 1de 45

Correlao e Regresso

Exemplos:
Idade e altura das crianas
Tempo de prtica de esportes e ritmo cardaco
Tempo de estudo e nota na prova
Taxa de desemprego e taxa de criminalidade
Expectativa de vida e taxa de analfabetismo
Objetivo
Estudar a relao entre duas variveis quantitativas.

a) Quantificando a fora dessa relao:
correlao.
b) Explicitando a forma dessa relao:
regresso.
Representao grfica de duas variveis
quantitativas: Diagrama de disperso
Investigaremos a presena ou ausncia de
relao linear sob dois pontos de vista:
Exemplo 1: nota da prova e tempo de estudo
X : tempo de estudo (em horas)
Y : nota da prova

10 5 0
9,5
8,5
7,5
6,5
5,5
4,5
3,5
Tempo
N
o
t
a
Diagrama de Disperso
Tempo(X) Nota(Y)
3,0 4,5
7,0 6,5
2,0 3,7
1,5 4,0
12,0 9,3
Pares de observaes (X
i
, Y
i
) para cada estudante
Coeficiente de correlao linear
uma medida que avalia o quanto a nuvem de pontos
no diagrama de disperso aproxima-se de uma reta.

O coeficiente de correlao linear de Pearson dado por:
sendo que,
mente. respectiva Y, e X de padro desvios os so S e S
mente, respectiva Y, e X de amostrais mdias as so Y e X
Y X
Frmula alternativa:
No exemplo:
Tempo (X) Nota (Y)
3,0 4,5
7,0 6,5
2,0 3,7
1,5 4,0
12,0 9,3
25,5 28,0 41,2
25,53
5,76
5,89
1,71
2,31
)
-
X - (X )
-
Y - (Y
5,6
-
Y 5,1
-
X = =
2,34 S 5,47
4
21,9

4
(3,7) ... (-1,1)
S
4,42 S 19,55
4
78,2

4
(6,9) ... (-2,1)
S
y
2 2
2
y
x
2 2
2
x
= = =
+ +
=
= = =
+ +
=
0,9959
2,34 . 4,42 . 4
41,2
r
Ento,
= =
0 0
3,7 6,9
-1,6 -3,6
-1,9 -3,1
0,9 1,9
-1,1 -2,1
)
-
X - (X )
-
Y - (Y
Propriedade: -1 s r s 1

Casos particulares:

r = 1 correlao linear positiva e perfeita
r = -1 correlao linear negativa e perfeita
r = 0 inexistncia de correlao linear
9
Coeficiente de Correlao
Linear
O intervalo de r vai de 1 a 1.
Se r est
prximo de 1,
h uma forte
correlao
positiva.
Se r est
prximo a 1,
h uma forte
correlao
negativa.
Se r est
prximo de 0,
no h
correlao
linear.
1 0
1
r = 1, correlao linear positiva e perfeita
r = -1, correlao linear negativa e perfeita
r 0
~
50 40 30 20 10
40
30
20
10
X
Y
r 1
~
r -1
~
Linearidade da associao
Linearidade da associao
Coeficiente de correlao (r) > 0
Aumento nos valores de uma varivel leva a
aumento na outra
Correlao positiva
Coeficiente de correlao (r) < 0
Aumento nos valores de uma varivel leva a
diminuio nos valores da outra varivel

Correlao negativa
O coeficiente de correlao mede
quanto a associao linear, mas no
podemos interpretar:
r = 0.3 como havendo uma concordncia de
30% entre as duas variveis
Ateno
Exemplo 2: criminalidade e analfabetismo
Considere as duas variveis observadas em 50
estados norte-americanos.

Y: taxa de criminalidade
X: taxa de analfabetismo

Diagrama de disperso
Podemos notar que, conforme aumenta a taxa de
analfabetismo (X), a taxa de criminalidade (Y) tende
a aumentar. Nota-se tambm uma tendncia linear.
Clculo da correlao
Correlao entre X e Y:
Y= 7,38
_
(mdia de Y) e S
Y
= 3,692 (desvio padro de Y)
(mdia de X) e S
x
= 0,609 (desvio padro de X)
X= 1,17
_
EX
i
Y
i
= 509,12

Exemplo 3: expectativa de vida e
analfabetismo
Considere as duas variveis observadas em 50
estados norte-americanos.

Y: expectativa de vida
X: taxa de analfabetismo

Diagrama de disperso
Podemos notar que, conforme aumenta a taxa de
analfabetismo (X), a expectativa de vida (Y) tende a
diminuir. Nota-se tambm uma tendncia linear.
Clculo da correlao
Correlao entre X e Y:
Y= 70,88
_
(mdia de Y) e S
Y
= 1,342 (desvio padro de Y)
(mdia de X) e S
x
= 0,609 (desvio padro de X)
X= 1,17
_
EX
i
Y
i
= 4122,8

Reta ajustada:

O que so a e b?
Interpretao de b:
a: intercepto
b: inclinao
Para cada aumento de uma unidade em X, temos
um aumento mdio de b unidades em Y.
Reta ajustada
(mtodo de mnimos quadrados)
Os coeficientes a e b so calculados da seguinte maneira:
No exemplo 2,
a reta ajustada :
Para um aumento de uma unidade na taxa do
analfabetismo (X), a taxa de criminalidade (Y)
aumenta, em mdia, 4,257 unidades.
smo analfabeti de taxa : X
ade criminalid de taxa a para predito valor :
^
Y
Interpretao de b:
Graficamente, temos
Como desenhar a reta no grfico?
No exemplo 3,
a reta ajustada :
Interpretao de b:
smo analfabeti de taxa : X
vida de a expectativ a para predito valor :
^
Y
Para um aumento de uma unidade na taxa do
analfabetismo (X), a expectativa de vida (Y)
diminui, em mdia, 1,296 anos.
Graficamente, temos
Exemplo 4: consumo de cerveja e
temperatura
Y: consumo de cerveja dirio por mil habitantes, em
litros.
X: temperatura mxima (em C).

As variveis foram observadas em nove
localidades com as mesmas caractersticas
demogrficas e scio-econmicas.

Dados:
Localidade Temperatura Consumo
(X) (Y)
1 16 290
2 31 374
3 38 393
4 39 425
5 37 406
6 36 370
7 36 365
8 22 320
9 10 269
40 30 20 10
400
350
300
Temperatura
C
o
n
s
u
m
o
Diagrama de disperso
A correlao entre X e Y r = 0,962.

A reta ajustada :
Qual o consumo previsto para uma temperatura de 25C?
Qual a interpretao de b?
Aumentando-se um grau
de temperatura (X), o
consumo de cerveja (Y)
aumenta, em mdia, 4,74
litros por mil habitantes.
litros 335,87 4,74.25 217,37 Y
^
= + =
Coeficiente de Correlao
Interpretaes errneas dos coeficientes de correlao
1. Um alto coeficiente de correlao nem sempre indica que
a equao de regresso estimada est bem ajustada aos
dados.
X
Y

X
Y

X
Y

1
1
0
0
i i i i
i i i i
Y Y y y
X X x x

= +A A >
= +A A >
X
Y

EX
E
Y

?
?
Coeficiente de Correlao
Interpretaes errneas dos coeficientes de correlao
2. Um coeficiente de correlao prximo de zero nem
sempre indica que X e Y no so relacionadas.
X
Y

X
Y

X
Y

A
X
Y

B
Exerccio
Suponha que um automvel, para analisar o seu
consumo de combustvel, efetuou 7 viagens, tendo-se
registrado a distncia percorrida (km) e o consumo
(l), obtendo-se, ento, os 7 pares de valores
seguintes:


Exerccio
a) Escreva a equao da reta de regresso estimada
que relaciona distncia em relao ao consumo.

b) Com 16 litros de combustvel qual das duas
distncias lhe parece mais provvel de ser percorrida:
190 km ou 205 km?

c) Sendo o valor do litro de gasolina R$ 2,52, qual o
valor gasto (estimado) em um trajeto de 820 km?

Exerccio
Exerccio
M^= 1551,428571 (9 x 124,285714)/( 111,857143-9^2)
M^= 14,0277778
b ^= 124,285714 (14,0277778 x 9)
b^= -1,96428571

A equao da reta de regresso :

Y= 14,0277778X - 1,96428571


Exerccio
b) Com 16 litros de combustvel qual das duas
distncias lhe parece mais provvel de ser percorrida:
190 km ou 205 km?

R: y= 14,0277778X - 1,96428571
Y= 14,0277778 x (16) - 1,96428571

Y= 226,4087302

Logo a distncia de 205Km a mais provvel a ser
percorrida

Exerccio
c) Sendo o valor do litro de gasolina R$ 2,52, qual o
valor gasto (estimado) em um trajeto de 820 km?
Y= 14,0277778X - 1,96428571
820= 14,0277778X - 1,96428571
820+1,96428571= 14,0277778X
X= 58,59547383 KM
Gasto= 58,59547383 xR$ 2,52= R$ 147,66
A correlao r para este caso = 0,9968708 ou
99,68707999%, este coeficiente de correlao
praticamente perfeito, pois a cada 1% de variao no
consumo ocorre uma variao de 99,68707999% na
distncia.

Exerccio
Exerccios
As exportaes da castanha in natura, processadas pela
Empresa Castanheira Ltda., no perodo 2002 a 2008,
encontram-se na tabela a seguir



Onde a varivel quantidade est expressa em toneladas.
Pede-se:
A- a equao de regresso linear da quantidade sobre o
tempo.
B O coeficiente de correlao linear.
C A quantidade estimada para exportao em 2009.
Ano 2002 2003 2004 2005 2006 2007 2008
Quantida
de
50 46 36 31 25 11 18
Anlise de Resduos
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
R
e
s

d
u
o
s

P
a
d
r
o
n
i
z
a
d
o
s
ideal
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
R
e
s

d
u
o
s

P
a
d
r
o
n
i
z
a
d
o
s
o
2
no constante
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
R
e
s

d
u
o
s

P
a
d
r
o
n
i
z
a
d
o
s
no linearidade
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
R
e
s

d
u
o
s

P
a
d
r
o
n
i
z
a
d
o
s
no independncia
tempo
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
R
e
s

d
u
o
s

P
a
d
r
o
n
i
z
a
d
o
s
outlier
0
2
4
6
8
10
0 2 4 6 8 10
X
Y
Anlise de Regresso no EXCEL
X Y
1 1.1
2 1.9
3 2.5
4 4.3
5 6.1
6 6.3
7 7.8
8 7.0
9 9.1
RESUMO DOS RESULTADOS
Estatstica de regresso
R mltiplo 0.9745
R-Quadrado 0.9496
R-quadrado ajustado 0.9424
Erro padro 0.6735
Observaes 9
ANOVA
gl SQ MQ F F de significao
Regresso 1 59.8002 59.8002 131.8267 8.54714E-06
Resduo 7 3.1754 0.4536
Total 8 62.9756
Coeficientes Erro padro Stat t valor-P 95% inferiores 95% superiores
Interseo 0.1306 0.4893 0.2668 0.7973 -1.0265 1.2876
X 0.9983 0.0870 11.4816 0.0000 0.7927 1.2039
Y = 0,9983X + 0,1306
R
2
= 0,9496
0
2
4
6
8
10
0 2 4 6 8 10
X
Y
9496 , 0
1306 , 0 9983 , 0

2
=
+ =
R
X Y
s
valor-P
OBS: Para regresso linear simples: teste F = teste t bilateral F = t
2
s
2

Você também pode gostar