Você está na página 1de 25

1

ANLISE DE REGRESSO E CORRELAO




Quando se consideram observaes de 2 ou mais variveis surge
um ponto novo:
O estudo das relaes porventura existentes entre as variveis.


A anlise de regresso e correlao compreendem a anlise de
dados amostrais para saber se e como um certo conjunto de variveis
est relacionado com outra varivel.



Anlise de regresso: estuda o relacionamento entre uma varivel
chamada a varivel dependente e outras variveis chamadas variveis
independentes. Este relacionamento representado por um modelo
matemtico , isto , por uma equao que associa a varivel dependente
com as variveis independentes. Este modelo designado por modelo
de regresso linear simples se define uma relao linear entre a
varivel dependente e uma varivel independente. Se em vez de uma,
forem incorporadas vrias variveis independentes, o modelo passa a
denominar-se modelo de regresso linear mltipla.





2
Anlise de correlao: dedica-se a inferncias estatsticas das
medidas de associao linear que se seguem:

coeficiente de correlao simples: mede a fora ou grau de
relacionamento linear entre 2 variveis.
coeficiente de correlao mltiplo: mede a fora ou grau de
relacionamento linear entre uma varivel e um conjunto de outras
variveis.

As tcnicas de anlise de correlao e regresso esto intimamente
ligadas.

3
REGRESSO LINEAR SIMPLES

Vamos considerar a situao em que duas variveis esto ligadas
por um relacionamento linear. A relao entre elas pode ser descrita
matematicamente atravs do seguinte modelo:

Y X E = + +
0 1

sendo,
X a varivel explicativa ou independente medida sem erro (no
aleatria);
E a varivel aleatria residual na qual se procuram incluir todas as
influncias no comportamento da varivel Y que no podem ser
explicadas linearmente pelo comportamento da varivel X;

0
e
1
parmetros desconhecidos do modelo (a estimar).
Y a varivel explicada ou dependente (aleatria);

Exemplo:
Suponhamos que estamos interessados em desenvolver um modelo
para descrever a temperatura da gua do mar. A temperatura (Y)
depende em parte da profundidade da gua (X).
No estamos interessados em fazer inferncias acerca da
profundidade da gua, mas sim, em descrever o comportamento da
temperatura da gua sabendo partida o valor exacto da sua
profundidade.
4
Se fixarmos a profundidade da gua em x
i
, a temperatura vai variar
devido a outras influncias aleatrias. Assim, para cada x
i
fixo estamos
a lidar com uma varivel aleatria Y
i
de mdia
Y
i
(
Y
i
depende de x
i
,
pois a temperatura mdia da gua profundidade x
i
, deve de ser
diferente da temperatura mdia profundidade x
j
x
i
).


Num estudo de regresso temos n observaes da varivel X:
x
1
,x
2
,,x
n
(assume-se que estas observaes so medidas sem erro).
Temos ento n variveis aleatrias Y
1
, Y
2
, ..., Y
n
tais que:
i i 1 0 i
E x Y + + = i=1,...,n .

Admite-se que E
1
, E
2
,..., E
n
so variveis aleatrias independentes
de mdia zero e varincia
2
.

Ento, para qualquer valor x
i
de X, Y
i
uma varivel aleatria
de mdia
i 1 0 Y
x
i
+ = e varincia
2
.

Isto significa que para um dado x
i
podemos calcular a mdia de Y
i
,
i 1 0 Y
x
i
+ = , que depende de x
i
, e o desvio padro que no
depende do valor x
i
fixado. uma medida da disperso dos valores de
Y
i
volta da sua mdia
i
Y
.
Os dados para a anlise de regresso e correlao simples so da
forma:
5
(x
1
, y
1
), (x
2
, y
2
),..., (x
n
, y
n
)
onde x
i
o valor da varivel X e y
i
a correspondente observao da
varivel aleatria Y
i
(i=1,...,n).
Cada observao obedece seguinte relao:

i i 1 0 i
i
Y
x y +

+ =
_
i=1,...,n .

De facto, o valor observado de uma varivel aleatria (y
i
),
usualmente difere da sua mdia (
i
Y
) por uma quantidade aleatria
i
.

Com os dados constroi-se o DIAGRAMA DE DISPERSO, este deve
exibir uma tendncia linear para que se possa usar a regresso linear.
Portanto este diagrama permite decidir empiricamente se um
relacionamento linear entre X e Y deve ser assumido.
Por anlise do Diagrama de Disperso pode-se tambm concluir
(empiricamente) se o grau de relacionamento linear entre as variveis
forte ou fraco, conforme o modo como se situam os pontos em redor de
uma recta imaginria que passa atravs do enxame de pontos. A
correlao tanto maior quanto mais os pontos se concentram, com
pequenos desvios, em relao a essa recta.
A partir dos dados disponveis estimamos
0
e
1
e substitumos
estes parmetros tericos pelas suas estimativas b
0
e b
1
para obter a
equao de regresso estimada:
Realizao da v.a. E
i

6
x b b y
1 0 x / Y
+ = =

Esta equao estima o valor mdio de Y para um dado valor x de X,
mas usada para estimar o prprio valor de Y. De facto, o senso comum
diz-nos que uma escolha razovel para predizer o valor de Y para um
dado x de X, o valor mdio estimado
x / Y
. Por exemplo, se
quisssemos predizer a temperatura da gua do mar a uma profundidade
de 1000 metros uma escolha lgica a temperatura mdia a esta
profundidade:
1000 b b y
1 0 1000 x / Y
+ = =
=



Estimao pelo mtodo dos mnimos quadrados
Cada par (x
i
,y
i
) satisfaz a
i i 1 0 i
d x b b y + + =
onde
) x b b ( y y y d
i 1 0 i i i i
+ = =
o i-simo resduo, isto , a distncia vertical do ponto (x
i
,y
i
) recta de
regresso estimada.
Este mtodo consiste em escolher b
0
e b
1
de modo a minimizar a
soma dos quadrados dos resduos d
i
. Desta forma estamos
7
essencialmente a escolher a recta que se aproxima o mais possvel de
todos os pontos dos dados simultaneamente.


Soma dos quadrados
dos resduos

=
= =
= =
n
1 i
n
1 i
2
i 1 0 i
2
i
) x b b y ( d SSE


Para determinar b
0
e b
1
de modo a minimizar SSE:

=
=

=
=
=
=
x b y b
x n x
y x n y x
b
0 x ) x b b y ( 2
0 ) x b b y ( 2
0
b
SSE
0
b
SSE
1 0
n
1 i
2 2
i
n
1 i
i i
1
n
1 i
i i 1 0 i
n
1 i
i 1 0 i
1
0



x mdia dos valores observados de X
y mdia dos valores observados de Y
8
REGRESSO LINEAR MLTIPLA

O modelo de regresso linear mltipla postula a existncia de uma
relao linear entre uma varivel dependente ou explicada Y e k
variveis independentes ou explicativas X
1
,...,X
k
a qual pode ser
traduzida pela seguinte expresso:

E X X Y
k k 1 1 0
+ + + + =

sendo,
X
1
,...,X
k
as variveis explicativas ou independentes medidas sem erro
(no aleatrias);
E a varivel aleatria residual na qual se procuram incluir todas as
influncias no comportamento da varivel Y que no podem ser
explicadas linearmente pelo comportamento das variveis X
1
,...,X
k
e
os possveis erros de medio;

0
,
1
,...,
k
os parmetros desconhecidos do modelo (a estimar).
Y a varivel explicada ou dependente (aleatria);



Exemplo:
9
Consideremos as seguintes variveis:
Y Volume de vendas efectuadas durante um dado perodo de tempo
por um vendedor;
X
1
Anos de experincia como vendedor;
X
2
Score no teste de inteligncia.

Se fixarmos o valor x
1i
para os anos de experincia X
1
(por
exemplo x
1i
=4 anos) e outro valor x
2i
para o score no teste de
inteligncia X
2
(por exemplo x
2i
=3), o volume de vendas vai variar
devido a outras influncias aleatrias. Isto , vendedores com 4 anos de
experincia e score 3 no teste de inteligncia, podem apresentar volumes
de vendas diferentes.

Assim, para x
1i
e x
2i
fixos Y
i
uma varivel aleatria de mdia
Y
i
.

Temos n valores de cada varivel independente:
i=1 i=2 ... i=n
X
1
x
11
x
12
... x
1n
X
2
x
21
x
22
... x
2n
. . . .
X
k
x
k1
x
k2
... x
kn

10
Temos ento n variveis aleatrias,
1 1 k k 11 1 0 1
E x x Y + + + + =
2 2 k k 12 1 0 2
E x x Y + + + + =
.
n kn k n 1 1 0 n
E x x Y + + + + =
Em notao matricial,

E
X
Y
n
2
1
k
1
0
kn n 2 n 1
2 k 22 12
1 k 21 11
n
2
1
E
E
E
x x x 1
x x x 1
x x x 1
Y
Y
Y

. .
_

. . . .

.


Y vector das respostas aleatrias
X Matriz significativa do modelo
Vector dos parmetros do modelo
EVector dos erros aleatrios

Outra forma de escrever o modelo ento,

Y=X+E

11
Admite-se que E
1
, E
2
,..., E
n
so variveis aleatrias independentes
de mdia zero e varincia
2
.

Ento, para quaisquer valores x
1i
, x
2i
,...,x
ki
fixos, Y
i
uma
varivel aleatria de mdia
ki k i 1 1 0 Y
x ... x
i
+ + + = e varincia

2
.

Isto significa que para um conjunto de valores fixos x
1i
, x
2i
,...,x
ki
de
X
1
,...,X
k
, podemos calcular a mdia de Y
i
,
ki k i 1 1 0 Y
x ... x
i
+ + + = , que depende de x
1i
, x
2i
,...,x
ki
. O desvio
padro uma medida da disperso dos valores de Y
i
volta da sua
mdia
i
Y
e sempre o mesmo quaisquer que sejam os valores das
variveis independentes que fixemos.

Os dados para a anlise de regresso e correlao mltipla so da
forma:
(y
1
, x
11
, x
21
,...,x
k1
), (y
2
, x
12
, x
22
,...,x
k2
) ,..., (y
n
, x
1n
, x
2n
,...,x
kn
).

Cada observao obedece seguinte relao:

i ki k i 2 2 i 1 1 0 i
i
Y
x ... x x y +

+ + + + =
_
i=1,...,n .

Realizao da v.a. E
i

12

Temos ento o seguinte sistema de equaes,

+ + + + =
+ + + + =
+ + + + =
n kn k n 1 1 0 n
2 2 k k 12 1 0 2
1 1 k k 11 1 0 1
x x y
x x y
x x y


Em notao matricial o sistema pode ser representado por,

n
2
1
k
1
0
kn n 2 n 1
2 k 22 12
1 k 21 11
n
2
1
X
y
x x x 1
x x x 1
x x x 1
y
y
y
. .
_

. . . .

.


y vector das observaes da varivel dependente
X Matriz significativa do modelo
Vector dos parmetros do modelo
Vector das realizaes da varivel aleatria residual
Isto ,
y=X+



13
A partir dos dados disponveis (observados) estimamos
0
,
1
,...,
k
e substitumos estes parmetros tericos pelas suas estimativas b
0
,
b
1
, ...,b
k
para obter a equao de regresso estimada:
k k 2 2 1 1 0 x ,..., x , x / Y
x b ... x b x b b y
k 2 1
+ + + + = =


Esta equao estima o valor mdio de Y para um conjunto de
valores x
1
, x
2
,...,x
k
fixo, mas usada para estimar o prprio valor de Y.
Por exemplo, se quisssemos predizer o volume de vendas de um
vendedor com 4 anos de experincia e score 3 no teste de inteligncia,
uma escolha lgica seria o volume mdio de vendas dos vendedores
com estas caractersticas:
3 b 4 b b y
2 1 0 3 x , 4 x / Y
2 1
+ + = =
= =
.
Estimao pelo mtodo dos mnimos quadrados
Associado a cada observao (y
i
, x
1i
, x
2i
,...,x
ki
) est um resduo,
) x b ... x b x b b ( y y y d
ki k i 2 2 i 1 1 0 i i i i
+ + + + = =

Este mtodo consiste em escolher b
0
, b
1
,..., b
k
de modo a minimizar
a soma dos quadrados dos resduos d
i
.
Soma dos
quadrados dos
resduos

=
= =
= =
n
1 i
n
1 i
2
ki k i 2 2 i 1 1 0 i
2
i
) x b ... x b x b b y ( d SSE

14
Para determinar b
0
, b
1
,..., b
k
de modo a minimizar SSE resolve-se o
sistema de equaes:
0
b
SSE
0
b
SSE
0
b
SSE
k 1 0
=


Obtm-se o vector ( ) y X X X
b
b
b
b
t
1
t
k
1
0

=
.
estimativa para

=
k
1
0
.
.
O estimador obviamente, ( ) Y X X X

t
1
t
k
1
0

=
.
.
Para k=1 (no caso da regresso simples) teramos,
( ) y X X X
b
b
b
t
1
t
1
0

=

=
onde X tem apenas 2 colunas (pois k=1), mas como vimos b
0
e b
1

podem tambm ser determinados por,
x b y b e
x n x
y x n y x
b
1 0
n
1 i
2 2
i
n
1 i
i i
1
=

=
=
.

Cada coeficiente de regresso estimado b
i
, i=1,...,k (estimativa de

i
), estima o efeito sobre o valor mdio da varivel dependente Y de
uma alterao unitria da varivel independente X
i
, mantendo-se
constantes todas as restantes variveis independentes.
15
COEFICIENTE DE CORRELAO E DE DETERMINAO

Seja y a mdia dos valores observados para a varivel dependente.
Para uma qualquer observao y
i
tem-se:
) y y ( ) y y ( ) y y (
i i i i
+ =
Pode-se mostrar que elevando ao quadrado ambos os membros e
somando para todas as observaes resulta que:

= = =
+ =
n
1 i
2
i
n
1 i
2
i i
n
1 i
2
i
) y y ( ) y y ( ) y y (

SST = SSE + SSR

SST Soma dos quadrados totais
SSE Soma dos quadrados dos resduos
SSR Soma dos quadrados da regresso

Isto :
Variao total
de Y volta da
sua mdia

=
Variao que o
ajustamento no
consegue explicar

+
Variao
explicada pelo
ajustamento

Coeficiente de determinao r
2
:
16
SST
SSE
1
SST
SSE SST
SST
SSR
r
2
=

= =

r
2
a proporo de variao da varivel dependente Y que
explicada pelo modelo, isto pela equao de regresso ajustada, ou
equivalentemente, a proporo da variao de Y explicada em termos
lineares pelas variveis independentes.
Note que:
0r
2
1;
r
2
1 (prximo de 1) significa que grande parte da variao de Y
explicada linearmente pelas variveis independentes.
r
2
0 (prximo de 0) significa que grande parte da variao de Y
no explicada linearmente pelas variveis independentes.

Neste sentido este coeficiente pode ser utilizado como uma medida
da qualidade do ajustamento, ou como medida da confiana depositada
na equao de regresso como instrumento de previso:

r
2
0 modelo linear muito pouco adequado
r
2
1 modelo linear bastante adequado

raiz quadrada de r
2
d-se o nome de:
17
coeficiente de correlao simples (se est envolvida apenas
uma varivel independente)
coeficiente de correlao mltiplo (se esto envolvidas pelo
menos 2 variveis independentes)


Coeficiente de Correlao Simples
2
r r =
uma medida do grau de associao linear entre as variveis X e
Y.
-1r1;
r>0 (positivo) indica que as duas variveis tendem a variar no
mesmo sentido, isto , em mdia um aumento na varivel X
provocar um aumento na varivel Y;
r<0 (negativo) indica que as duas variveis tendem a variar em
sentido inverso, isto , em mdia um aumento na varivel X
provocar uma diminuio na varivel Y;
r=1 e r=-1 indicam a existncia de uma relao linear perfeita
entre X e Y, positiva e negativa respectivamente;

18
r=0 indica a inexistncia de qualquer relao ou tendncia linear
entre X e Y podendo no entanto existir uma relao no linear
entre elas. Isto , possvel que as duas variveis estejam
fortemente associadas (movimentos numa varivel esto
associados a movimentos na outra) sem que o relacionamento
seja linear.

r pode ser calculado a partir da seguinte frmula:
2
n
1 i
2
i
2
n
1 i
i i 1
n
1 i
i 0
2
y n y
y n x y b y b
r r

+
= =


=
= =
com o sinal do declive b
1
.


Coeficiente de Correlao Mltiplo
uma medida do grau de associao linear entre Y e o conjunto de
variveis X
1
, X
2
,...,X
k
.
0r1;
r=1 indica a existncia de uma associao linear perfeita, isto ,
Y pode ser expresso exactamente como combinao linear de X
1
,
X
2
,...,X
k
;
r=0 indica a inexistncia de uma relao linear entre a varivel
dependente Y e o conjunto de variveis independentes X
1
,
X
2
,...,X
k
.
19
PROPRIEDADES DOS ESTIMADORES DOS MNIMOS
QUADRADOS E TESTES DE HIPTESES

O mtodo dos mnimos quadrados fornece estimativas pontuais b
0
,
b
1
,...,b
k
para
0
,
1
,...,
k
. Os estimadores que fornecem estas
estimativas so:
( ) Y X X X

t
1
t
k
1
0

=
.
.

Se os erros E
i
alm de serem independentes com valor esperado nulo
e varincia constante -
2
, seguirem uma distribuio normal, ento
pode-se mostrar que os estimadores
k 1 0

,...,

so tais que:
( )
i i

E = i=1,...,k;
( )
ii
2
i
c

Var =
onde c
ii
o elemento diagonal da linha i+1 da matriz ( )
1
t
X X

.
Na regresso simples estas varincias podem ser dadas por:
( )
2 2
n
1 i
2
i
n
1 i
2
i
2
0
x n x n
x

Var

=
=
e ( )
2
n
1 i
2
i
2
1
x n x
1

Var

=
;
Cada
i

tem distribuio normal:


i

~ N(
i
,
ii
2
c ).
20

Como, em geral,
2
desconhecido estimamos ( )
i

Var por
2

i
S

que
se obtm substituindo nas formulas anteriores
2
pelo seu estimador,
1 k n
SSE
S
2

= .
Ento,
ii ii
2 2

c
1 k n
SSE
c S S
i

= =

.

21
Testes sobre os coeficientes de regresso
Ocasionalmente, poder ser de suspeitar que uma varivel
explicativa particular no muito til, isto , que a sua influncia sobre
a varivel dependente no significativa. Para saber se este o caso
testamos a hiptese nula de que o coeficiente para esta varivel nulo:
0 : H
0 : H
i 1
i 0

=
.

Sabemos que
i

~ N(
i
,
ii
2
c ),
ento
) 1 , 0 ( N
c

~
ii
i i


.
Como
2
desconhecido, substitumos pelo seu estimador
1 k n
SSE
S

=
vindo,
1 k n
ii
i i

i i
t
c S

~
i


=

.
A estatstica do teste, se H
0
verdadeira, :
1 k n
ii
i

i
t
c S
0

S
0

~
i


=

.
22
Se H
0
for rejeitada ento temos evidncia de que
i
0, isto a
varivel explicativa X
i
til na predio do valor da varivel
dependente.
Se H
0
no for rejeitada ento a varivel explicativa X
i
geralmente
retirada da equao de regresso pois no influncia significativamente
a varivel resposta Y.

Mais geralmente, podemos testar a hiptese nula de que o coeficiente
seja igual a um determinado valor
i
0
:
0
i i 1
0
i i 0
: H
: H

=
.
A estatstica do teste, se H
0
verdadeira, :
1 k n
ii
0
i i

0
i i
t
c S

~
i


=

.

Poderiam tambm ser conduzidos testes unilaterais em vez de testes
bilaterais:
0
i i 1
0
i i 0
: H
: H
>
=

0
i i 1
0
i i 0
: H
: H
<
=
.



23

Teste F para testar a significncia da regresso
Este teste serve para saber se a regresso ou no significativa.
A hiptese nula :
H
0
: a equao de regresso no explica a variao na varivel
resposta
ou equivalentemente,
H
0
: no existe relao linear entre a varivel dependente e o
conjunto de variveis independentes utilizadas

Matematicamente:
0 um menos pelo : H
0 ... : H
i 1
k 2 1 0

= = = =
.

Pode-se mostrar que se H
0
for verdadeira, a estatstica do teste
k
1 k n
2
F
S
k SSR
) 1 k n ( SSE
k SSR
F ~

=

= .

Note que,
SST SSE
SST SSR
k
1 k n
SSE
SSR
k
1 k n
) 1 k n ( SSE
k SSR
F

=

=

=
2
2
R 1
R
k
1 k n


= .
24

Rejeitamos H
0
para valores grandes da estatstica do teste F. parte
da constante
k
1 k n
a estatstica F a razo entre a variao explicada
e a no explicada em Y. natural que digamos que a regresso
significativa s quando a proporo da variao explicada grande. Isto
ocorre s quando a razo F grande. Por esta razo devemos sempre
rejeitar H
0
para valores de F muito grandes.
Se H
0
no for rejeitada ento o mesmo que dizer que o conjunto de
variveis explicativas contribuem pouco para a explicao da variao
da varivel dependente.

Na regresso simples para testar a significncia da regresso
consideramos as hipteses,
0 : H
0 : H
1 1
1 0

=

e portanto a estatstica teste a usar pode ser,
2 n
H Sob

1
t
S
0

0
1
~


.




25

Os resultados descritos podem ser convenientemente resumidos na
tabela da ANOVA seguinte:


Fonte de
variao
Soma dos
Quadrados
Graus de
Liberdade
Quadrados
Mdios
Razo F
Devido
Regresso
SSR= ( )

=

n
1 i
2
i
y y

k
k
SSR


Devido aos
resduos
SSE= ( )

=

n
1 i
2
i i
y y

n-k-1
1 k n
SSE

=
2
S

2
S
k SSR
F =
Total
SST= ( )

=

n
1 i
2
i
y y
n-1

Você também pode gostar