Escolar Documentos
Profissional Documentos
Cultura Documentos
+ =
_
i=1,...,n .
De facto, o valor observado de uma varivel aleatria (y
i
),
usualmente difere da sua mdia (
i
Y
) por uma quantidade aleatria
i
.
Com os dados constroi-se o DIAGRAMA DE DISPERSO, este deve
exibir uma tendncia linear para que se possa usar a regresso linear.
Portanto este diagrama permite decidir empiricamente se um
relacionamento linear entre X e Y deve ser assumido.
Por anlise do Diagrama de Disperso pode-se tambm concluir
(empiricamente) se o grau de relacionamento linear entre as variveis
forte ou fraco, conforme o modo como se situam os pontos em redor de
uma recta imaginria que passa atravs do enxame de pontos. A
correlao tanto maior quanto mais os pontos se concentram, com
pequenos desvios, em relao a essa recta.
A partir dos dados disponveis estimamos
0
e
1
e substitumos
estes parmetros tericos pelas suas estimativas b
0
e b
1
para obter a
equao de regresso estimada:
Realizao da v.a. E
i
6
x b b y
1 0 x / Y
+ = =
Esta equao estima o valor mdio de Y para um dado valor x de X,
mas usada para estimar o prprio valor de Y. De facto, o senso comum
diz-nos que uma escolha razovel para predizer o valor de Y para um
dado x de X, o valor mdio estimado
x / Y
. Por exemplo, se
quisssemos predizer a temperatura da gua do mar a uma profundidade
de 1000 metros uma escolha lgica a temperatura mdia a esta
profundidade:
1000 b b y
1 0 1000 x / Y
+ = =
=
Estimao pelo mtodo dos mnimos quadrados
Cada par (x
i
,y
i
) satisfaz a
i i 1 0 i
d x b b y + + =
onde
) x b b ( y y y d
i 1 0 i i i i
+ = =
o i-simo resduo, isto , a distncia vertical do ponto (x
i
,y
i
) recta de
regresso estimada.
Este mtodo consiste em escolher b
0
e b
1
de modo a minimizar a
soma dos quadrados dos resduos d
i
. Desta forma estamos
7
essencialmente a escolher a recta que se aproxima o mais possvel de
todos os pontos dos dados simultaneamente.
Soma dos quadrados
dos resduos
=
= =
= =
n
1 i
n
1 i
2
i 1 0 i
2
i
) x b b y ( d SSE
Para determinar b
0
e b
1
de modo a minimizar SSE:
=
=
=
=
=
=
x b y b
x n x
y x n y x
b
0 x ) x b b y ( 2
0 ) x b b y ( 2
0
b
SSE
0
b
SSE
1 0
n
1 i
2 2
i
n
1 i
i i
1
n
1 i
i i 1 0 i
n
1 i
i 1 0 i
1
0
x mdia dos valores observados de X
y mdia dos valores observados de Y
8
REGRESSO LINEAR MLTIPLA
O modelo de regresso linear mltipla postula a existncia de uma
relao linear entre uma varivel dependente ou explicada Y e k
variveis independentes ou explicativas X
1
,...,X
k
a qual pode ser
traduzida pela seguinte expresso:
E X X Y
k k 1 1 0
+ + + + =
sendo,
X
1
,...,X
k
as variveis explicativas ou independentes medidas sem erro
(no aleatrias);
E a varivel aleatria residual na qual se procuram incluir todas as
influncias no comportamento da varivel Y que no podem ser
explicadas linearmente pelo comportamento das variveis X
1
,...,X
k
e
os possveis erros de medio;
0
,
1
,...,
k
os parmetros desconhecidos do modelo (a estimar).
Y a varivel explicada ou dependente (aleatria);
Exemplo:
9
Consideremos as seguintes variveis:
Y Volume de vendas efectuadas durante um dado perodo de tempo
por um vendedor;
X
1
Anos de experincia como vendedor;
X
2
Score no teste de inteligncia.
Se fixarmos o valor x
1i
para os anos de experincia X
1
(por
exemplo x
1i
=4 anos) e outro valor x
2i
para o score no teste de
inteligncia X
2
(por exemplo x
2i
=3), o volume de vendas vai variar
devido a outras influncias aleatrias. Isto , vendedores com 4 anos de
experincia e score 3 no teste de inteligncia, podem apresentar volumes
de vendas diferentes.
Assim, para x
1i
e x
2i
fixos Y
i
uma varivel aleatria de mdia
Y
i
.
Temos n valores de cada varivel independente:
i=1 i=2 ... i=n
X
1
x
11
x
12
... x
1n
X
2
x
21
x
22
... x
2n
. . . .
X
k
x
k1
x
k2
... x
kn
10
Temos ento n variveis aleatrias,
1 1 k k 11 1 0 1
E x x Y + + + + =
2 2 k k 12 1 0 2
E x x Y + + + + =
.
n kn k n 1 1 0 n
E x x Y + + + + =
Em notao matricial,
E
X
Y
n
2
1
k
1
0
kn n 2 n 1
2 k 22 12
1 k 21 11
n
2
1
E
E
E
x x x 1
x x x 1
x x x 1
Y
Y
Y
. .
_
. . . .
.
Y vector das respostas aleatrias
X Matriz significativa do modelo
Vector dos parmetros do modelo
EVector dos erros aleatrios
Outra forma de escrever o modelo ento,
Y=X+E
11
Admite-se que E
1
, E
2
,..., E
n
so variveis aleatrias independentes
de mdia zero e varincia
2
.
Ento, para quaisquer valores x
1i
, x
2i
,...,x
ki
fixos, Y
i
uma
varivel aleatria de mdia
ki k i 1 1 0 Y
x ... x
i
+ + + = e varincia
2
.
Isto significa que para um conjunto de valores fixos x
1i
, x
2i
,...,x
ki
de
X
1
,...,X
k
, podemos calcular a mdia de Y
i
,
ki k i 1 1 0 Y
x ... x
i
+ + + = , que depende de x
1i
, x
2i
,...,x
ki
. O desvio
padro uma medida da disperso dos valores de Y
i
volta da sua
mdia
i
Y
e sempre o mesmo quaisquer que sejam os valores das
variveis independentes que fixemos.
Os dados para a anlise de regresso e correlao mltipla so da
forma:
(y
1
, x
11
, x
21
,...,x
k1
), (y
2
, x
12
, x
22
,...,x
k2
) ,..., (y
n
, x
1n
, x
2n
,...,x
kn
).
Cada observao obedece seguinte relao:
i ki k i 2 2 i 1 1 0 i
i
Y
x ... x x y +
+ + + + =
_
i=1,...,n .
Realizao da v.a. E
i
12
Temos ento o seguinte sistema de equaes,
+ + + + =
+ + + + =
+ + + + =
n kn k n 1 1 0 n
2 2 k k 12 1 0 2
1 1 k k 11 1 0 1
x x y
x x y
x x y
Em notao matricial o sistema pode ser representado por,
n
2
1
k
1
0
kn n 2 n 1
2 k 22 12
1 k 21 11
n
2
1
X
y
x x x 1
x x x 1
x x x 1
y
y
y
. .
_
. . . .
.
y vector das observaes da varivel dependente
X Matriz significativa do modelo
Vector dos parmetros do modelo
Vector das realizaes da varivel aleatria residual
Isto ,
y=X+
13
A partir dos dados disponveis (observados) estimamos
0
,
1
,...,
k
e substitumos estes parmetros tericos pelas suas estimativas b
0
,
b
1
, ...,b
k
para obter a equao de regresso estimada:
k k 2 2 1 1 0 x ,..., x , x / Y
x b ... x b x b b y
k 2 1
+ + + + = =
Esta equao estima o valor mdio de Y para um conjunto de
valores x
1
, x
2
,...,x
k
fixo, mas usada para estimar o prprio valor de Y.
Por exemplo, se quisssemos predizer o volume de vendas de um
vendedor com 4 anos de experincia e score 3 no teste de inteligncia,
uma escolha lgica seria o volume mdio de vendas dos vendedores
com estas caractersticas:
3 b 4 b b y
2 1 0 3 x , 4 x / Y
2 1
+ + = =
= =
.
Estimao pelo mtodo dos mnimos quadrados
Associado a cada observao (y
i
, x
1i
, x
2i
,...,x
ki
) est um resduo,
) x b ... x b x b b ( y y y d
ki k i 2 2 i 1 1 0 i i i i
+ + + + = =
Este mtodo consiste em escolher b
0
, b
1
,..., b
k
de modo a minimizar
a soma dos quadrados dos resduos d
i
.
Soma dos
quadrados dos
resduos
=
= =
= =
n
1 i
n
1 i
2
ki k i 2 2 i 1 1 0 i
2
i
) x b ... x b x b b y ( d SSE
14
Para determinar b
0
, b
1
,..., b
k
de modo a minimizar SSE resolve-se o
sistema de equaes:
0
b
SSE
0
b
SSE
0
b
SSE
k 1 0
=
Obtm-se o vector ( ) y X X X
b
b
b
b
t
1
t
k
1
0
=
.
estimativa para
=
k
1
0
.
.
O estimador obviamente, ( ) Y X X X
t
1
t
k
1
0
=
.
.
Para k=1 (no caso da regresso simples) teramos,
( ) y X X X
b
b
b
t
1
t
1
0
=
=
onde X tem apenas 2 colunas (pois k=1), mas como vimos b
0
e b
1
podem tambm ser determinados por,
x b y b e
x n x
y x n y x
b
1 0
n
1 i
2 2
i
n
1 i
i i
1
=
=
=
.
Cada coeficiente de regresso estimado b
i
, i=1,...,k (estimativa de
i
), estima o efeito sobre o valor mdio da varivel dependente Y de
uma alterao unitria da varivel independente X
i
, mantendo-se
constantes todas as restantes variveis independentes.
15
COEFICIENTE DE CORRELAO E DE DETERMINAO
Seja y a mdia dos valores observados para a varivel dependente.
Para uma qualquer observao y
i
tem-se:
) y y ( ) y y ( ) y y (
i i i i
+ =
Pode-se mostrar que elevando ao quadrado ambos os membros e
somando para todas as observaes resulta que:
= = =
+ =
n
1 i
2
i
n
1 i
2
i i
n
1 i
2
i
) y y ( ) y y ( ) y y (
SST = SSE + SSR
SST Soma dos quadrados totais
SSE Soma dos quadrados dos resduos
SSR Soma dos quadrados da regresso
Isto :
Variao total
de Y volta da
sua mdia
=
Variao que o
ajustamento no
consegue explicar
+
Variao
explicada pelo
ajustamento
Coeficiente de determinao r
2
:
16
SST
SSE
1
SST
SSE SST
SST
SSR
r
2
=
= =
r
2
a proporo de variao da varivel dependente Y que
explicada pelo modelo, isto pela equao de regresso ajustada, ou
equivalentemente, a proporo da variao de Y explicada em termos
lineares pelas variveis independentes.
Note que:
0r
2
1;
r
2
1 (prximo de 1) significa que grande parte da variao de Y
explicada linearmente pelas variveis independentes.
r
2
0 (prximo de 0) significa que grande parte da variao de Y
no explicada linearmente pelas variveis independentes.
Neste sentido este coeficiente pode ser utilizado como uma medida
da qualidade do ajustamento, ou como medida da confiana depositada
na equao de regresso como instrumento de previso:
r
2
0 modelo linear muito pouco adequado
r
2
1 modelo linear bastante adequado
raiz quadrada de r
2
d-se o nome de:
17
coeficiente de correlao simples (se est envolvida apenas
uma varivel independente)
coeficiente de correlao mltiplo (se esto envolvidas pelo
menos 2 variveis independentes)
Coeficiente de Correlao Simples
2
r r =
uma medida do grau de associao linear entre as variveis X e
Y.
-1r1;
r>0 (positivo) indica que as duas variveis tendem a variar no
mesmo sentido, isto , em mdia um aumento na varivel X
provocar um aumento na varivel Y;
r<0 (negativo) indica que as duas variveis tendem a variar em
sentido inverso, isto , em mdia um aumento na varivel X
provocar uma diminuio na varivel Y;
r=1 e r=-1 indicam a existncia de uma relao linear perfeita
entre X e Y, positiva e negativa respectivamente;
18
r=0 indica a inexistncia de qualquer relao ou tendncia linear
entre X e Y podendo no entanto existir uma relao no linear
entre elas. Isto , possvel que as duas variveis estejam
fortemente associadas (movimentos numa varivel esto
associados a movimentos na outra) sem que o relacionamento
seja linear.
r pode ser calculado a partir da seguinte frmula:
2
n
1 i
2
i
2
n
1 i
i i 1
n
1 i
i 0
2
y n y
y n x y b y b
r r
+
= =
=
= =
com o sinal do declive b
1
.
Coeficiente de Correlao Mltiplo
uma medida do grau de associao linear entre Y e o conjunto de
variveis X
1
, X
2
,...,X
k
.
0r1;
r=1 indica a existncia de uma associao linear perfeita, isto ,
Y pode ser expresso exactamente como combinao linear de X
1
,
X
2
,...,X
k
;
r=0 indica a inexistncia de uma relao linear entre a varivel
dependente Y e o conjunto de variveis independentes X
1
,
X
2
,...,X
k
.
19
PROPRIEDADES DOS ESTIMADORES DOS MNIMOS
QUADRADOS E TESTES DE HIPTESES
O mtodo dos mnimos quadrados fornece estimativas pontuais b
0
,
b
1
,...,b
k
para
0
,
1
,...,
k
. Os estimadores que fornecem estas
estimativas so:
( ) Y X X X
t
1
t
k
1
0
=
.
.
Se os erros E
i
alm de serem independentes com valor esperado nulo
e varincia constante -
2
, seguirem uma distribuio normal, ento
pode-se mostrar que os estimadores
k 1 0
,...,
so tais que:
( )
i i
E = i=1,...,k;
( )
ii
2
i
c
Var =
onde c
ii
o elemento diagonal da linha i+1 da matriz ( )
1
t
X X
.
Na regresso simples estas varincias podem ser dadas por:
( )
2 2
n
1 i
2
i
n
1 i
2
i
2
0
x n x n
x
Var
=
=
e ( )
2
n
1 i
2
i
2
1
x n x
1
Var
=
;
Cada
i
~ N(
i
,
ii
2
c ).
20
Como, em geral,
2
desconhecido estimamos ( )
i
Var por
2
i
S
que
se obtm substituindo nas formulas anteriores
2
pelo seu estimador,
1 k n
SSE
S
2
= .
Ento,
ii ii
2 2
c
1 k n
SSE
c S S
i
= =
.
21
Testes sobre os coeficientes de regresso
Ocasionalmente, poder ser de suspeitar que uma varivel
explicativa particular no muito til, isto , que a sua influncia sobre
a varivel dependente no significativa. Para saber se este o caso
testamos a hiptese nula de que o coeficiente para esta varivel nulo:
0 : H
0 : H
i 1
i 0
=
.
Sabemos que
i
~ N(
i
,
ii
2
c ),
ento
) 1 , 0 ( N
c
~
ii
i i
.
Como
2
desconhecido, substitumos pelo seu estimador
1 k n
SSE
S
=
vindo,
1 k n
ii
i i
i i
t
c S
~
i
=
.
A estatstica do teste, se H
0
verdadeira, :
1 k n
ii
i
i
t
c S
0
S
0
~
i
=
.
22
Se H
0
for rejeitada ento temos evidncia de que
i
0, isto a
varivel explicativa X
i
til na predio do valor da varivel
dependente.
Se H
0
no for rejeitada ento a varivel explicativa X
i
geralmente
retirada da equao de regresso pois no influncia significativamente
a varivel resposta Y.
Mais geralmente, podemos testar a hiptese nula de que o coeficiente
seja igual a um determinado valor
i
0
:
0
i i 1
0
i i 0
: H
: H
=
.
A estatstica do teste, se H
0
verdadeira, :
1 k n
ii
0
i i
0
i i
t
c S
~
i
=
.
Poderiam tambm ser conduzidos testes unilaterais em vez de testes
bilaterais:
0
i i 1
0
i i 0
: H
: H
>
=
0
i i 1
0
i i 0
: H
: H
<
=
.
23
Teste F para testar a significncia da regresso
Este teste serve para saber se a regresso ou no significativa.
A hiptese nula :
H
0
: a equao de regresso no explica a variao na varivel
resposta
ou equivalentemente,
H
0
: no existe relao linear entre a varivel dependente e o
conjunto de variveis independentes utilizadas
Matematicamente:
0 um menos pelo : H
0 ... : H
i 1
k 2 1 0
= = = =
.
Pode-se mostrar que se H
0
for verdadeira, a estatstica do teste
k
1 k n
2
F
S
k SSR
) 1 k n ( SSE
k SSR
F ~
=
= .
Note que,
SST SSE
SST SSR
k
1 k n
SSE
SSR
k
1 k n
) 1 k n ( SSE
k SSR
F
=
=
=
2
2
R 1
R
k
1 k n
= .
24
Rejeitamos H
0
para valores grandes da estatstica do teste F. parte
da constante
k
1 k n
a estatstica F a razo entre a variao explicada
e a no explicada em Y. natural que digamos que a regresso
significativa s quando a proporo da variao explicada grande. Isto
ocorre s quando a razo F grande. Por esta razo devemos sempre
rejeitar H
0
para valores de F muito grandes.
Se H
0
no for rejeitada ento o mesmo que dizer que o conjunto de
variveis explicativas contribuem pouco para a explicao da variao
da varivel dependente.
Na regresso simples para testar a significncia da regresso
consideramos as hipteses,
0 : H
0 : H
1 1
1 0
=
e portanto a estatstica teste a usar pode ser,
2 n
H Sob
1
t
S
0
0
1
~
.
25
Os resultados descritos podem ser convenientemente resumidos na
tabela da ANOVA seguinte:
Fonte de
variao
Soma dos
Quadrados
Graus de
Liberdade
Quadrados
Mdios
Razo F
Devido
Regresso
SSR= ( )
=
n
1 i
2
i
y y
k
k
SSR
Devido aos
resduos
SSE= ( )
=
n
1 i
2
i i
y y
n-k-1
1 k n
SSE
=
2
S
2
S
k SSR
F =
Total
SST= ( )
=
n
1 i
2
i
y y
n-1