Slides RLM

II.2.
A Regresso Linear Mltipla

Por vezes, necessrio mais do que uma varivel preditora para
modelar a varivel resposta de interesse.
Exemplo: Num estudo sobre uma populao experimental de clones
da casta Tinta Francisca, realizado no Tabuao em 2003, foram
medidos os valores das seguintes variveis para 24 videiras:
teor de antocianas (varivel antoci, em mg/dm3 );
fenis totais (varivel fentot);
pH (varivel pH).
H interesse em estudar a relao entre o teor de antocianas (varivel
resposta) e o teor de fenis totais e pH.
As n = 24 observaes em trs variveis descrevem agora uma
nuvem de 24 pontos em R3 .
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
166 / 446
A nuvem de pontos - uma perspectiva

Neste ngulo de viso, a nuvem de pontos em R3 nada tem de
especial.
J. Cadima (ISA)
2012-13
167 / 446
A nuvem de pontos - outra perspectiva

Noutro ngulo de viso percebe-se que os pontos se dispersam
aproximadamente em torno de um plano.
J. Cadima (ISA)
2012-13
168 / 446
Plano em R3
Qualquer plano em R3 , no sistema x0y0z, tem equao
Ax + By + Cz + D = 0 .
No nosso contexto, e colocando:
no eixo vertical (z) a varivel resposta Y ;
noutro eixo (x) um preditor X1 ;
no terceiro eixo (y) o outro preditor X2 ,
A equao fica
B
D A
x1 x2
C C
C
y = 0 + 1 x1 + 2 x2
Ax1 + Bx2 + Cy + D = 0 y =
Esta equao generaliza a equao da recta, para o caso de haver

dois preditores.
J. Cadima (ISA)
2012-13
169 / 446
Regresso Mltipla - representao grfica (p = 2)

y
11111111111111111111111
00000000000000000000000
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
Y = 0 + 1 x1 + 2 x2
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
x1
00000000000000000000000
11111111111111111111111
x2
Y = 0 + 1 x1 + 2 x2 a equao dum plano em R3 (x1 0x2 0y).

J. Cadima (ISA)
2012-13
170 / 446
O caso geral: p preditores

Admita-se agora que se pretende modelar uma varivel aleatria
resposta, Y , com base em p variveis preditoras, x1 , x2 , ..., xp .
Uma generalizao da equao de regresso linear simples admite
que os valores de Y oscilam em torno duma combinao linear (afim)
das p variveis preditoras:
Y = 0 + 1 x1 + 2 x2 + ... + p xp .
Tal como no caso da Regresso Linear Simples,
vamos admitir
que

n
dispomos de n conjuntos de observaes, x1(i) , x2(i) , ...xp(i) , yi i=1 ,
para estudar a relao entre a Y e p as variveis preditoras.
A representao grfica da nuvem de n pontos observados exige p + 1
eixos: um para Y e um para cada um dos p preditores.
J. Cadima (ISA)
2012-13
171 / 446
As dificuldades na representao grfica

Para p > 2, seriam necessrios mais de trs eixos e a visualizao
torna-se impossvel.
As caractersticas fundamentais dessas representaes seriam:
Existem p + 1 eixos um para cada varivel em questo.
Existem n pontos um para cada indivduo (unidade
experimental) observado.
Tem-se uma nuvem de n pontos num espao (p + 1)-dimensional.
Na regresso linear mltipla admite-se que os pontos se dispem em
torno de um hiperplano em Rp+1 , de equao
y = 0 + 1 x1 + 2 x2 + ... + p xp .
J. Cadima (ISA)
2012-13
172 / 446
Visualizaes parciais da nuvem de pontos

A impossibilidade de visualizar as nuvens de n pontos em Rp+1
sugere a considerao de vises parciais, como sejam as nuvens de
pontos definidas por cada par de variveis, que so as projeces
ortogonais da nuvem em cada plano coordenado de Rp+1 .
E.g., para as n = 150 observaes de lrios em 4 variveis:
0.5 1.0 1.5 2.0 2.5
6.5
7.5
2.0 2.5 3.0 3.5 4.0
2.0 2.5 3.0 3.5 4.0
4.5
5.5
Sepal.Length
Sepal.Width
0.5 1.0 1.5 2.0 2.5
Petal.Length
Petal.Width
4.5
J. Cadima (ISA)
5.5
6.5
7.5
2012-13
173 / 446
Advertncia
A projeco da nuvem de n pontos nos planos coordenados no

uma soluo ideal. Em particular, no permite verificar a hiptese
bsica de linearidade, isto , a hiptese de que os pontos se
dispersam em torno de um hiperplano.
Tal hiptese pode ser vlida, mesmo que no se verifique linearidade
em qualquer das nuvens de pontos de y vs. um preditor individual, xj .
J. Cadima (ISA)
2012-13
174 / 446
Outra representao grfica

A representao grfica de n observaes de Y e das variveis
preditoras atrs considerada no a nica possvel.
O vector de n observaes de Y define n coordenadas em Rn :
y = (y1 , y2 , y3 , ..., yn ) .
Da mesma forma, cada vector das n observaes duma varivel
preditora define n coordenadas em Rn .
xj = (xj(1) , xj(2) , xj(3) , ..., xj(n) )
(j = 1, 2, ..., p).
Podemos representar estas variveis por vectores em Rn .
J. Cadima (ISA)
2012-13
175 / 446
A representao grfica em Rn
cada eixo corresponde a um indivduo observado;
cada vector corresponde a uma varivel.
O vector de n uns, representado por 1n , tambm til.
x1
Rn
Ind. 1
1n
y
x2
Ind. 2
x3
Ind. 3
...
Ind n
J. Cadima (ISA)
Ind. 4
2012-13
176 / 446
Vantagens da representao grfica alternativa

As n equaes (uma para cada observao) relacionando linearmente
Y e os preditores correspondem a uma combinao linear dos
vectores 1n , x1 , x2 , ..., xp :
0 1n + 1 x1 + 2 x2 + ... + p xp
J. Cadima (ISA)
1
1
1
..
.
1
+ 1
x1(1)
x1(2)
x1(3)
..
.
x1(n)
+ ... + p
xp(1)
xp(2)
xp(3)
..
.
xp(n)
0 + 1 x1(1) + 2 x2(1) + ... + p xp(1)

0 + 1 x1(2) + 2 x2(2) + ... + p xp(2)
0 + 1 x1(3) + 2 x2(3) + ... + p xp(3)
...
0 + 1 x1(n) + 2 x2(n) + ... + p xp(n)
2012-13
177 / 446
Vantagens da representao alternativa (cont.)

A representao grfica alternativa sugere a forma de estimar os p + 1
parmetros do modelo, 0 , 1 , ..., p . Note-se que:
Qualquer estimativa dos parmetros j do modelo,
b = (b0 , b1 , b2 , ..., bp ), tambm define uma combinao linear dos
vectores 1n , x1 , ..., xp : b0 1n + b1 x1 + b2 x2 + ... + bp xp , .
O conjunto de todas as combinaes lineares o subespao
gerado pelos p+1 vectores 1n , x1 , ..., xp . um subespao de
dimenso p + 1 (se os vectores forem linearmente
independentes).
Colocando os vectores 1n , x1 , ..., xp nas colunas duma matriz X
(de dimenses n (p + 1)) podemos chamar a este subespao o
subespao das colunas da matriz X, C (X) Rn .
J. Cadima (ISA)
2012-13
178 / 446
O produto matricial Xb
O produto duma matrix X por um vector b uma combinao linear
das colunas de X:
Xb
J. Cadima (ISA)
1
1
1
..
.
1
x1(1)
x1(2)
x1(3)
..
.
x1(n)
x2(1)
x2(2)
x2(3)
..
.
x2(n)
..
.
xp(1)
xp(2)
xp(3)
..
.
xp(n)
b0
b1
b2
..
.
bp
b0 + b1 x1(1) + b2 x2(1) + ... + bp xp(1)

b0 + b1 x1(2) + b2 x2(2) + ... + bp xp(2)
b0 + b1 x1(3) + b2 x2(3) + ... + bp xp(3)
...
b0 + b1 x1(n) + b2 x2(n) + ... + bp xp(n)
b0 1n + b1 x1 + b2 x2 + ... + bp xp
2012-13
179 / 446
A caminho da estimao dos parmetros
Cada escolha possvel de coeficientes b = (b0 , b1 , b2 , ..., bp )

corresponde a um ponto/vector nesse subespao.
Essa escolha de coeficientes nica caso as colunas de X sejam
linearmente independentes, isto , se no houver
multicolinearidade entre as variveis x1 , ..., xp , 1n .
Um dos pontos/vectores do subespao a combinao linear
dada pelo vector de coeficientes = (0 , 1 , ..., p ).
a combinao linear que desejamos estimar.
Como estimar esse ponto/vector?
J. Cadima (ISA)
2012-13
180 / 446
A caminho da estimao (cont.)
Dispomos de um vector de n observaes de y que est em Rn

mas, em geral, no est no subespao C (X).
Queremos aproximar esse vector por outro vector,
= b0 1n + b1 x1 + ... + bp xp , que est no subespao C (X).
y
do
Vamos aproximar o vector de observaes y pelo vector y
subespao C (X) que est mais prximo de y.
= Hy.
SOLUO: Tomar a projeco ortogonal de y sobre C (X) : y
J. Cadima (ISA)
2012-13
181 / 446
O conceito geomtrico subjacente estimao de

Rn
= Hy
y
C (X)
O vector de C (X) Rn mais prximo dum vector y Rn o vector y

que resulta de projectar ortogonalmente y sobre C (X).
J. Cadima (ISA)
2012-13
182 / 446
O critrio minimiza SQRE
de tal maneira a minimizar a distncia ao

O critrio de escolher y
vector de observaes y significa que minimizamos o quadrado dessa
distncia, que dado por:
k2 =
ky y
(yi yi )2 ,
i=1
ou seja, que minimizamos a soma de quadrados dos resduos.

Trata-se do critrio que foi usado na Regresso Linear Simples.
J. Cadima (ISA)
2012-13
183 / 446
O conceito geomtrico subjacente estimao de

Rn
k
SQRE = ky y
= Hy
y
C (X)
SQRE , a soma dos quadrados
O quadrado da distncia de y a y
dos resduos.
J. Cadima (ISA)
2012-13
184 / 446
A projeco ortogonal
A projeco ortogonal de um vector y Rn sobre o subespao C (X)
gerado pelas colunas (linearmente independentes) de X faz-se
pr-multiplicando y pela matriz de projeco ortogonal sobre C (X):
H = X Xt X
Logo, temos:
1
Xt .
= Hy
y
= X (Xt X)1 Xt y
y
|
{z
}
=b
A combinao linear dos vectores 1n , x1 , ..., xp que gera o vector mais

prximo de y tem coeficientes dados pelos elementos do vector b:
Estimativas dos parmetros

b = (Xt X)1 Xt y .
J. Cadima (ISA)
2012-13
185 / 446
As trs Somas de Quadrados

Na Regresso Linear Mltipla definem-se trs Somas de Quadrados,
de forma idntica ao que se fez na Regresso Linear Simples:
SQRE A Soma de Quadrados dos Resduos j foi definida:
n
SQRE =
(yi yi )2 .
i=1
SQT A Soma de Quadrados Total:

n
SQT =
(yi y)2
i=1
yi2 ny 2 .
i=1
SQR A Soma de Quadrados associada Regresso:

n
SQR =
(yi y)2 =
i=1
J. Cadima (ISA)
yi2 ny 2 .
i=1
2012-13
186 / 446
Pitgoras e a Regresso
O Teorema de Pitgoras aplica-se em qualquer espao euclideano Rn .
Aplicado ao tringulo rectngulo do acetato 184 produz a seguinte
relao:
k2 + ky y
k2
kyk2 = ky
n
yi2
i=1
yi2 ny 2 =
i=1
SQT
J. Cadima (ISA)
i=1
i=1
yi2 + (yi yi )2
n
{z
= SQRE
yi2 ny 2 + SQRE
i=1
= SQR + SQRE
2012-13
187 / 446
Revisitando Pitgoras
Vimos que a relao fundamental da Regresso Linear
(SQT = SQR + SQRE ) resulta duma aplicao do Teorema de
Pitgoras. Mas foi necessrio introduzir a subtraco de ny 2 .
Um outro tringulo rectngulo estatisticamente mais interessante.
Considere-se o vector centrado das observaes da varivel resposta,
isto , o vector cujo elemento genrico yi y. Este vector, que ser
designado yc , obtm-se subtrando a y o vector que repete n vezes y :
yc = y (y) 1n = (y1 y, y2 y, ..., yn y).
A norma deste vector
J. Cadima (ISA)
SQT =
kyc k
(yi y)2 .
i=1
2012-13
188 / 446
Revisitando Pitgoras (cont.)

A projeco ortogonal do vector yc sobre o subespao C (X) gera o
vector:
Hyc = H (y (y) 1n )
Hyc = Hy (y) H1n
(y) 1n
Hyc = y
j que H1n = 1n , pois o vector 1n j pertence ao subespao C (X),

logo fica invariante quando projectado nesse mesmo subespao.
O vector Hyc tem elemento genrico yi y, e a sua norma
s
n
SQR = kHyc k = (yi y)2 .

i=1
J. Cadima (ISA)
2012-13
189 / 446
Revisitando Pitgoras (cont.)

Rn
yc
SQT = kyc k
SQRE = kyc Hyc k = ky Hyk

Hyc
C (X)
SQR = kHyc k
A frmula fundamental da Regresso Linear, SQT = SQR + SQRE ,

uma aplicao do Teorema de Pitgoras.
J. Cadima (ISA)
2012-13
190 / 446
Pitgoras e o Coeficiente de Determinao
O acetato 190 torna evidente outra relao importante entre a

geometria e a estatstica da Regresso Linear: o cosseno ao
quadrado do ngulo entre o vector centrado das observaes da
varivel resposta, yc , e a sua projeco ortogonal sobre o subespao
C (X) gerado pelas variveis preditoras, o Coeficiente de
Determinao associado regresso:
cos2 ( ) =
SQR
= R2 ,
SQT
onde o ngulo entre os vectores yc e Hyc .
J. Cadima (ISA)
2012-13
191 / 446
Pitgoras e o Coeficiente de Determinao (cont.)

Rn
yc
SQT = kyc k
SQRE = ky Hyk
Hyc
C (X)
SQR = kHyc k
O Coeficiente de Determinao na Regresso Linear, R 2 =

o cosseno ao quadrado do ngulo entre yc e Hyc .
J. Cadima (ISA)
SQR
SQT ,
2012-13
192 / 446
Propriedades do Coeficiente de Determinao
A abordagem geomtrica confirma que, tambm na Regresso Linear

Mltipla, so vlidas as propriedades (j conhecidas da Regresso
Linear Simples) do Coeficiente de Determinao:
R 2 toma valores entre 0 e 1.
Quanto mais prximo de 1 estiver R 2 , menor o ngulo , e
portanto melhor ser a correspondncia entre o vector (centrado)
das observaes, yc e o seu ajustamento em C (X).
Se R 2 0, o vector yc quase perpendicular ao subespao C (X)
onde se pretende aproxim-lo, e o resultado ser de m
qualidade.
J. Cadima (ISA)
2012-13
193 / 446
A Regresso Mltipla no
Uma Regresso Mltipla no
estuda-se atravs do mesmo
comando lm usado para a regresso linear simples. A indicao de
qual a varivel resposta y e quais as variveis preditoras x1 , ..., xp
faz-se atravs do argumento formula.
Por exemplo, se a varivel resposta se chama y e existirem trs
variveis de nomes x1, x2 e x3, a frmula que indica a relao ser:
y
x1 + x2 + x3
Assim, o comando para pedir uma regresso linear da varivel y

sobre as variveis x1, x2, x3 ser:
> lm ( y x1 + x2 + x3 , data=dados)
O resultado produzido por este comando ser o vector das estimativas
dos p + 1 parmetros do modelo, 0 , 1 , ..., p .
J. Cadima (ISA)
2012-13
194 / 446
O contexto inferencial
At aqui, apenas se considerou o problema descritivo:
dados n conjuntos de observaes {(x1(i) , x2(i) , ..., xp(i) , y(i) )}ni=1 ,
determinar os p + 1 coeficientes b = (b0 , b1 , b2 , ..., bp ) que
minimizam a soma de quadrados de resduos
n
SQRE =
(yi yi )2
i=1
[yi (b0 + b1x1(i) + b2x2(i) + ... + bp xp(i) )]2
i=1
SQRE minimo se
b = Xt X
1
Xt y.
Mas, tal como na Regresso Linear Simples, coloca-se o problema

inferencial: as n observaes representam uma amostra aleatria de
uma populao mais vasta. a relao populacional entre Y e as p
variveis preditoras que se pretende conhecer. Para esse fim, ser
necessrio admitir alguns pressupostos adicionais.
J. Cadima (ISA)
2012-13
195 / 446
A modelao da varivel resposta

Na Regresso Linear Mltipla admite-se que as n observaes da
varivel resposta Y so aleatrias e podem ser modeladas como
Yi = 0 + 1 x1(i) + 2 x2(i) + ... + p xp(i) + i ,
i = 1, ..., n
o que corresponde a escrever n equaes:

Y1 = 0 + 1 x1(1) + 2 x2(1) + + p xp(1)
Y2 = 0 + 1 x1(2) + 2 x2(2) + + p xp(2)
Y3 = 0 + 1 x1(3) + 2 x2(3) + + p xp(3)
..
..
..
.
.
.
Yn = 0 + 1 x1(n) + 2 x2(n) + + p xp(n)
J. Cadima (ISA)
+ 1
+ 2
+ 3
.. ..
. .
+ n
2012-13
196 / 446
A notao matricial
As n equaes correspondem a uma nica equao matricial:

Y = X + ,
onde
Y=
Y1
Y2
Y3
..
.
Yn
X=
J. Cadima (ISA)
1
1
1
..
.
1
x1(1)
x1(2)
x1(3)
..
.
x1(n)
x2(1)
x2(2)
x2(3)
..
.
x2(n)
..
.
xp(1)
xp(2)
xp(3)
..
.
xp(n)
, = 2 , =
..
2012-13
1
2
3
..
.
197 / 446
A notao matricial (cont.)
Na equao matricial Y = X + , tem-se:

Y o vector aleatrio das n variveis aleatrias resposta;
X a matriz do modelo (no aleatria) de dimenses
n (p + 1) cujas colunas so dadas pelas observaes
de cada varivel preditora (e por uma coluna de uns,
associada a constante aditiva do modelo);
o vector (no aleatrio) de p + 1 parmetros do modelo;
o vector aleatrio dos n erros aleatrios.

Representa-se um vector de n observaes de Y por y.
J. Cadima (ISA)
2012-13
198 / 446
O Modelo da Regresso Linear Mltipla

Vamos admitir que as n observaes de Y so dadas por variveis
aleatrias Yi e que os n conjuntos de observaes
{(x1(i) , x2(i) , ..., xp(i) , Y(i) )}ni=1 verificam as seguintes condies.
Definio (O Modelo da Regresso Linear Mltipla - RLM)

1
2
3
Yi = 0 + 1 x1(i) + 2 x2(i) + ... + p xp(i) + i ,
i N (0 , 2 ), i = 1, ..., n.
{i }ni=1 v.a. independentes.
i = 1, ..., n.
J vimos que possvel escrever a relao de base deste modelo em

notao matricial, Y = X + .
Mas precisamos de alguns conceitos adicionais.
J. Cadima (ISA)
2012-13
199 / 446
Ferramentas para vectores aleatrios

O conjunto das n observaes de Y, tal como o conjunto dos n erros
aleatrios, constituem vectores aleatrios.
Para qualquer vector aleatrio W = (W1 , W2 , ..., Wk ), define-se:
O vector esperado de W, constitudo pelos valores esperados de
cada componente:
E [W1 ]
E [W2 ]
E [W] =
.
..
.
E [Wk ]
Se W fr uma matriz aleatria, tambm se define E [W] como a matriz

do valor esperado de cada elemento.
J. Cadima (ISA)
2012-13
200 / 446
Ferramentas para vectores aleatrios (cont.)

a matriz de varincias-covarincias de W constituda pelas
(co)varincias de cada par de componentes:
V [W1 ]
C[W2 , W1 ]
V [W] = C[W3 , W1 ]
..
C[Wk , W1 ]
J. Cadima (ISA)
C[W1 , W2 ]
C[W1 , W3 ]
...
V [W2 ]
C[W2 , W3 ]
...
C[W3 , W2 ]
V [W3 ]
...
..
.
..
.
..
C[Wk , W2 ]
C[Wk , W3 ]
...
C[W1 , Wk ]
C[W2 , Wk ]
C[W3 , Wk ]
..
V [Wk ]
2012-13
201 / 446
Propriedades do vector esperado

Tal como para o caso de variveis aleatrias, tambm o vector
esperado de um vector aleatrio Wk 1 tem propriedades simples:
Se b um escalar no aleatrio, E [bW] = b E [W].
Se ak 1 um vector no aleatrio, E [W + a] = E [W] + a.
Se Bmk uma matriz no aleatria, E [BW] = B E [W].
Tambm o vector esperado da soma de dois vectors aleatrios tem

uma propriedade operatria simples:
Se Wk 1 , Uk 1 so vectores aleatrios, E [W + U] = E [W] + E [U].
J. Cadima (ISA)
2012-13
202 / 446
Propriedades da matriz de (co)varincias
Se b um escalar no aleatrio, V [bW] = b 2 V [W].

Se ak 1 um vector no aleatrio, V [W + a] = V [W].
Se Bmk uma matriz no aleatria, V [BW] = B V [W] Bt .

A matriz de varincias-covarincias da soma de dois vectors
aleatrios tem uma propriedade operatria simples se os vectores
aleatrios forem independentes:
Se Wk 1 e Uk 1 forem vectores aleatrios independentes,
V [W + U] = V [W] + V [U].
J. Cadima (ISA)
2012-13
203 / 446
A distribuio Normal Multivariada

Vectores aleatrios tm tambm distribuies (multivariadas) de
probabilidades. A mais frequente distribuio multivariada para
vectores aleatrios a Multinormal:
Definio (Distribuio Normal Multivariada)

O vector aleatria n-dimensional W tem distribuio Multinormal, com
parmetros dados pelo vector e a matriz se a sua funo
densidade conjunta fr:
f (w) =
(2 )n/2
1
p
)
det(
1
1
t
e 2 (w ) (w )
w Rn .
(3)
).
Notao: W Nn ( ,
J. Cadima (ISA)
2012-13
204 / 446
A densidade Binormal (Multinormal com n = 2)
z
y
J. Cadima (ISA)
2012-13
205 / 446
Algumas propriedades da distribuio Multinormal

Teorema (Propriedades da Multinormal)
):
Se W Nk ( ,
1
O vector esperado de W E [W] = .
A matriz de (co)varincias de W V [W] = .
Se duas componentes de W tm covarincia nula, so

independentes: Cov(Wi , Wj ) = 0 Wi , Wj independentes.
5
6
Todas as distribuies marginais de W so (multi)normais.

Em particular, cada componente Wi normal com mdia i e
(i,i) ).
varincia (i,i) : Wi N (i ,
).
Se a um vector (no-aleatrio) k 1, ento W + a Nk ( + a,
Combinaes lineares das componentes dum vector multinormal

so Normais: at W = a1 W1 + a2 W2 + ... + ak Wk N (at , at a).
Se C matriz m k (no aleatria, de caracterstica m k),

Ct ).
ento CW Nm (C , C
J. Cadima (ISA)
2012-13
206 / 446
Modelo Regresso Linear Mltipla - verso matricial

Definio (O Modelo em notao matricial)
1
2
Y = X + .
Nn (0 , 2 In ).
Na segunda destas hipteses so feitas quatro afirmaes (tendo em

conta as propriedades da Multinormal, referidas no acetato 206):
Cada erro aleatrio individual i tem distribuio Normal.
Cada erro aleatrio individual tem mdia zero: E [i ] = 0.
Cada erro aleatrio individual tem varincia igual: V [i ] = 2 .
Erros aleatrios diferentes so independentes, porque
Cov[i , j ] = 0 se i 6= j e, numa Multinormal, isso implica a
independncia (acetato 206).
J. Cadima (ISA)
2012-13
207 / 446
A distribuio das observaes Y da varivel resposta

O seguinte Teorema consequncia directa do acetato (206).
Teorema (Primeiras Consequncias do Modelo)

Dado o Modelo de Regresso Linear Mltipla, tem-se:
Y Nn (X , 2 In ).
Tendo em conta as propriedades da Multinormal (acetato 206):
Cada observao individual Yi tem distribuio Normal.
Cada observao individual Yi tem mdia
E [Yi ] = 0 + 1 x1(i) + 2 x2(i) + ... + p xp(i) .
Cada observao individual tem varincia igual: V [Yi ] = 2 .
Observaes diferentes so independentes, porque
Cov[Yi , Yj ] = 0 se i 6= j e, numa Multinormal, isso implica a
independncia (acetato 206).
J. Cadima (ISA)
2012-13
208 / 446
O estimador dos parmetros do Modelo

Tal como na Regresso Linear Simples, os estimadores dos
parmetros i do modelo (i = 0, 1, 2, ..., p) so as expresses
resultantes de minimizar SQRE (acetato 185).
O vector que estima o vector dos parmetros populacionais :
Definio (Estimador dos parmetros populacionais)

1 t
XY,
= Xt X
onde X e Y so a matriz e o vector definidos no acetato 197.

O vector de dimenso p + 1. O seu primeiro elemento o
estimador de 0 , o seu segundo elemento o estimador de 1 , etc..
Em geral, o estimador de i est na posio i + 1 do vector .
J. Cadima (ISA)
2012-13
209 / 446
A distribuio do vector de estimadores

Teorema (Distribuio do estimador )
Np+1 ( , 2 (Xt X)1 ) .

Tendo em conta as propriedades da Multinormal (acetato 206):
E [ ] = e V [ ] = 2 (Xt X)1 .
Cada estimador individual j tem distribuio Normal.
Cada estimador individual tem mdia E [j ] = j (logo, centrado).
1
Cada estimador individual tem varincia V [j ] = 2 Xt X
.
(j+1,j+1)
(Note-se o desfasamento nos ndices resultantes de a contagem

dos s comear em 0).
Estimadores individuais diferentes no so (em geral)
independentes, porque a matriz (Xt X)1 no , em geral, uma
1
matriz diagonal. Cov[i , j ] = 2 Xt X (i+1,j+1) .
J. Cadima (ISA)
2012-13
210 / 446
A distribuio dum estimador individual
Como se viu no acetato anterior, tem-se, j = 0, 1, ..., p:
onde =
j
j j
j , 2 (Xt X)1
(j+1,j+1)
N (0, 1) ,
2 (Xt X)1
(j+1,j+1) .
Este resultado generaliza os relativos Regresso Linear Simples.
J. Cadima (ISA)
2012-13
211 / 446
O problema de 2 desconhecido
O resultado distribucional indicado no acetato anterior permitiria

construir intervalos de confiana ou fazer testes a hipteses sobre os
parmetros , no fosse a existncia de um problema j familiar: o
desconhecimento da varincia 2 dos erros aleatrios.
Procedemos de forma anloga ao que se fez na Regresso Linear
Simples:
obter um estimador para 2 ; e
ver o que acontece distribuio dos estimadores , quando 2
substitudo pelo seu estimador.
J. Cadima (ISA)
2012-13
212 / 446
SQRE na Regresso Mltipla

Teorema (Resultados distribucionais de SQRE)
Dado o Modelo de Regresso Linear Mltipla (RLM), tem-se:
SQRE
2
2
n(p+1)
SQRE independente de .
NOTA: Omite-se a demonstrao
Corolrio
Dado o Modelo de RLM,
J. Cadima (ISA)
SQRE
n(p+1)
= 2.
2012-13
213 / 446
O Quadrado Mdio Residual na Regresso Mltipla

Definio (Quadrado Mdio Residual)
Define-se o Quadrado Mdio Residual (QMRE ) numa Regresso
Linear Mltipla como
QMRE =
SQRE
n (p + 1)
O QMRE habitualmente usado na Regresso como estimador

da varincia dos erros aleatrios, isto , toma-se
2 = QMRE .
Como se viu no acetato anterior, QMRE um estimador centrado.
J. Cadima (ISA)
2012-13
214 / 446
Revisitando o estimador de j
Vimos (acetato 211) que cada estimador j verifica:
Z = q
j j
2 (Xt X)1
(j+1,j+1)
N (0, 1) .
Temos ainda:
W =
SQRE
2
n(p+1)
2
Z , W v.a. independentes .
Logo (ver tambm o acetato 110):

Z
p
W /(n (p + 1))
J. Cadima (ISA)
= q
j j
QMRE (Xt X)1

(j+1,j+1)
tn(p+1) .
2012-13
215 / 446
Quantidades centrais para a inferncia sobre j

Teorema (Distribuies para a inferncia sobre j (j = 0, 1, ..., p))
Dado o Modelo de Regresso Linear Mltipla, tem-se
j j
tn(p+1) ,
q
com = QMRE (Xt X)1
(j +1,j +1) .
j
Este Teorema d-nos os resultados que servem de base construo

de intervalos de confiana e testes de hipteses para os parmetros
j do modelo populacional.
J. Cadima (ISA)
2012-13
216 / 446
Intervalo de confiana para j

Teorema (Intervalo de Confiana a (1 ) 100% para j )
Dado o Modelo de Regresso Linear Mltipla, um intervalo a
(1 ) 100% de confiana para o parmetro j do modelo :
h
i
bj t /2 [n(p+1)] , bj + t /2 [n(p+1)]
,
j
q
com = QMRE (Xt X)1
(j +1,j +1) , e sendo t /2[n(p+1)] o valor que na
j
distribuio tn(p+1) deixa direita uma regio de probabilidade /2.

O valor bj o elemento do vector das estimativas b (acetato 185).
NOTA: A amplitude do IC aumenta com QMRE e o valor diagonal da
matriz (Xt X)1 associado ao parmetro j em questo.
J. Cadima (ISA)
2012-13
217 / 446
Intervalos de confiana para i no

A informao bsica para a construo de intervalos de confiana
, a partir das tabelas
para cada parmetro j obtm-se, no
produzidas ao aplicar a funo summary a uma regresso ajustada.
No exemplo dos lrios, pode pedir-se:
> iris2.lm<-lm(Petal.Width ~ Petal.Length + Sepal.Length + Sepal.Width
+
, data=iris)
> summary(iris2.lm)
obtendo-se, entre outros resultados:

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.24031
0.17837 -1.347
0.18
Petal.Length 0.52408
0.02449 21.399 < 2e-16 ***
Sepal.Length -0.20727
0.04751 -4.363 2.41e-05 ***
Sepal.Width
0.22283
0.04894
4.553 1.10e-05 ***
O hiperplano ajustado :
PW = 0.24031 + 0.52408 PL 0.20727 SL + 0.22283 SW
J. Cadima (ISA)
2012-13
218 / 446
Intervalos de confiana para j no
(cont.)
Alternativamente, possvel usar a funo confint no objecto

resultante de ajustar a regresso para obter os intervalos de confiana
para cada j individual:
> confint(iris2.lm)
2.5 %
97.5 %
(Intercept) -0.5928277 0.1122129
Petal.Length 0.4756798 0.5724865
Sepal.Length -0.3011547 -0.1133775
Sepal.Width
0.1261101 0.3195470
> confint(iris2.lm,level=0.99)
0.5 %
99.5 %
(Intercept) -0.70583864 0.22522386
Petal.Length 0.46016260 0.58800363
Sepal.Length -0.33125352 -0.08327863
Sepal.Width
0.09510404 0.35055304
J. Cadima (ISA)
2012-13
219 / 446
Testes de Hipteses sobre os parmetros

O mesmo resultado (acetato 216) usado para construir intervalos de
confiana serve para construir testes a hipteses para cada j
individual. Dado o Modelo de Regresso Linear Mltipla,
Testes de Hipteses a j (Regresso Linear Mltipla)

Hipteses: H0 :
j = c
Estatstica do Teste: T =
vs.
H1 :
<
j 6= c
>
=c
z}|{
j j |H0
tn(p+1)
Nvel de significncia do teste:
Regio Crtica (Regio de Rejeio): Rejeitar H0 se

(Unilateral esquerdo)
Tcalc < t [n(p+1)]
(Bilateral)
|Tcalc | > t /2[n(p+1)]
Tcalc > t [n(p+1)]
(Unilateral direito)
J. Cadima (ISA)
2012-13
220 / 446
Combinaes lineares dos parmetros

Seja a = (a0 , a1 , ..., ap )t um vector no aleatrio em Rp+1 . O produto
interno at define uma combinao linear dos parmetros do modelo:
at = a0 0 + a1 1 + a2 2 + ... + ap p .
Casos particulares importantes nas aplicaes so:
Se a tem um nico elemento no-nulo, na posio j + 1, at = j .
Se a tem apenas dois elementos no-nulos, 1 na posio i + 1 e
1 na posio j + 1, at = i j .
Se a = (1, x1 , x2 , ..., xp ), onde xj indica uma qualquer observao
da varivel preditora Xj , ento at representa o valor esperado de
Y associado aos valores indicados das variveis preditoras:
at
= 0 + 1 x1 + 2 x2 + ... + p xp
= E [Y | X1 = x1 , X2 = x2 , ..., Xp = xp ] .
J. Cadima (ISA)
2012-13
221 / 446
Inferncia sobre combinaes lineares dos j s

A multinormalidade do vector de estimadores implica a normalidade
de qualquer vector que seja combinao linear das suas componentes
(acetato 206, ponto 4 do Teorema). Mais concretamente,

Sabemos que N
, 2 (Xt X)1 (acetato 210);
p+1
Logo, at N ( at , 2 at (Xt X)1 a ) (acetato 206, ponto 4);

at at
2 at (Xt X)1 a
Ou seja, Z =
N (0, 1);
Por um raciocnio anlogo ao usado aquando dos s individuais,

tem-se ento
p
J. Cadima (ISA)
at at
QMRE at (Xt X)1 a
tn(p+1) .
2012-13
222 / 446
Quantidades centrais para a inferncia sobre at

Teorema (Distribuies para combinaes lineares dos s)
Dado o Modelo de Regresso Linear Mltipla, tem-se
at at
tn(p+1) ,
at
com at =
QMRE at (Xt X)1 a.
Este Teorema d-nos os resultados que servem de base construo

de intervalos de confiana e testes de hipteses para quaisquer
combinaes lineares dos parmetros j do modelo.
J. Cadima (ISA)
2012-13
223 / 446
Intervalo de confiana para at
Teorema (Intervalo de Confiana a (1 ) 100% para at )

Dado o Modelo de Regresso Linear Mltipla, um intervalo a
(1 ) 100% de confiana para a combinao linear dos
parmetros, at = a0 0 + a1 1 + ... + ap p , :
i
h
,
at b t /2 [n(p+1)] at , at b + t /2 [n(p+1)] at
com at =
p
QMRE at (Xt X)1 a
J. Cadima (ISA)
at b = a0 b0 + a1 b1 + ... + ap bp .
2012-13
224 / 446
Testes de Hipteses sobre os parmetros

Dado o Modelo de Regresso Linear Mltipla,
Testes de Hipteses a at (Regresso Linear Mltipla)

Hipteses: H0 :
at = c
Estatstica do Teste: T =
vs.
H1 :
<
at 6= c
>
=c
z }| {
at at |H0
at
tn(p+1)
Regio Crtica (Regio de Rejeio): Rejeitar H0 se

Tcalc < t [n(p+1)]
(Unilateral esquerdo)
(Bilateral)
|Tcalc | > t /2[n(p+1)]
Tcalc > t [n(p+1)]
(Unilateral direito)
J. Cadima (ISA)
2012-13
225 / 446
De novo os casos particulares

No acetato (221) viram-se trs casos particulares importantes de
combinaes lineares dos parmetros.
No caso de at = j , os intervalos e testes acabados de ver so
idnticos aos dados nos acetatos (217) e (220).
No caso de at = j j , tem-se at = , com:
i
j
q
q
i , j ]
[j ] 2 Cov[
[i j ] =
[i ] + V
= V
V
i
j
q

QMRE (Xt X)1
+(Xt X)1
2(Xt X)1
=
(i+1,i+1)
(j+1,j+1)
(i+1,j+1)
No caso de a conter os valores das variveis preditoras usados
na i-sima observao, a ser a linha i da matrix X. Nesse caso,
q
p
at = QMRE at (Xt X)1 a = QMRE hii ,
onde hii indica o i-simo elemento diagonal da matriz de
projeces ortogonal H = X(Xt X)1 Xt .
J. Cadima (ISA)
2012-13
226 / 446
ICs para combinaes lineares no
Para construir um intervalo de confiana para at , ser necessrio

conhecer a matriz (Xt X)1 , ou a matriz das (co)varincias estimadas
[ ] = QMRE (Xt X)1 .
dos estimadores , V
, esta ltima matriz obtm-se atravs da funo vcov.
No
E.g., a matriz das (co)varincias estimadas no exemplo dos lrios :

> vcov(iris2.lm)
(Intercept) Petal.Length Sepal.Length Sepal.Width
(Intercept)
0.031815766 0.0015144174 -0.005075942 -0.002486105
Petal.Length 0.001514417 0.0005998259 -0.001065046 0.000802941
Sepal.Length -0.005075942 -0.0010650465 0.002256837 -0.001344002
Sepal.Width -0.002486105 0.0008029410 -0.001344002 0.002394932
O erro padro estimado de 2 + 3 :
2 +3
p
0.002256837 + 0.002394932 + 2(0.001344002) = 0.04431439 .
J. Cadima (ISA)
2012-13
227 / 446
Intervalos de confiana para E[Y ] no

Se a combinao linear dos s que se deseja corresponde ao valor
esperado de Y , dado um conjunto de valores X1 = x1 , ..., Xp = xp das
variveis preditoras, possvel obter o intervalo de confiana referido
no acetato 224 atravs do comando predict, tal como na RLS.
No exemplo dos lrios, um IC a 95% para a largura esperada de
ptalas de flores com Petal.Length=2, Sepal.Length=5 e
Sepal.Width=3.1 pedido assim:
> predict(iris2.lm, data.frame(Petal.Length=c(2), Sepal.Length=c(5),
+
Sepal.Width=c(3.1)), int="conf")
fit
lwr
upr
[1,] 0.462297 0.4169203 0.5076736
O IC para E [Y |X1 = 2, X2 = 5, X3 = 3.1] :

J. Cadima (ISA)
] 0.4169 , 0.5077 [.
2012-13
228 / 446
Intervalos de predio para Y no

Podem tambm obter-se, de forma anloga ao que foi visto na RLS,
intervalos de predio para uma observao individual de Y ,
associada aos valores X1 = x1 , ..., Xp = xp das variveis preditoras.
Estes intervalos diferem dos anteriores pelo facto de a estimativa da
varincia associada a uma observao individual de Y ser acrescida
em QMRE unidades.
No
, possvel obter o intervalo de predio atravs do comando
predict, tal como na RLS.
> predict(iris2.lm, data.frame(Petal.Length=c(2), Sepal.Length=c(5),
+
Sepal.Width=c(3.1)), int="pred")
fit
lwr
upr
[1,] 0.462297 0.08019972 0.8443942
O intervalo de predio pedido : ] 0.0802 , 0.8444 [.

J. Cadima (ISA)
2012-13
229 / 446
Avaliando a qualidade do ajustamento global

Numa Regresso Linear Simples, se 1 = 0, a equao do modelo
apenas Y = 0 + . Neste caso, o conhecimento do preditor X em
nada contribui para o conhecimento de Y (o modelo intil para
prever Y ).
Numa Regresso Linear Mltipla, o modelo intil se Yi = 0 + i , i.e.,
se todas as variveis preditoras tm coeficiente nulo.
Assim, as hipteses que queremos confrontar so:
H0 : 1 = 2 = ... = p = 0
[MODELO INTIL]
vs.
H1 : j = 1, ..., p t.q. j 6= 0
[MODELO NO INTIL]
NOTA: repare que 0 no intervm nas hipteses.
J. Cadima (ISA)
2012-13
230 / 446
Distribuio associada a SQR
De novo, o ponto de partida para uma estatstica de teste ser a Soma

n
i Y )2 .
de Quadrados associada Regresso, SQR = (Y
i=1
Tem-se (sem demonstrao):
Teorema
SQR
2
p2 ,
se 1 = 2 = ... = p = 0.
SQR e SQRE so variveis aleatrias independentes.
J. Cadima (ISA)
2012-13
231 / 446
A estatstica do teste de ajustamento global
Temos (veja tambm o acetato 138), se j = 0 , i = 1 : p
W = SQR
QMR
W /p
SQRE
2
=
Fp,n(p+1) .
V = 2 n(p+1)
V /n(p+1)
QMRE
W , V independentes
sendo QMR = SQR/p e QMRE = SQRE /[n (p + 1)].
J. Cadima (ISA)
2012-13
232 / 446
O Teste F de ajustamento global do Modelo

Sendo vlido o Modelo RLM, pode efectuar-se o seguinte
Teste F de ajustamento global do modelo RLM

1 = 2 = ... = p = 0
vs.
6 0.
j = 1, ..., p tal que j =
H0 :
Hipteses:
H1 :
Estatstica do Teste: F =
QMR
QMRE
Fp,n(p+1)
se H0 .
0.4
0.3
0.0
0.1
0.2
Rejeitar H0 se Fcalc > f [p,n(p+1)]
df(x, 4, 16)
0.5
0.6
0.7
Regio Crtica (Regio de Rejeio): Unilateral direita
J. Cadima (ISA)
2012-13
233 / 446
Expresso alternativa para a estatstica do teste F

A estatstica do teste F de ajustamento global do modelo numa
Regresso Linear Mltipla pode ser escrita na forma alternativa:
F =
R2
n (p + 1)
.
p
1 R2
Tal como na Regresso Linear Simples, a estatstica F uma

funo crescente do Coeficiente de Determinao, R 2 .
As hipteses do teste tambm se podem escrever como
H0 : R 2 = 0
vs.
H1 : R 2 > 0 .
A hiptese H0 : R 2 = 0 indica ausncia de relao linear entre Y e o

conjunto dos preditores. Corresponde a um ajustamento pssimo do
modelo. A sua rejeio no garante um bom ajustamento.
J. Cadima (ISA)
2012-13
234 / 446
Outra formulao do Teste F de ajustamento global

na RLM
Teste F de ajustamento global do modelo RLM (alternativa)
Hipteses: H0 :
R 2 = 0 vs.
Estatstica do Teste: F =
n(p+1)
p
H1 :
R 2 > 0.
R
1R
2 F(p,n(p+1))
se H0 .

Rejeitar H0 se Fcalc > f (p,n(p+1))
A estatstica F uma funo crescente do coeficiente de
determinao amostral, R 2 .
A hiptese nula H0 : R 2 = 0 afirma que, na populao, o
coeficiente de determinao nulo.
J. Cadima (ISA)
2012-13
235 / 446
O Quadro-resumo do ajustamento global
Frequentemente, sintetiza-se a informao usada num teste de

ajustamento global num quadro-resumo da regresso:
Fonte
g.l.
SQ
QM
fcalc
Regresso
ni=1 (yi y )2
SQR
p
QMR
QMRE
Resduos
n (p + 1)
ni=1 (yi yi )2
SQRE
np1
n1
ni=1 (yi y )2
Total
J. Cadima (ISA)
2012-13
236 / 446
O princpio da parcimnia na RLM
Recordemos o princpio da parcimnia na modelao: queremos um

modelo que descreva adequadamente a relao entre as variveis,
mas que seja o mais simples (parcimonioso) possvel.
Caso se disponha de um modelo de Regresso Linear Mltipla com
um ajustamento considerado adequado, a aplicao deste princpio
traduz-se em saber se ser possvel obter um modelo com menos
variveis preditoras, sem perder significativamente em termos de
qualidade de ajustamento.
J. Cadima (ISA)
2012-13
237 / 446
Modelo e Submodelos
Se dispomos de um modelo de Regresso Linear Mltipla, com
relao de base
Y = 0 + 1 x1 + 2 x2 + 3 x3 + 4 x4 + 5 x5 ,
chamamos submodelo a um modelo de regresso linear mltipla
contendo apenas algumas das variveis preditoras, e.g.,
Y = 0
+ 2 x2
+ 5 x5 ,
Podemos identificar o submodelo pelo conjunto S das variveis

preditoras que pertencem ao submodelo. No exemplo, S = {2, 5}.
O modelo e o submodelo so idnticos se j = 0 para qualquer
varivel xj cujo ndice no pertena a S .
J. Cadima (ISA)
2012-13
238 / 446
Comparando modelo e submodelos

Para avaliar se um dado modelo difere significativamente dum seu
submodelo (identificado pelo conjunto S dos ndices das suas
variveis), precisamos de optar entre as hipteses:
H 0 : j = 0 ,
j
/S
[SUBMODELO OK]
vs.
H1 : j
/S
tal que j 6= 0.
[SUBMODELO PIOR]
NOTA: Esta discusso s envolve coeficientes j de variveis

preditoras. O coeficiente 0 faz sempre parte dos submodelos.
Este coeficiente 0 no relevante do ponto de vista da parcimnia: a
sua presena no implica trabalho adicional de recolha de dados, nem
de interpretao do modelo.
J. Cadima (ISA)
2012-13
239 / 446
Uma estatstica de teste para a comparao

modelo/submodelo
A estatstica de teste envolve a comparao das Somas de
Quadrados Residuais do:
modelo completo (referenciado pelo ndice C); e do
submodelo (referenciado pelo ndice S)
Vamos admitir que o submodelo tem k preditores (k + 1 parmetros):
F =
(SQRES SQREC )/(p k)

SQREC /[n (p + 1)]
Fpk ,n(p+1) ,
caso j = 0, para todas as variveis xj que no pertenam ao

submodelo.
J. Cadima (ISA)
2012-13
240 / 446
O teste a um submodelo (teste F parcial)

Teste F de comparao dum modelo com um seu submodelo
Hipteses:
H 0 : j = 0 ,
j
/S
vs. H1 : j
/S
Estatstica do Teste:
S SQREC )/(pk )
F = (SQRE
SQRE /[n(p+1)]
C
j 6= 0.
tal que
Fpk ,n(p+1) , sob H0 .
0.4
0.3
0.2
0.0
0.1
Rejeitar H0 se Fcalc > f [pk , n(p+1)]
df(x, 4, 16)
0.5
0.6
0.7
J. Cadima (ISA)
2012-13
241 / 446
Expresso alternativa para a estatstica do teste

A estatstica do teste F de comparao de um modelo completo com
p preditores, e um seu submodelo com apenas k preditores pode ser
escrita na forma alternativa:
F =
n (p + 1) RC2 RS2
.
pk
1 RC2
As hipteses do teste tambm se podem escrever como

H0 : RC2 = RS2
vs.
H1 : RC2 > RS2 ,
A hiptese H0 indica que o grau de relacionamento linear entre Y e o

conjunto dos preditores idntico no modelo e no submodelo.
Caso no se rejeite H0 , opta-se pelo submodelo (mais parcimonioso).
Caso se rejeite H0 , opta-se pelo modelo completo (ajusta-se
significativamente melhor).
J. Cadima (ISA)
2012-13
242 / 446
Teste F parcial: formulao alternativa

Teste F de comparao dum modelo com um seu submodelo
Hipteses:
H0 : RC2 = RS2
vs.
Estatstica do Teste:
RC2 RS2
F = n(p+1)
pk 1R 2
C
H1 : RC2 > RS2 .
Fpk ,n(p+1) , sob H0 .
0.4
0.3
0.2
0.0
0.1
Rejeitar H0 se Fcalc > f [pk , n(p+1)]
df(x, 4, 16)
0.5
0.6
0.7
J. Cadima (ISA)
2012-13
243 / 446
O teste a submodelos no
A informao necessria para um teste F parcial obtem-se no
atravs da funo anova, com dois argumentos: os objectos lm
resultantes de ajustar o modelo completo e o submodelo sob
comparao.
Nos exemplos dos lrios (acetatos 122 e 218), temos:

> iris.lm<-lm(Petal.Width ~ Petal.Length , data=iris)
> iris2.lm<-lm(Petal.Width ~ Petal.Length + Sepal.Length + Sepal.Width
+
, data=iris)
> anova(iris.lm, iris2.lm)
Analysis of Variance Table
Model 1: Petal.Width ~ Petal.Length
Model 2: Petal.Width ~ Petal.Length + Sepal.Length + Sepal.Width
Res.Df
RSS Df Sum of Sq
F
Pr(>F)
1
148 6.3101
2
146 5.3803
2
0.9298 12.616 8.836e-06 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
J. Cadima (ISA)
2012-13
244 / 446
Relao entre os testes-t e o teste F parcial
Caso o modelo e submodelo difiram numa nica varivel, xj , o teste F

parcial descrito nos acetatos anteriores equivalente ao teste t
(acetato 220) com as hipteses H0 : j = 0 vs. H1 : j 6= 0.
Nesse caso, no apenas as hipteses dos dois testes so iguais,
como a estatstica do teste F parcial o quadrado da estatstica do
teste t referido. Tem-se p k = 1, e como sabido (ver os
apontamentos da disciplina de Estatstica dos primeiros ciclos do ISA),
se uma varivel aleatria T tem distribuio t , ento o seu quadrado,
T 2 tem distribuio F1, .
J. Cadima (ISA)
2012-13
245 / 446
Como escolher um submodelo?
O teste F parcial (teste aos modelos encaixados) permite-nos optar

entre um modelo e um seu submodelo. Por vezes, um submodelo
pode ser sugerido por:
razes de ndole terica, sugerindo que determinadas variveis
preditoras no sejam, na realidade, importantes para influenciar
os valores de Y .
razes de ndole prtica, como a dificuldade, custo ou volume de
trabalho associado recolha de observaes para determinadas
variveis preditoras.
Nestes casos, pode ser claro que submodelo(s) se deseja testar.
J. Cadima (ISA)
2012-13
246 / 446
Como escolher um submodelo? (cont.)

Mas em muitas situaes no , partida, evidente qual o
subconjunto de variveis preditoras que se deseja considerar no
submodelo. Pretende-se apenas ver se o modelo simplificvel.
Nestes casos, a opo por um submodelo no um problema fcil.
Dadas p variveis preditoras, o nmero de subconjuntos, de qualquer
cardinalidade, excepto 0 (conjunto vazio) e p (o modelo completo) que
possvel escolher dado por 2p 2. A tabela seguinte indica o
nmero desses subconjuntos para p = 5, 10, 15, 20.
p
5
10
15
20
J. Cadima (ISA)
2p 2
30
1 022
32 766
1 048 574
2012-13
247 / 446
Algoritmos de seleco de submodelos
Para valores de p pequenos, possvel analisar todos os possveis

subconjuntos. Mas para p mdio ou grande, essa anlise completa
invivel.
Tambm no legtimo olhar para o ajustamento do modelo completo
e, com base nos testes t significncia de cada coeficiente j , optar
pela excluso de vrias variveis preditoras em simultneo: os testes
t aos coeficientes j so feitos partindo do princpio que todas as
restantes variveis pertencem ao modelo.
J. Cadima (ISA)
2012-13
248 / 446
Um exemplo
Nos dados relativos ao Exerccio 2 (RLM) das aulas prticas, a tabela
associada regresso da varivel Brix sobre todas as restantes :
(Intercept) 6.08878
1.00252
6.073 0.000298 ***
Diametro
1.27093
0.51219
2.481 0.038030 *
Altura
-0.70967
0.41098 -1.727 0.122478
Peso
-0.20453
0.14096 -1.451 0.184841
pH
0.51557
0.33733
1.528 0.164942
Acucar
0.08971
0.03611
2.484 0.037866 *
Mas no legtimo concluir que Altura, Peso e pH so dispensveis.

> anova(brix2.lm,brix.lm)
Analysis of Variance Table
Model 1: Brix ~ Diametro + Acucar
Model 2: Brix ~ Diametro + Altura + Peso + pH + Acucar
Res.Df
RSS Df Sum of Sq
F Pr(>F)
1
11 0.42743
2
8 0.14925 3
0.27818 4.97 0.03104 *
J. Cadima (ISA)
2012-13
249 / 446
Algoritmos de pesquisa sequenciais

A fim de procurar simplificar um modelo de regresso linear mltipla,
sem precisar de analisar todo os possveis submodelos, vamos
considerar uma classe de algoritmos de pesquisa. Em particular,
vamos considerar um algoritmo que, em cada passo, exclui uma
varivel preditora, at alcanar uma condio de paragem
considerada adequada. Trata-se do
algoritmo de excluso sequencial (backward elimination).
Existem variantes deste algoritmo no estudados aqui:
algoritmo de incluso sequencial (forward selection).
algoritmos de excluso/incluso alternada (stepwise selection).
J. Cadima (ISA)
2012-13
250 / 446
O algoritmo de excluso sequencial

1
2
ajustar o modelo completo, com os p preditores;

existem variveis para as quais no se rejeita a hiptese j = 0?
Em caso negativo, passar ao ponto seguinte. Em caso afirmativo,
qualquer dessas variveis candidata a sair do modelo.
1
2
se apenas existe uma candidata a sair, excluir essa varivel;

se existir mais do que uma varivel candidata a sair, excluir a
varivel associada ao maior p-value (isto , ao valor da estatstica t
mais prxima de zero)
Em qualquer caso, reajustar o modelo aps a excluso da

varivel e repetir este ponto
3
Quando no existirem variveis candidatas a sair, ou quando

sobrar um nico preditor, o algoritmo pra. Tem-se ento o
modelo final.
J. Cadima (ISA)
2012-13
251 / 446
Um exemplo Exerccio 2 (RLM)

> summary(lm(Brix ~ Diametro + Altura +
Estimate Std. Error t value
(Intercept) 6.08878
1.00252
6.073
Diametro
1.27093
0.51219
2.481
Altura
-0.70967
0.41098 -1.727
Peso
-0.20453
0.14096 -1.451
pH
0.51557
0.33733
1.528
Acucar
0.08971
0.03611
2.484
Peso + pH + Acucar, data=brix))

Pr(>|t|)
0.000298 ***
0.038030 *
0.122478
0.184841
0.164942
0.037866 *
> summary(lm(Brix ~ Diametro + Altura +

Estimate Std. Error t value
(Intercept) 6.25964
1.05494
5.934
Diametro
1.40573
0.53373
2.634
Altura
-1.06413
0.35021 -3.039
pH
0.33844
0.33322
1.016
Acucar
0.08481
0.03810
2.226
pH + Acucar, data=brix))
Pr(>|t|)
0.000220 ***
0.027189 *
0.014050 *
0.336316
0.053031 .
> summary(lm(Brix ~ Diametro + Altura + Acucar, data=brix))

(Intercept) 6.97183
0.78941
8.832 4.9e-06 ***
Diametro
1.57932
0.50642
3.119 0.01090 *
Altura
-1.11589
0.34702 -3.216 0.00924 **
Acucar
0.09039
0.03776
2.394 0.03771 *
Pode-se comparar o submodelo final com o modelo completo, atravs

dum teste F parcial.
J. Cadima (ISA)
2012-13
252 / 446
Algoritmos sequenciais com base no AIC

O
disponibiliza funes para automatizar pesquisas sequenciais
de submodelos, semelhantes que aqui foi enunciada, mas em que
critrio de excluso duma varivel em cada passo se baseia no
Critrio de Informao de Akaike (AIC).
O AIC uma medida geral da qualidade de ajustamento de modelos.
No contexto duma Regresso Linear Mltipla com k variveis
preditoras, pode definir-se como

SQREk
+ 2(k + 1) .
AIC = n ln
n
Um modelo para a varivel resposta Y considerado melhor que
outro se tiver um AIC mais baixo (o que favorece modelos com SQRE
menor, mas tambm com menos parmetros).
J. Cadima (ISA)
2012-13
253 / 446
Algoritmos sequenciais com base no AIC (cont.)

No algoritmo de excluso sequencial, cada passo pode ser efectuado
com base no critrio AIC:
ajustar o modelo completo e calcular o respectivo AIC.
ajustar cada modelo com menos uma varivel e calcular o
respectivo AIC.
Se nenhum dos AICs obtidos excluindo uma varivel fr inferior
ao AIC do modelo anterior, o algoritmo termina sendo o modelo
anterior o modelo final.
Caso alguma das excluses reduza o AIC, efectua-se a excluso
que maior reduo no AIC provoca e regressa-se ao ponto
anterior.
J. Cadima (ISA)
2012-13
254 / 446
Algoritmos sequenciais com base no AIC (cont.)

Em cada passo de excluso, o submodelo com menor AIC ser
aquele que tiver excludo a varivel cujo teste a j = 0 tem menor
significncia (maior p-value), ou seja, aquele que provocar menor
aumento no SQRE .
Assim, o procedimento de excluso sequencial baseado nos testes t
ou no AIC coincidem na ordem das variveis a excluir, podendo diferir
apenas no critrio de paragem.
Em geral, as diferenas entre os dois critrios envolvem a
considerao de submodelos com nmero diferente de variveis,
como por exemplo, quando se pondera se ficar com o modelo actual
prefervel a efectuar uma excluso.
J. Cadima (ISA)
2012-13
255 / 446
Algoritmos de excluso sequencial no

A funo step corre o algoritmo de excluso sequencial, com base no
AIC. Considere ainda o exemplo dos dados brix (Exerccio 2 RLM):
> brix.lm <- lm(Brix ~ Diametro+Altura+Peso+pH+Acucar, data = brix)
> step(brix.lm, dir="backward")
Start: AIC=-51.58
Brix ~ Diametro + Altura + Peso + pH + Acucar
Df Sum of Sq
RSS
AIC
<none>
0.14925 -51.576
- Peso
1 0.039279 0.18853 -50.306
- pH
1 0.043581 0.19284 -49.990
- Altura
1 0.055631 0.20489 -49.141
- Diametro 1 0.114874 0.26413 -45.585
- Acucar
1 0.115132 0.26439 -45.572
Neste caso, no se exclui qualquer varivel: O AIC do modelo inicial inferior ao de
qualquer submodelo resultante de excluir uma varivel. O submodelo final o modelo
inicial.
J. Cadima (ISA)
2012-13
256 / 446
Uma palavra final sobre algoritmos de pesquisa
O algoritmo de excluso sequencial no garante a identificao do

melhor submodelo com um dado nmero de preditores. Apenas
identifica, de forma que no computacionalmente muito pesada,
submodelos que se presume serem bons.
Deve ser usado com bom senso e o submodelo obtido cruzado com
outras consideraes (como por exemplo, o custo ou dificuldade de
obteno de cada varivel, ou o papel que a teoria relativa ao
problema em questo reserva a cada preditor).
J. Cadima (ISA)
2012-13
257 / 446
Regresso Polinomial
Um caso particular de relao no-linear, mesmo que envolvendo
apenas uma varivel preditora e a varivel resposta, pode ser
facilmente tratada no mbito duma regresso linear mltipla: o caso
de relaes polinomiais entre Y e um ou mais preditores.
20
40
60
80
Considere-se, por exemplo, que a relao de fundo entre uma varivel

resposta Y e uma nica varivel preditora X no dada por uma
recta, mas sim por uma parbola:
10
J. Cadima (ISA)
2012-13
258 / 446
Regresso Polinomial - Exemplo

Considere os dados do Exerccio 6 da Regresso Linear Mltipla,
relativos a medies sobre n = 600 folhas de videira.
200
100
videiras$Area
300
400
Eis o grfico das reas vs. comprimentos de nervuras principais, com

sobreposta a recta de regresso:
10
12
14
16
videiras$NP
H uma tendncia para curvatura. Talvez um polinmio de 2o. grau?

J. Cadima (ISA)
2012-13
259 / 446
Regresso Polinomial - Exemplo (cont.)

Qualquer parbola, com equao
Y = 0 + 1 x + 2 x 2 ,
pode ser ajustada e estudada como se se tratasse duma regresso
linear entre Y e as variveis X1 = X e X2 = X 2 :
> summary(lm(Area ~ NP + I(NP^2), data=videiras))
Coefficients:
(Intercept)
7.5961
22.0431
0.345
0.731
NP
-0.2172
4.0125 -0.054
0.957
I(NP^2)
1.2941
0.1801
7.187 1.98e-12 ***
--Residual standard error: 28.86 on 597 degrees of freedom
Multiple R-squared: 0.8162, Adjusted R-squared: 0.8155
F-statistic: 1325 on 2 and 597 DF, p-value: < 2.2e-16
A rejeio da hiptese 2 = 0 indica que h ajustamento

significativamente melhor da parbola.
J. Cadima (ISA)
2012-13
260 / 446
Regresso Polinomial - Exemplo (cont.)

Eis a parbola ajustada:
200
100
videiras$Area
300
400
R2 = 0.8162
y = 7.5951 0.2172x + 1.2941x2
R2 = 0.8003
4
10
12
14
16
videiras$NP
J. Cadima (ISA)
2012-13
261 / 446
Regresses Polinomiais (cont.)

O argumento extensvel a qualquer polinmio de qualquer grau, e
em qualquer nmero de variveis. Dois exemplos:
Polinmio de grau p numa varivel
xp
Y = 0 + 1 |{z}
x +2 |{z}
x 2 +3 |{z}
x 3 +... + p |{z}
=x1
=x2
=xp
=x3
Polinmio de grau 2 em 2 variveis

x +2 |{z}
x 2 +3 |{z}
z +4 |{z}
z 2 +5 |{z}
Y = 0 + 1 |{z}
xz
=x1
J. Cadima (ISA)
=x2
=x3
=x4
=x5
2012-13
262 / 446
A anlise de Resduos e outros diagnsticos

Uma anlise de regresso linear no fica completa sem o estudo dos
resduos e de alguns outros diagnsticos.
Grande parte do que se disse sobre resduos na Regresso Linear
Simples mantm-se vlido numa Regresso Linear Mltipla.
Relembrar trs conceitos relacionados, mas diferentes:
Erros aleatrios
i = Yi (0 + 1 x1(i) + 2 x2(i) + ... + p xp(i) )
Resduos (variveis aleatrias)

Ei = Yi (0 + 1 x1(i) + 2 x2(i) + ... + p xp(i) )
Resduos (observados)
ei = yi (b0 + b1 x1(i) + b2 x2(i) + ... + bp xp(i) )
J. Cadima (ISA)
2012-13
263 / 446
Propriedades dos Resduos sob o Modelo RLM

O modelo de Regresso Linear Mltipla admite que
i N (0 , 2 )
i = 1, ..., n .
Sob o modelo RLM, os resduos tm a seguinte distribuio:

i = 1, ..., n ,
Ei N 0 , 2 (1 hii )
onde hii o i-simo elemento diagonal da matriz H = X(Xt X)1 Xt de

projeco ortogonal sobre o subespao C (X), gerado pelas colunas
da matriz X.
= Y HY = (In H)Y ,
Em notao vectorial: E = Y Y
J. Cadima (ISA)
2012-13
264 / 446
Propriedades dos Resduos sob o Modelo RLM (cont.)

Teorema (Distribuio dos Resduos no MRLM)

sendo E = (In H)Y .
E Nn 0 , 2 (In H)
= Y HY = (In H)Y , tem
O vector dos resduos E = Y Y
distribuio Multinormal pelo ltimo ponto do Teorema do acetato 206.
O vector esperado de E resulta das propriedades do acetato 202:
E [E] = E [(In H)Y] = (In H)E [Y] = (In H)X = 0,
pois o vector X C (X), logo permanece invariante sob a aco
da matriz de projeces H: HX = X .
J. Cadima (ISA)
2012-13
265 / 446
A matriz de covarincias de E calcula-se a partir do facto de a matriz

de projeco ortogonal ser:
simtrica, isto Ht = H;
idempotente, isto , H2 = H H = H.
Tendo tambm presentes as propriedades do acetato 203, vem:
V [E] = V [(In H)Y] = (In H)V [Y](In H)t = 2 (In H).
J. Cadima (ISA)
2012-13
266 / 446
Embora no modelo RLM os erros aleatrios sejam independentes, os

resduos no so variveis aleatrias independentes, pois as
covarincias entre resduos diferentes so (em geral), no nulas:
cov(Ei , Ej ) = 2 hij ,
se i 6= j ,
onde hij indica o elemento da linha i e coluna j da matriz H.
J. Cadima (ISA)
2012-13
267 / 446
Vrios tipos de resduos

Tal como na RLS, definem-se diferentes tipos de resduos (como
resultado do facto de as varincias dos resduos clssicos (Ei ) no
serem constantes, mesmo sob o modelo de RLM):
i ;
Resduos habituais : Ei = Yi Y
Ei
.
QMRE(1hii )
Resduos (internamente) estandardizados : Ri =
Resduos Studentizados (ou externamente estandardizados):

Ti = q
Ei
QMRE[i] (1 hii )
sendo QMRE[i] o valor de QMRE resultante de um

ajustamento da Regresso exclundo a i-sima
observao (associada ao resduo Ei ).
J. Cadima (ISA)
2012-13
268 / 446
Anlise dos resduos

Tal como para a RLS, tambm em regresses mltiplas se avalia a
validade dos pressupostos do modelo atravs de grficos de resduos.
Os grficos mais usuais so os j considerados na RLS; e a sua
leitura faz-se de forma anloga:
i s: os pontos devem-se dispor numa banda
grfico de Ei s vs. Y
horizontal, centrada no valor zero, sem outro padro especial.
qq-plot dos resduos estandardizados vs. distribuio Normal: a
Normalidade dos erros aleatrios corresponde linearidade
neste grfico.
grfico de resduos vs. ordem de observao: para investigar
eventuais faltas de independncia dos erros aleatrios.
J. Cadima (ISA)
2012-13
269 / 446
O efeito alavanca
Outras ferramentas de diagnstico visam identificar observaes
individuais que merecem ulterior anlise, tal como na RLS. Mas
importa adaptar as definies ao contexto de Regresso Mltipla.
Numa RLM o valor de efeito alavanca (leverage) o valor hii do
elemento diagonal da matriz de projeco ortogonal H,
correspondente observao i.
O valor mdio das observaes alavanca numa RLM
h=
p+1
,
n
ou seja, a razo entre o nmero de parmetros e o nmero de

observaes.
J. Cadima (ISA)
2012-13
270 / 446
Grficos de diagnstico
A distncia de Cook para avaliar a influncia da observao i
define-se agora como:
Di =
y
(i)k2
ky
,
(p + 1) QMRE
(i) = X (i) o vector dos n valores ajustados de Y obtido

onde y
estimando os s sem a observao i. Expresso equivalente (sendo
Ri o correspondente resduo estandardizado):

hii
1
2
Di = Ri
.
1 hii
p+1
Os restantes aspectos da discusso so anlogos aos duma RLS.
J. Cadima (ISA)
2012-13
271 / 446
Um exemplo de grficos de diagnstico

Um exemplo destes grficos de diagnsticos, para os dados do
Exerccio 2 da RLM (Brix) :
Cooks distance
Residuals vs Leverage
2
1.5
13
14
1
0.5
Standardized residuals
1.0
14
0.5
Cooks distance
0.5
0.0
Cooks distance
2
10
12
14
0.0
Obs. number
0.2
0.4
13
0.6
Leverage
Os valores bastante elevados de distncia de Cook e hii neste

exemplo reflectem o reduzido nmero de observaes (n = 14) usado
para ajustar um modelo com muitos parmetros (p + 1 = 6).
J. Cadima (ISA)
2012-13
272 / 446
O R 2 modificado
Como foi visto no contexto da RLS (acetato 143), define-se uma
variante do Coeficiente de Determinao: o R 2 modificado.
O Coeficiente de Determinao usual:
R2 =
SQR
SQRE
= 1
SQT
SQT
O R 2 modificado (sendo QMT = SQT /(n 1)):

2
Rmod
= 1
QMRE
SQRE
n1
= 1
.
QMT
SQT n (p + 1)
Quando n p + 1 (isto , quando h muito mais observaes que

2 .
parmetros no modelo) tem-se R 2 Rmod
2
Se n pouco maior que o nmero de variveis preditoras, Rmod

2
2
bastante inferior a R , excepto se R fr muito prximo de 1.
J. Cadima (ISA)
2012-13
273 / 446
Trs advertncias finais

1. Podem surgir problemas associados multicolinearidade das
variveis preditoras, ou seja, ao facto das colunas da matriz X serem
(quase) linearmente dependentes. Nesse caso, podem:
existir problemas numricos no clculo de (Xt X)1 , logo no
ajustamento do modelo e na estimao dos parmetros;
existir varincias muito grandes de alguns i s, o que significa
muita instabilidade na inferncia.
Multicolinearidade reflecte redundncia de informao nos preditores.
possvel elimin-la exclundo da anlise uma ou vrias variveis
preditoras que sejam responsveis pela (quase) dependncia linear
dos preditores.
J. Cadima (ISA)
2012-13
274 / 446
Trs advertncias finais (cont.)

2. Tal como na Regresso Linear Simples, podem ser encaradas
transformaes, quer da varivel resposta, quer de uma ou vrias das
variveis preditoras.
Em particular, podem ser teis transformaes que linearizem a
relao entre Y e X1 , X2 , ..., Xp . Tais transformaes linearizantes
podem permitir estudar relaes de tipo no-linear atravs de relaes
lineares entre as variveis transformadas.
E.g., a relao no linear entre Y , x1 e x2 ,
Y = 0 x1 1 x2 2
torna-se, aps uma logaritmizao, numa relao linear entre ln(Y ),
ln(x1 ) e ln(x2 ) (com 0 = ln(0 )):
ln(Y) = 0 + 1 ln(x1 ) + 2 ln(x2 ) .
J. Cadima (ISA)
2012-13
275 / 446
Trs advertncias finais (cont.)

3. No se deve confundir a existncia de uma relao linear entre
preditores X1 , X2 , ..., Xp e uma varivel resposta Y , com uma relao
de causa e efeito.
Pode existir uma relao de causa e efeito.
Mas pode tambm verificar-se:
Uma relao de variao conjunta, mas no de tipo causal (como
por exemplo, em muitos conjuntos de dados morfomtricos). Por
vezes, preditores e varivel resposta so todos efeito de causas
comuns subjacentes.
Uma relao espria, de coincidncia numrica.
Uma relao causal s pode ser afirmada com base em teoria prpria
do fenmeno sob estudo, e no com base na relao linear
estabelecida estatisticamente.
J. Cadima (ISA)
2012-13
276 / 446

Slides RLM

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Slides RLM

Enviado por

Direitos autorais:

Formatos disponíveis

II.2.

A Regresso Linear Mltipla

A nuvem de pontos - uma perspectiva

A nuvem de pontos - outra perspectiva

Esta equao generaliza a equao da recta, para o caso de haver

Regresso Mltipla - representao grfica (p = 2)

Y = 0 + 1 x1 + 2 x2 a equao dum plano em R3 (x1 0x2 0y).

O caso geral: p preditores

As dificuldades na representao grfica

Visualizaes parciais da nuvem de pontos

2.0 2.5 3.0 3.5 4.0

2.0 2.5 3.0 3.5 4.0

0.5 1.0 1.5 2.0 2.5

A projeco da nuvem de n pontos nos planos coordenados no

Outra representao grfica

Podemos representar estas variveis por vectores em Rn .

Vantagens da representao grfica alternativa

0 + 1 x1(1) + 2 x2(1) + ... + p xp(1)

Vantagens da representao alternativa (cont.)

b0 + b1 x1(1) + b2 x2(1) + ... + bp xp(1)

A caminho da estimao dos parmetros

Cada escolha possvel de coeficientes b = (b0 , b1 , b2 , ..., bp )

A caminho da estimao (cont.)

Dispomos de um vector de n observaes de y que est em Rn

O conceito geomtrico subjacente estimao de

O vector de C (X) Rn mais prximo dum vector y Rn o vector y

O critrio minimiza SQRE

de tal maneira a minimizar a distncia ao

ou seja, que minimizamos a soma de quadrados dos resduos.

O conceito geomtrico subjacente estimao de

A combinao linear dos vectores 1n , x1 , ..., xp que gera o vector mais

Estimativas dos parmetros

As trs Somas de Quadrados

SQT A Soma de Quadrados Total:

SQR A Soma de Quadrados associada Regresso:

A norma deste vector

Revisitando Pitgoras (cont.)

j que H1n = 1n , pois o vector 1n j pertence ao subespao C (X),

SQR = kHyc k = (yi y)2 .

Revisitando Pitgoras (cont.)

SQRE = kyc Hyc k = ky Hyk

A frmula fundamental da Regresso Linear, SQT = SQR + SQRE ,

Pitgoras e o Coeficiente de Determinao

O acetato 190 torna evidente outra relao importante entre a

onde o ngulo entre os vectores yc e Hyc .

Pitgoras e o Coeficiente de Determinao (cont.)

O Coeficiente de Determinao na Regresso Linear, R 2 =

Propriedades do Coeficiente de Determinao

A abordagem geomtrica confirma que, tambm na Regresso Linear

Assim, o comando para pedir uma regresso linear da varivel y

[yi (b0 + b1x1(i) + b2x2(i) + ... + bp xp(i) )]2

Mas, tal como na Regresso Linear Simples, coloca-se o problema

A modelao da varivel resposta

o que corresponde a escrever n equaes:

As n equaes correspondem a uma nica equao matricial:

A notao matricial (cont.)

Na equao matricial Y = X + , tem-se:

o vector aleatrio dos n erros aleatrios.

O Modelo da Regresso Linear Mltipla

Definio (O Modelo da Regresso Linear Mltipla - RLM)

Yi = 0 + 1 x1(i) + 2 x2(i) + ... + p xp(i) + i ,

J vimos que possvel escrever a relao de base deste modelo em

Ferramentas para vectores aleatrios