Você está na página 1de 26

Manual Operacional para a Regresso Linear

Manuel Antnio Matos

y = 9.1x + 8.5
60

50

40

30

20

10

0
0

.5

1.5

2.5
x

FEUP 1995

3.5

4.5

ndice
1.

Introduo

2.

Preliminares

2.1.
2.2.
2.3.
2.4.

3.
3.1.
3.2.
3.3.
3.4.

4.
4.1.
4.2.
4.3.

5.
5.1.
5.2.

6.
6.1.
6.2.
6.3.
6.4.

7.
7.1.
7.2.
7.3.
7.4.
7.5.
7.6.

8.
8.1.
8.2.
8.3.

9.
9.1.
9.2.
9.3.
9.4.
9.5.

Convenes.....................................................................................................................................3
Modelo da regresso linear.............................................................................................................3
Pressupostos ...................................................................................................................................5
Mdias e varincias ........................................................................................................................5

Modelizao

Variveis no-numricas.................................................................................................................6
Interaces......................................................................................................................................7
Suavizar ..........................................................................................................................................7
Variveis ortogonais .......................................................................................................................7

Transformaes dos dados

Centragem.......................................................................................................................................8
Estandardizao..............................................................................................................................8
Norma unitria................................................................................................................................8

Estimao de parmetros

Passagem obrigatria na origem .....................................................................................................9


Interpretao dos parmetros estimados .........................................................................................9

Avaliao da qualidade do ajuste

10

Erro quadrtico .............................................................................................................................10


Varincia do erro ..........................................................................................................................10
Coeficiente de Determinao........................................................................................................10
ANOVA........................................................................................................................................11

Testes e intervalos de confiana

11

Distribuies de probabilidade dos parmetros ............................................................................12


Correlaes e Matriz Covarincia ................................................................................................12
Testes de hipteses .......................................................................................................................13
Intervalos de confiana dos parmetros........................................................................................14
Intervalo da resposta.....................................................................................................................14
Intervalo de predio ....................................................................................................................15

Anlise de resduos

15

Eliminao de observaes...........................................................................................................16
Verificao de pressupostos .........................................................................................................16
Expresso do modelo....................................................................................................................18

Seleco de variveis

18

Medida F e estatstica Ck..............................................................................................................18


Pesquisa t-dirigida ........................................................................................................................19
Seleco para a frente (forward selection)....................................................................................19
Eliminao para trs (backward elimination) ...............................................................................20
Procedimento passo a passo .........................................................................................................21

10. Multicolinearidade
10.1.
10.2.

21

Deteco .......................................................................................................................................22
Regresso de componentes principais ..........................................................................................22

Bibliografia

26

1.

Introduo

Este texto destina-se utilizao no ensino e investigao, como manual operacional para a
regresso linear. Nesse sentido, prescinde-se de qualquer tipo de desenvolvimento terico, e
centra-se a ateno nos procedimentos a efectuar para realizar um exerccio completo de
regresso, ou seja, incluindo alguns cuidados com a seleco de variveis e a validao de
resultados (testes de hipteses e intervalos de confiana), nem sempre tidos em conta na
prtica corrente.
Os leitores interessados em maior profundidade terica ou em aspectos adicionais podem
recorrer lista bibliogrfica indicada no fim do texto, ou a qualquer livro sobre esta matria.
O primeiro livro da lista serviu de base a muito do presente texto, cuja organizao e
redaco so, no entanto, bastante diferentes, dados os seus objectivos.
Procurou-se ser o mais conciso possvel, partindo do princpio que o utilizador j teve algum
contacto com esta tcnica. No entanto, o texto tambm pode ser usado por quem no tenha
tido qualquer contacto prvio com a regresso.

2.

Preliminares

2.1. Convenes
As variveis so designadas por letras maisculas em itlico (Y, Xk), o mesmo se passando
com as suas mdias (Y , X k ). Os vectores so representados em letra minscula carregada
(y, xk), e os seus elementos em itlico e letra minscula (yi, xik). Usam-se letras maisculas
carregadas para as matrizes (X, M, W), sendo os seus elementos representados como os dos
vectores. O acento circunflexo usado para indicar que se trata de valores estimados
( , y ). A transposio de vectores e matrizes indicada por uma plica (y', M'). Constantes
e outros valores matemticos so apresentados em letra minscula e itlico. Outras
convenes so referidas medida que aparecem no texto.
As referncias a distribuies estatsticas so feitas do modo usual, indicando-se entre
parntesis ou em ndice os parmetros necessrios. Por exemplo, N(,) designa uma
distribuio normal com mdia e varincia 2, enquanto que t1-/2(n-p-1) indica o valor
crtico da distribuio t de Student com n-p-1 graus de liberdade e nvel de significncia
(teste bilateral).
2.2. Modelo da regresso linear
A regresso nasce da tentativa de relacionar um conjunto de observaes de certas variveis,

designadas genericamente por Xk (k=1..p), com as leituras de uma certa grandeza Y. No caso
da regresso linear, est subjacente uma relao do tipo:
Y= a + b1 X1 + b2 X2 + ... + bp Xp
onde a, b1, b2, ... bp seriam os parmetros da relao linear procurada. O objectivo pode ser
explicativo (demonstrar uma relao matemtica que pode indicar, mas no prova, uma
relao de causa-efeito) ou preditivo (obter uma relao que nos permita, perante futuras
observaes das variveis Xk, prever o correspondente valor de Y, sem necessidade de o
medir). Dadas as caractersticas deste texto, no se aprofundar esta questo, mas a distino
bsica entre as duas situaes fundamental. Independentemente dos objectivos, as
variveis Xk so muitas vezes designadas por variveis explicativas, uma vez que tentam
explicar as razes da variao de Y.
Supondo que se dispe de n conjuntos de medidas com as correspondentes observaes, a
utilizao do modelo incluir sempre uma parcela de erro. Utilizando o ndice i (i=1..n) para
indicar cada conjunto, ter-se- ento:
yi = a + b1 xi1 + b2 xi2 + ... + bp xip+ ei

i=1..n

Independentemente das motivaes, a verso da regresso linear que aqui se apresenta


consiste em estimar os valores dos parmetros a, b1, b2, ... bp, atravs da minimizao da
soma dos quadrados dos desvios. Da o nome de mtodo dos mnimos quadrados que s
vezes se utiliza, nomeadamente para a regresso simples (p=1). O termo multi-regresso
usado para explicitar o caso p>1.
Neste ponto, conveniente definir:
y = [y1 y2 .. yn]'
xk = [x1k x2k .. xnk]'
X = [x1 x2 .. xp]
b = [a b0]'=[a b1 b2 ... bp]'
e = [e1 e2 .. en]'
1 = [1 ... 1]'
Xa = [1 x1 x2 .. xp]

vector das leituras


vector das observaes de cada varivel Xk
matriz de observaes (elementos xik, i=1..n, k=1..p)
vector dos parmetros
vector dos erros
vector unitrio de dimenso n
matriz aumentada de observaes (i=0..n, k=0..p)

Com estas definies, possvel escrever a expresso anterior de forma compacta:


y = a.1 + X.b0 + e

ou
y = Xa.b + e
Uma vez obtida a estimativa b dos parmetros b, a expresso operacional da regresso
permite obter estimativas y das leituras correspondentes s observaes x1 x2 .. xp:
y = a + b1 x 1 + b2 x2 + ... + bp x p
ou
y = a + x' .b 0
O clculo simultneo dos valores estimados correspondentes s observaes usadas na
parametrizao da regresso pode ser feito com base na expresso matricial correspondente:
y = Xa . b
Nas restantes seces deste texto, do-se indicaes sobre a seleco de variveis, obteno
de estimativas dos parmetros e interpretao e validao de resultados.
2.3. Pressupostos
Para alm de pressupostos gerais acerca da correcta especificao do modelo e da medio
sem erros das variveis observadas, um pressuposto importante para todo o
desenvolvimento de que os erros do modelo e tm mdia nula, no esto correlacionados e
tm varincia constante . Se estes pressupostos no forem verificados, muitas das
expresses utilizadas neste texto podem deixar de fazer sentido, pois foram deduzidas a
partir dessa hiptese.
Uma condio adicional para os erros do modelo de que estejam normalmente
distribudos. No sendo essencial para a derivao das expresses de clculo das estimativas
dos parmetros, este pressuposto indispensvel para toda a matria respeitante a testes de
hipteses e derivao de intervalos de confiana e, em geral, para toda a validao estatstica
dos resultados.
Para contemplar esse importante aspecto, este texto inclui alguns procedimentos de verificao, a posteriori, dos pressupostos respeitantes aos erros do modelo (anlise de resduos).
2.4. Mdias e varincias
Sobretudo com o intuito de fixar notaes, recordam-se, a seguir, algumas definies que

so utilizadas no resto do texto.


Define-se a mdia de uma varivel atravs de:
n

Xk =

xik
i =1

(observaes)

Y =

ou

i= 1

(leituras)

Note-se que, em rigor, as expresses anteriores referem-se mdia amostral, que uma
estimativa no tendenciosa da mdia das variveis. Com esse facto em conta, utilizar-se-o
estas designaes no texto, por no haver possibilidade de confuso, uma vez que as mdias
populacionais no so acessveis.
Por outro lado, definindo
n

dk2 = (xik Xk ) 2
i =1

soma dos quadrados dos desvios em relao mdia de Xk, a estimativa no tendenciosa da
varincia de Xk dada por:
n

s k2 =

2
k

d
=
n1

(x

ik

i=1

X k )2

n1

De forma anloga se calcularia a estimativa da varincia de Y.

3.

Modelizao

3.1. Variveis no-numricas


A incluso de categorias no modelo da regresso deve fazer-se recorrendo a variveis
binrias. No caso mais simples, em que h duas categorias (A e B), cria-se um varivel X1,
com dois valores possveis, correspondendo cada um a uma das categorias. Os dois valores
costumam ser 0 e 1, mas pode ser usado qualquer par de nmeros. Se houver c categorias,
devero criar-se as variveis binrias necessrias para definir todas as categorias. O nmero
de variveis a criar o inteiro imediatamente superior (ou igual) a log2 c. Por exemplo, para
3 categorias A, B e C, podero criar-se 2 variveis X1 e X2, definidas como na tabela 1:
Tabela 1: Variveis binrias para 3 categorias

X1

X2

Um erro frequente consiste em usar variveis com mais de dois valores, o que institui uma
ordem a priori e uma relao fixa entre classes. No caso do exemplo, seria portanto errado
usar apenas uma varivel que tomasse os valores (0, 1, 2) para as trs classes.
3.2. Interaces
Os efeitos conjuntos de variveis podem ter de ser includos no modelo linear, se elas no
forem independentes. No caso de variveis numricas, o grfico de Y vs X1.X2 deve ser
linear, se o termo for de incluir. No caso de X1 representar uma categoria, sendo X2 uma
varivel numrica, os grficos de Y vs X2 para diversos valores de X1 devem ter distintas
inclinaes e ordenadas na origem, se a interaco entre as duas variveis for importante.
3.3. Suavizar
Para facilitar a visualizao as tendncias dos dados, nomeadamente em grficos, podem
usar-se mecanismos de suavizao de irregularidades em dados ordenados, como mdias
mveis ou medianas de trs pontos. A regularizao por mdias mveis consiste em
substituir cada ponto (xi, yi) por (xi, zi), onde zi a mdia dos valores de Y nos 3 ou 5 pontos
centrados em (xi, yi), por exemplo zi=(yi-2+yi-1+yi+yi+1+yi+2)/5, sendo ignorados, neste caso,
necessariamente os dois primeiros e dois ltimos pontos da lista, previamente ordenada
pelos valores de X. Na utilizao da mediana de 3 pontos, substitui-se cada valor de yi pela
mediana de (yi-1, yi, yi+1), repetindo-se o processo at estabilizar. Neste caso, os pontos
extremos da lista inicial, ordenada pelos valores de X, mantm-se fixos ao longo do
processo.
3.4. Variveis ortogonais
H vantagem em que o maior nmero possvel de variveis sejam ortogonais, pois permite
simplificaes e separabilidade no clculo. Recorda-se que duas variveis Xu e Xv so
ortogonais se xu x v = 0 . Note-se, por outro lado, que as variveis que representam
categorias no so obrigatoriamente ortogonais. No caso do exemplo da tabela 1, X1 e X2 so
ortogonais, mas o mesmo no se passaria se fossem definidas como na tabela 2:
Tabela 2: Variveis binrias no-ortogonais

4.

X1

X2

Transformaes dos dados

Em alternativa ao uso das variveis originais ("raw"), podem ser usadas variveis centradas
("centered"), estandardizadas ("standardized") ou com norma unitria ("unit lenght"),
obtidas atravs das transformaes indicadas a seguir. Todos estes procedimentos visam
compatibilizar, de algum modo, variveis que podem ter escalas e disperses muito
diferentes. Em particular, a comparao da influncia relativa das diversas variveis, com
base nos parmetros estimados, s faz sentido se as variveis forem normalizadas.
Como se ver noutro local deste texto, os resultados obtidos depois de qualquer das
transformaes que se descrevem a seguir so sempre iguais aos da verso com os dados
originais. Tambm os parmetros tm relaes simples entre si, permitindo passar
facilmente de uma formulao a outra.
4.1. Centragem
Uma transformao simples consiste em centrar cada varivel em relao sua mdia. A
varivel transformada Mk obtm-se de Xk atravs de:
mik = xik Xk
Semelhantemente ao que se fez para X, tambm aqui se define M=[m1 m2 .. mp].
4.2. Estandardizao
A estandardizao corresponde a uma transformao para mdia nula e desvio padro
unitrio de cada varivel original Xk. A nova varivel Zk obtida atravs de:
zik =

xik X k
sk

Neste caso, define-se Z=[z1 z2 .. zp].


4.3. Norma unitria
Esta transformao substitui os valores de cada varivel Xk por uma nova varivel Wk, obtida
pela seguinte regra:

wik =

xik X k
dk

Definindo aqui tambm W=[w1 w2 .. wp], verifica-se que a matriz W'.W apresenta diagonal
unitria (da o nome da transformao). Os restantes elementos (W'.W)uv correspondem
correlao entre Xu e Xv. Note-se ainda que Z'.Z=(n-1) W'.W.

5.

Estimao de parmetros

A estimativa no tendenciosa de b pelo mtodo dos mnimos quadrados dada por:


1
b = (Xa .X a ) .Xa .y

No caso de variveis centradas, estandardizadas ou de norma unitria, o processo de


obteno da estimativa dos parmetros b0 utiliza uma expresso anloga anterior,
substituindo-se Xa respectivamente por M, Z ou W. A estimativa de a , em todos esses
casos, igual mdia de Y. Os valores de bk obtidos se as variveis forem centradas so
iguais aos do caso geral. Para variveis estandardizadas e de norma unitria, cada bk vem
multiplicado respectivamente por sk e dk em relao ao caso geral. A menos de erros de
arredondamento, os valores estimados com qualquer dos modelos so rigorosamente
correspondentes.
5.1. Passagem obrigatria na origem
No caso de se pretender que o estimador passe pela origem, a =0, e
1
b = (X.X ) .X.y

Os resultados obtidos com esta imposio so sempre piores do que os do modelo geral.
5.2. Interpretao dos parmetros estimados
Os coeficientes do modelo linear representam a variao na resposta prevista que resulta de
uma variao de uma unidade no valor ajustado das respectivas variveis. Se todas as
variveis forem ortogonais, o aumento de uma unidade em xk (supondo as outras iguais) teria
como resultado um aumento de bk em y . No entanto, no caso geral das variveis no serem
ortogonais, no faz sentido variar s uma varivel, pois aquelas que esto correlacionadas
com ela tambm tero que variar. Em consequncia, a variao de y afectada pelos
coeficientes de correlao aplicveis.

6.

Avaliao da qualidade do ajuste

6.1. Erro quadrtico


O valor minimizado do quadrado dos erros pode ser calculado atravs de:

r
i

2
i

= (yi yi ) 2 = (y y ) .(y y ) = y' . y y' . Xa .b


|

A simplificao no ltimo membro da igualdade deve-se a ser y . (y y ) = y.e =0.


6.2. Varincia do erro
Supondo que os erros so independentes e tm a mesma varincia, a estimativa da varincia
do erro dada por:
r i2

2 = i
n p 1
Em princpio, todas as futuras observaes de Y estaro no intervalo 3 centrado no valor
predito y . Mais adiante se ver uma melhor definio de intervalos de confiana para y .
6.3. Coeficiente de Determinao
A soma dos quadrados das observaes pode ser decomposta em:

2
i

= n.Y + (yi Y ) + r i
2

ou
TSS = SSM + SSR + SSE
onde se usam as iniciais, em lngua inglesa, de "Total Sum of Squares" (soma quadrtica
total), "Sum of Squares due to the Mean" (soma quadrtica devida mdia), "Sum of
Squares due to the Regression" (soma quadrtica devida regresso) e "Sum of Squares due
to the Error" (soma quadrtica devida ao erro). soma SSR+SSE chama-se "Adjusted Total
Sum of Squares" (soma quadrtica total ajustada), com a sigla inglesa TSS(adj).
O coeficiente de determinao, usado como medida de qualidade do ajuste, dado por:

(y Y )
SSR
=
=
SSR + SSE (y Y ) + r
2

R2

2
i

ou seja, o coeficiente mede a proporo da variao de Y em relao mdia que explicada


pela regresso. Um resultado a reter que R2 = 2YY (quadrado do coeficiente de correlao
entre Y e Y ). Em princpio, a qualidade do ajuste ser tanto maior quanto mais R2 se
aproximar da unidade.
6.4. ANOVA
As tabelas de anlise de varincia ("Analysis Of Variance") so comuns em diversos tipos
de estudos estatsticos, sendo frequentemente incorporadas nos programas dedicados
regresso e nas folhas de clculo que incluem este tipo de estudos. A organizao dos
valores tem normalmente o aspecto indicado na tabela 3, onde so usadas algumas iniciais
referidas no ponto anterior. As mdias dos quadrados so obtidas dividindo as somas de
quadrados pelos graus de liberdade correspondentes, como em MSE=SSE/(n-p-1). Repare-se que MSE= 2.
Tabela 3: Quadro tpico de ANOVA

Mdia
Regresso
Erro
Total

Graus de
liberdade

Soma dos
quadrados

Mdia dos
quadrados

1
p
n-p-1
n

SSM
SSR
SSE
TSS

MSM
MSR
MSE

F
MSM/MSE
MSR/MSE

R2
SSR/(SSR+SSE)

Os dois valores de F apresentados na tabela permitem realizar testes de nulidade dos


parmetros. O valor na linha da mdia em geral muito elevado, no conduzindo a qualquer
resultado com interesse; o valor na linha da regresso usado no teste de b0=0, descrito
noutra seco do presente texto. Alguns programas e folhas de clculo incluem na tabela o
valor da probabilidade do teste F, permitindo uma avaliao imediata da rejeio ou no da
hiptese b0=0. A rejeio d-se quando o valor da probabilidade pequeno, correspondendo
a valores elevados de F.

7.

Testes e intervalos de confiana

Os exerccios de validade (testes e intervalos de confiana) que se apresentam a seguir


permitem ter uma ideia indirecta da qualidade da regresso. Para alm de uma validao
geral do modelo obtido, os testes podem servir para confirmar hipteses de valores
particulares para os parmetros, estabelecidas por via terica ou em anteriores experincias.

As verses habituais baseiam-se na distribuio normal e, em alguns casos, do 2, aqui


substitudas respectivamente pelas distribuies t de Student e F, dado que a varincia
sempre estimada.
Esclarea-se, tambm, que todas as expresses que se seguem apenas so vlidas se se
verificar o pressuposto de normalidade dos erros, para alm das outras condies de
aplicabilidade.
7.1. Distribuies de probabilidade dos parmetros
Os parmetros do modelo linear apresentam distribuies normais, com as seguintes
caractersticas:
a ~ N(a, c00 .2)
bk ~ N(bk, ckk .2)
7.2. Correlaes e Matriz Covarincia
1
Definindo a matriz C= (Xa .Xa ) , na qual o ndice 0 corresponde ao parmetro a,
respeitando os restantes ndices aos parmetros b1 ... bp

C = (Xa .X a )

c 00
c
10
=
"

c p 0

c 01 ! c 0 p
c11 ! c1p

" # "

c p1 ! c pp

podem calcular-se com facilidade as correlaes entre parmetros, a partir das regras:

corr a , bk =

c0k
c00 .ckk

corr bj , bk =

c jk
c jj .ckk

Relacionada com C est a matriz covarincia dos parmetros, b=2.C. A diagonal principal
de b constituda pelas varincias dos parmetros, a partir das quais se calculam os desvios
padro usados nos testes de hipteses e no clculo de intervalos de confiana: c00 para a,
e ckk para cada um dos bk. Os elementos fora da diagonal correspondem s covarincias
entre parmetros. Como habitualmente se desconhece , este valor substitudo por , o
que permite obter uma estimativa no tendenciosa de b.

7.3. Testes de hipteses


Os testes indicados a seguir seguem, em geral, o princpio habitual de propor uma hiptese
nula, uma hiptese alternativa e uma regra de rejeio, para um certo nvel de significncia
(tipicamente 5%, embora possam ser usados outros valores). Isto significa que a
probabilidade do teste rejeitar uma hiptese nula que fosse verdadeira (erro tipo I) inferior
a 0.05, mas no nos diz nada sobre o erro complementar (erro tipo II) ou seja, no rejeitar a
hiptese nula, sendo esta falsa. Os resultados positivos dos testes devem ser, portanto,
utilizados com prudncia, a menos que se possua uma estimativa da probabilidade do erro
do tipo II.
7.3.1. O valor do parmetro bk igual a bx ?
Este teste permite excluir ou no a hiptese do verdadeiro valor de bk ser um certo valor bx,
por exemplo um valor terico que se pretende confirmar, ou ento o valor nulo,
correspondente a no incluir a varivel Xk no modelo. Claro que o teste no serve para
verificar se o parmetro tem exactamente o valor estimado, pois t=0 e a hiptese nula nunca
seria rejeitada.

H0: bk=bx

Ha: bkbx

t=

b k b x
c kk

Rejeio de H0 se |t | > |t1-/2 (n-p-1)|


O teste anterior tambm pode ser aplicado ao parmetro a, com as alteraes evidentes
(mesmos graus de liberdade).
7.3.2. Os coeficientes b0 so todos simultaneamente nulos ?
Permite uma verificao genrica da adequao do modelo, neste caso pela rejeio da
hiptese nula. Quanto maior o valor calculado de F, mais fcil aquela rejeio, por ser
mais pequeno o valor de para a qual o valor da tabela menor ou igual ao valor calculado
de F.
H0: b0=0

Ha: b00

F=

MSR
MSE

Rejeio de H0 se <0, sendo F1-(p, n-p-1)F


O valor limite 0 a utilizar depende das circunstncias (0.05 ou 0.10), mas pode ir at 0.25,
numa opo cautelosa (no sentido de manter o modelo) que torna mais difcil no rejeitar a

hiptese nula.
7.4. Intervalos de confiana dos parmetros
Os intervalos de confiana indicados a seguir so vlidos apenas para parmetros
considerados individualmente. Se se pretendesse considerar simultaneamente vrios
parmetros, teriam que ser usadas distribuies de probabilidade conjuntas. Como bvio,
os intervalos sero tanto mais apertados quanto menor for o nvel de confiana 100.(1-)%.
Repare-se que os intervalos de confiana podem funcionar como teste de hipteses: se o
intervalo contm a hiptese nula, esta no rejeitada. Neste caso, o valor de funciona
como nvel de significncia.
7.4.1. Intervalo de a
a a a a + a

onde a = c00 .t1-/2(n-p-1)

7.4.2. Intervalos dos b0


bk bk bk bk + bk

onde bk = . ckk .t1-/2(n-p-1)

O uso combinado destes intervalos d uma ideia optimista do conjunto dos b0. Uma
alternativa ao uso de distribuies conjuntas de probabilidade ser usar a expresso:

(b

2
b 0 .M.M. b 0 b 0 p .F1- (p, n-p-1)

que define a regio de 100.(1-)% confiana (em geral um elipsoide) para o conjunto dos b0.
A expresso mais facilmente utilizada para verificar se um conjunto particular de valores
est ou no includo na regio de confiana.
7.5. Intervalo da resposta
Uma vez estabelecidos os parmetros do modelo, possvel, como se disse inicialmente,
estimar o valor de Y correspondente a uma dada observao das variveis Xk. Se
designarmos por u=[1 u1 u2 ... up]' o vector alargado das observaes das p variveis, a
estimativa de y ser dada por:
y = u' . b
Se os erros tiverem distribuio normal, tambm Y ~ N(E[Y], Var[ Y ]). Uma vez que a
varincia estimada, o intervalo de 100 .(1-)% de confiana para E[Y]=E[ Y ] ser dado
por:

Y E [Y ] E[Y] Y + E[ Y ]

onde E [Y ] =t1-/2(n-p-1) u'.


b .u

7.6. Intervalo de predio


O intervalo de 100.(1-)% de confiana para futuras leituras de Y dado, em funo das
observaes u, por:
Y Y Y Y + Y

onde Y =t1-/2(n-p-1) 2 + u'.


b .u

A extrapolao da regio onde foram obtidos os valores de X e y que levaram estimao


dos parmetros conduz, normalmente, a um aumento substancial da largura do intervalo,
pelo que tal exerccio deve ser realizado com prudncia.

8.

Anlise de resduos

De acordo com os pressupostos da regresso, os resduos devem distribuir-se aleatoriamente


em torno de 0, tanto no modelo global como em relao a cada varivel. Caso tal no se
verifique, ser normalmente necessrio alterar o modelo, incluindo ou retirando variveis,
ou realizando alguma tranformao que adeque melhor o modelo aos dados (por exemplo
X k2 em vez de Xk).
Para alm dos resduos correspondentes directamente aos erros do modelo, r=y- y , usual
calcular tambm os resduos estandardizados, s=(1/ ).r (que, apesar do nome, no tm uma
distribuio normal standard, porque no a varincia individual de cada resduo). Para o
clculo de outros tipos de resduos convm introduzir a matriz simtrica H=Xa.C.X',a , na
qual 0hii1 e -1hik1 (ik). Repare-se que y =H.y.
Podem agora calcular-se os resduos "Student" ti e resduos de eliminao r(-i) (resduos que
se obteriam estimando yi sem incluir a observao correspondente no clculo dos
parmetros. Ter-se-, ento:
ti =

ri
ri
=
ri 1 hii

r ( i ) =

ri
1 hii

Repare-se, no denominador da primeira expresso, que a varincia individual de cada


resduo igual a (1-hii).2. Os resduos "Student", apesar do nome, distribuem-se mais perto
da distribuio normal do que da t de Student (n-p-1 graus de liberdade). possvel, ainda,
definir resduos "Student" de eliminao t(-i), que seguem exactamente uma distribuio t
com n-p-2 graus de liberdade, atravs de:

t( i) = r i .

n p2
2
(1 hii ).SSE ri

8.1. Eliminao de observaes


Valores elevados de um determinado resduo (sob qualquer das formas) aconselham uma
inspeco cuidadosa da observao correspondente, com vista sua eventual eliminao.
mais formalmente, se o valor de um ou mais t(-i) corresponder a uma probabilidade pequena
na tabela da distribuio com n-p-2 graus de liberdade, os pontos em causa podero estar
muito fora da regresso, podendo justificar-se a sua eliminao, sobretudo se houver razes
fsicas que ponham em causa as observaes ou leituras correspondentes.
Certos traados grficos tambm podem ser utilizados na referida deteco. Por exemplo:
- Histogramas de resduos "Student". Possvel eliminao dos pontos que estejam
para l de trs desvios padro, na distribuio (aproximadamente normal) destes
resduos;
- Resduos em funo das respostas ou em funo de variveis. Permitem uma
deteco visual qualitativa de situaes a investigar;
- Resduos em funo de resduos de eliminao. Os pontos "normais" devero estar
sobre uma linha recta de inclinao 1, que passa pela origem, ou seja, a eliminao
da observao respectiva no faz variar sensivelmente os resduos.
possvel definir, tambm, testes estatsticos aproximados para deteco de isolados. No
entanto, as decises de eliminao devem ser sempre tomadas com muita prudncia, pois
correspondem a uma diminuio do volume inicial de dados. Eliminaes apressadas so
facilmente sujeitas a crtica.
8.2. Verificao de pressupostos
Apresentam-se, a seguir, alguns testes que permitem verificar se os pressupostos em relao
aos erros do modelo so verificados pelos resduos. Trata-se de verificaes a posteriori que
podero levar reviso do modelo.
8.2.1. Aleatoriedade
Uma forma corrente de verificar a aleatoriedade dos resduos o teste s sequncias de
sinais dos resduos, atravs do "runs test" (teste de corridas), importante sobretudo quando
as observaes dependem do tempo. Considerando apenas os sinais (+ ou -) dos resduos,
pela ordem em que foram recolhidos, haver n1 sinais (+), n2 sinais (-) e r corridas
(sequncias mximas de sinais iguais seguidos). Na sequncia (+ - - + + + + - - - + + -), por

exemplo, ser n1=7, n2=6 e r=6. Usando em seguida tabelas para o "runs test", determinamse valores crticos que ajudam a determinar, com nvel de significncia 5%, se a sequncia
ou no aleatria. Em funo de n1 e n2, as tabelas do dois valores (inferior e superior) que
tero que enquadrar o valor de r. Caso contrrio, suspeita-se de no-aleatoriedade. No caso
do exemplo, os dois valores so 3 e 12, concluindo-se pela aleatoriedade, uma vez que
3r12.
As tabelas referidas para este teste s abrangem, geralmente, at um mximo de 20 para n1
ou n2. Para valores superiores, usa-se a distribuio normal da forma habitual nos testes,
com
2n1 n2 1

n1 + n2 2
2n1n2 .(2n1 n2 n1 n2 )
r

Z=

(n1 + n2 ) . (n1 + n2 1)
2

8.2.2. Correlao sucessiva


A verificao de independncia usualmente feita atravs do teste de Durbin-Watson
correlao entre resduos sucessivos. O teste til sobretudo em dados dependentes do
tempo. A partir de i=.i-1+i, onde os i ~ N(0, 2), a estatstica a usar :
n

d=

(r

ri 1 )

i= 2

2
i

i =1

O teste H0:=0, Ha:>0 baseia-se em tabelas prprias, que fornecem dois ndices dL e dU,
rejeitando-se H0 se d<dL, e no se rejeitando se d>dU (dentro do intervalo no se podem
retirar concluses). Para testar H0 contra Ha:<0, usa-se a estatstica d'=4-d, com as mesmas
tabelas.
8.2.3. Heteroscedaticidade
A deteco de desigualdades de varincia dos erros pode ser realizada a partir de um grfico
dos resduos ri em funo dos yi . Se o aspecto no for uma mancha de largura uniforme, por
exemplo alargando com o aumento de yi , poder ser necessrio transformar Y (ln Y, 1/Y,
etc) ou alterar o modelo. Um grfico semelhante, mas dos quadrados dos resduos, pode
confirmar suspeitas e ajudar a detectar isolados.

8.2.4. Normalidade
A verificao visual da normalidade feita ordenando os resduos de forma crescente, e
desenhando-os em papel de distribuio normal. Se a presuno de normalidade se verificar,
os resduos devero estar aproximadamente em linha recta.
8.3. Expresso do modelo
So teis alguns grficos de resduos em relao a variveis, para verificao visual da
correco da expresso do modelo. Os grficos potencialmente mais interessantes so:
- Resduos em funo das variveis. Permitem verificar se necessrio transformar
as variveis (ln X, X , etc.);
- Resduos em funo de produtos de variveis. No caso de ser detectado um padro,
deve ser includo no modelo um novo termo com o produto em causa (Xu.Xv, por
exemplo);
- Resduos parciais. Grfico dos resduos obtidos sem incluir Xk, em funo de Xk.
Permitem detectar no-linearidades que levem transformao de Xk. Se o ajuste
for bom, o grfico tem o aspecto de uma recta com inclinao igual ao parmetro da
varivel na regresso.

9.

Seleco de variveis

As tcnicas apresentadas a seguir podem ser teis para confirmar ou afastar hipteses acerca
da incluso de variveis explicativas, produzidas a partir do conhecimento do sistema e do
seu comportamento. Essa seleco primria de variveis , portanto, fundamental para o
eventual sucesso do exerccio de regresso. Note-se, tambm, que todas as tcnicas se
dirigem a variveis numa determinada forma, ou seja, a rejeio de X1 no significa que
1/X1, por exemplo, no devesse ser includa no modelo.
9.1. Medida F e estatstica Ck
Deciso sobre a incluso ou no de um conjunto de r variveis, cujas observaes esto
agrupadas numa matriz Xb, correspondendo aos parmetros b2. Podem calcular-se os valores
de SSR e SSE do modelo contendo estas variveis, comparando-os com os valores SSR1 e
SSE1 que se obteriam com o modelo reduzido (sem as r variveis em causa). O teste a
realizar usa a estatstica F, com 0 tpico da ordem de 0.05:
H0: b2=0

Ha: b20

F=

SSR SSR1
r.MSE

Rejeio de H0 se <0, sendo F1- (r, n-p-1)F

Ou seja, valores elevados de F conduzem rejeio da hiptese b2=0, e as variveis em


causa so mantidas no modelo.
Uma alternativa ao uso de F o clculo de
ck =

SSE1
(n 2k )
MSE

onde k o nmero de variveis do modelo reduzido (sem as r variveis em causa). Se o


valor de ck for muito superior a k, deve suspeitar-se que algumas variveis importantes sero
rejeitadas, caso se opte pelo modelo reduzido. Devem procurar-se, portanto, subconjuntos de
variveis que conduzam a valores de ck prximos de k.
Menos formalmente, podem comparar-se os valores de MSE e R2 para os modelos
"completo" e reduzido. Se no diferirem muito, ser mais econmico usar o modelo
reduzido.
9.2. Pesquisa t-dirigida
Este mtodo parte do modelo completo, calculando-se as estatsticas t correspondentes
eliminao de cada uma das variveis Xk, atravs de
tk =

k
. ckk

Um critrio habitual conservar todas as variveis para as quais |t|>3. Depois desta seleco
inicial, que permite limitar muito o nmero de regresses alternativas a experimentar,
investigada a incluso de cada uma das restantes variveis, com recurso, por exemplo, s
tcnicas da seco anterior. Para alm do esquema aqui indicado, podem ser utilizados
diferentes procedimentos com base no mesmo princpio.
9.3. Seleco para a frente (forward selection)
Neste mtodo, as variveis candidatas X1 .. Xp vo sendo introduzidas progressivamente no
modelo, com base na comparao das somas dos quadrados dos resduos (SSE) que resultam
da sua introduo. No garantindo a descoberta do melhor subconjunto de variveis, o
mtodo fcil de usar e permite obter, em geral, resultados bastante bons, com muito menos
esforo do que ensaiar todas as possveis regresses. O procedimento geral o seguinte:

0. Escolher Xu que conduz ao menor valor de SSE da regresso y=a+buXu


Repetir
1. Escolher Xv que conduz ao menor valor de SSE da regresso y=a+buXu+bvXv
at SSE no diminuir mais ou at estarem includos todos os termos.
A deciso sobre paragem pode ser baseada num teste com uma estatstica prxima de F,
calculada para cada uma das variveis candidatas no estgio (s+1), quando h s variveis
anteriormente seleccionadas. A expresso para uma varivel candidata Xk ser:
Fk =

SSEs SSEsk+1 SSE s SSEsk+1


=
k
k
SSEs+ 1
MSEs +1
ns 2

A varivel a entrar no modelo ser a que tiver maior valor de Fk, mas s ser adicionada se
se verificar a condio

max Fk = Fmax F1 (1, n s 2)


k

sendo usual fixar-se um valor pouco exigente para (p.ex. 0.25). Se a condio no for
satisfeita, o procedimento pra. No limite, ser necessrio calcular p! regresses, com um
nmero de parmetros crescendo de 2 at p+1 ao longo dos estgios.
9.4. Eliminao para trs (backward elimination)
Filosofia complementar da anterior. O processo inicia-se com a regresso completa (todas as
p variveis) e em cada estgio eliminada a varivel cuja sada do modelo conduz
regresso reduzida com menor SSE. A eliminao pode ser feita usando a estatstica:
Fk =

SSEsk+ 1 SSE s
MSE

onde MSE sempre o da regresso completa, e SSE s+k 1 no obriga a executar a regresso
reduzida (sem Xk), toda a vez que
SSE s+k 1 SSEs = t k2 .MSEs
onde tk a estatstica usada para o teste de bk=bx (ver testes), neste caso com bx=0. Em
consequncia, s necessrio calcular uma regresso em cada estgio, o que torna este
processo bastante econmico.

Depois de seleccionada a varivel com o menor Fk, a varivel eliminada se for verificada a
condio:

min Fk = Fmin F1 (1, n p 1)


k

Caso contrrio, o processo termina, e mais nenhuma varivel eliminada. Tal como no caso
anterior, este mtodo tambm no garante a melhor seleco, mas comporta-se bastante
bem, sendo, em princpio, prefervel quando o nmero de variveis no excepcionalmente
grande.
9.5. Procedimento passo a passo
A combinao dos dois procedimentos anteriores conduz a uma estratgia algo mais
complexa, mas que conduz a melhores resultados. O princpio operacional semelhante ao
da seleco para a frente, mas em cada estgio realiza-se um passo de eliminao para trs,
que pode conduzir manuteno de todas as variveis ou eliminao de uma delas, de
acordo com o teste exposto na seco anterior. A regra de paragem igual do mtodo de
seleco para a frente.

10. Multicolinearidade
Se existir dependncia linear entre pelo menos dois vectores xu e xv, o processo de regresso
no possvel tecnicamente, dado que Xa .X a singular. Evidentemente que, em tal caso,
que corresponde a redundncia na informao, a eliminao de variveis resolve o
problema. Sucede, no entanto, que podem surgir situaes de dependncia linear
aproximada, ou seja, existe pelo menos um c0 para o qual X.c0. Esta situao designa-se
por multicolinearidade e tem efeitos nocivos nos modelos, nomeadamente pela perturbao
da ligao entre os fenmentos estudados e os valores matemticos dos parmetros.
Podem surgir, por exemplo, modelos alternativos de qualidade de ajuste semelhante, mas
com valores completamente dspares (at no sinal) nos parmetros das mesmas variveis. Os
valores das estatsticas usadas nos testes tendem a baixar, podendo levar eliminao de
variveis importantes no-colineares (como remdio, sugere-se subir o nvel de confiana
para 0.25). A extrapolao pode, na situao geral de multicolinearidade, ser desastrosa.
Uma vez detectada a multicolinearidade, podem seguir-se duas estratgias: eliminao de
variveis redundantes, ou regresses tendenciosas que eliminam os efeitos da redundncia,
sem eliminar variveis. Dada a especializao deste ltimo tpico, apenas se descrever, no
presente texto, um desses modelos, baseado na anlise de componentes principais.

10.1. Deteco
As multicolinearidades esto relacionadas com a correlao entre variveis, podendo ser
detectadas na matriz de correlao dada pelo produto W'.W. No entanto, o fenmeno pode
no ser evidente na matriz, sobretudo quando so envolvidas mais do que duas variveis. A
anlise dos valores prprios de W'.W prximos de zero permite uma deteco mais eficaz,
custa dos vectores prprios correspondentes. Na verdade, se for vk um desses vectores
prprios, correspondendo ao valor prprio k0, pode mostrar-se que:
W.vk 0
Os elementos de vk correspondem aproximadamente, portanto, aos coeficientes de uma
combinao linear "quase nula", ressaltando aqueles que tiverem maior valor absoluto, por
indicarem as variveis multicolineares.
A deteco tambm pode recorrer matriz Q=(W'.W)-1, nomeadamente aos elementos da
diagonal principal (qkk), designados por VIF ("variance inflation factors" - factores de
aumento da varincia). Valores elevados de qkk sugerem que a varivel Xk est envolvida em
multicolinearidades, podendo detectar-se as relaes com outras variveis j a partir de
valores elevados de qkj.
10.2. Regresso de componentes principais
A eliminao de variveis multicolineares um exerccio sempre arriscado, dado que muitas
vezes no so claros os limites aceitveis. Por outro lado, a situao de multicolinearidade
no deve ignorar-se, pois os indicadores de qualidade (como R2) e os testes so afectados,
podendo levar a tomar decises erradas sobre variveis importantes para o modelo, etc.
Uma alternativa s duas opes anteriores a utilizao de regresses tendenciosas, ou seja,
aceita-se que E[ b 0 ]b0, em troca de uma grande reduo da varincia dos parmetros (ou
seja, dos VIF). Os resultados "visveis", ao nvel da qualidade do ajuste, so semelhantes aos
que se obteriam com a regresso normal, mas a supresso das multicolinearidades faz com
que os parmetros reflictam mais correctamente a importncia relativa das diversas variveis
explicativas.
Das vrias hipteses existentes, apresenta-se aqui a regresso de componentes principais.
Outras variantes podem ser vistas na bibliografia indicada. Chama-se a ateno para que, ao
contrrio do restante texto, se utiliza nesta seco a reduo para norma unitria.

10.2.1.

Princpio

O princpio da regresso de componentes principais consiste em eliminar os vectores


prprios de W'.W que correspondam a valores prprios prximos de zero. Partindo da
igualdade:
p

W .W =
k =1

1
v k .v k
k

e admitindo que os valores prprios a ignorar so os s primeiros, define-se uma nova matriz:

(W .W )+

k = s +1

1
v k .v k
k

As estimativas dos parmetros da regresso sero ento (em termos das variveis reduzidas
para norma unitria):
a = Y
+
b = (W .W ) .W .y
0

Tal como referido anteriormente, os parmetros usuais a e b0 podem ser obtidos a partir
destes, atravs de:
bk

=
bk
dk
10.2.2.

a = Y bk . Xk
k =1

Componentes principais

As decises de eliminao baseadas simplesmente na proximidade de zero dos valores


prprios podem no ser fceis de tomar. Para facilitar essa tarefa, possvel exprimir a
regresso directamente a partir das componentes principais, e aplicar testes estatsticos
semelhantes aos do caso geral.
Partindo de U=W.V=W.[v1 v2 ... vp], e admitindo, como anteriormente, que os s primeiros
valores prprios de W'.W so prximos de zero, fica definida a matriz de componentes
principais de W, dada por UP=[us+1 us+2 ... up], que rene as p-s ltimas colunas de U, e uma
matriz UE=[u1 u2 ... us] de componentes eliminados de W. Ou seja, U=[UE UP].
possvel, ento, escrever a expresso da regresso em termos dos componentes de W, com
parmetros cP e cE correspondentes s componentes principais e s componentes a eliminar:

y = a*.1 + UE.cE + UP.cP + e


onde novamente a = Y . Dada a ortogonalidade de UE e UP, a expresso dos estimadores de
cE e cP pode ser obtida separadamente:
1
c E = (U E .U E ) .U E .y

1
c P = (U P .U P ) .U P .y

sendo de notar a relao b 0 = v s+1 ... v p . c P .


Em face de uma hiptese de eliminao de componentes, pode construir-se um quadro de
ANOVA e tirar concluses sobre a eliminao, atravs dos testes com a estatstica F.
Tabela 4: Quadro de ANOVA (componentes principais)

Mdia
Regresso
Comp P
Comp E
Erro
Total

Graus de
liberdade

Soma dos
quadrados

Mdia dos
quadrados

SSM

MSM

MSM/MSE

p-s
s
n-p-1
n

SSRP
SSRE
SSE
TSS

MSRP
MSRE
MSE

MSRP/MSE
MSRE/MSE

R2
SSRP/TSS(adj)

O valor de R2 no fica, neste caso, obrigatoriamente no intervalo [0, 1], nem ser
exactamente igual correlao entre y e y . Quanto aos testes, a hiptese de eliminao das
componentes E no ser de rejeitar se o valor de F for suficientemente pequeno (tal como no
caso geral). Uma vez que a regresso (completa) nas componentes de W no difere de uma
regresso normal, tambm podem ser usados os testes descritos em seces anteriores para a
incluso de variveis, aplicados aqui incluso de componentes.
A anlise da verso final da regresso de componentes principais pode ser feita com o
quadro de ANOVA anterior, ou alternativamente considerando as parcelas dos componentes
eliminados includas no erro (SSEP=SSE+SSEE). O quadro correspondente ser:
Tabela 5: Quadro final de ANOVA (componentes principais)

Mdia
Comp P
Erro
Total

Graus de
liberdade

Soma dos
quadrados

Mdia dos
quadrados

1
s
n-p+s-1
n

SSM
SSRP
SSEP
TSS

MSM
MSRP
MSEP

F
MSM/MSEP
MSRP/MSEP

R2
SSRP/TSS(adj)

Os valores deste quadro devem ser usados com alguma prudncia, tendo em conta que as
estatsticas da penltima coluna no so exactamente F excepto se cE=0. Por outro lado, a
estimativa de na tabela 5 normalmente melhor do que a da tabela 4, sobretudo quando h
poucos graus de liberdade em SSE.

Bibliografia
Gunst, R.F., Mason, R.L. (1980), Regression Analysis and Its Application: A Data-Oriented
Approach, Marcel Dekker, New York.
Marques de S, J.P. (1993), Anlise de Dados, apontamentos para a disciplina de Anlise de
Dados, FEUP, Porto.
Gmurman, V.E. (1983), Teoria das Probabilidades e Estatstica Matemtica, Ed. Mir,
Moscovo.
Taylor, J.R. (1982), An Introduction to Error Analysis, University Science Books, Mill
Valley

Você também pode gostar