Escolar Documentos
Profissional Documentos
Cultura Documentos
y = 9.1x + 8.5
60
50
40
30
20
10
0
0
.5
1.5
2.5
x
FEUP 1995
3.5
4.5
ndice
1.
Introduo
2.
Preliminares
2.1.
2.2.
2.3.
2.4.
3.
3.1.
3.2.
3.3.
3.4.
4.
4.1.
4.2.
4.3.
5.
5.1.
5.2.
6.
6.1.
6.2.
6.3.
6.4.
7.
7.1.
7.2.
7.3.
7.4.
7.5.
7.6.
8.
8.1.
8.2.
8.3.
9.
9.1.
9.2.
9.3.
9.4.
9.5.
Convenes.....................................................................................................................................3
Modelo da regresso linear.............................................................................................................3
Pressupostos ...................................................................................................................................5
Mdias e varincias ........................................................................................................................5
Modelizao
Variveis no-numricas.................................................................................................................6
Interaces......................................................................................................................................7
Suavizar ..........................................................................................................................................7
Variveis ortogonais .......................................................................................................................7
Centragem.......................................................................................................................................8
Estandardizao..............................................................................................................................8
Norma unitria................................................................................................................................8
Estimao de parmetros
10
11
Anlise de resduos
15
Eliminao de observaes...........................................................................................................16
Verificao de pressupostos .........................................................................................................16
Expresso do modelo....................................................................................................................18
Seleco de variveis
18
10. Multicolinearidade
10.1.
10.2.
21
Deteco .......................................................................................................................................22
Regresso de componentes principais ..........................................................................................22
Bibliografia
26
1.
Introduo
Este texto destina-se utilizao no ensino e investigao, como manual operacional para a
regresso linear. Nesse sentido, prescinde-se de qualquer tipo de desenvolvimento terico, e
centra-se a ateno nos procedimentos a efectuar para realizar um exerccio completo de
regresso, ou seja, incluindo alguns cuidados com a seleco de variveis e a validao de
resultados (testes de hipteses e intervalos de confiana), nem sempre tidos em conta na
prtica corrente.
Os leitores interessados em maior profundidade terica ou em aspectos adicionais podem
recorrer lista bibliogrfica indicada no fim do texto, ou a qualquer livro sobre esta matria.
O primeiro livro da lista serviu de base a muito do presente texto, cuja organizao e
redaco so, no entanto, bastante diferentes, dados os seus objectivos.
Procurou-se ser o mais conciso possvel, partindo do princpio que o utilizador j teve algum
contacto com esta tcnica. No entanto, o texto tambm pode ser usado por quem no tenha
tido qualquer contacto prvio com a regresso.
2.
Preliminares
2.1. Convenes
As variveis so designadas por letras maisculas em itlico (Y, Xk), o mesmo se passando
com as suas mdias (Y , X k ). Os vectores so representados em letra minscula carregada
(y, xk), e os seus elementos em itlico e letra minscula (yi, xik). Usam-se letras maisculas
carregadas para as matrizes (X, M, W), sendo os seus elementos representados como os dos
vectores. O acento circunflexo usado para indicar que se trata de valores estimados
( , y ). A transposio de vectores e matrizes indicada por uma plica (y', M'). Constantes
e outros valores matemticos so apresentados em letra minscula e itlico. Outras
convenes so referidas medida que aparecem no texto.
As referncias a distribuies estatsticas so feitas do modo usual, indicando-se entre
parntesis ou em ndice os parmetros necessrios. Por exemplo, N(,) designa uma
distribuio normal com mdia e varincia 2, enquanto que t1-/2(n-p-1) indica o valor
crtico da distribuio t de Student com n-p-1 graus de liberdade e nvel de significncia
(teste bilateral).
2.2. Modelo da regresso linear
A regresso nasce da tentativa de relacionar um conjunto de observaes de certas variveis,
designadas genericamente por Xk (k=1..p), com as leituras de uma certa grandeza Y. No caso
da regresso linear, est subjacente uma relao do tipo:
Y= a + b1 X1 + b2 X2 + ... + bp Xp
onde a, b1, b2, ... bp seriam os parmetros da relao linear procurada. O objectivo pode ser
explicativo (demonstrar uma relao matemtica que pode indicar, mas no prova, uma
relao de causa-efeito) ou preditivo (obter uma relao que nos permita, perante futuras
observaes das variveis Xk, prever o correspondente valor de Y, sem necessidade de o
medir). Dadas as caractersticas deste texto, no se aprofundar esta questo, mas a distino
bsica entre as duas situaes fundamental. Independentemente dos objectivos, as
variveis Xk so muitas vezes designadas por variveis explicativas, uma vez que tentam
explicar as razes da variao de Y.
Supondo que se dispe de n conjuntos de medidas com as correspondentes observaes, a
utilizao do modelo incluir sempre uma parcela de erro. Utilizando o ndice i (i=1..n) para
indicar cada conjunto, ter-se- ento:
yi = a + b1 xi1 + b2 xi2 + ... + bp xip+ ei
i=1..n
ou
y = Xa.b + e
Uma vez obtida a estimativa b dos parmetros b, a expresso operacional da regresso
permite obter estimativas y das leituras correspondentes s observaes x1 x2 .. xp:
y = a + b1 x 1 + b2 x2 + ... + bp x p
ou
y = a + x' .b 0
O clculo simultneo dos valores estimados correspondentes s observaes usadas na
parametrizao da regresso pode ser feito com base na expresso matricial correspondente:
y = Xa . b
Nas restantes seces deste texto, do-se indicaes sobre a seleco de variveis, obteno
de estimativas dos parmetros e interpretao e validao de resultados.
2.3. Pressupostos
Para alm de pressupostos gerais acerca da correcta especificao do modelo e da medio
sem erros das variveis observadas, um pressuposto importante para todo o
desenvolvimento de que os erros do modelo e tm mdia nula, no esto correlacionados e
tm varincia constante . Se estes pressupostos no forem verificados, muitas das
expresses utilizadas neste texto podem deixar de fazer sentido, pois foram deduzidas a
partir dessa hiptese.
Uma condio adicional para os erros do modelo de que estejam normalmente
distribudos. No sendo essencial para a derivao das expresses de clculo das estimativas
dos parmetros, este pressuposto indispensvel para toda a matria respeitante a testes de
hipteses e derivao de intervalos de confiana e, em geral, para toda a validao estatstica
dos resultados.
Para contemplar esse importante aspecto, este texto inclui alguns procedimentos de verificao, a posteriori, dos pressupostos respeitantes aos erros do modelo (anlise de resduos).
2.4. Mdias e varincias
Sobretudo com o intuito de fixar notaes, recordam-se, a seguir, algumas definies que
Xk =
xik
i =1
(observaes)
Y =
ou
i= 1
(leituras)
Note-se que, em rigor, as expresses anteriores referem-se mdia amostral, que uma
estimativa no tendenciosa da mdia das variveis. Com esse facto em conta, utilizar-se-o
estas designaes no texto, por no haver possibilidade de confuso, uma vez que as mdias
populacionais no so acessveis.
Por outro lado, definindo
n
dk2 = (xik Xk ) 2
i =1
soma dos quadrados dos desvios em relao mdia de Xk, a estimativa no tendenciosa da
varincia de Xk dada por:
n
s k2 =
2
k
d
=
n1
(x
ik
i=1
X k )2
n1
3.
Modelizao
X1
X2
Um erro frequente consiste em usar variveis com mais de dois valores, o que institui uma
ordem a priori e uma relao fixa entre classes. No caso do exemplo, seria portanto errado
usar apenas uma varivel que tomasse os valores (0, 1, 2) para as trs classes.
3.2. Interaces
Os efeitos conjuntos de variveis podem ter de ser includos no modelo linear, se elas no
forem independentes. No caso de variveis numricas, o grfico de Y vs X1.X2 deve ser
linear, se o termo for de incluir. No caso de X1 representar uma categoria, sendo X2 uma
varivel numrica, os grficos de Y vs X2 para diversos valores de X1 devem ter distintas
inclinaes e ordenadas na origem, se a interaco entre as duas variveis for importante.
3.3. Suavizar
Para facilitar a visualizao as tendncias dos dados, nomeadamente em grficos, podem
usar-se mecanismos de suavizao de irregularidades em dados ordenados, como mdias
mveis ou medianas de trs pontos. A regularizao por mdias mveis consiste em
substituir cada ponto (xi, yi) por (xi, zi), onde zi a mdia dos valores de Y nos 3 ou 5 pontos
centrados em (xi, yi), por exemplo zi=(yi-2+yi-1+yi+yi+1+yi+2)/5, sendo ignorados, neste caso,
necessariamente os dois primeiros e dois ltimos pontos da lista, previamente ordenada
pelos valores de X. Na utilizao da mediana de 3 pontos, substitui-se cada valor de yi pela
mediana de (yi-1, yi, yi+1), repetindo-se o processo at estabilizar. Neste caso, os pontos
extremos da lista inicial, ordenada pelos valores de X, mantm-se fixos ao longo do
processo.
3.4. Variveis ortogonais
H vantagem em que o maior nmero possvel de variveis sejam ortogonais, pois permite
simplificaes e separabilidade no clculo. Recorda-se que duas variveis Xu e Xv so
ortogonais se xu x v = 0 . Note-se, por outro lado, que as variveis que representam
categorias no so obrigatoriamente ortogonais. No caso do exemplo da tabela 1, X1 e X2 so
ortogonais, mas o mesmo no se passaria se fossem definidas como na tabela 2:
Tabela 2: Variveis binrias no-ortogonais
4.
X1
X2
Em alternativa ao uso das variveis originais ("raw"), podem ser usadas variveis centradas
("centered"), estandardizadas ("standardized") ou com norma unitria ("unit lenght"),
obtidas atravs das transformaes indicadas a seguir. Todos estes procedimentos visam
compatibilizar, de algum modo, variveis que podem ter escalas e disperses muito
diferentes. Em particular, a comparao da influncia relativa das diversas variveis, com
base nos parmetros estimados, s faz sentido se as variveis forem normalizadas.
Como se ver noutro local deste texto, os resultados obtidos depois de qualquer das
transformaes que se descrevem a seguir so sempre iguais aos da verso com os dados
originais. Tambm os parmetros tm relaes simples entre si, permitindo passar
facilmente de uma formulao a outra.
4.1. Centragem
Uma transformao simples consiste em centrar cada varivel em relao sua mdia. A
varivel transformada Mk obtm-se de Xk atravs de:
mik = xik Xk
Semelhantemente ao que se fez para X, tambm aqui se define M=[m1 m2 .. mp].
4.2. Estandardizao
A estandardizao corresponde a uma transformao para mdia nula e desvio padro
unitrio de cada varivel original Xk. A nova varivel Zk obtida atravs de:
zik =
xik X k
sk
wik =
xik X k
dk
Definindo aqui tambm W=[w1 w2 .. wp], verifica-se que a matriz W'.W apresenta diagonal
unitria (da o nome da transformao). Os restantes elementos (W'.W)uv correspondem
correlao entre Xu e Xv. Note-se ainda que Z'.Z=(n-1) W'.W.
5.
Estimao de parmetros
Os resultados obtidos com esta imposio so sempre piores do que os do modelo geral.
5.2. Interpretao dos parmetros estimados
Os coeficientes do modelo linear representam a variao na resposta prevista que resulta de
uma variao de uma unidade no valor ajustado das respectivas variveis. Se todas as
variveis forem ortogonais, o aumento de uma unidade em xk (supondo as outras iguais) teria
como resultado um aumento de bk em y . No entanto, no caso geral das variveis no serem
ortogonais, no faz sentido variar s uma varivel, pois aquelas que esto correlacionadas
com ela tambm tero que variar. Em consequncia, a variao de y afectada pelos
coeficientes de correlao aplicveis.
6.
r
i
2
i
2 = i
n p 1
Em princpio, todas as futuras observaes de Y estaro no intervalo 3 centrado no valor
predito y . Mais adiante se ver uma melhor definio de intervalos de confiana para y .
6.3. Coeficiente de Determinao
A soma dos quadrados das observaes pode ser decomposta em:
2
i
= n.Y + (yi Y ) + r i
2
ou
TSS = SSM + SSR + SSE
onde se usam as iniciais, em lngua inglesa, de "Total Sum of Squares" (soma quadrtica
total), "Sum of Squares due to the Mean" (soma quadrtica devida mdia), "Sum of
Squares due to the Regression" (soma quadrtica devida regresso) e "Sum of Squares due
to the Error" (soma quadrtica devida ao erro). soma SSR+SSE chama-se "Adjusted Total
Sum of Squares" (soma quadrtica total ajustada), com a sigla inglesa TSS(adj).
O coeficiente de determinao, usado como medida de qualidade do ajuste, dado por:
(y Y )
SSR
=
=
SSR + SSE (y Y ) + r
2
R2
2
i
Mdia
Regresso
Erro
Total
Graus de
liberdade
Soma dos
quadrados
Mdia dos
quadrados
1
p
n-p-1
n
SSM
SSR
SSE
TSS
MSM
MSR
MSE
F
MSM/MSE
MSR/MSE
R2
SSR/(SSR+SSE)
7.
C = (Xa .X a )
c 00
c
10
=
"
c p 0
c 01 ! c 0 p
c11 ! c1p
" # "
c p1 ! c pp
podem calcular-se com facilidade as correlaes entre parmetros, a partir das regras:
corr a , bk =
c0k
c00 .ckk
corr bj , bk =
c jk
c jj .ckk
Relacionada com C est a matriz covarincia dos parmetros, b=2.C. A diagonal principal
de b constituda pelas varincias dos parmetros, a partir das quais se calculam os desvios
padro usados nos testes de hipteses e no clculo de intervalos de confiana: c00 para a,
e ckk para cada um dos bk. Os elementos fora da diagonal correspondem s covarincias
entre parmetros. Como habitualmente se desconhece , este valor substitudo por , o
que permite obter uma estimativa no tendenciosa de b.
H0: bk=bx
Ha: bkbx
t=
b k b x
c kk
Ha: b00
F=
MSR
MSE
hiptese nula.
7.4. Intervalos de confiana dos parmetros
Os intervalos de confiana indicados a seguir so vlidos apenas para parmetros
considerados individualmente. Se se pretendesse considerar simultaneamente vrios
parmetros, teriam que ser usadas distribuies de probabilidade conjuntas. Como bvio,
os intervalos sero tanto mais apertados quanto menor for o nvel de confiana 100.(1-)%.
Repare-se que os intervalos de confiana podem funcionar como teste de hipteses: se o
intervalo contm a hiptese nula, esta no rejeitada. Neste caso, o valor de funciona
como nvel de significncia.
7.4.1. Intervalo de a
a a a a + a
O uso combinado destes intervalos d uma ideia optimista do conjunto dos b0. Uma
alternativa ao uso de distribuies conjuntas de probabilidade ser usar a expresso:
(b
2
b 0 .M.M. b 0 b 0 p .F1- (p, n-p-1)
que define a regio de 100.(1-)% confiana (em geral um elipsoide) para o conjunto dos b0.
A expresso mais facilmente utilizada para verificar se um conjunto particular de valores
est ou no includo na regio de confiana.
7.5. Intervalo da resposta
Uma vez estabelecidos os parmetros do modelo, possvel, como se disse inicialmente,
estimar o valor de Y correspondente a uma dada observao das variveis Xk. Se
designarmos por u=[1 u1 u2 ... up]' o vector alargado das observaes das p variveis, a
estimativa de y ser dada por:
y = u' . b
Se os erros tiverem distribuio normal, tambm Y ~ N(E[Y], Var[ Y ]). Uma vez que a
varincia estimada, o intervalo de 100 .(1-)% de confiana para E[Y]=E[ Y ] ser dado
por:
Y E [Y ] E[Y] Y + E[ Y ]
8.
Anlise de resduos
ri
ri
=
ri 1 hii
r ( i ) =
ri
1 hii
t( i) = r i .
n p2
2
(1 hii ).SSE ri
exemplo, ser n1=7, n2=6 e r=6. Usando em seguida tabelas para o "runs test", determinamse valores crticos que ajudam a determinar, com nvel de significncia 5%, se a sequncia
ou no aleatria. Em funo de n1 e n2, as tabelas do dois valores (inferior e superior) que
tero que enquadrar o valor de r. Caso contrrio, suspeita-se de no-aleatoriedade. No caso
do exemplo, os dois valores so 3 e 12, concluindo-se pela aleatoriedade, uma vez que
3r12.
As tabelas referidas para este teste s abrangem, geralmente, at um mximo de 20 para n1
ou n2. Para valores superiores, usa-se a distribuio normal da forma habitual nos testes,
com
2n1 n2 1
n1 + n2 2
2n1n2 .(2n1 n2 n1 n2 )
r
Z=
(n1 + n2 ) . (n1 + n2 1)
2
d=
(r
ri 1 )
i= 2
2
i
i =1
O teste H0:=0, Ha:>0 baseia-se em tabelas prprias, que fornecem dois ndices dL e dU,
rejeitando-se H0 se d<dL, e no se rejeitando se d>dU (dentro do intervalo no se podem
retirar concluses). Para testar H0 contra Ha:<0, usa-se a estatstica d'=4-d, com as mesmas
tabelas.
8.2.3. Heteroscedaticidade
A deteco de desigualdades de varincia dos erros pode ser realizada a partir de um grfico
dos resduos ri em funo dos yi . Se o aspecto no for uma mancha de largura uniforme, por
exemplo alargando com o aumento de yi , poder ser necessrio transformar Y (ln Y, 1/Y,
etc) ou alterar o modelo. Um grfico semelhante, mas dos quadrados dos resduos, pode
confirmar suspeitas e ajudar a detectar isolados.
8.2.4. Normalidade
A verificao visual da normalidade feita ordenando os resduos de forma crescente, e
desenhando-os em papel de distribuio normal. Se a presuno de normalidade se verificar,
os resduos devero estar aproximadamente em linha recta.
8.3. Expresso do modelo
So teis alguns grficos de resduos em relao a variveis, para verificao visual da
correco da expresso do modelo. Os grficos potencialmente mais interessantes so:
- Resduos em funo das variveis. Permitem verificar se necessrio transformar
as variveis (ln X, X , etc.);
- Resduos em funo de produtos de variveis. No caso de ser detectado um padro,
deve ser includo no modelo um novo termo com o produto em causa (Xu.Xv, por
exemplo);
- Resduos parciais. Grfico dos resduos obtidos sem incluir Xk, em funo de Xk.
Permitem detectar no-linearidades que levem transformao de Xk. Se o ajuste
for bom, o grfico tem o aspecto de uma recta com inclinao igual ao parmetro da
varivel na regresso.
9.
Seleco de variveis
As tcnicas apresentadas a seguir podem ser teis para confirmar ou afastar hipteses acerca
da incluso de variveis explicativas, produzidas a partir do conhecimento do sistema e do
seu comportamento. Essa seleco primria de variveis , portanto, fundamental para o
eventual sucesso do exerccio de regresso. Note-se, tambm, que todas as tcnicas se
dirigem a variveis numa determinada forma, ou seja, a rejeio de X1 no significa que
1/X1, por exemplo, no devesse ser includa no modelo.
9.1. Medida F e estatstica Ck
Deciso sobre a incluso ou no de um conjunto de r variveis, cujas observaes esto
agrupadas numa matriz Xb, correspondendo aos parmetros b2. Podem calcular-se os valores
de SSR e SSE do modelo contendo estas variveis, comparando-os com os valores SSR1 e
SSE1 que se obteriam com o modelo reduzido (sem as r variveis em causa). O teste a
realizar usa a estatstica F, com 0 tpico da ordem de 0.05:
H0: b2=0
Ha: b20
F=
SSR SSR1
r.MSE
SSE1
(n 2k )
MSE
k
. ckk
Um critrio habitual conservar todas as variveis para as quais |t|>3. Depois desta seleco
inicial, que permite limitar muito o nmero de regresses alternativas a experimentar,
investigada a incluso de cada uma das restantes variveis, com recurso, por exemplo, s
tcnicas da seco anterior. Para alm do esquema aqui indicado, podem ser utilizados
diferentes procedimentos com base no mesmo princpio.
9.3. Seleco para a frente (forward selection)
Neste mtodo, as variveis candidatas X1 .. Xp vo sendo introduzidas progressivamente no
modelo, com base na comparao das somas dos quadrados dos resduos (SSE) que resultam
da sua introduo. No garantindo a descoberta do melhor subconjunto de variveis, o
mtodo fcil de usar e permite obter, em geral, resultados bastante bons, com muito menos
esforo do que ensaiar todas as possveis regresses. O procedimento geral o seguinte:
A varivel a entrar no modelo ser a que tiver maior valor de Fk, mas s ser adicionada se
se verificar a condio
sendo usual fixar-se um valor pouco exigente para (p.ex. 0.25). Se a condio no for
satisfeita, o procedimento pra. No limite, ser necessrio calcular p! regresses, com um
nmero de parmetros crescendo de 2 at p+1 ao longo dos estgios.
9.4. Eliminao para trs (backward elimination)
Filosofia complementar da anterior. O processo inicia-se com a regresso completa (todas as
p variveis) e em cada estgio eliminada a varivel cuja sada do modelo conduz
regresso reduzida com menor SSE. A eliminao pode ser feita usando a estatstica:
Fk =
SSEsk+ 1 SSE s
MSE
onde MSE sempre o da regresso completa, e SSE s+k 1 no obriga a executar a regresso
reduzida (sem Xk), toda a vez que
SSE s+k 1 SSEs = t k2 .MSEs
onde tk a estatstica usada para o teste de bk=bx (ver testes), neste caso com bx=0. Em
consequncia, s necessrio calcular uma regresso em cada estgio, o que torna este
processo bastante econmico.
Depois de seleccionada a varivel com o menor Fk, a varivel eliminada se for verificada a
condio:
Caso contrrio, o processo termina, e mais nenhuma varivel eliminada. Tal como no caso
anterior, este mtodo tambm no garante a melhor seleco, mas comporta-se bastante
bem, sendo, em princpio, prefervel quando o nmero de variveis no excepcionalmente
grande.
9.5. Procedimento passo a passo
A combinao dos dois procedimentos anteriores conduz a uma estratgia algo mais
complexa, mas que conduz a melhores resultados. O princpio operacional semelhante ao
da seleco para a frente, mas em cada estgio realiza-se um passo de eliminao para trs,
que pode conduzir manuteno de todas as variveis ou eliminao de uma delas, de
acordo com o teste exposto na seco anterior. A regra de paragem igual do mtodo de
seleco para a frente.
10. Multicolinearidade
Se existir dependncia linear entre pelo menos dois vectores xu e xv, o processo de regresso
no possvel tecnicamente, dado que Xa .X a singular. Evidentemente que, em tal caso,
que corresponde a redundncia na informao, a eliminao de variveis resolve o
problema. Sucede, no entanto, que podem surgir situaes de dependncia linear
aproximada, ou seja, existe pelo menos um c0 para o qual X.c0. Esta situao designa-se
por multicolinearidade e tem efeitos nocivos nos modelos, nomeadamente pela perturbao
da ligao entre os fenmentos estudados e os valores matemticos dos parmetros.
Podem surgir, por exemplo, modelos alternativos de qualidade de ajuste semelhante, mas
com valores completamente dspares (at no sinal) nos parmetros das mesmas variveis. Os
valores das estatsticas usadas nos testes tendem a baixar, podendo levar eliminao de
variveis importantes no-colineares (como remdio, sugere-se subir o nvel de confiana
para 0.25). A extrapolao pode, na situao geral de multicolinearidade, ser desastrosa.
Uma vez detectada a multicolinearidade, podem seguir-se duas estratgias: eliminao de
variveis redundantes, ou regresses tendenciosas que eliminam os efeitos da redundncia,
sem eliminar variveis. Dada a especializao deste ltimo tpico, apenas se descrever, no
presente texto, um desses modelos, baseado na anlise de componentes principais.
10.1. Deteco
As multicolinearidades esto relacionadas com a correlao entre variveis, podendo ser
detectadas na matriz de correlao dada pelo produto W'.W. No entanto, o fenmeno pode
no ser evidente na matriz, sobretudo quando so envolvidas mais do que duas variveis. A
anlise dos valores prprios de W'.W prximos de zero permite uma deteco mais eficaz,
custa dos vectores prprios correspondentes. Na verdade, se for vk um desses vectores
prprios, correspondendo ao valor prprio k0, pode mostrar-se que:
W.vk 0
Os elementos de vk correspondem aproximadamente, portanto, aos coeficientes de uma
combinao linear "quase nula", ressaltando aqueles que tiverem maior valor absoluto, por
indicarem as variveis multicolineares.
A deteco tambm pode recorrer matriz Q=(W'.W)-1, nomeadamente aos elementos da
diagonal principal (qkk), designados por VIF ("variance inflation factors" - factores de
aumento da varincia). Valores elevados de qkk sugerem que a varivel Xk est envolvida em
multicolinearidades, podendo detectar-se as relaes com outras variveis j a partir de
valores elevados de qkj.
10.2. Regresso de componentes principais
A eliminao de variveis multicolineares um exerccio sempre arriscado, dado que muitas
vezes no so claros os limites aceitveis. Por outro lado, a situao de multicolinearidade
no deve ignorar-se, pois os indicadores de qualidade (como R2) e os testes so afectados,
podendo levar a tomar decises erradas sobre variveis importantes para o modelo, etc.
Uma alternativa s duas opes anteriores a utilizao de regresses tendenciosas, ou seja,
aceita-se que E[ b 0 ]b0, em troca de uma grande reduo da varincia dos parmetros (ou
seja, dos VIF). Os resultados "visveis", ao nvel da qualidade do ajuste, so semelhantes aos
que se obteriam com a regresso normal, mas a supresso das multicolinearidades faz com
que os parmetros reflictam mais correctamente a importncia relativa das diversas variveis
explicativas.
Das vrias hipteses existentes, apresenta-se aqui a regresso de componentes principais.
Outras variantes podem ser vistas na bibliografia indicada. Chama-se a ateno para que, ao
contrrio do restante texto, se utiliza nesta seco a reduo para norma unitria.
10.2.1.
Princpio
W .W =
k =1
1
v k .v k
k
e admitindo que os valores prprios a ignorar so os s primeiros, define-se uma nova matriz:
(W .W )+
k = s +1
1
v k .v k
k
As estimativas dos parmetros da regresso sero ento (em termos das variveis reduzidas
para norma unitria):
a = Y
+
b = (W .W ) .W .y
0
Tal como referido anteriormente, os parmetros usuais a e b0 podem ser obtidos a partir
destes, atravs de:
bk
=
bk
dk
10.2.2.
a = Y bk . Xk
k =1
Componentes principais
1
c P = (U P .U P ) .U P .y
Mdia
Regresso
Comp P
Comp E
Erro
Total
Graus de
liberdade
Soma dos
quadrados
Mdia dos
quadrados
SSM
MSM
MSM/MSE
p-s
s
n-p-1
n
SSRP
SSRE
SSE
TSS
MSRP
MSRE
MSE
MSRP/MSE
MSRE/MSE
R2
SSRP/TSS(adj)
O valor de R2 no fica, neste caso, obrigatoriamente no intervalo [0, 1], nem ser
exactamente igual correlao entre y e y . Quanto aos testes, a hiptese de eliminao das
componentes E no ser de rejeitar se o valor de F for suficientemente pequeno (tal como no
caso geral). Uma vez que a regresso (completa) nas componentes de W no difere de uma
regresso normal, tambm podem ser usados os testes descritos em seces anteriores para a
incluso de variveis, aplicados aqui incluso de componentes.
A anlise da verso final da regresso de componentes principais pode ser feita com o
quadro de ANOVA anterior, ou alternativamente considerando as parcelas dos componentes
eliminados includas no erro (SSEP=SSE+SSEE). O quadro correspondente ser:
Tabela 5: Quadro final de ANOVA (componentes principais)
Mdia
Comp P
Erro
Total
Graus de
liberdade
Soma dos
quadrados
Mdia dos
quadrados
1
s
n-p+s-1
n
SSM
SSRP
SSEP
TSS
MSM
MSRP
MSEP
F
MSM/MSEP
MSRP/MSEP
R2
SSRP/TSS(adj)
Os valores deste quadro devem ser usados com alguma prudncia, tendo em conta que as
estatsticas da penltima coluna no so exactamente F excepto se cE=0. Por outro lado, a
estimativa de na tabela 5 normalmente melhor do que a da tabela 4, sobretudo quando h
poucos graus de liberdade em SSE.
Bibliografia
Gunst, R.F., Mason, R.L. (1980), Regression Analysis and Its Application: A Data-Oriented
Approach, Marcel Dekker, New York.
Marques de S, J.P. (1993), Anlise de Dados, apontamentos para a disciplina de Anlise de
Dados, FEUP, Porto.
Gmurman, V.E. (1983), Teoria das Probabilidades e Estatstica Matemtica, Ed. Mir,
Moscovo.
Taylor, J.R. (1982), An Introduction to Error Analysis, University Science Books, Mill
Valley