Regressao

Manual Operacional para a Regresso Linear
Manuel Antnio Matos
y = 9.1x + 8.5 60
50
40
30
20
10
0 0 .5 1 1.5 2 2.5 x 3 3.5 4 4.5 5
FEUP 1995
ndice
1. 2.
2.1. 2.2. 2.3. 2.4.
Introduo Preliminares
3 3
Convenes.....................................................................................................................................3 Modelo da regresso linear.............................................................................................................3 Pressupostos ...................................................................................................................................5 Mdias e varincias ........................................................................................................................5
3.
3.1. 3.2. 3.3. 3.4.
Modelizao
Variveis no-numricas.................................................................................................................6 Interaces......................................................................................................................................7 Suavizar ..........................................................................................................................................7 Variveis ortogonais .......................................................................................................................7
4.
4.1. 4.2. 4.3.
Transformaes dos dados
Centragem.......................................................................................................................................8 Estandardizao..............................................................................................................................8 Norma unitria................................................................................................................................8
5.
5.1. 5.2.
Estimao de parmetros
Passagem obrigatria na origem .....................................................................................................9 Interpretao dos parmetros estimados .........................................................................................9
6.
6.1. 6.2. 6.3. 6.4.
Avaliao da qualidade do ajuste
10
Erro quadrtico .............................................................................................................................10 Varincia do erro ..........................................................................................................................10 Coeficiente de Determinao........................................................................................................10 ANOVA........................................................................................................................................11
7.
7.1. 7.2. 7.3. 7.4. 7.5. 7.6.
Testes e intervalos de confiana
11
Distribuies de probabilidade dos parmetros ............................................................................12 Correlaes e Matriz Covarincia ................................................................................................12 Testes de hipteses .......................................................................................................................13 Intervalos de confiana dos parmetros........................................................................................14 Intervalo da resposta.....................................................................................................................14 Intervalo de predio ....................................................................................................................15
8.
8.1. 8.2. 8.3.
Anlise de resduos
15
Eliminao de observaes...........................................................................................................16 Verificao de pressupostos .........................................................................................................16 Expresso do modelo....................................................................................................................18
9.
9.1. 9.2. 9.3. 9.4. 9.5.
Seleco de variveis
18
Medida F e estatstica Ck..............................................................................................................18 Pesquisa t-dirigida ........................................................................................................................19 Seleco para a frente (forward selection)....................................................................................19 Eliminao para trs (backward elimination) ...............................................................................20 Procedimento passo a passo .........................................................................................................21
10. Multicolinearidade
10.1. 10.2.
21
Deteco .......................................................................................................................................22 Regresso de componentes principais ..........................................................................................22
Bibliografia
26
1.
Introduo
Este texto destina-se utilizao no ensino e investigao, como manual operacional para a regresso linear. Nesse sentido, prescinde-se de qualquer tipo de desenvolvimento terico, e centra-se a ateno nos procedimentos a efectuar para realizar um exerccio completo de regresso, ou seja, incluindo alguns cuidados com a seleco de variveis e a validao de resultados (testes de hipteses e intervalos de confiana), nem sempre tidos em conta na prtica corrente. Os leitores interessados em maior profundidade terica ou em aspectos adicionais podem recorrer lista bibliogrfica indicada no fim do texto, ou a qualquer livro sobre esta matria. O primeiro livro da lista serviu de base a muito do presente texto, cuja organizao e redaco so, no entanto, bastante diferentes, dados os seus objectivos. Procurou-se ser o mais conciso possvel, partindo do princpio que o utilizador j teve algum contacto com esta tcnica. No entanto, o texto tambm pode ser usado por quem no tenha tido qualquer contacto prvio com a regresso.
2.
Preliminares
2.1. Convenes As variveis so designadas por letras maisculas em itlico (Y, Xk), o mesmo se passando com as suas mdias ( Y , X k ). Os vectores so representados em letra minscula carregada (y, xk), e os seus elementos em itlico e letra minscula (yi, xik). Usam-se letras maisculas carregadas para as matrizes (X, M, W), sendo os seus elementos representados como os dos vectores. O acento circunflexo usado para indicar que se trata de valores estimados , y ). A transposio de vectores e matrizes indicada por uma plica (y', M'). Constantes ( e outros valores matemticos so apresentados em letra minscula e itlico. Outras convenes so referidas medida que aparecem no texto. As referncias a distribuies estatsticas so feitas do modo usual, indicando-se entre parntesis ou em ndice os parmetros necessrios. Por exemplo, N(,) designa uma distribuio normal com mdia e varincia 2, enquanto que t1-/2(n-p-1) indica o valor crtico da distribuio t de Student com n-p-1 graus de liberdade e nvel de significncia (teste bilateral). 2.2. Modelo da regresso linear A regresso nasce da tentativa de relacionar um conjunto de observaes de certas variveis,
designadas genericamente por Xk (k=1..p), com as leituras de uma certa grandeza Y. No caso da regresso linear, est subjacente uma relao do tipo: Y= a + b1 X1 + b2 X2 + ... + bp Xp onde a, b1, b2, ... bp seriam os parmetros da relao linear procurada. O objectivo pode ser explicativo (demonstrar uma relao matemtica que pode indicar, mas no prova, uma relao de causa-efeito) ou preditivo (obter uma relao que nos permita, perante futuras observaes das variveis Xk, prever o correspondente valor de Y, sem necessidade de o medir). Dadas as caractersticas deste texto, no se aprofundar esta questo, mas a distino bsica entre as duas situaes fundamental. Independentemente dos objectivos, as variveis Xk so muitas vezes designadas por variveis explicativas, uma vez que tentam explicar as razes da variao de Y. Supondo que se dispe de n conjuntos de medidas com as correspondentes observaes, a utilizao do modelo incluir sempre uma parcela de erro. Utilizando o ndice i (i=1..n) para indicar cada conjunto, ter-se- ento: yi = a + b1 xi1 + b2 xi2 + ... + bp xip+ ei i=1..n
Independentemente das motivaes, a verso da regresso linear que aqui se apresenta consiste em estimar os valores dos parmetros a, b1, b2, ... bp, atravs da minimizao da soma dos quadrados dos desvios. Da o nome de mtodo dos mnimos quadrados que s vezes se utiliza, nomeadamente para a regresso simples (p=1). O termo multi-regresso usado para explicitar o caso p>1. Neste ponto, conveniente definir: y = [y1 y2 .. yn]' xk = [x1k x2k .. xnk]' X = [x1 x2 .. xp] b = [a b0]'=[a b1 b2 ... bp]' e = [e1 e2 .. en]' 1 = [1 ... 1]' Xa = [1 x1 x2 .. xp] vector das leituras vector das observaes de cada varivel Xk matriz de observaes (elementos xik, i=1..n, k=1..p) vector dos parmetros vector dos erros vector unitrio de dimenso n matriz aumentada de observaes (i=0..n, k=0..p)
Com estas definies, possvel escrever a expresso anterior de forma compacta: y = a.1 + X.b0 + e
ou y = Xa.b + e dos parmetros b, a expresso operacional da regresso Uma vez obtida a estimativa b das leituras correspondentes s observaes x1 x2 .. xp: permite obter estimativas y x +b x + ... + b x =a +b y 1 1 2 2 p p ou =a + x' .b y 0 O clculo simultneo dos valores estimados correspondentes s observaes usadas na parametrizao da regresso pode ser feito com base na expresso matricial correspondente: = Xa . b y Nas restantes seces deste texto, do-se indicaes sobre a seleco de variveis, obteno de estimativas dos parmetros e interpretao e validao de resultados. 2.3. Pressupostos Para alm de pressupostos gerais acerca da correcta especificao do modelo e da medio sem erros das variveis observadas, um pressuposto importante para todo o desenvolvimento de que os erros do modelo e tm mdia nula, no esto correlacionados e tm varincia constante . Se estes pressupostos no forem verificados, muitas das expresses utilizadas neste texto podem deixar de fazer sentido, pois foram deduzidas a partir dessa hiptese. Uma condio adicional para os erros do modelo de que estejam normalmente distribudos. No sendo essencial para a derivao das expresses de clculo das estimativas dos parmetros, este pressuposto indispensvel para toda a matria respeitante a testes de hipteses e derivao de intervalos de confiana e, em geral, para toda a validao estatstica dos resultados. Para contemplar esse importante aspecto, este texto inclui alguns procedimentos de verificao, a posteriori, dos pressupostos respeitantes aos erros do modelo (anlise de resduos). 2.4. Mdias e varincias Sobretudo com o intuito de fixar notaes, recordam-se, a seguir, algumas definies que
so utilizadas no resto do texto. Define-se a mdia de uma varivel atravs de:
Xk =
xik
i =1
(observaes)
ou
Y =
y
i= 1
(leituras)
Note-se que, em rigor, as expresses anteriores referem-se mdia amostral, que uma estimativa no tendenciosa da mdia das variveis. Com esse facto em conta, utilizar-se-o estas designaes no texto, por no haver possibilidade de confuso, uma vez que as mdias populacionais no so acessveis. Por outro lado, definindo dk2 = ( xik Xk ) 2
i =1 n
soma dos quadrados dos desvios em relao mdia de Xk, a estimativa no tendenciosa da varincia de Xk dada por: s k2 = d = n1
2 k
(x
i=1
ik
X k )2
n1
De forma anloga se calcularia a estimativa da varincia de Y.
3.
Modelizao
3.1. Variveis no-numricas A incluso de categorias no modelo da regresso deve fazer-se recorrendo a variveis binrias. No caso mais simples, em que h duas categorias (A e B), cria-se um varivel X1, com dois valores possveis, correspondendo cada um a uma das categorias. Os dois valores costumam ser 0 e 1, mas pode ser usado qualquer par de nmeros. Se houver c categorias, devero criar-se as variveis binrias necessrias para definir todas as categorias. O nmero de variveis a criar o inteiro imediatamente superior (ou igual) a log2 c. Por exemplo, para 3 categorias A, B e C, podero criar-se 2 variveis X1 e X2, definidas como na tabela 1: Tabela 1: Variveis binrias para 3 categorias
A X1 X2 1 0
B 0 1
C 0 0
Um erro frequente consiste em usar variveis com mais de dois valores, o que institui uma ordem a priori e uma relao fixa entre classes. No caso do exemplo, seria portanto errado usar apenas uma varivel que tomasse os valores (0, 1, 2) para as trs classes. 3.2. Interaces Os efeitos conjuntos de variveis podem ter de ser includos no modelo linear, se elas no forem independentes. No caso de variveis numricas, o grfico de Y vs X1.X2 deve ser linear, se o termo for de incluir. No caso de X1 representar uma categoria, sendo X2 uma varivel numrica, os grficos de Y vs X2 para diversos valores de X1 devem ter distintas inclinaes e ordenadas na origem, se a interaco entre as duas variveis for importante. 3.3. Suavizar Para facilitar a visualizao as tendncias dos dados, nomeadamente em grficos, podem usar-se mecanismos de suavizao de irregularidades em dados ordenados, como mdias mveis ou medianas de trs pontos. A regularizao por mdias mveis consiste em substituir cada ponto (xi, yi) por (xi, zi), onde zi a mdia dos valores de Y nos 3 ou 5 pontos centrados em (xi, yi), por exemplo zi=(yi-2+yi-1+yi+yi+1+yi+2)/5, sendo ignorados, neste caso, necessariamente os dois primeiros e dois ltimos pontos da lista, previamente ordenada pelos valores de X. Na utilizao da mediana de 3 pontos, substitui-se cada valor de yi pela mediana de (yi-1, yi, yi+1), repetindo-se o processo at estabilizar. Neste caso, os pontos extremos da lista inicial, ordenada pelos valores de X, mantm-se fixos ao longo do processo. 3.4. Variveis ortogonais H vantagem em que o maior nmero possvel de variveis sejam ortogonais, pois permite simplificaes e separabilidade no clculo. Recorda-se que duas variveis Xu e Xv so ortogonais se x u x v = 0 . Note-se, por outro lado, que as variveis que representam categorias no so obrigatoriamente ortogonais. No caso do exemplo da tabela 1, X1 e X2 so ortogonais, mas o mesmo no se passaria se fossem definidas como na tabela 2: Tabela 2: Variveis binrias no-ortogonais
A X1 X2 0 0
B 1 0
C 1 1
4.
Transformaes dos dados
Em alternativa ao uso das variveis originais ("raw"), podem ser usadas variveis centradas ("centered"), estandardizadas ("standardized") ou com norma unitria ("unit lenght"), obtidas atravs das transformaes indicadas a seguir. Todos estes procedimentos visam compatibilizar, de algum modo, variveis que podem ter escalas e disperses muito diferentes. Em particular, a comparao da influncia relativa das diversas variveis, com base nos parmetros estimados, s faz sentido se as variveis forem normalizadas. Como se ver noutro local deste texto, os resultados obtidos depois de qualquer das transformaes que se descrevem a seguir so sempre iguais aos da verso com os dados originais. Tambm os parmetros tm relaes simples entre si, permitindo passar facilmente de uma formulao a outra. 4.1. Centragem Uma transformao simples consiste em centrar cada varivel em relao sua mdia. A varivel transformada Mk obtm-se de Xk atravs de: mik = xik Xk Semelhantemente ao que se fez para X, tambm aqui se define M=[m1 m2 .. mp]. 4.2. Estandardizao A estandardizao corresponde a uma transformao para mdia nula e desvio padro unitrio de cada varivel original Xk. A nova varivel Zk obtida atravs de: zik = Neste caso, define-se Z=[z1 z2 .. zp]. 4.3. Norma unitria Esta transformao substitui os valores de cada varivel Xk por uma nova varivel Wk, obtida pela seguinte regra: xik X k sk
wik =
xik X k dk
Definindo aqui tambm W=[w1 w2 .. wp], verifica-se que a matriz W'.W apresenta diagonal unitria (da o nome da transformao). Os restantes elementos (W'.W)uv correspondem correlao entre Xu e Xv. Note-se ainda que Z'.Z=(n-1) W'.W.
5.
Estimao de parmetros
A estimativa no tendenciosa de b pelo mtodo dos mnimos quadrados dada por: = (X .X )1 .X .y b a a a No caso de variveis centradas, estandardizadas ou de norma unitria, o processo de obteno da estimativa dos parmetros b0 utiliza uma expresso anloga anterior, substituindo-se Xa respectivamente por M, Z ou W. A estimativa de a , em todos esses obtidos se as variveis forem centradas so casos, igual mdia de Y. Os valores de b k vem iguais aos do caso geral. Para variveis estandardizadas e de norma unitria, cada b k multiplicado respectivamente por sk e dk em relao ao caso geral. A menos de erros de arredondamento, os valores estimados com qualquer dos modelos so rigorosamente correspondentes. 5.1. Passagem obrigatria na origem =0, e No caso de se pretender que o estimador passe pela origem, a = (X.X )1 .X.y b Os resultados obtidos com esta imposio so sempre piores do que os do modelo geral. 5.2. Interpretao dos parmetros estimados Os coeficientes do modelo linear representam a variao na resposta prevista que resulta de uma variao de uma unidade no valor ajustado das respectivas variveis. Se todas as variveis forem ortogonais, o aumento de uma unidade em xk (supondo as outras iguais) teria em y . No entanto, no caso geral das variveis no serem como resultado um aumento de b k ortogonais, no faz sentido variar s uma varivel, pois aquelas que esto correlacionadas afectada pelos com ela tambm tero que variar. Em consequncia, a variao de y coeficientes de correlao aplicveis.
6.
Avaliao da qualidade do ajuste
6.1. Erro quadrtico O valor minimizado do quadrado dos erros pode ser calculado atravs de:
r
i
2 i
) = y' . y y' . Xa .b i ) 2 = (y y ) .(y y = ( yi y

| i
. (y y ) = y . e =0. A simplificao no ltimo membro da igualdade deve-se a ser y 6.2. Varincia do erro Supondo que os erros so independentes e tm a mesma varincia, a estimativa da varincia do erro dada por: r i2 2 = i n p 1 Em princpio, todas as futuras observaes de Y estaro no intervalo 3 centrado no valor . Mais adiante se ver uma melhor definio de intervalos de confiana para y . predito y 6.3. Coeficiente de Determinao A soma dos quadrados das observaes pode ser decomposta em:
y
i
2 i
i Y ) + r i = n. Y + (y
2 2 i i
ou TSS = SSM + SSR + SSE onde se usam as iniciais, em lngua inglesa, de "Total Sum of Squares" (soma quadrtica total), "Sum of Squares due to the Mean" (soma quadrtica devida mdia), "Sum of Squares due to the Regression" (soma quadrtica devida regresso) e "Sum of Squares due to the Error" (soma quadrtica devida ao erro). soma SSR+SSE chama-se "Adjusted Total Sum of Squares" (soma quadrtica total ajustada), com a sigla inglesa TSS(adj). O coeficiente de determinao, usado como medida de qualidade do ajuste, dado por:
R2
Y) (y SSR = = SSR + SSE (y Y ) + r

2 i i 2 i i i
2 i
ou seja, o coeficiente mede a proporo da variao de Y em relao mdia que explicada pela regresso. Um resultado a reter que R2 = 2 (quadrado do coeficiente de correlao YY ). Em princpio, a qualidade do ajuste ser tanto maior quanto mais R2 se entre Y e Y aproximar da unidade. 6.4. ANOVA As tabelas de anlise de varincia ("Analysis Of Variance") so comuns em diversos tipos de estudos estatsticos, sendo frequentemente incorporadas nos programas dedicados regresso e nas folhas de clculo que incluem este tipo de estudos. A organizao dos valores tem normalmente o aspecto indicado na tabela 3, onde so usadas algumas iniciais referidas no ponto anterior. As mdias dos quadrados so obtidas dividindo as somas de quadrados pelos graus de liberdade correspondentes, como em MSE=SSE/(n-p-1). Repare 2. -se que MSE= Tabela 3: Quadro tpico de ANOVA
Graus de liberdade Mdia Regresso Erro Total 1 p n-p-1 n Soma dos quadrados SSM SSR SSE TSS Mdia dos quadrados MSM MSR MSE
F MSM/MSE MSR/MSE
R2 SSR/(SSR+SSE)
Os dois valores de F apresentados na tabela permitem realizar testes de nulidade dos parmetros. O valor na linha da mdia em geral muito elevado, no conduzindo a qualquer resultado com interesse; o valor na linha da regresso usado no teste de b0=0, descrito noutra seco do presente texto. Alguns programas e folhas de clculo incluem na tabela o valor da probabilidade do teste F, permitindo uma avaliao imediata da rejeio ou no da hiptese b0=0. A rejeio d-se quando o valor da probabilidade pequeno, correspondendo a valores elevados de F.
7.
Testes e intervalos de confiana
Os exerccios de validade (testes e intervalos de confiana) que se apresentam a seguir permitem ter uma ideia indirecta da qualidade da regresso. Para alm de uma validao geral do modelo obtido, os testes podem servir para confirmar hipteses de valores particulares para os parmetros, estabelecidas por via terica ou em anteriores experincias.
As verses habituais baseiam-se na distribuio normal e, em alguns casos, do 2, aqui substitudas respectivamente pelas distribuies t de Student e F, dado que a varincia sempre estimada. Esclarea-se, tambm, que todas as expresses que se seguem apenas so vlidas se se verificar o pressuposto de normalidade dos erros, para alm das outras condies de aplicabilidade. 7.1. Distribuies de probabilidade dos parmetros Os parmetros do modelo linear apresentam distribuies normais, com as seguintes caractersticas: ~ N(a, c00 .2) a ~ N(b , c .2) b k kk k 7.2. Correlaes e Matriz Covarincia
1 Definindo a matriz C= (X a .X a ) , na qual o ndice 0 corresponde ao parmetro a, respeitando os restantes ndices aos parmetros b1 ... bp
C = (X a .X a )
c 00 c 10 = " c p 0
c 01 ! c 0 p c11 ! c1p " # " c p1 ! c pp
podem calcular-se com facilidade as correlaes entre parmetros, a partir das regras: = , b corr a k
c0k c00 . ckk
, b = corr b j k
c jk c jj . ckk
Relacionada com C est a matriz covarincia dos parmetros, b=2.C. A diagonal principal de b constituda pelas varincias dos parmetros, a partir das quais se calculam os desvios padro usados nos testes de hipteses e no clculo de intervalos de confiana: c00 para a, e ckk para cada um dos bk. Os elementos fora da diagonal correspondem s covarincias , o entre parmetros. Como habitualmente se desconhece , este valor substitudo por que permite obter uma estimativa no tendenciosa de b.
7.3. Testes de hipteses Os testes indicados a seguir seguem, em geral, o princpio habitual de propor uma hiptese nula, uma hiptese alternativa e uma regra de rejeio, para um certo nvel de significncia (tipicamente 5%, embora possam ser usados outros valores). Isto significa que a probabilidade do teste rejeitar uma hiptese nula que fosse verdadeira (erro tipo I) inferior a 0.05, mas no nos diz nada sobre o erro complementar (erro tipo II) ou seja, no rejeitar a hiptese nula, sendo esta falsa. Os resultados positivos dos testes devem ser, portanto, utilizados com prudncia, a menos que se possua uma estimativa da probabilidade do erro do tipo II. 7.3.1. O valor do parmetro bk igual a bx ? Este teste permite excluir ou no a hiptese do verdadeiro valor de bk ser um certo valor bx, por exemplo um valor terico que se pretende confirmar, ou ento o valor nulo, correspondente a no incluir a varivel Xk no modelo. Claro que o teste no serve para verificar se o parmetro tem exactamente o valor estimado, pois t=0 e a hiptese nula nunca seria rejeitada. Ha: bkbx t= b b k x c kk
H0: bk=bx
Rejeio de H0 se |t | > |t1-/2 (n-p-1)| O teste anterior tambm pode ser aplicado ao parmetro a, com as alteraes evidentes (mesmos graus de liberdade). 7.3.2. Os coeficientes b0 so todos simultaneamente nulos ? Permite uma verificao genrica da adequao do modelo, neste caso pela rejeio da hiptese nula. Quanto maior o valor calculado de F, mais fcil aquela rejeio, por ser mais pequeno o valor de para a qual o valor da tabela menor ou igual ao valor calculado de F. H0: b0=0 Ha: b00 F= MSR MSE
Rejeio de H0 se <0, sendo F1-(p, n-p-1)F O valor limite 0 a utilizar depende das circunstncias (0.05 ou 0.10), mas pode ir at 0.25, numa opo cautelosa (no sentido de manter o modelo) que torna mais difcil no rejeitar a
hiptese nula. 7.4. Intervalos de confiana dos parmetros Os intervalos de confiana indicados a seguir so vlidos apenas para parmetros considerados individualmente. Se se pretendesse considerar simultaneamente vrios parmetros, teriam que ser usadas distribuies de probabilidade conjuntas. Como bvio, os intervalos sero tanto mais apertados quanto menor for o nvel de confiana 100.(1-)%. Repare-se que os intervalos de confiana podem funcionar como teste de hipteses: se o intervalo contm a hiptese nula, esta no rejeitada. Neste caso, o valor de funciona como nvel de significncia. 7.4.1. Intervalo de a a a a + a a 7.4.2. Intervalos dos b0 b b + b k bk k k bk . ckk .t1-/2(n-p-1) onde bk = c00 .t1-/2(n-p-1) onde a =
O uso combinado destes intervalos d uma ideia optimista do conjunto dos b0. Uma alternativa ao uso de distribuies conjuntas de probabilidade ser usar a expresso: (b b p 2 .F1- (p, n-p-1) b 0 .M.M. b 0 0
que define a regio de 100.(1-)% confiana (em geral um elipsoide) para o conjunto dos b0. A expresso mais facilmente utilizada para verificar se um conjunto particular de valores est ou no includo na regio de confiana. 7.5. Intervalo da resposta Uma vez estabelecidos os parmetros do modelo, possvel, como se disse inicialmente, estimar o valor de Y correspondente a uma dada observao das variveis Xk. Se designarmos por u=[1 u1 u2 ... up]' o vector alargado das observaes das p variveis, a estimativa de y ser dada por: = u' . b y ~ N(E[Y] , Var[ Y ] ). Uma vez que a Se os erros tiverem distribuio normal, tambm Y ] ser dado varincia estimada, o intervalo de 100 .(1-)% de confiana para E[Y]=E[ Y por:
Y E [Y ] E[ Y ] Y + E[ Y ] 7.6. Intervalo de predio
onde E [Y ] =t1-/2(n-p-1) u' . b . u
O intervalo de 100.(1-)% de confiana para futuras leituras de Y dado, em funo das observaes u, por: Y Y + Y Y Y onde Y =t1-/2(n-p-1) 2 + u' . b . u
A extrapolao da regio onde foram obtidos os valores de X e y que levaram estimao dos parmetros conduz, normalmente, a um aumento substancial da largura do intervalo, pelo que tal exerccio deve ser realizado com prudncia.
8.
Anlise de resduos
De acordo com os pressupostos da regresso, os resduos devem distribuir-se aleatoriamente em torno de 0, tanto no modelo global como em relao a cada varivel. Caso tal no se verifique, ser normalmente necessrio alterar o modelo, incluindo ou retirando variveis, ou realizando alguma tranformao que adeque melhor o modelo aos dados (por exemplo X k2 em vez de Xk). , usual Para alm dos resduos correspondentes directamente aos erros do modelo, r=y- y ).r (que, apesar do nome, no tm uma calcular tambm os resduos estandardizados, s=(1/ no a varincia individual de cada resduo). Para o distribuio normal standard, porque clculo de outros tipos de resduos convm introduzir a matriz simtrica H=Xa.C.X',a , na =H.y. qual 0hii1 e -1hik1 (ik). Repare-se que y Podem agora calcular-se os resduos "Student" ti e resduos de eliminao r(-i) (resduos que se obteriam estimando yi sem incluir a observao correspondente no clculo dos parmetros. Ter-se-, ento: ti = ri ri = ri 1 hii e r ( i ) = ri 1 hii
Repare-se, no denominador da primeira expresso, que a varincia individual de cada resduo igual a (1-hii).2. Os resduos "Student", apesar do nome, distribuem-se mais perto da distribuio normal do que da t de Student (n-p-1 graus de liberdade). possvel, ainda, definir resduos "Student" de eliminao t(-i), que seguem exactamente uma distribuio t com n-p-2 graus de liberdade, atravs de:
t( i) = r i . 8.1. Eliminao de observaes
n p2 2 (1 hii ). SSE ri
Valores elevados de um determinado resduo (sob qualquer das formas) aconselham uma inspeco cuidadosa da observao correspondente, com vista sua eventual eliminao. mais formalmente, se o valor de um ou mais t(-i) corresponder a uma probabilidade pequena na tabela da distribuio com n-p-2 graus de liberdade, os pontos em causa podero estar muito fora da regresso, podendo justificar-se a sua eliminao, sobretudo se houver razes fsicas que ponham em causa as observaes ou leituras correspondentes. Certos traados grficos tambm podem ser utilizados na referida deteco. Por exemplo: - Histogramas de resduos "Student". Possvel eliminao dos pontos que estejam para l de trs desvios padro, na distribuio (aproximadamente normal) destes resduos; - Resduos em funo das respostas ou em funo de variveis. Permitem uma deteco visual qualitativa de situaes a investigar; - Resduos em funo de resduos de eliminao. Os pontos "normais" devero estar sobre uma linha recta de inclinao 1, que passa pela origem, ou seja, a eliminao da observao respectiva no faz variar sensivelmente os resduos. possvel definir, tambm, testes estatsticos aproximados para deteco de isolados. No entanto, as decises de eliminao devem ser sempre tomadas com muita prudncia, pois correspondem a uma diminuio do volume inicial de dados. Eliminaes apressadas so facilmente sujeitas a crtica. 8.2. Verificao de pressupostos Apresentam-se, a seguir, alguns testes que permitem verificar se os pressupostos em relao aos erros do modelo so verificados pelos resduos. Trata-se de verificaes a posteriori que podero levar reviso do modelo. 8.2.1. Aleatoriedade Uma forma corrente de verificar a aleatoriedade dos resduos o teste s sequncias de sinais dos resduos, atravs do "runs test" (teste de corridas), importante sobretudo quando as observaes dependem do tempo. Considerando apenas os sinais (+ ou -) dos resduos, pela ordem em que foram recolhidos, haver n1 sinais (+), n2 sinais (-) e r corridas (sequncias mximas de sinais iguais seguidos). Na sequncia (+ - - + + + + - - - + + -), por
exemplo, ser n1=7, n2=6 e r=6. Usando em seguida tabelas para o "runs test", determinamse valores crticos que ajudam a determinar, com nvel de significncia 5%, se a sequncia ou no aleatria. Em funo de n1 e n2, as tabelas do dois valores (inferior e superior) que tero que enquadrar o valor de r. Caso contrrio, suspeita-se de no-aleatoriedade. No caso do exemplo, os dois valores so 3 e 12, concluindo-se pela aleatoriedade, uma vez que 3r12. As tabelas referidas para este teste s abrangem, geralmente, at um mximo de 20 para n1 ou n2. Para valores superiores, usa-se a distribuio normal da forma habitual nos testes, com 2n1 n2 1 n1 + n2 2 2n1n2 .(2n1 n2 n1 n2 ) r
Z=
(n1 + n2 ) . (n1 + n2 1)
2
8.2.2. Correlao sucessiva A verificao de independncia usualmente feita atravs do teste de Durbin-Watson correlao entre resduos sucessivos. O teste til sobretudo em dados dependentes do tempo. A partir de i=.i-1+i, onde os i ~ N(0, 2), a estatstica a usar :
d=
(r
i= 2
i n
ri 1 )
2 i
r
i =1
O teste H0:=0, Ha:>0 baseia-se em tabelas prprias, que fornecem dois ndices dL e dU, rejeitando-se H0 se d<dL, e no se rejeitando se d>dU (dentro do intervalo no se podem retirar concluses). Para testar H0 contra Ha:<0, usa-se a estatstica d'=4-d, com as mesmas tabelas. 8.2.3. Heteroscedaticidade A deteco de desigualdades de varincia dos erros pode ser realizada a partir de um grfico i . Se o aspecto no for uma mancha de largura uniforme, por dos resduos ri em funo dos y i , poder ser necessrio transformar Y (ln Y, 1/Y, exemplo alargando com o aumento de y etc) ou alterar o modelo. Um grfico semelhante, mas dos quadrados dos resduos, pode confirmar suspeitas e ajudar a detectar isolados.
8.2.4. Normalidade A verificao visual da normalidade feita ordenando os resduos de forma crescente, e desenhando-os em papel de distribuio normal. Se a presuno de normalidade se verificar, os resduos devero estar aproximadamente em linha recta. 8.3. Expresso do modelo So teis alguns grficos de resduos em relao a variveis, para verificao visual da correco da expresso do modelo. Os grficos potencialmente mais interessantes so: - Resduos em funo das variveis. Permitem verificar se necessrio transformar as variveis (ln X, X , etc.); - Resduos em funo de produtos de variveis. No caso de ser detectado um padro, deve ser includo no modelo um novo termo com o produto em causa (Xu.Xv, por exemplo); - Resduos parciais. Grfico dos resduos obtidos sem incluir Xk, em funo de Xk. Permitem detectar no-linearidades que levem transformao de Xk. Se o ajuste for bom, o grfico tem o aspecto de uma recta com inclinao igual ao parmetro da varivel na regresso.
9.
Seleco de variveis
As tcnicas apresentadas a seguir podem ser teis para confirmar ou afastar hipteses acerca da incluso de variveis explicativas, produzidas a partir do conhecimento do sistema e do seu comportamento. Essa seleco primria de variveis , portanto, fundamental para o eventual sucesso do exerccio de regresso. Note-se, tambm, que todas as tcnicas se dirigem a variveis numa determinada forma, ou seja, a rejeio de X1 no significa que 1/X1, por exemplo, no devesse ser includa no modelo. 9.1. Medida F e estatstica Ck Deciso sobre a incluso ou no de um conjunto de r variveis, cujas observaes esto agrupadas numa matriz Xb, correspondendo aos parmetros b2. Podem calcular-se os valores de SSR e SSE do modelo contendo estas variveis, comparando-os com os valores SSR1 e SSE1 que se obteriam com o modelo reduzido (sem as r variveis em causa). O teste a realizar usa a estatstica F, com 0 tpico da ordem de 0.05: H0: b2=0 Ha: b20 F= SSR SSR1 r.MSE
Rejeio de H0 se <0, sendo F1- (r, n-p-1)F
Ou seja, valores elevados de F conduzem rejeio da hiptese b2=0, e as variveis em causa so mantidas no modelo. Uma alternativa ao uso de F o clculo de ck = SSE1 ( n 2k ) MSE
onde k o nmero de variveis do modelo reduzido (sem as r variveis em causa). Se o valor de ck for muito superior a k, deve suspeitar-se que algumas variveis importantes sero rejeitadas, caso se opte pelo modelo reduzido. Devem procurar-se, portanto, subconjuntos de variveis que conduzam a valores de ck prximos de k. Menos formalmente, podem comparar-se os valores de MSE e R2 para os modelos "completo" e reduzido. Se no diferirem muito, ser mais econmico usar o modelo reduzido. 9.2. Pesquisa t-dirigida Este mtodo parte do modelo completo, calculando-se as estatsticas t correspondentes eliminao de cada uma das variveis Xk, atravs de tk = k . ckk
Um critrio habitual conservar todas as variveis para as quais |t|>3. Depois desta seleco inicial, que permite limitar muito o nmero de regresses alternativas a experimentar, investigada a incluso de cada uma das restantes variveis, com recurso, por exemplo, s tcnicas da seco anterior. Para alm do esquema aqui indicado, podem ser utilizados diferentes procedimentos com base no mesmo princpio. 9.3. Seleco para a frente (forward selection) Neste mtodo, as variveis candidatas X1 .. Xp vo sendo introduzidas progressivamente no modelo, com base na comparao das somas dos quadrados dos resduos (SSE) que resultam da sua introduo. No garantindo a descoberta do melhor subconjunto de variveis, o mtodo fcil de usar e permite obter, em geral, resultados bastante bons, com muito menos esforo do que ensaiar todas as possveis regresses. O procedimento geral o seguinte:
0. Escolher Xu que conduz ao menor valor de SSE da regresso y=a+buXu Repetir 1. Escolher Xv que conduz ao menor valor de SSE da regresso y=a+buXu+bvXv at SSE no diminuir mais ou at estarem includos todos os termos. A deciso sobre paragem pode ser baseada num teste com uma estatstica prxima de F, calculada para cada uma das variveis candidatas no estgio (s+1), quando h s variveis anteriormente seleccionadas. A expresso para uma varivel candidata Xk ser: Fk = SSEs SSEsk+1 SSE s SSEsk+1 = k k SSEs+ 1 MSEs +1 ns 2
A varivel a entrar no modelo ser a que tiver maior valor de Fk, mas s ser adicionada se se verificar a condio max Fk = Fmax F1 (1, n s 2)
k
sendo usual fixar-se um valor pouco exigente para (p.ex. 0.25). Se a condio no for satisfeita, o procedimento pra. No limite, ser necessrio calcular p! regresses, com um nmero de parmetros crescendo de 2 at p+1 ao longo dos estgios. 9.4. Eliminao para trs (backward elimination) Filosofia complementar da anterior. O processo inicia-se com a regresso completa (todas as p variveis) e em cada estgio eliminada a varivel cuja sada do modelo conduz regresso reduzida com menor SSE. A eliminao pode ser feita usando a estatstica: Fk = SSEsk+ 1 SSE s MSE
onde MSE sempre o da regresso completa, e SSE sk+ 1 no obriga a executar a regresso reduzida (sem Xk), toda a vez que SSE sk+ 1 SSEs = t k2 . MSEs onde tk a estatstica usada para o teste de bk=bx (ver testes), neste caso com bx=0. Em consequncia, s necessrio calcular uma regresso em cada estgio, o que torna este processo bastante econmico.
Depois de seleccionada a varivel com o menor Fk, a varivel eliminada se for verificada a condio: min Fk = Fmin F1 (1, n p 1)
k
Caso contrrio, o processo termina, e mais nenhuma varivel eliminada. Tal como no caso anterior, este mtodo tambm no garante a melhor seleco, mas comporta-se bastante bem, sendo, em princpio, prefervel quando o nmero de variveis no excepcionalmente grande. 9.5. Procedimento passo a passo A combinao dos dois procedimentos anteriores conduz a uma estratgia algo mais complexa, mas que conduz a melhores resultados. O princpio operacional semelhante ao da seleco para a frente, mas em cada estgio realiza-se um passo de eliminao para trs, que pode conduzir manuteno de todas as variveis ou eliminao de uma delas, de acordo com o teste exposto na seco anterior. A regra de paragem igual do mtodo de seleco para a frente.
10. Multicolinearidade
Se existir dependncia linear entre pelo menos dois vectores xu e xv, o processo de regresso no possvel tecnicamente, dado que X a .X a singular. Evidentemente que, em tal caso, que corresponde a redundncia na informao, a eliminao de variveis resolve o problema. Sucede, no entanto, que podem surgir situaes de dependncia linear aproximada, ou seja, existe pelo menos um c0 para o qual X.c0. Esta situao designa-se por multicolinearidade e tem efeitos nocivos nos modelos, nomeadamente pela perturbao da ligao entre os fenmentos estudados e os valores matemticos dos parmetros. Podem surgir, por exemplo, modelos alternativos de qualidade de ajuste semelhante, mas com valores completamente dspares (at no sinal) nos parmetros das mesmas variveis. Os valores das estatsticas usadas nos testes tendem a baixar, podendo levar eliminao de variveis importantes no-colineares (como remdio, sugere-se subir o nvel de confiana para 0.25). A extrapolao pode, na situao geral de multicolinearidade, ser desastrosa. Uma vez detectada a multicolinearidade, podem seguir-se duas estratgias: eliminao de variveis redundantes, ou regresses tendenciosas que eliminam os efeitos da redundncia, sem eliminar variveis. Dada a especializao deste ltimo tpico, apenas se descrever, no presente texto, um desses modelos, baseado na anlise de componentes principais.
10.1. Deteco As multicolinearidades esto relacionadas com a correlao entre variveis, podendo ser detectadas na matriz de correlao dada pelo produto W'.W. No entanto, o fenmeno pode no ser evidente na matriz, sobretudo quando so envolvidas mais do que duas variveis. A anlise dos valores prprios de W'.W prximos de zero permite uma deteco mais eficaz, custa dos vectores prprios correspondentes. Na verdade, se for vk um desses vectores prprios, correspondendo ao valor prprio k0, pode mostrar-se que: W.vk 0 Os elementos de vk correspondem aproximadamente, portanto, aos coeficientes de uma combinao linear "quase nula", ressaltando aqueles que tiverem maior valor absoluto, por indicarem as variveis multicolineares. A deteco tambm pode recorrer matriz Q=(W'.W)-1, nomeadamente aos elementos da diagonal principal (qkk), designados por VIF ("variance inflation factors" - factores de aumento da varincia). Valores elevados de qkk sugerem que a varivel Xk est envolvida em multicolinearidades, podendo detectar-se as relaes com outras variveis j a partir de valores elevados de qkj. 10.2. Regresso de componentes principais A eliminao de variveis multicolineares um exerccio sempre arriscado, dado que muitas vezes no so claros os limites aceitveis. Por outro lado, a situao de multicolinearidade no deve ignorar-se, pois os indicadores de qualidade (como R2) e os testes so afectados, podendo levar a tomar decises erradas sobre variveis importantes para o modelo, etc. Uma alternativa s duas opes anteriores a utilizao de regresses tendenciosas, ou seja, ]b0, em troca de uma grande reduo da varincia dos parmetros (ou aceita-se que E[ b 0 seja, dos VIF). Os resultados "visveis", ao nvel da qualidade do ajuste, so semelhantes aos que se obteriam com a regresso normal, mas a supresso das multicolinearidades faz com que os parmetros reflictam mais correctamente a importncia relativa das diversas variveis explicativas. Das vrias hipteses existentes, apresenta-se aqui a regresso de componentes principais. Outras variantes podem ser vistas na bibliografia indicada. Chama-se a ateno para que, ao contrrio do restante texto, se utiliza nesta seco a reduo para norma unitria.
10.2.1.
Princpio
O princpio da regresso de componentes principais consiste em eliminar os vectores prprios de W'.W que correspondam a valores prprios prximos de zero. Partindo da igualdade: W .W =
k =1 p
1 v k .v k k
e admitindo que os valores prprios a ignorar so os s primeiros, define-se uma nova matriz:
(W .W )+
k = s +1
1 v k .v k k
As estimativas dos parmetros da regresso sero ento (em termos das variveis reduzidas para norma unitria): = Y a = (W .W )+ .W .y b
0
Tal como referido anteriormente, os parmetros usuais a e b0 podem ser obtidos a partir destes, atravs de: b k = bk dk 10.2.2. Componentes principais e .X = Y b a k k
k =1 p
As decises de eliminao baseadas simplesmente na proximidade de zero dos valores prprios podem no ser fceis de tomar. Para facilitar essa tarefa, possvel exprimir a regresso directamente a partir das componentes principais, e aplicar testes estatsticos semelhantes aos do caso geral. Partindo de U=W.V=W.[v1 v2 ... vp], e admitindo, como anteriormente, que os s primeiros valores prprios de W'.W so prximos de zero, fica definida a matriz de componentes principais de W, dada por UP=[us+1 us+2 ... up], que rene as p-s ltimas colunas de U, e uma matriz UE=[u1 u2 ... us] de componentes eliminados de W. Ou seja, U=[UE UP]. possvel, ento, escrever a expresso da regresso em termos dos componentes de W, com parmetros cP e cE correspondentes s componentes principais e s componentes a eliminar:
y = a*.1 + UE.cE + UP.cP + e = Y . Dada a ortogonalidade de UE e UP, a expresso dos estimadores de onde novamente a cE e cP pode ser obtida separadamente: E = (U E .U E )1 .U c E .y
P = (U P .U P )1 .U P .y c = v ... v . c P . sendo de notar a relao b 0 s +1 p Em face de uma hiptese de eliminao de componentes, pode construir-se um quadro de ANOVA e tirar concluses sobre a eliminao, atravs dos testes com a estatstica F. Tabela 4: Quadro de ANOVA (componentes principais)
Graus de liberdade Mdia Regresso Comp P Comp E Erro Total 1 p-s s n-p-1 n Soma dos quadrados SSM SSRP SSRE SSE TSS Mdia dos quadrados MSM MSRP MSRE MSE
F MSM/MSE MSRP/MSE MSRE/MSE
R2 SSRP/TSS(adj)
O valor de R2 no fica, neste caso, obrigatoriamente no intervalo [0, 1] , nem ser . Quanto aos testes, a hiptese de eliminao das exactamente igual correlao entre y e y componentes E no ser de rejeitar se o valor de F for suficientemente pequeno (tal como no caso geral). Uma vez que a regresso (completa) nas componentes de W no difere de uma regresso normal, tambm podem ser usados os testes descritos em seces anteriores para a incluso de variveis, aplicados aqui incluso de componentes. A anlise da verso final da regresso de componentes principais pode ser feita com o quadro de ANOVA anterior, ou alternativamente considerando as parcelas dos componentes eliminados includas no erro (SSEP=SSE+SSEE). O quadro correspondente ser: Tabela 5: Quadro final de ANOVA (componentes principais)
Graus de liberdade Mdia Comp P Erro Total 1 s n-p+s-1 n Soma dos quadrados SSM SSRP SSEP TSS Mdia dos quadrados MSM MSRP MSEP
F MSM/MSEP MSRP/MSEP
R2 SSRP/TSS(adj)
Os valores deste quadro devem ser usados com alguma prudncia, tendo em conta que as estatsticas da penltima coluna no so exactamente F excepto se cE=0. Por outro lado, a estimativa de na tabela 5 normalmente melhor do que a da tabela 4, sobretudo quando h poucos graus de liberdade em SSE.
Bibliografia
Gunst, R.F., Mason, R.L. (1980), Regression Analysis and Its Application: A Data-Oriented Approach, Marcel Dekker, New York. Marques de S, J.P. (1993), Anlise de Dados, apontamentos para a disciplina de Anlise de Dados, FEUP, Porto. Gmurman, V.E. (1983), Teoria das Probabilidades e Estatstica Matemtica, Ed. Mir, Moscovo. Taylor, J.R. (1982), An Introduction to Error Analysis, University Science Books, Mill Valley

Regressao

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Regressao

Enviado por

Direitos autorais:

Formatos disponíveis

Manual Operacional para a Regresso Linear

Manuel Antnio Matos

0 0 .5 1 1.5 2 2.5 x 3 3.5 4 4.5 5

Transformaes dos dados

Passagem obrigatria na origem .....................................................................................................9 Interpretao dos parmetros estimados .........................................................................................9

Avaliao da qualidade do ajuste

Testes e intervalos de confiana

Deteco .......................................................................................................................................22 Regresso de componentes principais ..........................................................................................22

so utilizadas no resto do texto. Define-se a mdia de uma varivel atravs de:

De forma anloga se calcularia a estimativa da varincia de Y.

Transformaes dos dados

Avaliao da qualidade do ajuste

) = y' . y y' . Xa .b i ) 2 = (y y ) .(y y = ( yi y

Y) (y SSR = = SSR + SSE (y Y ) + r

Testes e intervalos de confiana

c 01 ! c 0 p c11 ! c1p " # " c p1 ! c pp

c0k c00 . ckk

Y E [Y ] E[ Y ] Y + E[ Y ] 7.6. Intervalo de predio

onde E [Y ] =t1-/2(n-p-1) u' . b . u

t( i) = r i . 8.1. Eliminao de observaes

Rejeio de H0 se <0, sendo F1- (r, n-p-1)F

F MSM/MSE MSRP/MSE MSRE/MSE

Você também pode gostar