Você está na página 1de 18

2. REGRESSÃO LINEAR SIMPLES.

2.1. Introdução

Uma das questões mais importantes, em todas as áreas do conhecimento


científico, é estabelecer relações entre variáveis. A Matemática ocupa-se
deste tema através do estudo das funções, isto é, estabelecendo uma relação
funcional entre duas variáveis x e y:

y = f(x).

Assim, quando conhecemos o valor da variável x podemos saber exactamente


qual é o correspondente valor da variável y. Por vezes, a quantidade y é
função não só de uma mas de várias variáveis, isto é,

y = f (x1 , x2 ,..., xk ) .

Muitas leis da Física podem servir como ilustração deste tipo de relações: por
exemplo, a lei de Newton que relaciona a força de um corpo em movimento
com a sua massa e aceleração (F = ma).

A igualdades deste tipo chamamos modelos determinísticos, porque o


conhecimento de certas quantidades permite-nos prevêr exactamente o valor
de uma quantidade resposta.

Mas em muitas situações, como acontece com frequência nas Ciências da


Natureza e da Terra, na Economia, na Gestão, na Psicologia, etc., só é
possível estabelecer leis que se verificam aproximadamente: as relações
são válidas apenas em valor médio. São os modelos probabilísticos, em
que a variável resposta, Y, é aleatória e que podem ser, por exemplo, da
forma:

Y = f(x) + e,

em que e é também uma variável aleatória com valor médio nulo e uma certa
variância. O modelo determinístico só é verificado em termos de valores
médios:

E[Y|x] = f(x).

A Análise de regressão é um dos mais importantes temas da estatística,


pois ocupa-se do estudo deste tipo de modelos. Ou seja, procura compreender
como é que uma certa variável x afecta o valor médio de uma variável
aleatória Y. À variável x chama-se variável independente ou regressor. À
variável Y chama-se variável dependente.
Regressão Linear Simples 2
_

NOTA

• Por vezes, não é óbvio qual a quantidade que deve ser escolhida para
variável independente. Em geral, pode-se dizer que a variável
independente deverá ser aquela sobre a qual temos maior controlo ou
maior facilidade de medição.

A fim de procurar a relação que melhor exprime o comportamento de Y em


função de x, procuramos obter vários pares de observações:

(x , y )
i i
i=1,2,...,n.

Face ao comportamento desta amostra (e também ao conhecimento que


temos do fenómeno em causa) procuramos estabelecer a função que melhor
relaciona a variável Y com x.

NOTA

• Repare-se que x pode ser uma variável determinística cujos valores são
perfeitamente controlados pelo experimentador mas pode ser também uma
( )
variável aleatória e os valores x1 , x2 ,..., xn correspondem, nesse caso, a
valores observados dessa variável aleatória. Contudo, os valores de xi
serão, em ambos os casos, tratados como constantes.

O modelo de regressão linear simples

Neste capítulo vamos apenas considerar o caso mais simples em que a função
é uma recta. Estamos, assim, perante um modelo de regressão linear em
que as variáveis Yi's são tais que

Yi = a + bxi + ε i ,

i=1,2,...,n, em que a e b são parâmetros a estimar e os ei's são variáveis


aleatórias tais que

(i) E(ε i ) = 0 ;

(ii) Var(ε i ) = σ 2 , para i = 1,…,n; (2.1)

(iii) E(ε i ε j ) = 0, se i ≠ j .

A este conjunto de três condições chama-se as condições de Gauss-Markov.


Por vezes, para além destas, exige-se ainda que os ε i's sejam
independentes com distribuição normal, N(0,σ 2).

Regressão linear e não linear

O modelo de regressão linear pode parecer demasiado restritivo, mas é um


Regressão Linear Simples 3
_

bom ponto de partida para outros modelos mais complexos. Por outro lado,
pode ser adaptado à resolução de certos casos em que a função que
relaciona as duas variáveis não é linear. Por exemplo, se a função que
relaciona as observações de Y e de x for do tipo:

bx
Yi = ae i ε i ,

podemos estabelecer uma relação linear entre lnY e x. Também podemos


ajustar um modelo do tipo

Yi = a + bxi2 + ε i ,

substituindo a variável x pela variável x2.

Os modelos probabilísticos também necessitam, com frequência, de utilizar


mais do que uma variável independente para descrever a valor médio da
variável Y. Nesse caso, os modelos mais utilizados são também aqueles em
que o valor médio de Y se escreve como uma função linear das variáveis
independentes, isto é,

Y = b0 + b1 x1 + ... + bk xk + ε

em que ε é uma variável aleatória verificando as condições que acima


descrevemos. Trata-se então de um modelo de regressão linear múltipla.
Estes modelos são bastante gerais e flexíveis e têm uma grande variedade
de aplicações práticas. Vamos começar por ver o caso em que Y se pode
escrever como função linear de uma única variável ao qual chamamos
regressão linear simples.

2.2. A Recta dos mínimos quadrados.

Sejam então ( x , y ) , i=1,...,n, pares de observações que seguem um modelo


i i

de regressão linear simples:

Yi = a + bxi + ε i ,

em que os εi's são v.a.'s que verificam as condições de Gauss-Markov. Então,


para cada valor observado xi, o valor observado de Yi, yi, deverá estar próximo
de a+bxi. Ou, de outra forma, se o modelo linear for adequado, os valores de
yi deverão dispor-se em torno de uma recta estando mais ou menos
afastados desta consoante a variância dos termos de "erro" (figura 2.1).
Regressão Linear Simples 4
_

Figura 2.1. Gráfico de pares de observações que seguem um modelo de regressão.

Qual será a melhor forma de ajustar a recta ao conjunto de pontos


observados por forma a que a aderência do modelo linear aos dados seja a
melhor possível? Ajustar uma recta consiste em obter bons estimadores para
os parâmetros a e b.

O método que se utiliza é o dos mínimos quadrados que consiste em


estimar a e b tais que a soma dos quadrados das distâncias, medidas na
vertical, de cada um dos pontos à recta seja mínima. A recta assim obtida
chama-se a recta dos mínimos quadrados (figura 2.2).

dj

di

Figura 2.2. O método dos mínimos quadrados estima o declive e a ordenada na


origem da recta de modo a que a soma dos quadrados das distâncias di seja mínima.

O nosso objectivo é, pois, determinar os valores para o declive e a ordenada


na origem, â e b̂ , tais que minimizam a função:
Regressão Linear Simples 5
_

∑ (y ).
n 2
SQ = SQ(a,b) = i
− a − bxi
i=1

Para encontrar o mínimo desta função vamos derivar em ordem a a e b


obtendo as equações normais,

⎧ ∂ SQ n
⎪ = −2∑ (yi − a − bxi ) = 0
⎪ ∂a i=1

⎪ ∂ SQ n
= −2∑ (yi − a − bxi )xi = 0
⎪ ∂b
⎩ i=1

1 n 1 n
Escrevendo x = ∑ x
n i=1 i
e y = ∑ y , este sistema é equivalente a:
n i=1 i

⎧ ny − na − bx = 0
⎪ n
⎨ n

⎪∑ i iy x − nax − b ∑ xi2 = 0
⎩ i=1 i=1

A solução é, pois,

⎧ â = y − b̂x

⎪ n


∑ yi (xi − x)
⎪ b̂ = n
i=1


⎪⎩
∑ (xi − x)2
i=1

Pela análise da matriz das segundas derivadas podemos ver que se trata
mesmo de um mínimo já que a matriz Hessiana de SQ é dada por

⎡ 2n 2nx ⎤
⎢ ⎥
J= ⎢ n ⎥,
⎢ 2nx 2∑ xi2 ⎥
⎢⎣ i=1 ⎥⎦

que é uma matriz definida positiva. Com efeito,

⎛ n ⎞
( )
n 2
det(J) = 4n ⎜ ∑ xi2 − nx 2 ⎟ = 4n∑ xi − x > 0.
⎝ i=1 ⎠ i=1

A â e b̂ chamamos estimadores de mínimos quadrados (EMQ) de a e de


b e, como mais adiante veremos, gozam de propriedades que, em certo
sentido, são óptimas.
Regressão Linear Simples 6
_

É de notar ainda que a expressão do estimador do declive b̂ pode ser escrita


na forma:

∑ (y )( )
n

i
− y xi − x Sxy
b̂ = i=1
= ,
∑ (x )
n 2 Sx2
i
−x
i=1

em que

Sxy =
1 n
(
∑ x − x yi − y
n i=1 i
)( )
e

1 n
( )
2
Sx2 = ∑
n i=1
xi − x .

NOTAS

• Embora Sxy possua, formalmente, a mesma expressão do que a estimativa


usual para a covariância entre X e Y, não podemos considerá-lo
exactamente como tal, já que os valores xi's estão aqui a ser considerados
como constantes.

• O mesmo se pode dizer relativamente a Sx2 e à estimativa para a variância


de X, apesar de, neste caso, não ser completamente correcto falar em
variância de um conjunto de constantes.

Contudo, com as ressalvas espressas nas notas anteriores, é interessante


reparar que a estimativa para o declive da recta é igual à "correlação" entre
as duas variáveis multiplicada pela razão dos "desvios-padrões":

Sxy Sy
b̂ = = ρ̂ xy .
Sx2 Sx

Uma vez encontrados â e b̂ chamamos valores ajustados aos valores que,


em cada abcissa observada xi, se encontram sobre a recta ajustada, isto é,
aos valores

ŷi = â + b̂xi , i = 1,…,n.

Uma boa estimativa para os erros aleatórios εi é dada pelas diferenças

ei = yi − ŷi = yi − â − b̂xi ,
Regressão Linear Simples 7
_

i=1,...,n, às quais chamamos resíduos. Em consequência, um estimador


natural para a variância dos erros será:

1 N 2
σ̂ 2 = ∑e
n i=1 i

Acontece, porém, que este estimador não é centrado, ou seja, E[σ̂ 2 ] ≠ σ 2 . Por
isso, o estimador mais utilizado para σ2 é

1 N 2
S2 = ∑e .
n − 2 i=1 i

que é centrado para σ2.

A prova deste facto será feita mais adiante, no contexto da regressão múltipla.
Mas, para já, podemos avançar que a razão de dividir a soma dos quadrados
dos resíduos por n-2 em vez de n tem a ver com o facto de se terem
estimado dois parâmetros para obter as estimativas dos erros.

Com frequência chama-se soma de quadrados dos erros à soma de


quadrados dos resíduos e representa-se esta quantidade por

n
SQe = ∑e 2
i
.
i=1

Repare-se que esta soma de quadrados é simplesmente a soma de quadrados


calculado no ponto correspondente aos EMQ. Com esta notação, o estimador
para a variância dos erros pode ser escrito como S2 = SQe/(n-2).

2.3. Propriedades estatísticas dos estimadores de mínimos


quadrados.

O método dos mínimos quadrados deve muito da sua importância ao facto de


produzir estimadores com boas propriedades estatísticas. Nesta secção,
vamos mostrar que os EMQ são centrados e calcular a sua matriz de
covariâncias. Reparemos que â e b̂ são funções lineares das
observações yi. Esta é uma propriedade sempre desejável, pois facilita muito
a obtenção tanto da sua distribuição de probabilidade como dos seus
momentos. Como

E(Yi ) = a + bxi , i=1,...,n,

Var(Yi ) = σ 2 ,
Regressão Linear Simples 8
_

i=1,...,n, e devido à linearidade do valor médio, obtemos

()
N
1
E b̂ = N ∑ E(Y )(x i i
− x) =
∑ (x i
− x) 2 i=1

i=1
N N
a b
= N ∑ (x i
− x) + N ∑ x (x
i i
− x) ,
∑ (x i
− x) 2 i=1
∑ (x i
− x) 2 i=1

i=1 i=1
=b

bem como

E(â) = E(Y ) − xE(b̂) = a ,

isto é, estes estimadores são centrados. Visto os erros serem não


correlacionados, o mesmo acontece às variáveis Yi's e, portanto,

()
n
1
Var b̂ = 2 ∑ Var(Y )(x i i
− x)2
⎡ n ⎤ i=1
⎢ ∑ (xi − x) ⎥
2

⎣ i=1 ⎦
σ2
= n .
∑ (xi − x) 2

i=1

Dado a covariância ser uma função bilinear, tem-se ainda que

( )
n n
1
Cov Y , b̂ = N ∑ ∑ Cov(Y ,Y (x j i i
− x))
n∑ (xi − x) 2 j =1 i=1

i=1
n
1
= n ∑ (x i
− x)Var(Yi ) = 0 ,
n∑ (xi − x) 2 i=1

i=1

uma vez que, para i≠j, Cov(Yi,Yj) = 0. Em consequência,

()
Var â = Var(Y ) + x 2Var b̂ − 2Cov Y , xb̂ () ( )
⎛ ⎞
⎜1 x 2 ⎟
= σ2 ⎜ + ⎟
⎜n n
2⎟
⎜⎝ ∑ (xi − x) ⎟⎠
i=1

e
( ) (
Cov â, b̂ = Cov Y − b̂x, b̂ = −xVar b̂ ) ()
σ x 2
=− n
.
∑ (x i
− x) 2

i=1
Regressão Linear Simples 9
_

Resumindo, podemos escrever a matriz de covariâncias dos estimadores de


mínimos quadrados, â e b̂ , como sendo:

⎡1 x2 x ⎤
⎢ + n − n ⎥
⎢ n ∑ (x − x)2 ∑ (xi − x)2 ⎥
2 ⎢ ⎥
i
σ ⎢ i=1 i=1
⎥.
x 1
⎢ − n n ⎥
⎢ ⎥
⎢⎣ ∑ (xi − x)2 ∑ (xi − x)2 ⎥⎦
i=1 i=1

NOTA

• É importante reparar que não basta que a dimensão da amostra seja


grande para garantir que a variância dos estimadores dos mínimos
quadrados seja pequena. É ainda necessário que a variabilidade da
n
amostra dos valores de x, isto é, o valor de ∑ (x i
− x)2 , seja grande. É,
i=1

portanto, necessário fazer observações num conjunto de valores de x


suficientemente dispersos para poder obter boas estimativas para o
declive e a ordenada na origem da recta de mínimos quadrados.

2.4. Intervalos de confiança, testes de hipóteses e intervalos de


predição.

Nesta secção vamos construir intervalos de confiança e testes de hipóteses


para os parâmetros do modelo linear, isto é, para a, b e σ2. Para tal é
necessário supor a validade da hipótese de normalidade dos resíduos, ou
seja, de agora em diante vamos admitir que os εi's são variáveis aleatórias
i.i.d. com distribuição normal de média nula e variância σ2.

O teorema que se segue constitui a base a partir da qual será feita toda a
inferência estatística no modelo de regressão linear simples.

Teorema 2.1. Sejam Y1, Y2, ..., Yn variáveis aleatórias que seguem um
modelo linear, isto é,

Yi = a + bxi + ε i , i = 1,2,...,n

e em que os εi's são variáveis aleatórias i.i.d. com distribuição normal de


média nula e variância σ2. Então:

a) Os estimadores de mínimos quadrados, â e b̂ têm também


distribuição normal com valor médio e variância como já indicámos.

b) A variável
Regressão Linear Simples 10
_

(n − 2)S 2 SQe
=
σ 2
σ2

tem distribuição χ (n−2)


2
e é independente de â e b̂ .

DEMONSTRAÇÃO: Para ver a alínea a) basta reparar que, se os erros são


variáveis i.i.d. com distribuição normal, então as variáveis Yi's também o são.
Assim, ambos os estimadores são combinações lineares de variáveis normais
independentes e, portanto, têm ainda distribuição normal. A demonstração da
alínea b) é bastante mais complexa e será deixada para o capítulo 3. ❏

Inferência na ordenada na origem

O teorema 2.1 permite-nos fazer inferência estatística sobre os parâmetros


do modelo de regressão simples. Se pretendermos construir um intervalo de
confiança para a, como

â − a
∩ N(0,1)
()
σ â

em que

1/2
⎛ ⎞
()
n
σ â = σ ⎜1 n + x 2

∑ (xi − x) ⎟⎠ 2

i=1

podemos utilizar a variável fulcral

â − a
()
σ â
=
â − â
(n − 2)S 2 1 x2
S +
σ 2 (n − 2) n n

∑ (x i
− x)2
i=1

que, sendo um quociente entre uma normal padrão e a raíz de um qui-


quadrado dividido pelo seu número de graus de liberdade, é uma t(n-2).

O mesmo tipo de raciocínio pode também ser utilizado para determinar testes
de hipóteses no parâmetro a. Por exemplo, se pretendermos um teste:

H0 : a = 0 vs. H1 : a ≠ 0 ,

a região de rejeição deverá ser da forma:

â 1−α /2
> t(n−2)
()
σ̂ â
Regressão Linear Simples 11
_

em que σ̂ â() é o estimador para a variância de â , ou seja, a expressão da

sua variância em que σ2 foi substituído por S2, e t(n−2)


1−α /2
representa o quantil de
ordem 1-α/2 da distribuição t de student com n-2 graus de liberdade.

Inferência no declive

De forma semelhante podemos construir intervalos de confiança e testes para


o parâmetro que representa o declive da recta, b. Neste caso, a variável
fulcral será

n
b̂ − b
∑ (x i
− x)2
S
∩ t(n−2) ,
i=1

Esta variável aleatória pode também ser utilizada para testar a hipótese

H0 : b = 0 vs. H1 : b ≠ 0 ,

com a região de rejeição

n b̂
∑ (x i
− x)2
S
1− α /2
> t n−2
i =1

Este teste é particularmente importante pois o significado de testar a hipótese

H 0: b = 0

consiste em averiguar a existência de regressão, ou seja, se o efeito da


variável x em Y é significativo. Assim, se não rejeitarmos H0 o declive da
recta é nulo e, portanto, as variáveis Yi são apenas um conjunto de variáveis
i.i.d. com distribuição normal, N(a,σ2), isto é,

Y i = a + ε i, i=1,2,...,n.

Testes e intervalos de confiança para σ2 podem ser obtidos com base na


variável aleatória (n-2)S2/σ2 cuja distribuição já sabemos ser a de um qui-
quadrado com n-2 graus de liberdade.

Predição de valores não observados

Vamos agora considerar o problema da predição ou previsão: dado um valor


não observado de x, digamos, x*, qual a forma de estimar o correspondente
valor da variável Y,

Y* = a + bx* + e*?

O estimador natural será

ˆ = â + b̂x *.
Y*
Regressão Linear Simples 12
_

Note-se que este é um problema de estimação um pouco diferente dos que


são estudados em inferência paramética. Nessa abordagem pretende-se
estimar parâmetros, isto é, constantes desconhecidas que correspondem a
certas características da população, enquanto que nos probemas de predição
ou previsão o que pretendemos é estimar o valor de uma variável
aleatória. Tem-se então que

( )
E Yˆ * = a + bx *

e, para a variância,

( ) ()
Var Yˆ * = Var â + Var b̂ + 2 cov â, b̂ () ( )
σ 2
σ x
2 2
σ x *2
2
2x * xσ 2
= + + −
n n n n

∑ (x i
− x)2 ∑ (x i
− x)2 ∑ (x i
− x)2
i =1 i =1 i =1
⎡ ⎤
⎢ 2 ⎥
1 (x * −x) ⎥
= σ2 ⎢ + n .
⎢n ⎥
⎢ ∑ (xi − x) ⎥
2

⎣ i =1 ⎦

Como o estimador Yˆ * é uma combinação linear de variáveis normais


independentes, tem ainda distribuição normal e, consequentemente, a
variável

Yˆ * −E Yˆ * ( )
1 (x * −x)2
S +
n n

∑ (x i
− x)2
i =1

tem distribuição t com n-2 graus de liberdade e pode ser utilizada para
construir um intervalo de confiança ao nível 1-α para E(Y*) cuja forma será

⎛ ⎞
⎜ 2 2 ⎟
⎜ Yˆ * −t 1− α /2 S 1 + (x * −x) ; Yˆ * +t 1− α /2 S 1 + (x * −x) ⎟ .
⎜ n−2
n n n−2
n n ⎟


∑ (xi − x)2 ∑ (xi − x)2 ⎟

i =1 i =1

Mas este é apenas um intervalo de confiança para o valor médio de Y*.


Porém, tem particular importância o problema de estimar e construir
intervalos de confiança para o próprio valor de Y*. O estimador para
esta quantidade aleatória é o mesmo do que para o seu valor médio. Mas o
intervalo de confiança será diferente pois deverá ser considerada a
variabilidade existente devido á presença da parcela aleatória e*.

Com efeito, tem-se

Y* = a + bx * +ε *
Regressão Linear Simples 13
_

em que ε* tem distribuição normal, N(0,σ2). Então, á variável Y*- Yˆ *


chamamos erro de predição e pode ser escrita na forma

( ) (
ˆ = a − â + b − b̂ x * +ε * .
Y * −Y* )
O seu valor médio é nulo, isto é,

( )
E Y * −Yˆ * = 0,

como seria de esperar em qualquer boa predição. Quanto à sua variância, que
é também o seu erro quadrático médio, é dada por

( ⎡
) ( )
2⎤
Var Y * −Yˆ * = E ⎢ Y * −Yˆ * ⎥
⎣ ⎦
() () ( )
= Var â + Var b̂ x *2 +2x * Cov â, b̂ + var ε * ( )
⎛ ⎞
⎜ 1 2 ⎟
(x * −x) ⎟
= σ 2 ⎜1 + + n .
⎜ n 2⎟


∑ (xi − x) ⎟⎠
i =1

Como a v.a. Y * −Yˆ * tem ainda distribuição normal, um intervalo de confiança


ao nível 1-α pode ser construído a partir da variável fulcral

Y * −Yˆ *
,
1 (x * −x)2
S 1+ + n
n
∑ (xi − x)2
i =1

cuja distribuição de probabilidade é t de student com n-2 graus de liberdade.


Assim, um intervalo de (1-α)100% de confiança para Y* é dado por

⎛ ⎞
⎜ 2 2 ⎟
⎜ Yˆ * −t 1− α /2 S 1 + 1 + (x * −x) ; Yˆ * +t 1− α /2 S 1 + 1 + (x * −x) ⎟ .
⎜ n−2
n n n−2
n n ⎟


∑ (xi − x)2 ∑ (xi − x)2 ⎟

i =1 i =1

2.5. Análise dos resíduos e validação do modelo.

Definimos já os resíduos como as diferenças entre os valores observados, yi, e


os valores ajustados, ŷi , isto é,

ei = yi − ŷi
= yi − â − b̂xi
Regressão Linear Simples 14
_

para i = 1,2,...,n. Os resíduos foram-nos úteis para estimar a variância do


modelo, σ2, isto é,

1 n 2 SQe
S2 = ∑
n − 2 i =1
ei =
n−2
.

Mas, a partir dos resíduos é possível retirar ainda muito mais informação
sobre o modelo de onde provêm as observações. Através da análise dos
resíduos,

→ podemos julgar acerca da validade do modelo linear e das condições de


Gauss-Markov;

→ Podemos ainda obter indicações sobre possíveis modelos que se possam


adequar melhor ao problema em estudo.

Alguns dos procedimentos mais usuais são os seguintes:

a) Representação dos resíduos contra a variável x. Para que o modelo


seja verificado a representação gráfica dos resíduos não deve mostrar nenhum
padrão ou estrutura. Na figura 2.3 em baixo estão exemplificados alguns
casos típicos que podem acontecer. A interpretação desses casos deverá ser,
respectivamente:

i) indicação de uma relação quadrática em vez de linear;


ii) indicação de que a variância não é constante;
iii) Concordância com o modelo linear,

i) ii) iii)

Figura 2.3. Resíduos de: i) Relação quadrática; ii) Variância não constante; iii) Modelo linear.

b) Representação dos resíduos contra outras variáveis que possam estar


relacionadas com as observações.

c) Análise dos resíduos eles próprios - histogramas e mesmo outros


métodos mais rigorosos no sentido de confirmar a sua normalidade.

Uma outra formar de verificar a adaptação do modelo ao conjunto de


observações é através da análise da quantidade
Regressão Linear Simples 15
_

n
SQTot = ∑ (y i
− y)2 ,
i=1

que exprime a variabilidade do conjunto de observações em torno da


sua média. Somando e subtraindo ŷi e desenvolvendo o quadrado obtemos:

n n

∑ (y i
− y)2 = ∑ [(y i
− ŷi ) − (ŷi − y)]2
i=1 i=1
n n n
= ∑ (y i
− ŷi )2 + ∑ (ŷi − y)2 + 2∑ (yi − ŷi )(ŷi − y).
i=1 i=1 i=1

Ora o termo rectangular no desenvolvimento da soma de quadrados é nulo


porque se tem que

n
→ ∑ ei = 0;
i =1

n
→ ∑ ei xi = 0,
i=1

em consequência directa das equações normais. Assim, tem-se

n n n

∑ (y i
− ŷi )(ŷi − y) = ∑ (y i
− ŷi )(â + b̂xi ) − y ∑ (yi − ŷi )
i=1 i=1
n n n
i=1 .
= â∑ ei − b̂∑ ei xi − y ∑ ei xi = 0
i=1 i=1 i=1

Então a soma dos quadrados dos desvios à média dos y's simplifica-se em

n n n

∑ (y i
− y)2 = ∑ (y i
− ŷi )2 + ∑ (ŷi − y)2 ,
i=1 i=1 i=1

ou, abreviadamente,

SQTot = SQe + SQReg.

Significa isto que a variabilidade total da amostra (SQTot) pode decompor-se


na soma de quadrados residual (SQe), que reflecte a variabilidade devida aos
erros aleatórios, e na soma de quadrados devida à regressão (SQReg), que
reflecte a variabilidade devido ao facto das observações se encontrarem sobre
uma recta. Assim como vimos

Assim, se o modelo for bom, SQe deverá ser pequeno em comparação com
SQTot, isto é, a variabilidade da amostra deverá ser consequência do modelo
de regressão e não dos erros aleatórios. Portanto, um bom indicador do
ajustamento do modelo é o coeficiente de determinação múltipla que se define
como
Regressão Linear Simples 16
_

SQRe g SQe
R2 = = 1− .
SQTot SQTot

NOTAS

• O coeficiente R2 é dos indicadores mais utilizados como medida de


ajustamento de um modelo de regressão a um conjunto de dados.

• O coeficiente R2 toma valores entre 0 e 1.

• Quanto mais próximo o valor de R2 estiver da unidade, melhor o


ajustamento do modelo, pois isso significa que a quase totalidade da
variabilidade da amostra é devida à regressão e não ao erro que
cometemos ao ajustar uma recta ao conjunto de pontos.

A partição da soma de quadrados total (SQTot) permite ainda uma forma


alternativa de apresentação dos resultados de uma análise de regressão e,
em consequência, uma outra forma de testar a adequação do modelo à
amostra observada.

Tendo em consideração que a soma dos resíduos é nula, então

n n

∑ y = ∑ ŷ
i i
⇒ y = ŷ .
i=1 i=1

Assim, a soma de quadrados devida à regressão, SQReg, pode ser escrita como

∑( )
n 2 n
SQRe g = ŷi − ŷ = b̂2 ∑ (xi − x)2 ,
i=1 i=1

em virtude de ŷi − ŷ = b̂(xi − x) .

Dividindo ambos os membros da igualdade correspondente à partição da soma


de quadrados total por σ2, esta toma a forma:

∑ (Y )
n 2 n n

i
−Y ∑e 2
i
b̂2 ∑ (xi − x)2
i=1
= i=1
+ i=1
.
σ2 σ2 σ2

Mas repare-se que:

→ se os εi's forem i.i.d. com distribuição N(0,σ2), a quantidade SQe/σ2 tem


distribuição qui-quadrado com n-2 graus de liberdade.

→ se b = 0, então b̂ tem distribuição normal,


Regressão Linear Simples 17
_

⎛ n ⎞
b̂ ∩ N ⎜ 0,σ
⎜⎝ ∑ i (x − x)2

⎟⎠
i=1

e a segunda parcela no termo direito da igualdade acima tem distribuição


qui-quadrado com um grau de liberdade.

Portanto, se o declive for nulo (b=0), a partição da soma de quadrados


total pode ser escrita em termos das distribuiçõ de probabilidade dos termos
que nela figuram como:

χ (n−1)
2
= χ (n−2)
2
+ χ (1)
2
.

Como b̂ é independente de S2 (teorema 2.1), tem-se que, sob a validade da


hipótese H0: b = 0,

n
b̂2 ∑ (xi − x)2
F= n
i=1
∩ F1;n−2
∑e 2
i
(n − 2)
i=1

Assim, a hipótese deverá ser rejeitada ao nível de significância α se

{F > F } ,
1−α
1,n−2

1−α
em que F1,n−2 é o quantil de ordem 1-α da distribuição F com 1 e n-2 graus de
liberdade.

NOTAS

• Repare-se que este teste é perfeitamente equivalente ao que já


apresentámos baseado na distribuição t pois pode-se ver com facilidade
que o quadrado de uma variável com distribuição t com m graus de
liberdade possui distribuição F com 1 grau de liberdade no numerador e m
graus de liberdade no denominador,

d
2
t(m) = F1,m

(Basta relembrar que t(m) = Z / U(m) / m , em que Z ∩ N(0,1) Z e U(m) = χ (m)


2

e são independentes).

• No entanto, o teste baseado na estatística F não poderá ser utilizado para


testes com hipóteses alternativas unilaterais (H1: b < 0 ou H1: b > 0). Mas
é importante analisar o teste nesta perspectiva pois é nesta formulação
que ele admite generalizações para modelos mais complexos.
Regressão Linear Simples 18
_

É usual apresentar os resultados de uma análise como acabámos de descrever


numa tabela ANOVA (ANalysis Of Variance) como se mostra em baixo.

Fonte Soma de Graus de Média de


quadrados liberdade quadrados
n
Regressão SQReg = b̂2 ∑ (xi − x)2 1 SQReg /1
i=1
n
Residual SQe = ∑e 2
i
n-2 SQe /(n-2)
i=1

∑ (Y )
n 2
Total SQTot = i
−Y n-1 F: (n-2) SQReg / SQe
i=1

Você também pode gostar