Slides Cap 2 - Regsimples

2. REGRESSÃO LINEAR SIMPLES.
2.1. Introdução
Uma das questões mais importantes, em todas as áreas do conhecimento

científico, é estabelecer relações entre variáveis. A Matemática ocupa-se
deste tema através do estudo das funções, isto é, estabelecendo uma relação
funcional entre duas variáveis x e y:
y = f(x).
Assim, quando conhecemos o valor da variável x podemos saber exactamente

qual é o correspondente valor da variável y. Por vezes, a quantidade y é
função não só de uma mas de várias variáveis, isto é,
y = f (x1 , x2 ,..., xk ) .
Muitas leis da Física podem servir como ilustração deste tipo de relações: por
exemplo, a lei de Newton que relaciona a força de um corpo em movimento
com a sua massa e aceleração (F = ma).
A igualdades deste tipo chamamos modelos determinísticos, porque o

conhecimento de certas quantidades permite-nos prevêr exactamente o valor
de uma quantidade resposta.
Mas em muitas situações, como acontece com frequência nas Ciências da

Natureza e da Terra, na Economia, na Gestão, na Psicologia, etc., só é
possível estabelecer leis que se verificam aproximadamente: as relações
são válidas apenas em valor médio. São os modelos probabilísticos, em
que a variável resposta, Y, é aleatória e que podem ser, por exemplo, da
forma:
Y = f(x) + e,
em que e é também uma variável aleatória com valor médio nulo e uma certa
variância. O modelo determinístico só é verificado em termos de valores
médios:
E[Y|x] = f(x).
A Análise de regressão é um dos mais importantes temas da estatística,

pois ocupa-se do estudo deste tipo de modelos. Ou seja, procura compreender
como é que uma certa variável x afecta o valor médio de uma variável
aleatória Y. À variável x chama-se variável independente ou regressor. À
variável Y chama-se variável dependente.
Regressão Linear Simples 2
_
NOTA
• Por vezes, não é óbvio qual a quantidade que deve ser escolhida para
variável independente. Em geral, pode-se dizer que a variável
independente deverá ser aquela sobre a qual temos maior controlo ou
maior facilidade de medição.
A fim de procurar a relação que melhor exprime o comportamento de Y em

função de x, procuramos obter vários pares de observações:
(x , y )
i i
i=1,2,...,n.
Face ao comportamento desta amostra (e também ao conhecimento que

temos do fenómeno em causa) procuramos estabelecer a função que melhor
relaciona a variável Y com x.
NOTA
• Repare-se que x pode ser uma variável determinística cujos valores são
perfeitamente controlados pelo experimentador mas pode ser também uma
( )
variável aleatória e os valores x1 , x2 ,..., xn correspondem, nesse caso, a
valores observados dessa variável aleatória. Contudo, os valores de xi
serão, em ambos os casos, tratados como constantes.
O modelo de regressão linear simples
Neste capítulo vamos apenas considerar o caso mais simples em que a função
é uma recta. Estamos, assim, perante um modelo de regressão linear em
que as variáveis Yi's são tais que
Yi = a + bxi + ε i ,
i=1,2,...,n, em que a e b são parâmetros a estimar e os ei's são variáveis

aleatórias tais que
(i) E(ε i ) = 0 ;
(ii) Var(ε i ) = σ 2 , para i = 1,…,n; (2.1)
(iii) E(ε i ε j ) = 0, se i ≠ j .
A este conjunto de três condições chama-se as condições de Gauss-Markov.

Por vezes, para além destas, exige-se ainda que os ε i's sejam
independentes com distribuição normal, N(0,σ 2).
Regressão linear e não linear
O modelo de regressão linear pode parecer demasiado restritivo, mas é um

_
bom ponto de partida para outros modelos mais complexos. Por outro lado,
pode ser adaptado à resolução de certos casos em que a função que
relaciona as duas variáveis não é linear. Por exemplo, se a função que
relaciona as observações de Y e de x for do tipo:
bx
Yi = ae i ε i ,
podemos estabelecer uma relação linear entre lnY e x. Também podemos

ajustar um modelo do tipo
Yi = a + bxi2 + ε i ,
substituindo a variável x pela variável x2.
Os modelos probabilísticos também necessitam, com frequência, de utilizar

mais do que uma variável independente para descrever a valor médio da
variável Y. Nesse caso, os modelos mais utilizados são também aqueles em
que o valor médio de Y se escreve como uma função linear das variáveis
independentes, isto é,
Y = b0 + b1 x1 + ... + bk xk + ε
em que ε é uma variável aleatória verificando as condições que acima

descrevemos. Trata-se então de um modelo de regressão linear múltipla.
Estes modelos são bastante gerais e flexíveis e têm uma grande variedade
de aplicações práticas. Vamos começar por ver o caso em que Y se pode
escrever como função linear de uma única variável ao qual chamamos
regressão linear simples.
2.2. A Recta dos mínimos quadrados.
Sejam então ( x , y ) , i=1,...,n, pares de observações que seguem um modelo

i i
de regressão linear simples:
Yi = a + bxi + ε i ,
em que os εi's são v.a.'s que verificam as condições de Gauss-Markov. Então,

para cada valor observado xi, o valor observado de Yi, yi, deverá estar próximo
de a+bxi. Ou, de outra forma, se o modelo linear for adequado, os valores de
yi deverão dispor-se em torno de uma recta estando mais ou menos
afastados desta consoante a variância dos termos de "erro" (figura 2.1).
_
Figura 2.1. Gráfico de pares de observações que seguem um modelo de regressão.
Qual será a melhor forma de ajustar a recta ao conjunto de pontos

observados por forma a que a aderência do modelo linear aos dados seja a
melhor possível? Ajustar uma recta consiste em obter bons estimadores para
os parâmetros a e b.
O método que se utiliza é o dos mínimos quadrados que consiste em

estimar a e b tais que a soma dos quadrados das distâncias, medidas na
vertical, de cada um dos pontos à recta seja mínima. A recta assim obtida
chama-se a recta dos mínimos quadrados (figura 2.2).
dj
di
Figura 2.2. O método dos mínimos quadrados estima o declive e a ordenada na

origem da recta de modo a que a soma dos quadrados das distâncias di seja mínima.
O nosso objectivo é, pois, determinar os valores para o declive e a ordenada

na origem, â e b̂ , tais que minimizam a função:
_
∑ (y ).
n 2
SQ = SQ(a,b) = i
− a − bxi
i=1
Para encontrar o mínimo desta função vamos derivar em ordem a a e b

obtendo as equações normais,
⎧ ∂ SQ n
⎪ = −2∑ (yi − a − bxi ) = 0
⎪ ∂a i=1
⎨
⎪ ∂ SQ n
= −2∑ (yi − a − bxi )xi = 0
⎪ ∂b
⎩ i=1
1 n 1 n
Escrevendo x = ∑ x
n i=1 i
e y = ∑ y , este sistema é equivalente a:
n i=1 i
⎧ ny − na − bx = 0
⎪ n
⎨ n
⎪∑ i iy x − nax − b ∑ xi2 = 0
⎩ i=1 i=1
A solução é, pois,
⎧ â = y − b̂x
⎪
⎪ n
⎪
⎨
∑ yi (xi − x)
⎪ b̂ = n
i=1
⎪
⎪⎩
∑ (xi − x)2
i=1
Pela análise da matriz das segundas derivadas podemos ver que se trata
mesmo de um mínimo já que a matriz Hessiana de SQ é dada por
⎡ 2n 2nx ⎤
⎢ ⎥
J= ⎢ n ⎥,
⎢ 2nx 2∑ xi2 ⎥
⎢⎣ i=1 ⎥⎦
que é uma matriz definida positiva. Com efeito,
⎛ n ⎞
( )
n 2
det(J) = 4n ⎜ ∑ xi2 − nx 2 ⎟ = 4n∑ xi − x > 0.
⎝ i=1 ⎠ i=1
A â e b̂ chamamos estimadores de mínimos quadrados (EMQ) de a e de

b e, como mais adiante veremos, gozam de propriedades que, em certo
sentido, são óptimas.
_
É de notar ainda que a expressão do estimador do declive b̂ pode ser escrita

na forma:
∑ (y )( )
n
i
− y xi − x Sxy
b̂ = i=1
= ,
∑ (x )
n 2 Sx2
i
−x
i=1
em que
Sxy =
1 n
(
∑ x − x yi − y
n i=1 i
)( )
e
1 n
( )
2
Sx2 = ∑
n i=1
xi − x .
NOTAS
• Embora Sxy possua, formalmente, a mesma expressão do que a estimativa

usual para a covariância entre X e Y, não podemos considerá-lo
exactamente como tal, já que os valores xi's estão aqui a ser considerados
como constantes.
• O mesmo se pode dizer relativamente a Sx2 e à estimativa para a variância

de X, apesar de, neste caso, não ser completamente correcto falar em
variância de um conjunto de constantes.
Contudo, com as ressalvas espressas nas notas anteriores, é interessante

reparar que a estimativa para o declive da recta é igual à "correlação" entre
as duas variáveis multiplicada pela razão dos "desvios-padrões":
Sxy Sy
b̂ = = ρ̂ xy .
Sx2 Sx
Uma vez encontrados â e b̂ chamamos valores ajustados aos valores que,

em cada abcissa observada xi, se encontram sobre a recta ajustada, isto é,
aos valores
ŷi = â + b̂xi , i = 1,…,n.
Uma boa estimativa para os erros aleatórios εi é dada pelas diferenças
ei = yi − ŷi = yi − â − b̂xi ,
_
i=1,...,n, às quais chamamos resíduos. Em consequência, um estimador

natural para a variância dos erros será:
1 N 2
σ̂ 2 = ∑e
n i=1 i
Acontece, porém, que este estimador não é centrado, ou seja, E[σ̂ 2 ] ≠ σ 2 . Por
isso, o estimador mais utilizado para σ2 é
1 N 2
S2 = ∑e .
n − 2 i=1 i
que é centrado para σ2.
A prova deste facto será feita mais adiante, no contexto da regressão múltipla.
Mas, para já, podemos avançar que a razão de dividir a soma dos quadrados
dos resíduos por n-2 em vez de n tem a ver com o facto de se terem
estimado dois parâmetros para obter as estimativas dos erros.
Com frequência chama-se soma de quadrados dos erros à soma de

quadrados dos resíduos e representa-se esta quantidade por
n
SQe = ∑e 2
i
.
i=1
Repare-se que esta soma de quadrados é simplesmente a soma de quadrados

calculado no ponto correspondente aos EMQ. Com esta notação, o estimador
para a variância dos erros pode ser escrito como S2 = SQe/(n-2).
2.3. Propriedades estatísticas dos estimadores de mínimos

quadrados.
O método dos mínimos quadrados deve muito da sua importância ao facto de

produzir estimadores com boas propriedades estatísticas. Nesta secção,
vamos mostrar que os EMQ são centrados e calcular a sua matriz de
covariâncias. Reparemos que â e b̂ são funções lineares das
observações yi. Esta é uma propriedade sempre desejável, pois facilita muito
a obtenção tanto da sua distribuição de probabilidade como dos seus
momentos. Como
E(Yi ) = a + bxi , i=1,...,n,
Var(Yi ) = σ 2 ,
_
i=1,...,n, e devido à linearidade do valor médio, obtemos
()
N
1
E b̂ = N ∑ E(Y )(x i i
− x) =
∑ (x i
− x) 2 i=1
i=1
N N
a b
= N ∑ (x i
− x) + N ∑ x (x
i i
− x) ,
∑ (x i
− x) 2 i=1
∑ (x i
− x) 2 i=1
i=1 i=1
=b
bem como
E(â) = E(Y ) − xE(b̂) = a ,
isto é, estes estimadores são centrados. Visto os erros serem não

correlacionados, o mesmo acontece às variáveis Yi's e, portanto,
()
n
1
Var b̂ = 2 ∑ Var(Y )(x i i
− x)2
⎡ n ⎤ i=1
⎢ ∑ (xi − x) ⎥
2
⎣ i=1 ⎦
σ2
= n .
∑ (xi − x) 2
i=1
Dado a covariância ser uma função bilinear, tem-se ainda que
( )
n n
1
Cov Y , b̂ = N ∑ ∑ Cov(Y ,Y (x j i i
− x))
n∑ (xi − x) 2 j =1 i=1
i=1
n
1
= n ∑ (x i
− x)Var(Yi ) = 0 ,
n∑ (xi − x) 2 i=1
i=1
uma vez que, para i≠j, Cov(Yi,Yj) = 0. Em consequência,
()
Var â = Var(Y ) + x 2Var b̂ − 2Cov Y , xb̂ () ( )
⎛ ⎞
⎜1 x 2 ⎟
= σ2 ⎜ + ⎟
⎜n n
2⎟
⎜⎝ ∑ (xi − x) ⎟⎠
i=1
e
( ) (
Cov â, b̂ = Cov Y − b̂x, b̂ = −xVar b̂ ) ()
σ x 2
=− n
.
∑ (x i
− x) 2
i=1
_
Resumindo, podemos escrever a matriz de covariâncias dos estimadores de

mínimos quadrados, â e b̂ , como sendo:
⎡1 x2 x ⎤
⎢ + n − n ⎥
⎢ n ∑ (x − x)2 ∑ (xi − x)2 ⎥
2 ⎢ ⎥
i
σ ⎢ i=1 i=1
⎥.
x 1
⎢ − n n ⎥
⎢ ⎥
⎢⎣ ∑ (xi − x)2 ∑ (xi − x)2 ⎥⎦
i=1 i=1
NOTA
• É importante reparar que não basta que a dimensão da amostra seja

grande para garantir que a variância dos estimadores dos mínimos
quadrados seja pequena. É ainda necessário que a variabilidade da
n
amostra dos valores de x, isto é, o valor de ∑ (x i
− x)2 , seja grande. É,
i=1
portanto, necessário fazer observações num conjunto de valores de x

suficientemente dispersos para poder obter boas estimativas para o
declive e a ordenada na origem da recta de mínimos quadrados.
2.4. Intervalos de confiança, testes de hipóteses e intervalos de

predição.
Nesta secção vamos construir intervalos de confiança e testes de hipóteses

para os parâmetros do modelo linear, isto é, para a, b e σ2. Para tal é
necessário supor a validade da hipótese de normalidade dos resíduos, ou
seja, de agora em diante vamos admitir que os εi's são variáveis aleatórias
i.i.d. com distribuição normal de média nula e variância σ2.
O teorema que se segue constitui a base a partir da qual será feita toda a
inferência estatística no modelo de regressão linear simples.
Teorema 2.1. Sejam Y1, Y2, ..., Yn variáveis aleatórias que seguem um
modelo linear, isto é,
Yi = a + bxi + ε i , i = 1,2,...,n
e em que os εi's são variáveis aleatórias i.i.d. com distribuição normal de

média nula e variância σ2. Então:
a) Os estimadores de mínimos quadrados, â e b̂ têm também

distribuição normal com valor médio e variância como já indicámos.
b) A variável
_
(n − 2)S 2 SQe
=
σ 2
σ2
tem distribuição χ (n−2)

2
e é independente de â e b̂ .
DEMONSTRAÇÃO: Para ver a alínea a) basta reparar que, se os erros são

variáveis i.i.d. com distribuição normal, então as variáveis Yi's também o são.
Assim, ambos os estimadores são combinações lineares de variáveis normais
independentes e, portanto, têm ainda distribuição normal. A demonstração da
alínea b) é bastante mais complexa e será deixada para o capítulo 3. ❏
Inferência na ordenada na origem
O teorema 2.1 permite-nos fazer inferência estatística sobre os parâmetros

do modelo de regressão simples. Se pretendermos construir um intervalo de
confiança para a, como
â − a
∩ N(0,1)
()
σ â
em que
1/2
⎛ ⎞
()
n
σ â = σ ⎜1 n + x 2
⎝
∑ (xi − x) ⎟⎠ 2
i=1
podemos utilizar a variável fulcral
â − a
()
σ â
=
â − â
(n − 2)S 2 1 x2
S +
σ 2 (n − 2) n n
∑ (x i
− x)2
i=1
que, sendo um quociente entre uma normal padrão e a raíz de um qui-

quadrado dividido pelo seu número de graus de liberdade, é uma t(n-2).
O mesmo tipo de raciocínio pode também ser utilizado para determinar testes
de hipóteses no parâmetro a. Por exemplo, se pretendermos um teste:
H0 : a = 0 vs. H1 : a ≠ 0 ,
a região de rejeição deverá ser da forma:
â 1−α /2
> t(n−2)
()
σ̂ â
_
em que σ̂ â() é o estimador para a variância de â , ou seja, a expressão da
sua variância em que σ2 foi substituído por S2, e t(n−2)

1−α /2
representa o quantil de
ordem 1-α/2 da distribuição t de student com n-2 graus de liberdade.
Inferência no declive
De forma semelhante podemos construir intervalos de confiança e testes para

o parâmetro que representa o declive da recta, b. Neste caso, a variável
fulcral será
n
b̂ − b
∑ (x i
− x)2
S
∩ t(n−2) ,
i=1
Esta variável aleatória pode também ser utilizada para testar a hipótese
H0 : b = 0 vs. H1 : b ≠ 0 ,
com a região de rejeição
n b̂
∑ (x i
− x)2
S
1− α /2
> t n−2
i =1
Este teste é particularmente importante pois o significado de testar a hipótese
H 0: b = 0
consiste em averiguar a existência de regressão, ou seja, se o efeito da

variável x em Y é significativo. Assim, se não rejeitarmos H0 o declive da
recta é nulo e, portanto, as variáveis Yi são apenas um conjunto de variáveis
i.i.d. com distribuição normal, N(a,σ2), isto é,
Y i = a + ε i, i=1,2,...,n.
Testes e intervalos de confiança para σ2 podem ser obtidos com base na

variável aleatória (n-2)S2/σ2 cuja distribuição já sabemos ser a de um qui-
quadrado com n-2 graus de liberdade.
Predição de valores não observados
Vamos agora considerar o problema da predição ou previsão: dado um valor

não observado de x, digamos, x*, qual a forma de estimar o correspondente
valor da variável Y,
Y* = a + bx* + e*?
O estimador natural será
ˆ = â + b̂x *.
Y*
_
Note-se que este é um problema de estimação um pouco diferente dos que

são estudados em inferência paramética. Nessa abordagem pretende-se
estimar parâmetros, isto é, constantes desconhecidas que correspondem a
certas características da população, enquanto que nos probemas de predição
ou previsão o que pretendemos é estimar o valor de uma variável
aleatória. Tem-se então que
( )
E Yˆ * = a + bx *
e, para a variância,
( ) ()
Var Yˆ * = Var â + Var b̂ + 2 cov â, b̂ () ( )
σ 2
σ x
2 2
σ x *2
2
2x * xσ 2
= + + −
n n n n
∑ (x i
− x)2 ∑ (x i
− x)2 ∑ (x i
− x)2
i =1 i =1 i =1
⎡ ⎤
⎢ 2 ⎥
1 (x * −x) ⎥
= σ2 ⎢ + n .
⎢n ⎥
⎢ ∑ (xi − x) ⎥
2
⎣ i =1 ⎦
Como o estimador Yˆ * é uma combinação linear de variáveis normais

independentes, tem ainda distribuição normal e, consequentemente, a
variável
Yˆ * −E Yˆ * ( )
1 (x * −x)2
S +
n n
∑ (x i
− x)2
i =1
tem distribuição t com n-2 graus de liberdade e pode ser utilizada para
construir um intervalo de confiança ao nível 1-α para E(Y*) cuja forma será
⎛ ⎞
⎜ 2 2 ⎟
⎜ Yˆ * −t 1− α /2 S 1 + (x * −x) ; Yˆ * +t 1− α /2 S 1 + (x * −x) ⎟ .
⎜ n−2
n n n−2
n n ⎟
⎜
⎝
∑ (xi − x)2 ∑ (xi − x)2 ⎟
⎠
i =1 i =1
Mas este é apenas um intervalo de confiança para o valor médio de Y*.

Porém, tem particular importância o problema de estimar e construir
intervalos de confiança para o próprio valor de Y*. O estimador para
esta quantidade aleatória é o mesmo do que para o seu valor médio. Mas o
intervalo de confiança será diferente pois deverá ser considerada a
variabilidade existente devido á presença da parcela aleatória e*.
Com efeito, tem-se
Y* = a + bx * +ε *
_
em que ε* tem distribuição normal, N(0,σ2). Então, á variável Y*- Yˆ *

chamamos erro de predição e pode ser escrita na forma
( ) (
ˆ = a − â + b − b̂ x * +ε * .
Y * −Y* )
O seu valor médio é nulo, isto é,
( )
E Y * −Yˆ * = 0,
como seria de esperar em qualquer boa predição. Quanto à sua variância, que
é também o seu erro quadrático médio, é dada por
( ⎡
) ( )
2⎤
Var Y * −Yˆ * = E ⎢ Y * −Yˆ * ⎥
⎣ ⎦
() () ( )
= Var â + Var b̂ x *2 +2x * Cov â, b̂ + var ε * ( )
⎛ ⎞
⎜ 1 2 ⎟
(x * −x) ⎟
= σ 2 ⎜1 + + n .
⎜ n 2⎟
⎜
⎝
∑ (xi − x) ⎟⎠
i =1
Como a v.a. Y * −Yˆ * tem ainda distribuição normal, um intervalo de confiança

ao nível 1-α pode ser construído a partir da variável fulcral
Y * −Yˆ *
,
1 (x * −x)2
S 1+ + n
n
∑ (xi − x)2
i =1
cuja distribuição de probabilidade é t de student com n-2 graus de liberdade.

Assim, um intervalo de (1-α)100% de confiança para Y* é dado por
⎛ ⎞
⎜ 2 2 ⎟
⎜ Yˆ * −t 1− α /2 S 1 + 1 + (x * −x) ; Yˆ * +t 1− α /2 S 1 + 1 + (x * −x) ⎟ .
⎜ n−2
n n n−2
n n ⎟
⎜
⎝
∑ (xi − x)2 ∑ (xi − x)2 ⎟
⎠
i =1 i =1
2.5. Análise dos resíduos e validação do modelo.
Definimos já os resíduos como as diferenças entre os valores observados, yi, e

os valores ajustados, ŷi , isto é,
ei = yi − ŷi
= yi − â − b̂xi
_
para i = 1,2,...,n. Os resíduos foram-nos úteis para estimar a variância do

modelo, σ2, isto é,
1 n 2 SQe
S2 = ∑
n − 2 i =1
ei =
n−2
.
Mas, a partir dos resíduos é possível retirar ainda muito mais informação
sobre o modelo de onde provêm as observações. Através da análise dos
resíduos,
→ podemos julgar acerca da validade do modelo linear e das condições de

Gauss-Markov;
→ Podemos ainda obter indicações sobre possíveis modelos que se possam

adequar melhor ao problema em estudo.
Alguns dos procedimentos mais usuais são os seguintes:
a) Representação dos resíduos contra a variável x. Para que o modelo

seja verificado a representação gráfica dos resíduos não deve mostrar nenhum
padrão ou estrutura. Na figura 2.3 em baixo estão exemplificados alguns
casos típicos que podem acontecer. A interpretação desses casos deverá ser,
respectivamente:
i) indicação de uma relação quadrática em vez de linear;

ii) indicação de que a variância não é constante;
iii) Concordância com o modelo linear,
i) ii) iii)
Figura 2.3. Resíduos de: i) Relação quadrática; ii) Variância não constante; iii) Modelo linear.
b) Representação dos resíduos contra outras variáveis que possam estar

relacionadas com as observações.
c) Análise dos resíduos eles próprios - histogramas e mesmo outros

métodos mais rigorosos no sentido de confirmar a sua normalidade.
Uma outra formar de verificar a adaptação do modelo ao conjunto de

observações é através da análise da quantidade
_
n
SQTot = ∑ (y i
− y)2 ,
i=1
que exprime a variabilidade do conjunto de observações em torno da

sua média. Somando e subtraindo ŷi e desenvolvendo o quadrado obtemos:
n n
∑ (y i
− y)2 = ∑ [(y i
− ŷi ) − (ŷi − y)]2
i=1 i=1
n n n
= ∑ (y i
− ŷi )2 + ∑ (ŷi − y)2 + 2∑ (yi − ŷi )(ŷi − y).
i=1 i=1 i=1
Ora o termo rectangular no desenvolvimento da soma de quadrados é nulo

porque se tem que
n
→ ∑ ei = 0;
i =1
n
→ ∑ ei xi = 0,
i=1
em consequência directa das equações normais. Assim, tem-se
n n n
∑ (y i
− ŷi )(ŷi − y) = ∑ (y i
− ŷi )(â + b̂xi ) − y ∑ (yi − ŷi )
i=1 i=1
n n n
i=1 .
= â∑ ei − b̂∑ ei xi − y ∑ ei xi = 0
i=1 i=1 i=1
Então a soma dos quadrados dos desvios à média dos y's simplifica-se em
n n n
∑ (y i
− y)2 = ∑ (y i
− ŷi )2 + ∑ (ŷi − y)2 ,
i=1 i=1 i=1
ou, abreviadamente,
SQTot = SQe + SQReg.
Significa isto que a variabilidade total da amostra (SQTot) pode decompor-se

na soma de quadrados residual (SQe), que reflecte a variabilidade devida aos
erros aleatórios, e na soma de quadrados devida à regressão (SQReg), que
reflecte a variabilidade devido ao facto das observações se encontrarem sobre
uma recta. Assim como vimos
Assim, se o modelo for bom, SQe deverá ser pequeno em comparação com
SQTot, isto é, a variabilidade da amostra deverá ser consequência do modelo
de regressão e não dos erros aleatórios. Portanto, um bom indicador do
ajustamento do modelo é o coeficiente de determinação múltipla que se define
como
_
SQRe g SQe
R2 = = 1− .
SQTot SQTot
NOTAS
• O coeficiente R2 é dos indicadores mais utilizados como medida de

ajustamento de um modelo de regressão a um conjunto de dados.
• O coeficiente R2 toma valores entre 0 e 1.
• Quanto mais próximo o valor de R2 estiver da unidade, melhor o

ajustamento do modelo, pois isso significa que a quase totalidade da
variabilidade da amostra é devida à regressão e não ao erro que
cometemos ao ajustar uma recta ao conjunto de pontos.
A partição da soma de quadrados total (SQTot) permite ainda uma forma

alternativa de apresentação dos resultados de uma análise de regressão e,
em consequência, uma outra forma de testar a adequação do modelo à
amostra observada.
Tendo em consideração que a soma dos resíduos é nula, então
n n
∑ y = ∑ ŷ
i i
⇒ y = ŷ .
i=1 i=1
Assim, a soma de quadrados devida à regressão, SQReg, pode ser escrita como
∑( )
n 2 n
SQRe g = ŷi − ŷ = b̂2 ∑ (xi − x)2 ,
i=1 i=1
em virtude de ŷi − ŷ = b̂(xi − x) .
Dividindo ambos os membros da igualdade correspondente à partição da soma

de quadrados total por σ2, esta toma a forma:
∑ (Y )
n 2 n n
i
−Y ∑e 2
i
b̂2 ∑ (xi − x)2
i=1
= i=1
+ i=1
.
σ2 σ2 σ2
Mas repare-se que:
→ se os εi's forem i.i.d. com distribuição N(0,σ2), a quantidade SQe/σ2 tem

distribuição qui-quadrado com n-2 graus de liberdade.
→ se b = 0, então b̂ tem distribuição normal,

_
⎛ n ⎞
b̂ ∩ N ⎜ 0,σ
⎜⎝ ∑ i (x − x)2
⎟
⎟⎠
i=1
e a segunda parcela no termo direito da igualdade acima tem distribuição

qui-quadrado com um grau de liberdade.
Portanto, se o declive for nulo (b=0), a partição da soma de quadrados

total pode ser escrita em termos das distribuiçõ de probabilidade dos termos
que nela figuram como:
χ (n−1)
2
= χ (n−2)
2
+ χ (1)
2
.
Como b̂ é independente de S2 (teorema 2.1), tem-se que, sob a validade da

hipótese H0: b = 0,
n
b̂2 ∑ (xi − x)2
F= n
i=1
∩ F1;n−2
∑e 2
i
(n − 2)
i=1
Assim, a hipótese deverá ser rejeitada ao nível de significância α se
{F > F } ,
1−α
1,n−2
1−α
em que F1,n−2 é o quantil de ordem 1-α da distribuição F com 1 e n-2 graus de
liberdade.
NOTAS
• Repare-se que este teste é perfeitamente equivalente ao que já

apresentámos baseado na distribuição t pois pode-se ver com facilidade
que o quadrado de uma variável com distribuição t com m graus de
liberdade possui distribuição F com 1 grau de liberdade no numerador e m
graus de liberdade no denominador,
d
2
t(m) = F1,m
(Basta relembrar que t(m) = Z / U(m) / m , em que Z ∩ N(0,1) Z e U(m) = χ (m)

2
e são independentes).
• No entanto, o teste baseado na estatística F não poderá ser utilizado para

testes com hipóteses alternativas unilaterais (H1: b < 0 ou H1: b > 0). Mas
é importante analisar o teste nesta perspectiva pois é nesta formulação
que ele admite generalizações para modelos mais complexos.
_
É usual apresentar os resultados de uma análise como acabámos de descrever

numa tabela ANOVA (ANalysis Of Variance) como se mostra em baixo.
Fonte Soma de Graus de Média de

quadrados liberdade quadrados
n
Regressão SQReg = b̂2 ∑ (xi − x)2 1 SQReg /1
i=1
n
Residual SQe = ∑e 2
i
n-2 SQe /(n-2)
i=1
∑ (Y )
n 2
Total SQTot = i
−Y n-1 F: (n-2) SQReg / SQe
i=1

Slides Cap 2 - Regsimples

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Slides Cap 2 - Regsimples

Enviado por

Direitos autorais:

Formatos disponíveis

2. REGRESSÃO LINEAR SIMPLES.

Uma das questões mais importantes, em todas as áreas do conhecimento

Assim, quando conhecemos o valor da variável x podemos saber exactamente

A igualdades deste tipo chamamos modelos determinísticos, porque o

Mas em muitas situações, como acontece com frequência nas Ciências da

A Análise de regressão é um dos mais importantes temas da estatística,

A fim de procurar a relação que melhor exprime o comportamento de Y em

Face ao comportamento desta amostra (e também ao conhecimento que

O modelo de regressão linear simples

i=1,2,...,n, em que a e b são parâmetros a estimar e os ei's são variáveis

(ii) Var(ε i ) = σ 2 , para i = 1,…,n; (2.1)

A este conjunto de três condições chama-se as condições de Gauss-Markov.

Regressão linear e não linear

O modelo de regressão linear pode parecer demasiado restritivo, mas é um

podemos estabelecer uma relação linear entre lnY e x. Também podemos

substituindo a variável x pela variável x2.

Os modelos probabilísticos também necessitam, com frequência, de utilizar

em que ε é uma variável aleatória verificando as condições que acima

2.2. A Recta dos mínimos quadrados.

Sejam então ( x , y ) , i=1,...,n, pares de observações que seguem um modelo

de regressão linear simples:

em que os εi's são v.a.'s que verificam as condições de Gauss-Markov. Então,

Figura 2.1. Gráfico de pares de observações que seguem um modelo de regressão.

Qual será a melhor forma de ajustar a recta ao conjunto de pontos

O método que se utiliza é o dos mínimos quadrados que consiste em

Figura 2.2. O método dos mínimos quadrados estima o declive e a ordenada na

O nosso objectivo é, pois, determinar os valores para o declive e a ordenada

Para encontrar o mínimo desta função vamos derivar em ordem a a e b

que é uma matriz definida positiva. Com efeito,

A â e b̂ chamamos estimadores de mínimos quadrados (EMQ) de a e de

É de notar ainda que a expressão do estimador do declive b̂ pode ser escrita

• Embora Sxy possua, formalmente, a mesma expressão do que a estimativa

• O mesmo se pode dizer relativamente a Sx2 e à estimativa para a variância

Contudo, com as ressalvas espressas nas notas anteriores, é interessante

Uma vez encontrados â e b̂ chamamos valores ajustados aos valores que,

ŷi = â + b̂xi , i = 1,…,n.

Uma boa estimativa para os erros aleatórios εi é dada pelas diferenças

i=1,...,n, às quais chamamos resíduos. Em consequência, um estimador

que é centrado para σ2.

Com frequência chama-se soma de quadrados dos erros à soma de

Repare-se que esta soma de quadrados é simplesmente a soma de quadrados

2.3. Propriedades estatísticas dos estimadores de mínimos

O método dos mínimos quadrados deve muito da sua importância ao facto de

E(Yi ) = a + bxi , i=1,...,n,

i=1,...,n, e devido à linearidade do valor médio, obtemos

E(â) = E(Y ) − xE(b̂) = a ,

isto é, estes estimadores são centrados. Visto os erros serem não

Dado a covariância ser uma função bilinear, tem-se ainda que

uma vez que, para i≠j, Cov(Yi,Yj) = 0. Em consequência,

Resumindo, podemos escrever a matriz de covariâncias dos estimadores de

• É importante reparar que não basta que a dimensão da amostra seja

portanto, necessário fazer observações num conjunto de valores de x

2.4. Intervalos de confiança, testes de hipóteses e intervalos de

Nesta secção vamos construir intervalos de confiança e testes de hipóteses

e em que os εi's são variáveis aleatórias i.i.d. com distribuição normal de

a) Os estimadores de mínimos quadrados, â e b̂ têm também

tem distribuição χ (n−2)

DEMONSTRAÇÃO: Para ver a alínea a) basta reparar que, se os erros são

Inferência na ordenada na origem

O teorema 2.1 permite-nos fazer inferência estatística sobre os parâmetros

podemos utilizar a variável fulcral

que, sendo um quociente entre uma normal padrão e a raíz de um qui-

a região de rejeição deverá ser da forma:

em que σ̂ â() é o estimador para a variância de â , ou seja, a expressão da

em que ε* tem distribuição normal, N(0,σ2). Então, á variável Y- Yˆ