Análise de Regressão Linear Simples e Múltipla

1.
Introdução
Análise de Regressão é uma técnica estatística utilizada para investigar a

relação existente entre variáveis através da construção de uma equação (um
modelo),
Este modelo pode ser utilizado para "escrever" valor esperado de uma variável
(resposta) como uma função dos valores das outras variáveis (explicativas).
1.1. Relações entre variáveis
Seja 𝑌 e 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑘 variáveis aleatórias denotadas por:

𝑌 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑘
Previsto Previsores
Regredido Regressores
Variável explicada Variáveis explicativas
Variável dependente Variáveis independentes
Variável de efeito Variáveis causais
Variável endógena Variáveis exógenas
Variável alvo Variáveis de controle
Seja 𝑌 a variável resposta e 𝑋 a variável explicativa, podemos classificar a
relação entre variáveis como:
a. Funcional: quando a relação é expressa por uma fórmula matemática

𝑌 = 𝑓(𝑋), Se sabemos o valor de 𝑋 = 𝑥𝑜 , podemos obter o exato valor
de 𝑌 = 𝑓(𝑥𝑜 );
Exemplo: o valor das total de vendas (variável resposta) de latas de
refrigerante, cujo preço unitário é de 2 reais, e o número de latas
vendidas (variável resposta), é dada por 𝑌 = 2𝑋.
b. Estatística: quando a relação não é exata e está sujeita a um erro
aleatório, Sabendo-se o valor de 𝑋 = 𝑥𝑜 não obtemos o valor exato de 𝑌;
Exemplo: a relação entre o faturamento de uma empresa (variável
resposta) e a taxa de juros (variável explicativa).
1.2. Os modelos de regressão e seus usos

A Análise de Regressão pode ser utilizada com vários objetivos, dentre os
quais se pode destacar:
a. Descrever a relação entre variáveis para entender um processo ou

fenômeno;
Exemplo: Entender o efeito, no preço de venda de um imóvel, de
características como área construída, número de cômodos, idade,
localização, etc;
b. Prever o valor de uma variável a partir do conhecimento dos valores de
outras variáveis;
Exemplo: Prever a probabilidade de ocorrência de um tornado a partir de
medições de vento, umidade, temperatura, pressão, etc;
c. Substituir a medição de uma variável pela observação dos valores de
outras variáveis;
Exemplo: Substituir a medição da quantidade de gordura abdominal feita
através de tomografia (muito cara, disponível em poucos consultórios
médicos) por medidas de fácil obtenção como circunferência da cintura,
circunferência e prega cutânea do abdômen;
d. Controlar os valores de uma variável em uma faixa de interesse;
Exemplo: Através de um estudo de regressão, a Sony Music identificou
as principais variáveis que afetavam a ocorrência de defeitos durante a
fabricação dos CDs. Assim, o controle destas variáveis (como tempo de
exposição do laser no processo fotográfico), levou `a redução do
prejuízo com produtos defeituosos.
2. Regressão Linear Simples

2.1. Introdução
Modelo linear simples 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜖, onde 𝑌 é a variável resposta, 𝑋 é a

variável explicativa, 𝛽0 e 𝛽1 são parâmetros desconhecidos e 𝜖 é o erro
aleatório.
Esta regressão é chamada linear simples pelo fato da relação entre a variável
resposta e às variáveis explicativas ser uma função linear dos parâmetros (veja
Figura 1).
Baseado nos pressupostos que:
𝐸 (𝜖 ) = 0;
𝑉𝑎𝑟 (𝜖 ) = 𝜎 2 ;
tem-se que:
𝐸 (𝑌 |𝑋 ) = 𝛽0 + 𝛽1 𝑋;
𝑉𝑎𝑟(𝑌 |𝑋) = 𝜎 2 .
Veja a Figura 2 para visualizar estes resultados.
Figura 1: Função linear dos parâmetros 𝜷𝟎 e 𝜷𝟏 .

f(Y/X)
E(Y/X) = X

X1
X2
X3
X
Figura 2: 𝑬(𝒀|𝑿) = 𝜷𝟎 + 𝜷𝟏 𝑿 e 𝑽𝒂𝒓(𝒀|𝑿) = 𝝈𝟐 .
2.2. Estimação de 𝜷𝟎 e 𝜷𝟏 por Mínimos Quadrados Ordinários
Seja uma amostra aleatória com 𝑛 pares de observações (𝑋1 , 𝑌1 ), … , (𝑋𝑛 , 𝑌𝑛 ). O

modelo para a i-ésima observação será dado por:
𝑌𝑖 |𝑋𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜖𝑖 , 𝑖 = 1, ⋯ , 𝑛.
Onde 𝜖𝑖 é independente e identicamente distribuído e pode ser escrito por:
𝜖𝑖 = 𝑌𝑖 − (𝛽0 + 𝛽1 𝑋𝑖 );
e por consequência, a Soma dos Quadrados dos Erros é dado por:

𝑛 𝑛
𝑆𝑄𝐸 = ∑ 𝜖𝑖 2 = ∑[𝑌𝑖 − 𝛽0 − 𝛽1 𝑋𝑖 ]2 .
𝑖=1 𝑖=1
O método dos mínimos quadrados objetiva encontrar as estimativas 𝛽̂0 e 𝛽̂1 de

𝛽0 e 𝛽1 que minimizem 𝑆𝑄𝐸.
Figura 3: Desvios verticais que minimizam a soma de quadrados no MMQ.
Para encontrar 𝛽̂0 e 𝛽̂1 , precisamos derivar 𝑆𝑄𝐸 em função de 𝛽0 e 𝛽1 , igualar a

zero as expressões resultantes para então resolver o sistema de equações
cujas incógnitas são os parâmetros citados (Ver Figura 3).
Assim, fazendo as derivadas parciais:

𝑛
𝜕𝑆𝑄𝐸
= −2 ∑[𝑌𝑖 − 𝛽0 − 𝛽1 𝑋𝑖 ] ;
𝜕𝛽0
𝑖=1
𝑛
𝜕𝑆𝑄𝐸
= −2 ∑[𝑌𝑖 − 𝛽0 − 𝛽1 𝑋𝑖 ]𝑋𝑖 .
𝜕𝛽1
𝑖=1
̂0 e 𝛽
Logo, 𝛽 ̂1 são tais que:
𝑛
̂0 − 𝛽
∑[𝑌𝑖 − 𝛽 ̂1 𝑋𝑖 ] = 0
𝑖=1
𝑛
̂0 − 𝛽
∑[𝑌𝑖 − 𝛽 ̂1 𝑋𝑖 ]𝑋𝑖 = 0.
𝑖=1
Por consequência:
𝑛
̂0 − 𝛽
∑[𝑌𝑖 − 𝛽 ̂1 𝑋𝑖 ] = 0
𝑖=1
𝑛 𝑛 𝑛
̂0 − ∑ 𝛽
⟹ ∑ 𝑌𝑖 − ∑ 𝛽 ̂1 𝑋𝑖 = 0
𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛
̂0 − 𝛽
⟹ ∑ 𝑌𝑖 − 𝑛𝛽 ̂1 ∑ 𝑋𝑖 = 0
𝑖=1 𝑖=1
𝑛 𝑛
̂0 = − ∑ 𝑌𝑖 + 𝛽
⟹ −𝑛𝛽 ̂1 ∑ 𝑋𝑖
𝑖=1 𝑖=1
̂0 = 𝑌̅ − 𝛽
⟹𝛽 ̂1 𝑋̅ ;
∑𝑛
𝑖=1 𝑌𝑖 ∑ 𝑛
𝑋𝑖
onde 𝑌̅ = e 𝑋̅ = 𝑖=1 ,e
𝑛 𝑛
𝑛
̂0 − 𝛽
∑[𝑌𝑖 − 𝛽 ̂1 𝑋𝑖 ]𝑋𝑖 = 0
𝑖=1
𝑛 𝑛 𝑛
̂0 𝑋𝑖 − ∑ 𝛽
⟹ ∑ 𝑌𝑖 𝑋𝑖 − ∑ 𝛽 ̂1 𝑋𝑖2 = 0
𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛 𝑛
̂0 ∑ 𝑋𝑖 − 𝛽
⟹ ∑ 𝑌𝑖 𝑋𝑖 − 𝛽 ̂1 ∑ 𝑋𝑖2 = 0
𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛 𝑛
̂1 𝑋̅ ) ∑ 𝑋𝑖 − 𝛽
⟹ ∑ 𝑌𝑖 𝑋𝑖 − (𝑌̅ − 𝛽 ̂1 ∑ 𝑋𝑖2 = 0
𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛
̂1 𝑋̅)𝑛𝑋̅ − 𝛽
⟹ ∑ 𝑌𝑖 𝑋𝑖 − (𝑌̅ − 𝛽 ̂1 ∑ 𝑋𝑖2 = 0
𝑖=1 𝑖=1
𝑛 𝑛
̂1 𝑋̅ − 𝛽
⟹ ∑ 𝑌𝑖 𝑋𝑖 − 𝑛𝑋̅𝑌̅ + 𝑛𝑋̅ 𝛽 ̂1 ∑ 𝑋𝑖2 = 0
𝑖=1 𝑖=1
𝑛 𝑛
̂1 𝑋 +
⟹ −𝑛𝛽 ̅2 ̂1 ∑ 𝑋𝑖2
𝛽 = − ∑ 𝑌𝑖 𝑋𝑖 + 𝑛𝑋̅ 𝑌̅
𝑖=1 𝑖=1
𝑛 𝑛
⟹ ̂1 (∑ 𝑋𝑖2
−𝛽 − 𝑛𝑋̅ 2 ) = − ∑ 𝑌𝑖 𝑋𝑖 + 𝑛𝑋̅ 𝑌̅
𝑖=1 𝑖=1
𝑛 𝑛
̂1 (∑ 𝑋𝑖2 − 𝑛𝑋̅ 2 ) = ∑ 𝑌𝑖 𝑋𝑖 − 𝑛𝑋̅𝑌̅
⟹𝛽
𝑖=1 𝑖=1
∑𝑛𝑖=1 𝑌𝑖 𝑋𝑖 − 𝑛𝑋̅𝑌̅
̂1 =
⟹𝛽 ;
∑𝑛𝑖=1 𝑋𝑖2 − 𝑛𝑋̅ 2
∑𝑛𝑖=1(𝑌𝑖 − 𝑌̅)(𝑋𝑖 − 𝑋̅)

̂1 =
𝑜𝑢 𝛽 ;
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2
∑𝑛𝑖=1 𝑌𝑖 (𝑋𝑖 − 𝑋̅ )
̂1 =
𝑜𝑢 𝛽 .
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅ )2
A solução deste sistema de equações, também conhecidas como equações

normais, é portanto:
̂0 = 𝑌̅ − 𝛽
𝛽 ̂1 𝑋̅;
∑𝑛𝑖=1 𝑌𝑖 𝑋𝑖 − 𝑛𝑋̅ 𝑌̅
̂1 =
𝛽 .
∑𝑛𝑖=1 𝑋𝑖2 − 𝑛𝑋̅ 2
2.3. Estimação de 𝜷𝟎 e 𝜷𝟏 por Máxima Verossimilhança
O modelo para a i-ésima observação será dado por:
𝑌𝑖 |𝑋𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜖𝑖 , 𝑖 = 1, ⋯ , 𝑛.
Onde 𝜖𝑖 são independentes e identicamente distribuídos e seguem uma

distribuição gaussiana, ou seja:
𝜖𝑖 ~𝑁(0, 𝜎 2 ).
Tem-se que 𝐸 (𝑌𝑖 |𝑋𝑖 ) = 𝛽0 + 𝛽1 𝑋𝑖 e 𝑉𝑎𝑟(𝑌𝑖 |𝑋𝑖 ) = 𝜎 2 , e dado que 𝑌𝑖 |𝑋𝑖 é

combinação linear de 𝜖𝑖 , então, 𝑌𝑖 |𝑋𝑖 são independentes e identicamente
distribuídos e seguem uma distribuição gaussiana, ou seja:
𝑌𝑖 |𝑋𝑖 ~𝑁(𝛽0 + 𝛽1 𝑋𝑖 , 𝜎 2 ).
Pode-se, portanto, considerando a distribuição de 𝑌𝑖 |𝑋𝑖 e o vetor de parâmetros

𝜽 = {𝛽0 ; 𝛽1 ; 𝜎 2 }, pode-se definir a função de verossimilhança, dada por:
𝑛 𝑛
1 1 2
𝐿(𝜽; 𝒀) = ∏ 𝑓 (𝑌𝑖 |𝜃 ) = ∏ 𝑒𝑥𝑝 {− 2
(𝑌𝑖 − (𝛽0 + 𝛽1 𝑋𝑖 )) }
√2𝜋𝜎 2 2𝜎
𝑖=1 𝑖=1
𝑛 𝑛
1 −𝑛 1 2
=( ) (𝜎 2 ) 2 𝑒𝑥𝑝 {− 2
∑(𝑌𝑖 − (𝛽0 + 𝛽1 𝑋𝑖 )) },
√2𝜋 2𝜎
𝑖=1
onde Θ = {−∞ < 𝛽0 < +∞; −∞ < 𝛽1 < +∞; 𝜎 2 > 0}.
Logo:
𝑛
𝑛 1 2
𝑙(𝜽; 𝒀) = 𝑙𝑛𝐿(𝜽; 𝒀) = −𝑛𝑙𝑛√2𝜋 − 𝑙𝑛𝜎 2 − 2 ∑(𝑌𝑖 − (𝛽0 + 𝛽1 𝑋𝑖 )) .
2 2𝜎
𝑖=1
Para maximizar a função de verossimilhança com respeito a 𝛽0 e 𝛽1 , tem-se

que:
𝑛
𝜕𝑙(𝜽; 𝒀) 2
= 2 ∑[𝑌𝑖 − 𝛽0 − 𝛽1 𝑋𝑖 ] ;
𝜕𝛽0 2𝜎
𝑖=1
𝑛
𝜕𝑙(𝜽; 𝒀) 2
= 2 ∑[𝑌𝑖 − 𝛽0 − 𝛽1 𝑋𝑖 ]𝑋𝑖 .
𝜕𝛽1 2𝜎
𝑖=1
É fácil ver que maximizar a função de verossimilhança com respeito a 𝛽0 e 𝛽1 é

igual a minimizar a soma dos quadradros dos resíduos com respeito a 𝛽0 e 𝛽1 ,
portanto, os estimadores para estes parâmetros são os mesmos, ou seja:
̂0 = 𝑌̅ − 𝛽
𝛽 ̂1 𝑋̅;
∑𝑛𝑖=1 𝑌𝑖 𝑋𝑖 − 𝑛𝑋̅ 𝑌̅
̂1 =
𝛽 .
∑𝑛𝑖=1 𝑋𝑖2 − 𝑛𝑋̅ 2
Para a obtenção do estimador para 𝜎 2 , tem-se que:

𝑛
𝜕𝑙(𝜽; 𝒀) 𝑛 1 2
2
= − 2 − 4 ∑(𝑌𝑖 − (𝛽0 + 𝛽1 𝑋𝑖 )) ;
𝜕𝜎 𝜎 2𝜎
𝑖=1
Logo:
𝑛
̂2 = 1 ∑ (𝑌𝑖 − (𝛽
2
𝜎 ̂0 + 𝛽
̂1 𝑋𝑖 )) (𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜𝑟 𝑣𝑖𝑐𝑖𝑎𝑑𝑜 𝑝𝑎𝑟𝑎 𝜎 2 ).
𝑛
𝑖=1
Ressalta-se que o estimador não viciado para 𝜎 2 é:

𝑛
1 2
𝑆2 = ̂0 + 𝛽
∑ (𝑌𝑖 − (𝛽 ̂1 𝑋𝑖 )) .
𝑛−2
𝑖=1
O valor ajustado de 𝑌𝑖 fica sendo:
𝐸̂ ̂0 + 𝛽
(𝑌 |𝑋 ) = 𝛽 ̂1 𝑋
ou
̂0 + 𝛽
̂𝑖 = 𝛽
𝑌 ̂1 𝑋𝑖
E os resíduos serão dados por:
̂0 + 𝛽
̂𝑖 = 𝑌𝑖 − (𝛽
𝑒𝑖 = 𝜖̂𝑖 = 𝑌𝑖 − 𝑌 ̂1 𝑋𝑖 ), 𝑖 = 1, ⋯ , 𝑛.
Para facilitar a notação denotar-se-á:

𝑛 𝑛 𝑛
𝑆𝑋𝑌 = ∑ 𝑌𝑖 𝑋𝑖 − 𝑛𝑋̅ 𝑌̅ = ∑(𝑌𝑖 − 𝑌̅ )(𝑋𝑖 − 𝑋̅) = ∑ 𝑌𝑖 (𝑋𝑖 − 𝑋̅ )

𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛
𝑆𝑋𝑋 = ∑(𝑋𝑖 − 𝑋̅ )2 = ∑ 𝑋𝑖 2 − 𝑛𝑋̅ 2

𝑖=1 𝑖=1
(𝑋𝑖 − 𝑋̅)
𝐶𝑖 =
𝑆𝑋𝑋
𝑛 𝑛
𝑆𝑌𝑌 = ∑(𝑌𝑖 − 𝑌 ̅ )2 = ∑ 𝑌𝑖 2 − 𝑛𝑌̅ 2

𝑖=1 𝑖=1
𝑆𝑋𝑌
⇒ 𝛽̂1 =
𝑆𝑋𝑋
𝑛
⇒ 𝛽̂1 = ∑ 𝐶𝑖 𝑌𝑖
𝑖=1
2.4. Valor Esperado e Variância dos Estimadores
̂1 é:
O valor esperado para o estimador 𝛽
𝑛 𝑛 𝑛
𝑆
̂1 ] = 𝐸 [ 𝑋𝑌 ] = 𝐸 [∑ 𝐶𝑖 𝑌𝑖 ] = ∑ 𝐶𝑖 𝐸 [𝑌𝑖 ] = ∑ 𝐶𝑖 (𝛽0 + 𝛽1 𝑋𝑖 )
𝐸[𝛽
𝑆𝑋𝑋
𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛
̂1 ] = 𝛽0 ∑ 𝐶𝑖 + 𝛽1 ∑ 𝐶𝑖 𝑋𝑖 ;
⟹ 𝐸[𝛽
𝑖=1 𝑖=1
mas, tem-se que:

𝑛 𝑛 𝑛 𝑛
(𝑋𝑖 − 𝑋̅) 1 1
∑ 𝐶𝑖 = ∑ = ∑(𝑋𝑖 − 𝑋̅) = (∑ 𝑋𝑖 − 𝑛𝑋̅ ) = 0;
𝑆𝑋𝑋 𝑆𝑋𝑋 𝑆𝑋𝑋
𝑖=1 𝑖=1 𝑖=1 𝑖=1
e
𝑛 𝑛 𝑛
(𝑋𝑖 − 𝑋̅ )𝑋𝑖 1 𝑆𝑋𝑋
∑ 𝐶𝑖 𝑋𝑖 = ∑ = (∑ 𝑋𝑖 2 − 𝑛𝑋̅ 2 ) = =1
𝑖=1 𝑖=1 𝑖=1
portanto:
𝑛 𝑛
̂1 ] = 𝛽0 ∑ 𝐶𝑖 + 𝛽1 ∑ 𝐶𝑖 𝑋𝑖 = 𝛽0 × 0 + 𝛽1 × 1
𝐸[𝛽
𝑖=1 𝑖=1
̂1 ] = 𝛽1 (𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜𝑟 𝑛ã𝑜 𝑣𝑖𝑐𝑖𝑎𝑑𝑜 𝑝𝑎𝑟𝑎 𝛽1 ).

⟹ 𝐸[𝛽
̂0 é:
O valor esperado para o estimador 𝛽
𝑛
1
̂0 ] = 𝐸[𝑌̅ − 𝛽
𝐸[𝛽 ̂1 𝑋̅ ] = 𝐸 [𝑌̅] − 𝐸[𝛽
̂1 ]𝑋̅ = 𝐸 [𝑌̅] − 𝛽1 𝑋̅ = 𝐸 [∑ 𝑌𝑖 ] − 𝛽1 𝑋̅
𝑛
𝑖=1
𝑛 𝑛
1 1
= ∑ 𝐸 [𝑌𝑖 ] − 𝛽1 𝑋̅ = ∑(𝛽0 + 𝛽1 𝑋𝑖 ) − 𝛽1 𝑋̅
𝑛 𝑛
𝑖=1 𝑖=1
𝑛 𝑛 𝑛
1 𝑛 1
= (∑ 𝛽0 + ∑ 𝛽1 𝑋𝑖 ) − 𝛽1 𝑋̅ = 𝛽0 + 𝛽1 ∑ 𝑋𝑖 − 𝛽1 𝑋̅
𝑛 𝑛 𝑛
𝑖=1 𝑖=1 𝑖=1
= 𝛽0 + 𝛽1 𝑋̅ − 𝛽1 𝑋̅
̂0 ] = 𝛽0 (𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜𝑟 𝑛ã𝑜 𝑣𝑖𝑐𝑖𝑎𝑑𝑜 𝑝𝑎𝑟𝑎 𝛽0 ).

⟹ 𝐸[𝛽
̂1 é:
A variância para o estimador 𝛽
𝑛 𝑛
𝑆
̂1 ] = 𝑉𝑎𝑟 [ 𝑋𝑌 ] = 𝑉𝑎𝑟 [∑ 𝐶𝑖 𝑌𝑖 ] = ∑ 𝐶𝑖2 𝑉𝑎𝑟[𝑌𝑖 ]
𝑉𝑎𝑟[𝛽
𝑆𝑋𝑋
𝑖=1 𝑖=1
𝑛 𝑛
(𝑋𝑖 − 𝑋̅ )2 2 𝜎2 𝜎 2 𝑆𝑋𝑋
̂
⟹ 𝑉𝑎𝑟[𝛽1 ] = ∑ ̅ 2
𝜎 = 2 ∑(𝑋𝑖 − 𝑋) = 2
2
𝑖=1 𝑖=1
𝜎2
̂1 ] =
⟹ 𝑉𝑎𝑟[𝛽 .
𝑆𝑋𝑋
̂0 é:
A variância para o estimador 𝛽
𝜎2 𝜎2
̂0 ] = 𝑉𝑎𝑟[𝑌̅ − 𝛽
𝑉𝑎𝑟[𝛽 ̂1 𝑋̅ ] = 𝑉𝑎𝑟[𝑌̅] + 𝑋̅ 2 𝑉𝑎𝑟[𝛽
̂1 ] − 2𝑋 ̂1 ) =
⏟̅𝐶𝑜𝑣(𝑌̅ ; 𝛽 + 𝑋̅ 2
𝑛 𝑆𝑋𝑋
=0
1 𝑋̅ 2
̂0 ] = 𝜎 2 ( +
⟹ 𝑉𝑎𝑟[𝛽 ).
𝑛 𝑆𝑋𝑋
2.5. Intervalos de confiança e testes de hipótese para 𝛃𝟎 e 𝛃𝟏
Suposições para o Modelo
1. Os erros são variáveis aleatórias com média zero e variância constante,

ou seja, 𝐸 (𝜖𝑖 ) = 0 e 𝑉𝑎𝑟 (𝜖𝑖 ) = 𝜎 2 ,
2. Para 𝑖 ≠ 𝑗, 𝜖𝑖 e 𝜖𝑗 são não-correlacionados, ou seja, 𝐶𝑜𝑣(𝜖𝑖 , 𝜖𝑗 ) = 0,
3. 𝜖𝑖 ~𝑁(0, 𝜎 2 )
Dadas essas suposições, temos que (𝑌𝑖 |𝑋𝑖 )~𝑁(𝛽0 + 𝛽1 𝑋𝑖 , 𝜎 2 ), independentes

para 𝑖 = 1, … , 𝑛,
2.5.1. Inferência sobre 𝜷𝟏
̂1 é
Tem-se que a Esperança de 𝛽
̂1 ] = 𝛽1 ;
𝐸[𝛽
̂1 é
e a Variância de 𝛽
𝜎2
̂1 ] =
𝑉𝑎𝑟[𝛽 ;
𝑆𝑋𝑋
̂1 é
por consequência, o Desvio Padrão de 𝛽
1⁄2
𝜎2
̂1 ) = [
𝐷𝑃(𝛽 ] .
𝑆𝑋𝑋
Dado que 𝜎 2 não é conhecido, utiliza-se

1⁄2
𝑆2
̂1 ) = [ ]
𝐷𝑃𝐸 (𝛽 ;
𝑆𝑋𝑋
onde
𝑛
1 2
𝑆2 = ̂0 + 𝛽
∑ (𝑌𝑖 − (𝛽 ̂1 𝑋𝑖 )) .
𝑛−2
𝑖=1
Assim, pode-se obter o Intervalo de Confiança, dado por
𝐼𝐶(1−𝛼) (𝛽1 ) = [𝛽̂1 ± 𝑡(𝑛−2;1−𝛼 ⁄2) × 𝐷𝑃𝐸 (𝛽

̂1 )]
Pode-se ainda formular um Teste de Hipóteses para 𝛽1 , onde as hipóteses são
𝐻 : 𝛽 = 𝑏1
{ 0 1
𝐻1 : 𝛽1 ≠ 𝑏1
e a Estatística de Teste é
𝛽̂1 − 𝑏1
𝑡𝑜𝑏𝑠 = ~ 𝑡𝑛−2 sob 𝐻0 .
𝐷𝑃𝐸 (𝛽̂1 )
2.5.2. Inferência sobre 𝜷𝟎
̂0 é
Tem-se que a Esperança de 𝛽
̂0 ] = 𝛽0 ;
𝐸[𝛽
̂0 é
e a Variância de 𝛽
1 𝑋̅ 2
̂ ] 2
𝑉𝑎𝑟[𝛽0 = 𝜎 ( + );
𝑛 𝑆𝑋𝑋
̂0 é
por consequência, o Desvio Padrão de 𝛽
1⁄2
1 𝑋̅ 2
̂ 2
𝐷𝑃(𝛽0 ) = [𝜎 ( + )] .
𝑛 𝑆𝑋𝑋
Dado que 𝜎 2 não é conhecido, utiliza-se

1⁄2
1 𝑋̅ 2
̂ 2
𝐷𝑃𝐸 (𝛽0 ) = [𝑆 ( + )] ;
𝑛 𝑆𝑋𝑋
onde
𝑛
1 2
𝑆2 = ̂0 + 𝛽
∑ (𝑌𝑖 − (𝛽 ̂1 𝑋𝑖 )) .
𝑛−2
𝑖=1
Assim, pode-se obter o Intervalo de Confiança, dado por
̂0 ± 𝑡(𝑛−2;1−𝛼 ⁄2) × 𝐷𝑃𝐸 (𝛽

𝐼𝐶(1−𝛼) (𝛽0 ) = [𝛽 ̂0 )]
Pode-se ainda formular um Teste de Hipóteses para 𝛽0 , onde as hipóteses são
𝐻0 : 𝛽0 = 𝑏0
{
𝐻1 : 𝛽0 ≠ 𝑏0
e a Estatística de Teste é
̂0 − 𝑏0
𝛽
𝑡𝑜𝑏𝑠 = ~ 𝑡𝑛−2 sob 𝐻0 .
𝐸𝑃(𝛽̂0 )
2.6. Resultados Importantes
Não será demonstrados estes resultados, mas são fundamentais para uma
melhor compreensão dos “algebrismos” utilizados ao longo dos estudos de
Análise de Regressão:
a. ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅ ) = 0;
b. ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅ )2 = ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)(𝑋𝑖 − 𝑋̅) = ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)𝑋𝑖 ;
c. ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅ )(𝑌𝑖 − 𝑌̅) = ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅ )𝑌𝑖 ;
d. ∑𝑛𝑖=1 𝑒𝑖 = 0;
e. ∑𝑛𝑖=1 𝑋𝑖 𝑒𝑖 = 0;
f. ∑𝑛𝑖=1 𝑌̂𝑖 𝑒𝑖 = 0;
𝑌̂
g. Seja 𝑌̅̂𝑖 = ∑𝑛𝑖=1 𝑛𝑖 , então , 𝑌̅̂ = 𝑌̅;
h. A reta de mínimos quadrados passa pelo ponto (𝑋̅, 𝑌̅ );

i. ∑𝑛𝑖=1(𝑌̂𝑖 − 𝑌̅)(𝑌𝑖 − 𝑌̂𝑖 ) = 0;
2
j. ̂1 𝑆𝑋𝑌
∑𝑛𝑖=1(𝑌̂𝑖 − 𝑌̅) = 𝛽
2
̂1 2 ∑(𝑋𝑖 − 𝑋̅ )2 .
k. ∑𝑛𝑖=1(𝑌̂𝑖 − 𝑌̅) = 𝛽
2.7. Análise de Variância
Visa afirmar se a variável explicativa é um bom preditor da variável resposta e

o quanto da variação da variável resposta é explicada pela reta de regressão.
2.7.1. Decomposição da Soma Total nas Somas dos Quadrados
𝑌𝑖 − 𝑌̂𝑖 = (𝑌𝑖 − 𝑌̅ ) − (𝑌̂𝑖 − 𝑌̅)
(𝑌𝑖 − 𝑌̅) = (𝑌̂𝑖 − 𝑌̅) + (𝑌𝑖 − 𝑌̂𝑖 )
2
(𝑌𝑖 − 𝑌̅ )2 = [(𝑌̂𝑖 − 𝑌̅) + (𝑌𝑖 − 𝑌̂𝑖 )]
2 2
(𝑌𝑖 − 𝑌̅)2 = (𝑌̂𝑖 − 𝑌̅ ) + (𝑌𝑖 − 𝑌̂𝑖 ) + 2(𝑌̂𝑖 − 𝑌̅ )(𝑌𝑖 − 𝑌̂𝑖 )
𝑛 𝑛 𝑛 𝑛
2 2
∑(𝑌𝑖 − 𝑌 ̅ )2 = ∑(𝑌̂𝑖 − 𝑌̅) + ∑(𝑌𝑖 − 𝑌̂𝑖 ) + 2 ∑(𝑌̂𝑖 − 𝑌̅)(𝑌𝑖 − 𝑌̂𝑖 ).
𝑖=1 𝑖=1 𝑖=1 ⏟
𝑖=1
=0
Veja que
𝑛 𝑛 𝑛 𝑛 𝑛
∑(𝑌̂𝑖 − 𝑌̅)(𝑌𝑖 − 𝑌̂𝑖 ) = ∑ 𝑌̂𝑖 (𝑌𝑖 − 𝑌̂𝑖 ) − 𝑌̅ ∑(𝑌𝑖 − 𝑌̂𝑖 ) = ∑ 𝑌̂𝑖 𝑒𝑖 − 𝑌̅ ∑ 𝑒𝑖 = 0.

𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1
Então
𝑛 𝑛 𝑛
2 2
∑(𝑌𝑖 − 𝑌̅)2 = ∑(𝑌̂𝑖 − 𝑌̅) + ∑(𝑌𝑖 − 𝑌̂𝑖 ) ;
𝑖=1 𝑖=1 𝑖=1
tem então que
𝑆𝑜𝑚𝑎 𝑑𝑒 𝑄𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑆𝑜𝑚𝑎 𝑑𝑒 𝑄𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑆𝑜𝑚𝑎 𝑑𝑒 𝑄𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠

( )=( )+( );
𝑇𝑜𝑡𝑎𝑙 𝑑𝑎 𝑅𝑒𝑔𝑟𝑒𝑠𝑠ã𝑜 𝑑𝑜𝑠 𝑅𝑒𝑠í𝑑𝑢𝑜𝑠
e utilizar-se-á a seguinte notação
𝑆𝑄𝑇 = 𝑆𝑄𝑅 + 𝑆𝑄𝑅𝐸𝑆 ;
onde
 𝑆𝑄𝑇 mede a variação dos valores de 𝑌 na amostra;

 𝑆𝑄𝑅 mede quanto da 𝑆𝑄𝑇 é explicada pela variação dos valores de 𝑋, ou
seja, pelo modelo de regressão ajustado;
 𝑆𝑄𝑅𝐸𝑆 mede quanto da 𝑆𝑄𝑇 não é explicada pelo modelo de regressão
ajustado.
2.7.2. A Tabela de Análise de Variância (Tabela ANOVA)
Graus de Liberdade (GL) é o número relacionado a uma soma de quadrados

que indica quantos partes independentes de informação envolvendo 𝑛
quantidades independentes 𝑌1 , … , 𝑌𝑛 são necessárias para calcular a soma de
quadrados e:
𝑆𝑜𝑚𝑎 𝑑𝑒 𝑄𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠
𝑄𝑢𝑎𝑑𝑟𝑎𝑑𝑜 𝑀é𝑑𝑖𝑜 = .
𝐺𝐿
Logo, tem-se que

𝑆𝑄𝑅
𝑄𝑀𝑅 = ;
1
𝑆𝑄𝑅𝐸𝑆
𝑄𝑀𝑅𝐸𝑆 = = 𝑠2 .
𝑛−2
Utilizar-se-á um importante resultado da teoria de probabilidade, onde se 𝛽1 =

0, então
𝑄𝑀𝑅
~𝜒12 ;
𝜎2
(𝑛 − 2)𝑄𝑀𝑅𝐸𝑆 (𝑛 − 2)𝑠 2 2
= ~𝜒𝑛−2 ;
𝜎2 𝜎2
e sob a suposição que são independentes tem-se que a razão tem distribuição
𝐹 − 𝑆𝑛𝑒𝑑𝑒𝑐𝑜𝑟 com 1 e 𝑛 − 2 graus de liberdade, ou seja:
𝑄𝑀𝑅
𝐹𝑜𝑏𝑠 = ~ 𝐹1; 𝑛−2 sob 𝐻0 .
𝑄𝑀𝑅𝐸𝑆
Portanto, a ANOVA para um modelo de regressão linear simples é dado por

Fonte de Graus de
Soma de Quadrados Quadrado Médio Teste F
Variação Liberdade
𝑛
2
̂1 𝑆𝑋𝑌 𝑆𝑄𝑅
Regressão 1 𝑆𝑄𝑅 = ∑(𝑌̂𝑖 − 𝑌̅ ) = 𝛽 𝑄𝑀𝑅 =
1
𝑖=1 𝑄𝑀𝑅
~ 𝐹1; 𝑛−2
𝑛 𝑄𝑀𝑅𝐸𝑆
2
̂1 𝑆𝑋𝑌 𝑆𝑄𝑅𝐸𝑆
Residual 𝑛−2 𝑆𝑄𝑅𝐸𝑆 = ∑(𝑌𝑖 − 𝑌̂𝑖 ) = 𝑆𝑄𝑇 − 𝛽 𝑄𝑀𝑅𝐸𝑆 = = 𝑆2
𝑛−2
𝑖=1
Total 𝑛−1 𝑆𝑄𝑇 = ∑(𝑌𝑖 − 𝑌̅ )2

𝑖=1
Observação: Outro resultado importante da teoria de probabilidade é que 𝐹1,𝑣 =

[𝑡𝑣 ]2 , e tem que
𝑄𝑀𝑅 𝑄𝑀𝑅 𝛽̂1 𝑆𝑋𝑌 𝛽̂1 2 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅ )2 ̂1 [∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2 ]1⁄2 2

𝛽
𝐹𝑜𝑏𝑠 = = 2 = = ={ }
𝑄𝑀𝑅𝐸𝑆 𝑠 𝑠2 𝑠2 𝑠
2
= 𝑡𝑜𝑏𝑠
Este resultado é válido somente para a regressão linear simples.
2.8. Grau de ajuste da Regressão Linear Simples
Tem-se que
𝑆𝑄𝑅 𝑆𝑄𝑅𝐸𝑆 𝑆𝑄𝑇 𝑆𝑄𝑅 𝑆𝑄𝑅𝐸𝑆

𝑆𝑄𝑅 + 𝑆𝑄𝑅𝐸𝑆 = 𝑆𝑄𝑇 ⟹ + = ⟹ + = 1.
𝑆𝑄𝑇 𝑆𝑄𝑇 𝑆𝑄𝑇 𝑆𝑄𝑇 𝑆𝑄𝑇
Logo, define-se como coeficiente de determinação, ou 𝑅2 , a seguinte medida
𝑆𝑄𝑅 𝑆𝑄𝑅𝐸𝑆
𝑅2 = =1−
𝑆𝑄𝑇 𝑆𝑄𝑇
Este coeficiente mede a proporção da variação total da resposta explicada pela

regressão.
Observação: Tem-se que:
 𝑅2 ≤ 1 igualdade só poder obtida se, e somente se, todos os valores da

variável explicativa são diferente;
 𝑅 é o valor do coeficiente de Pearson entre 𝑋 e 𝑌̂;
 (sinal de 𝛽̂1 )√𝑅2 é o valor do coeficiente de correlação de Pearson entre
𝑋 e 𝑌.
EXEMPLO: Sejam X a temperatura atmosférica média no mês (em Fº) e Y o

consumo mensal de gás residencial (em litros).
𝑋𝑖 𝑌𝑖 𝑌̂𝑖 𝑌𝑖 − 𝑌̂𝑖
35,3 10,98 10,81 0,17
29,7 11,13 11,25 -0,12
30,8 12,51 11,17 1,34
58,8 8,40 8,93 -0,53
61,4 9,27 8,72 0,55
71,3 8,73 7,93 0,80
74,4 ,6,36 7,68 -1,32
76,7 8,50 7,50 1,00
70,7 7,82 7,98 -0,16
57,5 9,14 9,03 0,11
46,4 8,24 9,92 -1,68
28,9 12,19 11,32 0,87
28,1 11,88 11,38 0,50
39,1 9,57 10,50 -0,93
46,8 10,94 9,89 1,05
48,5 9,58 9,75 -0,17
59,3 10,09 8,89 1,20
70,0 8,11 8,03 0,08
70,0 6,83 8,03 -1,20
74,5 8,88 7,68 1,20
72,1 7,68 7,87 -0,19
58,1 8,47 8,98 -0,51
44,6 8,86 10,06 -1,20

33,4 10,36 10,96 -0,60
28,6 11,08 11,34 -0,26
Figura 2: Gráfico de Dispersão das Variáveis X e Y
Estimação dos parâmetros
𝑛 = 25; ∑ 𝑌𝑖 = 235,60; 𝑌̅ = 9,424; ∑ 𝑋𝑖 = 1314; 𝑋̅ = 52,60;
∑ 𝑋𝑖 𝑌𝑖 = 11821,4320; ∑ 𝑋𝑖2 = 76323,42;
𝛽̂1 = −0,079829 e 𝛽̂0 = 13,623005
Com base nos resultados obtidos temos que a equação ajustada é
𝑌̂ = 13,623005 − 0,079829𝑋
Figura 3: Gráfico de Dispersão das Variáveis X e Y e a reta estimada
Tabela ANOVA
FV GL SQ QM
Regressão 1 45,5924 45,5924
Residual 23 18,2234 𝑠 2 = 0,7923
Total 24 63,8158
Estatística R
45,5924
𝑅2 = = 0,7144
63,8158
Dado o valor do coeficiente de determinação, a interpretação que temos é de

que cerca de 71% da variação total da variável consumo de gás para esta
amostra é explicada pela variável temperatura mensal média.
Teste F
45,5924
𝐹= = 57,54 > 𝐹(0,95;1,23) = 4,28 → rejeita − se 𝐻0 : 𝛽1 = 0
0,7923
Inferência sobre 𝛽1
𝛼 = 0,05 𝑡(23;0,975) = 2,069

1⁄2
𝑠2
𝛽̂1 = −0,0798; 𝐸𝑃(𝛽̂1 ) = [ ] = 0,0105
∑(𝑋𝑖 − 𝑋̅ )2
𝐼𝐶𝛽95%
1
= [−0,0798 ± 2,069 × 0,0105] = [−0,1015; −0,0581]
2.9. Resíduos: Gráficos Básicos
Os resíduos possuem informação sobre os motivos pelos quais um modelo não

ter se ajustado bem aos dados. Em geral, isso ocorre quando uma ou mais
suposições sobre o modelo não são verdadeiras.
Principais anomalidades que são detectadas pelos gráficos dos resíduos:
 Não normalidade;
 Efeitos do tempo ou da ordem de coleta dos dados;
 Variância não-constante e possível necessidade de transformar Y;
 Curvatura de ordem maior do que a escolhida para X.
2.9.1. Verificação de Não Normalidade nos Resíduos
Assumimos ques os erros 𝜖𝑖 ~𝑁𝑜𝑟𝑚𝑎𝑙(0, 𝜎 2 ), 𝑖 = 1, … , 𝑛
Usaremos os resíduos 𝑒𝑖 como estimativas dos erros para verificar esta

suposição.
 Histograma: deve ter média zero e ser simétrico.

 Gráfico de Probabilidade Normal: mais adequado.
 Teste de Shapiro-Wilk.
 Teste de Anderson-Darling.
 Outras formas.
Grandes desvios da normalidade implicam em intervalos de confiança, testes t

e F afetados e invalidados. A violação das suposições de linearidade e
homocedasticidade implicam que os resíduos não são normais, portanto é
importante verificar antes essas suposições.
2.9.2. Verificação de Variância Não-Constante, Efeitos de Tempo,
Necessidade de Transformação e Curvatura
 Gráfico dos Resíduos 𝒆𝒊 contra Valores Ajustados 𝒀
̂𝒊
Útil para detectar as seguintes inadequações do modelo:
 A variância do erro não é constante.

 Transformações em ou usar o MMQ ponderados.
 A equação de regressão não é linear.
 Transformações em e/ou ; inclusão do termo quadrático em .
 Presença de observações extremas (possíveis outliers)
 Resíduos cujo valor absoluto é muito maior do que os demais
 Gráficos dos Resíduos contra Variável Explicativa
No caso da regressão linear simples, tem o mesmo papel do gráfico .
 Gráfico dos Resíduos contra o Tempo ou Ordem de Coleta
A presença de configurações neste gráfico pode indica que os erros são

correlacionados.
Observar mesmos padrões do gráfico 𝑒𝑖 × 𝑌̂𝑖 substituindo 𝑌̂𝑖 pelo tempo ou

ordem de coleta.
A existência de correlação temporal pode ser consequência não inclusão de

uma variável explicativa importante relacionada ao tempo.
Autocorrelação: é a correlação entre os erros de determinado período de

tempo e os erros associados a outros períodos de tempo.
As consequências são que os estimadores de MQ dos 𝛽s deixam de ser bons

estimadores e os ICs e testes de hipóteses anteriores tornam-se sem valor
para a análise.
2.10. Regressão Simples – Notação Matricial
A grande vantagem de se escrever e resolver o modelo em forma matricial é

que a solução pode ser empregada a qualquer problema de regressão, não
importando quantos termos há na equação.
2.10.1. O Ajuste de Uma Reta na Forma Matricial
Modelo da amostra
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜖𝑖 , 𝑖 = 1, … , 𝑛
𝑌1 = 𝛽0 + 𝛽1 𝑋1 + 𝜖1
𝑌2 = 𝛽0 + 𝛽1 𝑋2 + 𝜖2
𝑌𝑛 = 𝛽0 + 𝛽1 𝑋𝑛 + 𝜖𝑛
𝑌1 𝛽0 𝛽1 𝑋1 𝜖1
𝑌 𝛽 𝛽𝑋 𝜖2
( 2 ) = ( 0) + ( 1 2 ) + ( ⋮ )
⋮ ⋮ ⋮
𝑌𝑛 𝛽0 𝛽1 𝑋𝑛 𝜖𝑛
𝑌1 1 𝑋1 𝜖1
𝑌 𝑋 𝜖2
( 2 ) = (1) 𝛽0 + ( 2 ) 𝛽1 + ( ⋮ )
⋮ ⋮ ⋮
𝑌𝑛 1 𝑋𝑛 𝜖𝑛
𝑌1 1 𝑋1 𝜖1
𝑌 𝑋2 𝛽 𝜖2
( 2 ) = (1 ) × ( 0) + ( ⋮ )
⋮ ⋮ ⋮ 𝛽1
𝑌𝑛 1 𝑋𝑛 𝜖𝑛
𝐘 = 𝐗𝛃 + 𝛜
𝐘: vetor 𝑛 × 1 das observações
𝐗: matriz 𝑛 × 2 das variáveis explicativas
𝛃: vetor 2 × 1 dos parâmetros
𝛜: vetor 𝑛 × 1 dos erros
Método dos Mínimos Quadrados

𝑛
𝜖1
𝜖
𝑆 = ∑ 𝜖𝑖 2 = (𝜖1 𝜖2 ⋯ 𝜖𝑛 ) ( 2 ) = 𝛜′𝛜
⋮
𝑖=1 𝜖𝑛
𝛜 = 𝐘 − 𝐗𝛃
𝑆 = 𝛜′ 𝛜 = (𝐘 − 𝐗𝛃)′ (𝐘 − 𝐗𝛃) = 𝐘 ′ 𝐘 − 𝛃′ 𝐗 ′ 𝐘 − 𝐘 ′ 𝐗𝛃 + 𝛃′𝐗′𝐗𝛃
= 𝐘 ′ 𝐘 − 2𝛃′ 𝐗 ′ 𝐘 + 𝛃′𝐗′𝐗𝛃
𝛿𝑆 𝛿𝑆
= −2𝐗 ′ 𝐘 + 2𝐗 ′ 𝐗𝛃 → =0 ⇒ ̂ = 𝐗′𝐘
𝐗 ′ 𝐗𝛃
𝛿𝛃 𝛿𝛃
Equações Normais
̂ = ( 𝐗 ′ 𝐘)
(𝐗′𝐗)𝛃
̂ = (𝐗′𝐗)−𝟏 (𝐗 ′ 𝐘)
(𝐗′𝐗)−𝟏 (𝐗′𝐗)𝛃
𝐶𝑜𝑚𝑜 (𝐗′𝐗)−𝟏 (𝐗′𝐗) = 𝐈
̂ = (𝐗′𝐗)−𝟏 (𝐗 ′ 𝐘)
𝛃
Resultado Geral de Matrizes
𝑎 𝑏 ]−1 1 [ 𝑑 −𝑏]
𝑀−1 = [ = , onde 𝐷 = 𝑑𝑒𝑡(𝑀)
𝑐 𝑑 𝐷 −𝑐 𝑎
Assim:
1 𝑋1
1 1 𝑛 ∑ 𝑋𝑖
⋯ 1 1 𝑋2
𝐗′𝐗 = [ ⋯ 𝑋𝑛 ] [ ⋮ ]=[ ],
𝑋1 𝑋2 ⋮ 2
∑ 𝑋𝑖 ∑ 𝑋𝑖
1 𝑋𝑛
2
𝑑𝑒𝑡(𝐗 ′ 𝐗) = 𝑛 ∑ 𝑋𝑖 2 − (∑ 𝑋𝑖 ) = 𝑛 ∑(𝑋𝑖 − 𝑋̅ )2
1 ∑ 𝑋𝑖 2 − ∑ 𝑋𝑖
(𝐗 ′ 𝐗)−1 = [ ]
𝑛 ∑(𝑋𝑖 − 𝑋̅)2 − ∑ 𝑋 𝑛
𝑖
E, ainda,
𝑌1
1 1 ∑ 𝑌𝑖
⋯ 1 𝑌2
𝐗′𝐘 = [ ⋯ 𝑋𝑛 ] [ ⋮ ] = [ ]
𝑋1 𝑋2
∑ 𝑋𝑖 𝑌𝑖
𝑌𝑛
Portanto:
1 ∑ 𝑋𝑖 2 − ∑ 𝑋𝑖 ∑ 𝑌𝑖
̂ = (𝐗 ′ 𝐗)−1 𝐗 ′ 𝐘 =
𝛃 [ ][ ]
𝑛 ∑(𝑋𝑖 − 𝑋̅ )2 − ∑ 𝑋 𝑛 ∑ 𝑋𝑖 𝑌𝑖
𝑖
2.10.2. Análise de Variância

𝑛
𝑆𝑄𝑇 = ∑(𝑌𝑖 − 𝑌̅ )2 = ∑ 𝑌𝑖 2 − 𝑛𝑌̅ 2 = 𝐘 ′ 𝐘 − 𝑛𝑌̅ 2

𝑖=1
𝑛
2
̂ ′ 𝐗 ′ 𝐘 − 𝑛𝑌̅ 2
𝑆𝑄𝑅 = ∑(𝑌̂𝑖 − 𝑌̅) = 𝛃
𝑖=1
𝑛
2
̂ ′𝐗 ′ 𝐘
𝑆𝑄𝐸 = ∑(𝑌𝑖 − 𝑌̂𝑖 ) = 𝑆𝑄𝑇 − 𝑆𝑄𝑅 = 𝐘 ′ 𝐘 − 𝛃
𝑖=1
Fonte de Graus de Soma de

Variação Liberdade Quadrados
Regressão 1 ̂ ′ 𝐗 ′ 𝐘 − 𝑛𝑌̅ 2
𝛃
Residual 𝑛−2 ̂ ′𝐗 ′ 𝐘
𝐘 ′𝐘 − 𝛃
Total n−1 𝐘 ′ 𝐘 − 𝑛𝑌̅ 2
2.10.3. ̂
Variância e Covariância de 𝛃
𝜎 2 ∑ 𝑋𝑖2
𝑉𝑎𝑟[𝛽̂0 ] =
𝑛 ∑(𝑋𝑖 − 𝑋̅ )2
𝜎2
𝑉𝑎𝑟[𝛽̂1 ] =
∑(𝑋𝑖 − 𝑋̅)2
𝜎 2 𝑋̅
𝐶𝑜𝑣[𝛽̂0 , 𝛽̂1 ] = −
∑(𝑋𝑖 − 𝑋̅ )2
𝑉𝑎𝑟(𝛽̂0 ) 𝐶𝑜𝑣(𝛽̂0 , 𝛽̂1 ) 𝜎2 ∑ 𝑋𝑖 2 ⁄𝑛 −𝑋̅

̂) = [
𝐶𝑜𝑣(𝛃 ]= [ ]
𝐶𝑜𝑣(𝛽̂0 , 𝛽̂1 ) 𝑉𝑎𝑟(𝛽̂1 ) ∑(𝑋𝑖 − 𝑋̅ )2
−𝑋̅ 1
̂ ) = 𝑉𝑎𝑟 ((𝐗′𝐗)−𝟏 (𝐗 ′ 𝐘)) = [(𝐗′𝐗)−𝟏 𝐗′]𝑉𝑎𝑟(𝐘)[(𝐗′𝐗)−𝟏 𝐗′]′

𝑉𝑎𝑟(𝛃
= [(𝐗′𝐗)−𝟏 𝐗′]𝜎 2 [𝐗((𝐗′𝐗)−𝟏 )′] = 𝜎 2 (𝐗′𝐗)−𝟏 (𝐗′𝐗)(𝐗′𝐗)−𝟏
= 𝜎 2 (𝐗′𝐗)−𝟏 𝐈 = 𝜎 2 (𝐗′𝐗)−𝟏
3. Regressão Linear Múltipla
É o modelo de regressão linear com uma variável resposta e q variáveis

explicativas, com um intercepto:
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑞 𝑋𝑞 + 𝜖
Com uma amostra de n observações, temos:
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖1 + 𝛽2 𝑋𝑖2 + ⋯ + 𝛽𝑞 𝑋𝑖𝑞 + 𝜖𝑖 , 𝑖 = 1, … , 𝑛
ou seja,
𝑌1 = 𝛽0 + 𝛽1 𝑋11 + 𝛽2 𝑋12 + ⋯ + 𝛽𝑞 𝑋1𝑞 + 𝜖1
𝑌2 = 𝛽0 + 𝛽1 𝑋21 + 𝛽2 𝑋22 + ⋯ + 𝛽𝑞 𝑋2𝑞 + 𝜖2
𝑌𝑛 = 𝛽0 + 𝛽1 𝑋𝑛1 + 𝛽2 𝑋𝑛2 + ⋯ + 𝛽𝑞 𝑋𝑛𝑞 + 𝜖𝑛
𝛽𝑗 É a variação (aumento se 𝛽𝑗 > 0, redução se 𝛽𝑗 < 0) na média de 𝑌 a cada

aumento de uma unidade em 𝑋𝑗 , mantendo-se constante os valores das outras
variáveis explicativas.
Para 𝑋𝑗 = 𝑥𝑗 , tem-se que 𝐸(𝑌) = 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑗 𝑥𝑗 + ⋯ + 𝛽𝑞 𝑥𝑞 .
Para 𝑋𝑗 = 𝑥𝑗 + 1 e mantendo-se as outras 𝑋′𝑠 constantes, tem-se que 𝐸 (𝑌) =

𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑗 (𝑥𝑗 + 1) + ⋯ + 𝛽𝑞 𝑥𝑞 .
Assim a diferença na média de 𝑌 ao se passar de 𝑋𝑗 = 𝑥𝑗 para 𝑋𝑗 = 𝑥𝑗 + 1 é de
𝛽𝑗 .
3.1. Notação Matricial
𝑌1 = 𝛽0 + 𝛽1 𝑋11 + 𝛽2 𝑋12 + ⋯ + 𝛽𝑞 𝑋1𝑞 + 𝜖1
𝑌2 = 𝛽0 + 𝛽1 𝑋21 + 𝛽2 𝑋22 + ⋯ + 𝛽𝑞 𝑋2𝑞 + 𝜖2
𝑌𝑛 = 𝛽0 + 𝛽1 𝑋𝑛1 + 𝛽2 𝑋𝑛2 + ⋯ + 𝛽𝑞 𝑋𝑛𝑞 + 𝜖𝑛
𝛽0
𝑌1 1 𝑋11 𝑋12 ⋯ 𝑋1𝑞 𝜖1
𝛽1
𝑌 𝑋22 ⋯ 𝑋2𝑞 𝜖2
( 2 ) = (1 𝑋21 ) 𝛽2 + ( ⋮ )
⋮ ⋮ ⋮ ⋮ ⋱ ⋮ ⋮ 𝜖𝑛
𝑌𝑛 1 𝑋𝑛1 𝑋𝑛2 ⋯ 𝑋𝑛𝑞
𝛽
( 𝑞)
𝐘 = 𝐗𝛃 + 𝛜
𝐘: vetor 𝑛 × 1 da variável resposta
𝐗: matriz 𝑛 × (𝑞 + 1) das variáveis explicativas
𝛃: vetor (𝑞 + 1) × 1 dos parâmetros
𝛜: vetor 𝑛 × 1 dos erros
3.2. Suposições do Modelo
1. Os erros 𝜖1 , 𝜖2 , … , 𝜖𝑛 têm média igual a zero e variância igual a 𝜎 2 . Implica

que 𝑌𝑖 tem média 𝛽0 + 𝛽1 𝑋𝑖1 + 𝛽2 𝑋𝑖2 + ⋯ + 𝛽𝑞 𝑋𝑖𝑞 e variância 𝜎 2 .
2. Os erros 𝜖1 , 𝜖2 , … , 𝜖𝑛 não são correlacionados. Implica que 𝑌1 , 𝑌2 , … , 𝑌𝑛 não

são correlacionados.
3. Os erros 𝜖1 , 𝜖2 , … , 𝜖𝑛 têm distribuição Normal. Implica que 𝑌1 , 𝑌2 , … , 𝑌𝑛 têm

distribuição Normal.
𝛜~𝑁(𝟎, 𝜎 2 𝐈)
𝜖1 0 1 0 ⋯ 0
𝜖2
𝛜 = ( ⋮ ), 𝟎 = (0), 𝜎 𝐈 = 𝜎 (0
2 2 1 ⋯ 0)
⋮ ⋮ ⋮ ⋱ ⋮
𝜖𝑛 0 0 0 ⋯ 1
O que implica que 𝐘~𝑁(𝐗𝛃, 𝜎 2 𝐈), onde
𝛽0
𝑌1 1 𝑋11 𝑋12 ⋯ 𝑋1𝑞
𝛽1
𝑌 𝑋22 ⋯ 𝑋2𝑞
𝐘 = ( 2) e 𝐗𝛃 = (1 𝑋21 ) 𝛽2
⋮ ⋮ ⋮ ⋮ ⋱ ⋮ ⋮
𝑌𝑛 1 𝑋𝑛1 𝑋𝑛2 ⋯ 𝑋𝑛𝑞
𝛽
( 𝑞)
3.3. Estimação de 𝛃 via Método dos Mínimos Quadrados
Esta estimação, como no modelo para uma variável explicativa, visa encontrar
valores de 𝛃 que minimizem a soma dos quadrados dos erros, ou seja, valores
que minimizem:
𝑛
𝜖1
𝜖
𝑆 = ∑ 𝜖𝑖 2 = (𝜖1 𝜖2 ⋯ 𝜖𝑛 ) ( 2 ) = 𝛜′𝛜
⋮
𝑖=1 𝜖𝑛
𝛜 = 𝐘 − 𝐗𝛃
𝑆 = 𝛜′ 𝛜 = (𝐘 − 𝐗𝛃)′ (𝐘 − 𝐗𝛃) = 𝐘 ′ 𝐘 − 𝛃′ 𝐗 ′ 𝐘 − 𝐘 ′ 𝐗𝛃 + 𝛃′𝐗′𝐗𝛃
= 𝐘 ′ 𝐘 − 2𝛃′ 𝐗 ′ 𝐘 + 𝛃′𝐗′𝐗𝛃
𝛿𝑆 𝛿𝑆
= −2𝐗 ′ 𝐘 + 2𝐗 ′ 𝐗𝛃 → =0 ⇒ ̂ = 𝐗′𝐘
𝐗 ′ 𝐗𝛃
𝛿𝛃 𝛿𝛃
Como é possível perceber, os resultados obtidos aqui são, em termos de

notação, idênticos aos do modelo de uma variável em sua notação matricial.
Desta forma, resolvendo as (𝑞 + 1) equações normais também temos que:
̂ = ( 𝐗 ′ 𝐘)
(𝐗′𝐗)𝛃
̂ = (𝐗′𝐗)−𝟏 (𝐗 ′ 𝐘)
(𝐗′𝐗)−𝟏 (𝐗′𝐗)𝛃
𝐶𝑜𝑚𝑜 (𝐗′𝐗)−𝟏 (𝐗′𝐗) = 𝐈
̂ = (𝐗′𝐗)−𝟏 (𝐗 ′ 𝐘)
𝛃
̂:
3.3.1. O vetor de valores esperados de 𝛃
̂ ] = 𝐸 [(𝐗′𝐗)−𝟏 (𝐗 ′ 𝐘)] = (𝐗′𝐗)−𝟏 𝐗 ′ 𝐸 [𝐘] = (𝐗′𝐗)−𝟏 𝐗 ′ (𝐗𝛃)

𝐸[𝛃
= (𝐗′𝐗)−𝟏 (𝐗 ′ 𝐗)𝛃 = 𝐈𝛃 = 𝛃
̂ é um estimador não viciado de 𝛃.

Ou seja, 𝛃
̂:
3.3.2. Matriz de Variâncias e Covariâncias de 𝛃
̂ ) = 𝑉𝑎𝑟 ((𝐗′𝐗)−𝟏 (𝐗 ′ 𝐘)) = [(𝐗′𝐗)−𝟏 𝐗′]𝑉𝑎𝑟(𝐘)[(𝐗′𝐗)−𝟏 𝐗′]′

𝑉𝑎𝑟(𝛃
= [(𝐗′𝐗)−𝟏 𝐗′]𝜎 2 [𝐗((𝐗′𝐗)−𝟏 )′] = 𝜎 2 (𝐗′𝐗)−𝟏 (𝐗′𝐗)(𝐗′𝐗)−𝟏
= 𝜎 2 (𝐗′𝐗)−𝟏 𝐈 = 𝜎 2 (𝐗′𝐗)−𝟏
3.4. Tabela de Análise de Variância
Valor ajustado: 𝑌̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑋𝑖1 + 𝛽̂2 𝑋𝑖2 + ⋯ + 𝛽̂𝑞 𝑋𝑖𝑞 , 𝑖 = 1, … , 𝑛
Resíduo: 𝑒𝑖 = 𝑌𝑖 − 𝑌̂𝑖
𝑛
𝑆𝑄𝑇 = ∑(𝑌𝑖 − 𝑌̅ )2 = ∑ 𝑌𝑖 2 − 𝑛𝑌̅ 2 = 𝐘 ′ 𝐘 − 𝑛𝑌̅ 2

𝑖=1
𝑛
2
̂ ′ 𝐗 ′ 𝐘 − 𝑛𝑌̅ 2
𝑆𝑄𝑅 = ∑(𝑌̂𝑖 − 𝑌̅) = 𝛃
𝑖=1
𝑛
2
̂ ′𝐗 ′ 𝐘
𝑆𝑄𝐸 = ∑(𝑌𝑖 − 𝑌̂𝑖 ) = 𝑆𝑄𝑇 − 𝑆𝑄𝑅 = 𝐘 ′ 𝐘 − 𝛃
𝑖=1
Fonte de Graus de Soma de

Quadrado Médio
Variação Liberdade Quadrados
𝑆𝑄𝑅
Regressão 𝑞 ̂ ′ 𝐗 ′ 𝐘 − 𝑛𝑌̅ 2
𝛃 𝑄𝑀𝑅 =
𝑞
𝑆𝑄𝐸
Residual 𝑛−𝑞−1 ̂ ′𝐗 ′ 𝐘
𝐘 ′𝐘 − 𝛃 𝑄𝑀𝐸 =
𝑛−𝑞−1
Total n−1 𝐘 ′ 𝐘 − 𝑛𝑌̅ 2

3.5. Coeficiente de Determinação ajustado
𝑆𝑄𝑅
O valor de 𝑅2 = , comparado ao seu valor máximo, é frequentemente usado
𝑆𝑄𝑇
como uma medida do "sucesso" da equação de regressão em explicar a

variância da resposta. Mas o uso de 𝑅2 pode ser falho.
Considere uma variável resposta 𝑌 e uma variável explicativa 𝑋.
 Com dois pontos, temos uma reta: 𝑆𝑄𝐸 = 0 → 𝑅2 = 1

 Com três pontos, temos um polinômio do segundo grau: 𝑆𝑄𝐸 = 0 →
𝑅2 = 1
 Com 𝑛 pontos, temos um polinômio de grau 𝑛 − 1: 𝑆𝑄𝐸 = 0 → 𝑅2 = 1
Desta forma, em regressão múltipla, deve-se atentar ao se comparar 𝑅2 de

modelos com quantidade de termos diferentes. Assim, usamos o 𝑅2 ajustado,
que é dado por:
2
𝑆𝑄𝑅 ⁄(𝑛 − 𝑞 − 1) 𝑛−1
𝑅𝑎𝑗𝑑 =1− = 1 − (1 − 𝑅 2 ) ( )
𝑆𝑄𝑇⁄(𝑛 − 1) 𝑛−𝑞−1
3.6. Teste F da Significância da Regressão
A hipótese nula é NENHUM dos 𝛽𝑗 , 𝑗 = 1, … , 𝑞 ser significante.
A hipótese alternativa é PELO MENOS UM dos 𝛽𝑗 , 𝑗 = 1, … , 𝑞 ser significante.
𝐻0 : 𝛽1 = 0 𝑒 𝛽2 = 0 𝑒 … 𝑒 𝛽𝑞 = 0
𝐻1 : 𝛽1 ≠ 0 𝑒/𝑜𝑢 𝛽2 ≠ 0 𝑒/𝑜𝑢 … 𝑒 𝛽𝑞 ≠ 0
Com isso, a estatística do teste
𝑄𝑀𝑅
𝐹𝑜𝑏𝑠 = ~ 𝐹(𝑞,𝑛−𝑞−1) sob 𝐻0
𝑄𝑀𝐸
Para um nível de significância 𝛼 escolhido, rejeita-se 𝐻0 se 𝐹𝑜𝑏𝑠 > 𝐹𝛼 , onde 𝐹𝛼 é

tal que 𝑃[𝐹(𝑞;𝑛−𝑞−1) > 𝐹𝛼 ] = 𝛼.
Desta forma, se 𝐻0 é não é rejeitada, nenhum dos termos 𝛽𝑗 𝑋𝑗 é significante,

portanto nenhum deles permanece no modelo. Do contrário, quando 𝐻0 é
rejeitada, pelo menos um dos termos 𝛽𝑗 𝑋𝑗 é significante. Para sabermos quais
são significantes, procedemos com os testes t individuais.
3.6.1. Testes t Individuais
Com 𝑗 = 1, … , 𝑞 , pode-se testar a significância do coeficiente 𝛽𝑗 na presença

dos demais coeficientes do modelo:
𝐻0 : 𝛽𝑗 = 0
𝐻1 : 𝛽𝑗 ≠ 0
Com isso em mente, a estatística de teste
𝛽̂𝑗
𝑡𝑗 = ~ 𝑡𝑛−𝑞−1 sob 𝐻0
𝐸𝑃(𝛽̂𝑗 )
Onde 𝐸𝑃(𝛽̂𝑗 ) é a raiz quadrada do j-ésimo elemento da diagonal principal da

̂ , ou seja, da matriz
matriz de variâncias e covariância estimada de 𝛃
̂ ) = 𝑠 2 (𝐗′𝐗)−𝟏
𝑉𝑎𝑟(𝛃
Para um nível de significância 𝛼 escolhido, rejeita-se 𝐻0 se |𝑡𝑗 | > 𝑡𝛼 ⁄2 , onde 𝐹𝛼

é tal que 𝑃[𝑡(𝑞;𝑛−𝑞−1) > 𝑡𝛼 ⁄2 ] = 𝛼⁄2.

Análise de Regressão Linear Simples e Múltipla

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Análise de Regressão Linear Simples e Múltipla

Enviado por

Direitos autorais:

Formatos disponíveis

1.

Análise de Regressão é uma técnica estatística utilizada para investigar a

1.1. Relações entre variáveis

Seja 𝑌 e 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑘 variáveis aleatórias denotadas por:

a. Funcional: quando a relação é expressa por uma fórmula matemática

1.2. Os modelos de regressão e seus usos

a. Descrever a relação entre variáveis para entender um processo ou

2. Regressão Linear Simples

Modelo linear simples 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜖, onde 𝑌 é a variável resposta, 𝑋 é a

Veja a Figura 2 para visualizar estes resultados.

Figura 1: Função linear dos parâmetros 𝜷𝟎 e 𝜷𝟏 .

Figura 2: 𝑬(𝒀|𝑿) = 𝜷𝟎 + 𝜷𝟏 𝑿 e 𝑽𝒂𝒓(𝒀|𝑿) = 𝝈𝟐 .

2.2. Estimação de 𝜷𝟎 e 𝜷𝟏 por Mínimos Quadrados Ordinários

Seja uma amostra aleatória com 𝑛 pares de observações (𝑋1 , 𝑌1 ), … , (𝑋𝑛 , 𝑌𝑛 ). O

Onde 𝜖𝑖 é independente e identicamente distribuído e pode ser escrito por:

e por consequência, a Soma dos Quadrados dos Erros é dado por:

O método dos mínimos quadrados objetiva encontrar as estimativas 𝛽̂0 e 𝛽̂1 de

Para encontrar 𝛽̂0 e 𝛽̂1 , precisamos derivar 𝑆𝑄𝐸 em função de 𝛽0 e 𝛽1 , igualar a

Assim, fazendo as derivadas parciais:

∑𝑛𝑖=1(𝑌𝑖 − 𝑌̅)(𝑋𝑖 − 𝑋̅)

A solução deste sistema de equações, também conhecidas como equações

2.3. Estimação de 𝜷𝟎 e 𝜷𝟏 por Máxima Verossimilhança

O modelo para a i-ésima observação será dado por:

Onde 𝜖𝑖 são independentes e identicamente distribuídos e seguem uma

Tem-se que 𝐸 (𝑌𝑖 |𝑋𝑖 ) = 𝛽0 + 𝛽1 𝑋𝑖 e 𝑉𝑎𝑟(𝑌𝑖 |𝑋𝑖 ) = 𝜎 2 , e dado que 𝑌𝑖 |𝑋𝑖 é

Pode-se, portanto, considerando a distribuição de 𝑌𝑖 |𝑋𝑖 e o vetor de parâmetros

Para maximizar a função de verossimilhança com respeito a 𝛽0 e 𝛽1 , tem-se

É fácil ver que maximizar a função de verossimilhança com respeito a 𝛽0 e 𝛽1 é

Para a obtenção do estimador para 𝜎 2 , tem-se que:

Ressalta-se que o estimador não viciado para 𝜎 2 é:

O valor ajustado de 𝑌𝑖 fica sendo:

E os resíduos serão dados por:

Para facilitar a notação denotar-se-á:

𝑆𝑋𝑌 = ∑ 𝑌𝑖 𝑋𝑖 − 𝑛𝑋̅ 𝑌̅ = ∑(𝑌𝑖 − 𝑌̅ )(𝑋𝑖 − 𝑋̅) = ∑ 𝑌𝑖 (𝑋𝑖 − 𝑋̅ )

𝑆𝑋𝑋 = ∑(𝑋𝑖 − 𝑋̅ )2 = ∑ 𝑋𝑖 2 − 𝑛𝑋̅ 2

𝑆𝑌𝑌 = ∑(𝑌𝑖 − 𝑌 ̅ )2 = ∑ 𝑌𝑖 2 − 𝑛𝑌̅ 2

2.4. Valor Esperado e Variância dos Estimadores

mas, tem-se que:

̂1 ] = 𝛽1 (𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜𝑟 𝑛ã𝑜 𝑣𝑖𝑐𝑖𝑎𝑑𝑜 𝑝𝑎𝑟𝑎 𝛽1 ).

̂0 ] = 𝛽0 (𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜𝑟 𝑛ã𝑜 𝑣𝑖𝑐𝑖𝑎𝑑𝑜 𝑝𝑎𝑟𝑎 𝛽0 ).

2.5. Intervalos de confiança e testes de hipótese para 𝛃𝟎 e 𝛃𝟏

Suposições para o Modelo

1. Os erros são variáveis aleatórias com média zero e variância constante,

Dadas essas suposições, temos que (𝑌𝑖 |𝑋𝑖 )~𝑁(𝛽0 + 𝛽1 𝑋𝑖 , 𝜎 2 ), independentes

2.5.1. Inferência sobre 𝜷𝟏

Dado que 𝜎 2 não é conhecido, utiliza-se

Assim, pode-se obter o Intervalo de Confiança, dado por

𝐼𝐶(1−𝛼) (𝛽1 ) = [𝛽̂1 ± 𝑡(𝑛−2;1−𝛼 ⁄2) × 𝐷𝑃𝐸 (𝛽

Pode-se ainda formular um Teste de Hipóteses para 𝛽1 , onde as hipóteses são

2.5.2. Inferência sobre 𝜷𝟎

Dado que 𝜎 2 não é conhecido, utiliza-se

̂0 ± 𝑡(𝑛−2;1−𝛼 ⁄2) × 𝐷𝑃𝐸 (𝛽

Pode-se ainda formular um Teste de Hipóteses para 𝛽0 , onde as hipóteses são

2.6. Resultados Importantes

h. A reta de mínimos quadrados passa pelo ponto (𝑋̅, 𝑌̅ );

Visa afirmar se a variável explicativa é um bom preditor da variável resposta e

2.7.1. Decomposição da Soma Total nas Somas dos Quadrados

𝑌𝑖 − 𝑌̂𝑖 = (𝑌𝑖 − 𝑌̅ ) − (𝑌̂𝑖 − 𝑌̅)

(𝑌𝑖 − 𝑌̅) = (𝑌̂𝑖 − 𝑌̅) + (𝑌𝑖 − 𝑌̂𝑖 )

∑(𝑌̂𝑖 − 𝑌̅)(𝑌𝑖 − 𝑌̂𝑖 ) = ∑ 𝑌̂𝑖 (𝑌𝑖 − 𝑌̂𝑖 ) − 𝑌̅ ∑(𝑌𝑖 − 𝑌̂𝑖 ) = ∑ 𝑌̂𝑖 𝑒𝑖 − 𝑌̅ ∑ 𝑒𝑖 = 0.

tem então que

𝑆𝑜𝑚𝑎 𝑑𝑒 𝑄𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑆𝑜𝑚𝑎 𝑑𝑒 𝑄𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑆𝑜𝑚𝑎 𝑑𝑒 𝑄𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠

e utilizar-se-á a seguinte notação