Você está na página 1de 30

1.

Introdução

Análise de Regressão é uma técnica estatística utilizada para investigar a


relação existente entre variáveis através da construção de uma equação (um
modelo),

Este modelo pode ser utilizado para "escrever" valor esperado de uma variável
(resposta) como uma função dos valores das outras variáveis (explicativas).

1.1. Relações entre variáveis

Seja 𝑌 e 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑘 variáveis aleatórias denotadas por:


𝑌 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑘
Previsto Previsores
Regredido Regressores
Variável explicada Variáveis explicativas
Variável dependente Variáveis independentes
Variável de efeito Variáveis causais
Variável endógena Variáveis exógenas
Variável alvo Variáveis de controle
Seja 𝑌 a variável resposta e 𝑋 a variável explicativa, podemos classificar a
relação entre variáveis como:

a. Funcional: quando a relação é expressa por uma fórmula matemática


𝑌 = 𝑓(𝑋), Se sabemos o valor de 𝑋 = 𝑥𝑜 , podemos obter o exato valor
de 𝑌 = 𝑓(𝑥𝑜 );
Exemplo: o valor das total de vendas (variável resposta) de latas de
refrigerante, cujo preço unitário é de 2 reais, e o número de latas
vendidas (variável resposta), é dada por 𝑌 = 2𝑋.
b. Estatística: quando a relação não é exata e está sujeita a um erro
aleatório, Sabendo-se o valor de 𝑋 = 𝑥𝑜 não obtemos o valor exato de 𝑌;
Exemplo: a relação entre o faturamento de uma empresa (variável
resposta) e a taxa de juros (variável explicativa).

1.2. Os modelos de regressão e seus usos


A Análise de Regressão pode ser utilizada com vários objetivos, dentre os
quais se pode destacar:

a. Descrever a relação entre variáveis para entender um processo ou


fenômeno;
Exemplo: Entender o efeito, no preço de venda de um imóvel, de
características como área construída, número de cômodos, idade,
localização, etc;
b. Prever o valor de uma variável a partir do conhecimento dos valores de
outras variáveis;
Exemplo: Prever a probabilidade de ocorrência de um tornado a partir de
medições de vento, umidade, temperatura, pressão, etc;
c. Substituir a medição de uma variável pela observação dos valores de
outras variáveis;
Exemplo: Substituir a medição da quantidade de gordura abdominal feita
através de tomografia (muito cara, disponível em poucos consultórios
médicos) por medidas de fácil obtenção como circunferência da cintura,
circunferência e prega cutânea do abdômen;
d. Controlar os valores de uma variável em uma faixa de interesse;
Exemplo: Através de um estudo de regressão, a Sony Music identificou
as principais variáveis que afetavam a ocorrência de defeitos durante a
fabricação dos CDs. Assim, o controle destas variáveis (como tempo de
exposição do laser no processo fotográfico), levou `a redução do
prejuízo com produtos defeituosos.

2. Regressão Linear Simples


2.1. Introdução

Modelo linear simples 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜖, onde 𝑌 é a variável resposta, 𝑋 é a


variável explicativa, 𝛽0 e 𝛽1 são parâmetros desconhecidos e 𝜖 é o erro
aleatório.

Esta regressão é chamada linear simples pelo fato da relação entre a variável
resposta e às variáveis explicativas ser uma função linear dos parâmetros (veja
Figura 1).
Baseado nos pressupostos que:

𝐸 (𝜖 ) = 0;

𝑉𝑎𝑟 (𝜖 ) = 𝜎 2 ;

tem-se que:

𝐸 (𝑌 |𝑋 ) = 𝛽0 + 𝛽1 𝑋;

𝑉𝑎𝑟(𝑌 |𝑋) = 𝜎 2 .

Veja a Figura 2 para visualizar estes resultados.

Figura 1: Função linear dos parâmetros 𝜷𝟎 e 𝜷𝟏 .


f(Y/X)

E(Y/X) = X



X1
X2
X3
X

Figura 2: 𝑬(𝒀|𝑿) = 𝜷𝟎 + 𝜷𝟏 𝑿 e 𝑽𝒂𝒓(𝒀|𝑿) = 𝝈𝟐 .

2.2. Estimação de 𝜷𝟎 e 𝜷𝟏 por Mínimos Quadrados Ordinários

Seja uma amostra aleatória com 𝑛 pares de observações (𝑋1 , 𝑌1 ), … , (𝑋𝑛 , 𝑌𝑛 ). O


modelo para a i-ésima observação será dado por:

𝑌𝑖 |𝑋𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜖𝑖 , 𝑖 = 1, ⋯ , 𝑛.

Onde 𝜖𝑖 é independente e identicamente distribuído e pode ser escrito por:

𝜖𝑖 = 𝑌𝑖 − (𝛽0 + 𝛽1 𝑋𝑖 );

e por consequência, a Soma dos Quadrados dos Erros é dado por:


𝑛 𝑛

𝑆𝑄𝐸 = ∑ 𝜖𝑖 2 = ∑[𝑌𝑖 − 𝛽0 − 𝛽1 𝑋𝑖 ]2 .
𝑖=1 𝑖=1

O método dos mínimos quadrados objetiva encontrar as estimativas 𝛽̂0 e 𝛽̂1 de


𝛽0 e 𝛽1 que minimizem 𝑆𝑄𝐸.
Figura 3: Desvios verticais que minimizam a soma de quadrados no MMQ.

Para encontrar 𝛽̂0 e 𝛽̂1 , precisamos derivar 𝑆𝑄𝐸 em função de 𝛽0 e 𝛽1 , igualar a


zero as expressões resultantes para então resolver o sistema de equações
cujas incógnitas são os parâmetros citados (Ver Figura 3).

Assim, fazendo as derivadas parciais:


𝑛
𝜕𝑆𝑄𝐸
= −2 ∑[𝑌𝑖 − 𝛽0 − 𝛽1 𝑋𝑖 ] ;
𝜕𝛽0
𝑖=1

𝑛
𝜕𝑆𝑄𝐸
= −2 ∑[𝑌𝑖 − 𝛽0 − 𝛽1 𝑋𝑖 ]𝑋𝑖 .
𝜕𝛽1
𝑖=1

̂0 e 𝛽
Logo, 𝛽 ̂1 são tais que:

𝑛
̂0 − 𝛽
∑[𝑌𝑖 − 𝛽 ̂1 𝑋𝑖 ] = 0
𝑖=1

𝑛
̂0 − 𝛽
∑[𝑌𝑖 − 𝛽 ̂1 𝑋𝑖 ]𝑋𝑖 = 0.
𝑖=1
Por consequência:
𝑛
̂0 − 𝛽
∑[𝑌𝑖 − 𝛽 ̂1 𝑋𝑖 ] = 0
𝑖=1

𝑛 𝑛 𝑛
̂0 − ∑ 𝛽
⟹ ∑ 𝑌𝑖 − ∑ 𝛽 ̂1 𝑋𝑖 = 0
𝑖=1 𝑖=1 𝑖=1

𝑛 𝑛
̂0 − 𝛽
⟹ ∑ 𝑌𝑖 − 𝑛𝛽 ̂1 ∑ 𝑋𝑖 = 0
𝑖=1 𝑖=1

𝑛 𝑛
̂0 = − ∑ 𝑌𝑖 + 𝛽
⟹ −𝑛𝛽 ̂1 ∑ 𝑋𝑖
𝑖=1 𝑖=1

̂0 = 𝑌̅ − 𝛽
⟹𝛽 ̂1 𝑋̅ ;

∑𝑛
𝑖=1 𝑌𝑖 ∑ 𝑛
𝑋𝑖
onde 𝑌̅ = e 𝑋̅ = 𝑖=1 ,e
𝑛 𝑛

𝑛
̂0 − 𝛽
∑[𝑌𝑖 − 𝛽 ̂1 𝑋𝑖 ]𝑋𝑖 = 0
𝑖=1

𝑛 𝑛 𝑛
̂0 𝑋𝑖 − ∑ 𝛽
⟹ ∑ 𝑌𝑖 𝑋𝑖 − ∑ 𝛽 ̂1 𝑋𝑖2 = 0
𝑖=1 𝑖=1 𝑖=1

𝑛 𝑛 𝑛
̂0 ∑ 𝑋𝑖 − 𝛽
⟹ ∑ 𝑌𝑖 𝑋𝑖 − 𝛽 ̂1 ∑ 𝑋𝑖2 = 0
𝑖=1 𝑖=1 𝑖=1

𝑛 𝑛 𝑛
̂1 𝑋̅ ) ∑ 𝑋𝑖 − 𝛽
⟹ ∑ 𝑌𝑖 𝑋𝑖 − (𝑌̅ − 𝛽 ̂1 ∑ 𝑋𝑖2 = 0
𝑖=1 𝑖=1 𝑖=1

𝑛 𝑛
̂1 𝑋̅)𝑛𝑋̅ − 𝛽
⟹ ∑ 𝑌𝑖 𝑋𝑖 − (𝑌̅ − 𝛽 ̂1 ∑ 𝑋𝑖2 = 0
𝑖=1 𝑖=1

𝑛 𝑛
̂1 𝑋̅ − 𝛽
⟹ ∑ 𝑌𝑖 𝑋𝑖 − 𝑛𝑋̅𝑌̅ + 𝑛𝑋̅ 𝛽 ̂1 ∑ 𝑋𝑖2 = 0
𝑖=1 𝑖=1

𝑛 𝑛
̂1 𝑋 +
⟹ −𝑛𝛽 ̅2 ̂1 ∑ 𝑋𝑖2
𝛽 = − ∑ 𝑌𝑖 𝑋𝑖 + 𝑛𝑋̅ 𝑌̅
𝑖=1 𝑖=1
𝑛 𝑛

⟹ ̂1 (∑ 𝑋𝑖2
−𝛽 − 𝑛𝑋̅ 2 ) = − ∑ 𝑌𝑖 𝑋𝑖 + 𝑛𝑋̅ 𝑌̅
𝑖=1 𝑖=1

𝑛 𝑛
̂1 (∑ 𝑋𝑖2 − 𝑛𝑋̅ 2 ) = ∑ 𝑌𝑖 𝑋𝑖 − 𝑛𝑋̅𝑌̅
⟹𝛽
𝑖=1 𝑖=1

∑𝑛𝑖=1 𝑌𝑖 𝑋𝑖 − 𝑛𝑋̅𝑌̅
̂1 =
⟹𝛽 ;
∑𝑛𝑖=1 𝑋𝑖2 − 𝑛𝑋̅ 2

∑𝑛𝑖=1(𝑌𝑖 − 𝑌̅)(𝑋𝑖 − 𝑋̅)


̂1 =
𝑜𝑢 𝛽 ;
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2

∑𝑛𝑖=1 𝑌𝑖 (𝑋𝑖 − 𝑋̅ )
̂1 =
𝑜𝑢 𝛽 .
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅ )2

A solução deste sistema de equações, também conhecidas como equações


normais, é portanto:

̂0 = 𝑌̅ − 𝛽
𝛽 ̂1 𝑋̅;

∑𝑛𝑖=1 𝑌𝑖 𝑋𝑖 − 𝑛𝑋̅ 𝑌̅
̂1 =
𝛽 .
∑𝑛𝑖=1 𝑋𝑖2 − 𝑛𝑋̅ 2

2.3. Estimação de 𝜷𝟎 e 𝜷𝟏 por Máxima Verossimilhança

O modelo para a i-ésima observação será dado por:

𝑌𝑖 |𝑋𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜖𝑖 , 𝑖 = 1, ⋯ , 𝑛.

Onde 𝜖𝑖 são independentes e identicamente distribuídos e seguem uma


distribuição gaussiana, ou seja:

𝜖𝑖 ~𝑁(0, 𝜎 2 ).

Tem-se que 𝐸 (𝑌𝑖 |𝑋𝑖 ) = 𝛽0 + 𝛽1 𝑋𝑖 e 𝑉𝑎𝑟(𝑌𝑖 |𝑋𝑖 ) = 𝜎 2 , e dado que 𝑌𝑖 |𝑋𝑖 é


combinação linear de 𝜖𝑖 , então, 𝑌𝑖 |𝑋𝑖 são independentes e identicamente
distribuídos e seguem uma distribuição gaussiana, ou seja:

𝑌𝑖 |𝑋𝑖 ~𝑁(𝛽0 + 𝛽1 𝑋𝑖 , 𝜎 2 ).

Pode-se, portanto, considerando a distribuição de 𝑌𝑖 |𝑋𝑖 e o vetor de parâmetros


𝜽 = {𝛽0 ; 𝛽1 ; 𝜎 2 }, pode-se definir a função de verossimilhança, dada por:
𝑛 𝑛
1 1 2
𝐿(𝜽; 𝒀) = ∏ 𝑓 (𝑌𝑖 |𝜃 ) = ∏ 𝑒𝑥𝑝 {− 2
(𝑌𝑖 − (𝛽0 + 𝛽1 𝑋𝑖 )) }
√2𝜋𝜎 2 2𝜎
𝑖=1 𝑖=1
𝑛 𝑛
1 −𝑛 1 2
=( ) (𝜎 2 ) 2 𝑒𝑥𝑝 {− 2
∑(𝑌𝑖 − (𝛽0 + 𝛽1 𝑋𝑖 )) },
√2𝜋 2𝜎
𝑖=1

onde Θ = {−∞ < 𝛽0 < +∞; −∞ < 𝛽1 < +∞; 𝜎 2 > 0}.

Logo:
𝑛
𝑛 1 2
𝑙(𝜽; 𝒀) = 𝑙𝑛𝐿(𝜽; 𝒀) = −𝑛𝑙𝑛√2𝜋 − 𝑙𝑛𝜎 2 − 2 ∑(𝑌𝑖 − (𝛽0 + 𝛽1 𝑋𝑖 )) .
2 2𝜎
𝑖=1

Para maximizar a função de verossimilhança com respeito a 𝛽0 e 𝛽1 , tem-se


que:
𝑛
𝜕𝑙(𝜽; 𝒀) 2
= 2 ∑[𝑌𝑖 − 𝛽0 − 𝛽1 𝑋𝑖 ] ;
𝜕𝛽0 2𝜎
𝑖=1

𝑛
𝜕𝑙(𝜽; 𝒀) 2
= 2 ∑[𝑌𝑖 − 𝛽0 − 𝛽1 𝑋𝑖 ]𝑋𝑖 .
𝜕𝛽1 2𝜎
𝑖=1

É fácil ver que maximizar a função de verossimilhança com respeito a 𝛽0 e 𝛽1 é


igual a minimizar a soma dos quadradros dos resíduos com respeito a 𝛽0 e 𝛽1 ,
portanto, os estimadores para estes parâmetros são os mesmos, ou seja:

̂0 = 𝑌̅ − 𝛽
𝛽 ̂1 𝑋̅;

∑𝑛𝑖=1 𝑌𝑖 𝑋𝑖 − 𝑛𝑋̅ 𝑌̅
̂1 =
𝛽 .
∑𝑛𝑖=1 𝑋𝑖2 − 𝑛𝑋̅ 2

Para a obtenção do estimador para 𝜎 2 , tem-se que:


𝑛
𝜕𝑙(𝜽; 𝒀) 𝑛 1 2
2
= − 2 − 4 ∑(𝑌𝑖 − (𝛽0 + 𝛽1 𝑋𝑖 )) ;
𝜕𝜎 𝜎 2𝜎
𝑖=1

Logo:
𝑛
̂2 = 1 ∑ (𝑌𝑖 − (𝛽
2
𝜎 ̂0 + 𝛽
̂1 𝑋𝑖 )) (𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜𝑟 𝑣𝑖𝑐𝑖𝑎𝑑𝑜 𝑝𝑎𝑟𝑎 𝜎 2 ).
𝑛
𝑖=1

Ressalta-se que o estimador não viciado para 𝜎 2 é:


𝑛
1 2
𝑆2 = ̂0 + 𝛽
∑ (𝑌𝑖 − (𝛽 ̂1 𝑋𝑖 )) .
𝑛−2
𝑖=1

O valor ajustado de 𝑌𝑖 fica sendo:

𝐸̂ ̂0 + 𝛽
(𝑌 |𝑋 ) = 𝛽 ̂1 𝑋

ou

̂0 + 𝛽
̂𝑖 = 𝛽
𝑌 ̂1 𝑋𝑖

E os resíduos serão dados por:

̂0 + 𝛽
̂𝑖 = 𝑌𝑖 − (𝛽
𝑒𝑖 = 𝜖̂𝑖 = 𝑌𝑖 − 𝑌 ̂1 𝑋𝑖 ), 𝑖 = 1, ⋯ , 𝑛.

Para facilitar a notação denotar-se-á:


𝑛 𝑛 𝑛

𝑆𝑋𝑌 = ∑ 𝑌𝑖 𝑋𝑖 − 𝑛𝑋̅ 𝑌̅ = ∑(𝑌𝑖 − 𝑌̅ )(𝑋𝑖 − 𝑋̅) = ∑ 𝑌𝑖 (𝑋𝑖 − 𝑋̅ )


𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛

𝑆𝑋𝑋 = ∑(𝑋𝑖 − 𝑋̅ )2 = ∑ 𝑋𝑖 2 − 𝑛𝑋̅ 2


𝑖=1 𝑖=1

(𝑋𝑖 − 𝑋̅)
𝐶𝑖 =
𝑆𝑋𝑋
𝑛 𝑛

𝑆𝑌𝑌 = ∑(𝑌𝑖 − 𝑌 ̅ )2 = ∑ 𝑌𝑖 2 − 𝑛𝑌̅ 2


𝑖=1 𝑖=1

𝑆𝑋𝑌
⇒ 𝛽̂1 =
𝑆𝑋𝑋
𝑛

⇒ 𝛽̂1 = ∑ 𝐶𝑖 𝑌𝑖
𝑖=1

2.4. Valor Esperado e Variância dos Estimadores

̂1 é:
O valor esperado para o estimador 𝛽
𝑛 𝑛 𝑛
𝑆
̂1 ] = 𝐸 [ 𝑋𝑌 ] = 𝐸 [∑ 𝐶𝑖 𝑌𝑖 ] = ∑ 𝐶𝑖 𝐸 [𝑌𝑖 ] = ∑ 𝐶𝑖 (𝛽0 + 𝛽1 𝑋𝑖 )
𝐸[𝛽
𝑆𝑋𝑋
𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛
̂1 ] = 𝛽0 ∑ 𝐶𝑖 + 𝛽1 ∑ 𝐶𝑖 𝑋𝑖 ;
⟹ 𝐸[𝛽
𝑖=1 𝑖=1

mas, tem-se que:


𝑛 𝑛 𝑛 𝑛
(𝑋𝑖 − 𝑋̅) 1 1
∑ 𝐶𝑖 = ∑ = ∑(𝑋𝑖 − 𝑋̅) = (∑ 𝑋𝑖 − 𝑛𝑋̅ ) = 0;
𝑆𝑋𝑋 𝑆𝑋𝑋 𝑆𝑋𝑋
𝑖=1 𝑖=1 𝑖=1 𝑖=1

e
𝑛 𝑛 𝑛
(𝑋𝑖 − 𝑋̅ )𝑋𝑖 1 𝑆𝑋𝑋
∑ 𝐶𝑖 𝑋𝑖 = ∑ = (∑ 𝑋𝑖 2 − 𝑛𝑋̅ 2 ) = =1
𝑆𝑋𝑋 𝑆𝑋𝑋 𝑆𝑋𝑋
𝑖=1 𝑖=1 𝑖=1

portanto:
𝑛 𝑛
̂1 ] = 𝛽0 ∑ 𝐶𝑖 + 𝛽1 ∑ 𝐶𝑖 𝑋𝑖 = 𝛽0 × 0 + 𝛽1 × 1
𝐸[𝛽
𝑖=1 𝑖=1

̂1 ] = 𝛽1 (𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜𝑟 𝑛ã𝑜 𝑣𝑖𝑐𝑖𝑎𝑑𝑜 𝑝𝑎𝑟𝑎 𝛽1 ).


⟹ 𝐸[𝛽

̂0 é:
O valor esperado para o estimador 𝛽
𝑛
1
̂0 ] = 𝐸[𝑌̅ − 𝛽
𝐸[𝛽 ̂1 𝑋̅ ] = 𝐸 [𝑌̅] − 𝐸[𝛽
̂1 ]𝑋̅ = 𝐸 [𝑌̅] − 𝛽1 𝑋̅ = 𝐸 [∑ 𝑌𝑖 ] − 𝛽1 𝑋̅
𝑛
𝑖=1
𝑛 𝑛
1 1
= ∑ 𝐸 [𝑌𝑖 ] − 𝛽1 𝑋̅ = ∑(𝛽0 + 𝛽1 𝑋𝑖 ) − 𝛽1 𝑋̅
𝑛 𝑛
𝑖=1 𝑖=1
𝑛 𝑛 𝑛
1 𝑛 1
= (∑ 𝛽0 + ∑ 𝛽1 𝑋𝑖 ) − 𝛽1 𝑋̅ = 𝛽0 + 𝛽1 ∑ 𝑋𝑖 − 𝛽1 𝑋̅
𝑛 𝑛 𝑛
𝑖=1 𝑖=1 𝑖=1

= 𝛽0 + 𝛽1 𝑋̅ − 𝛽1 𝑋̅

̂0 ] = 𝛽0 (𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜𝑟 𝑛ã𝑜 𝑣𝑖𝑐𝑖𝑎𝑑𝑜 𝑝𝑎𝑟𝑎 𝛽0 ).


⟹ 𝐸[𝛽

̂1 é:
A variância para o estimador 𝛽
𝑛 𝑛
𝑆
̂1 ] = 𝑉𝑎𝑟 [ 𝑋𝑌 ] = 𝑉𝑎𝑟 [∑ 𝐶𝑖 𝑌𝑖 ] = ∑ 𝐶𝑖2 𝑉𝑎𝑟[𝑌𝑖 ]
𝑉𝑎𝑟[𝛽
𝑆𝑋𝑋
𝑖=1 𝑖=1

𝑛 𝑛
(𝑋𝑖 − 𝑋̅ )2 2 𝜎2 𝜎 2 𝑆𝑋𝑋
̂
⟹ 𝑉𝑎𝑟[𝛽1 ] = ∑ ̅ 2
𝜎 = 2 ∑(𝑋𝑖 − 𝑋) = 2
2
𝑆𝑋𝑋 𝑆𝑋𝑋 𝑆𝑋𝑋
𝑖=1 𝑖=1
𝜎2
̂1 ] =
⟹ 𝑉𝑎𝑟[𝛽 .
𝑆𝑋𝑋

̂0 é:
A variância para o estimador 𝛽

𝜎2 𝜎2
̂0 ] = 𝑉𝑎𝑟[𝑌̅ − 𝛽
𝑉𝑎𝑟[𝛽 ̂1 𝑋̅ ] = 𝑉𝑎𝑟[𝑌̅] + 𝑋̅ 2 𝑉𝑎𝑟[𝛽
̂1 ] − 2𝑋 ̂1 ) =
⏟̅𝐶𝑜𝑣(𝑌̅ ; 𝛽 + 𝑋̅ 2
𝑛 𝑆𝑋𝑋
=0

1 𝑋̅ 2
̂0 ] = 𝜎 2 ( +
⟹ 𝑉𝑎𝑟[𝛽 ).
𝑛 𝑆𝑋𝑋

2.5. Intervalos de confiança e testes de hipótese para 𝛃𝟎 e 𝛃𝟏

Suposições para o Modelo

1. Os erros são variáveis aleatórias com média zero e variância constante,


ou seja, 𝐸 (𝜖𝑖 ) = 0 e 𝑉𝑎𝑟 (𝜖𝑖 ) = 𝜎 2 ,
2. Para 𝑖 ≠ 𝑗, 𝜖𝑖 e 𝜖𝑗 são não-correlacionados, ou seja, 𝐶𝑜𝑣(𝜖𝑖 , 𝜖𝑗 ) = 0,
3. 𝜖𝑖 ~𝑁(0, 𝜎 2 )

Dadas essas suposições, temos que (𝑌𝑖 |𝑋𝑖 )~𝑁(𝛽0 + 𝛽1 𝑋𝑖 , 𝜎 2 ), independentes


para 𝑖 = 1, … , 𝑛,

2.5.1. Inferência sobre 𝜷𝟏

̂1 é
Tem-se que a Esperança de 𝛽

̂1 ] = 𝛽1 ;
𝐸[𝛽

̂1 é
e a Variância de 𝛽

𝜎2
̂1 ] =
𝑉𝑎𝑟[𝛽 ;
𝑆𝑋𝑋

̂1 é
por consequência, o Desvio Padrão de 𝛽
1⁄2
𝜎2
̂1 ) = [
𝐷𝑃(𝛽 ] .
𝑆𝑋𝑋

Dado que 𝜎 2 não é conhecido, utiliza-se


1⁄2
𝑆2
̂1 ) = [ ]
𝐷𝑃𝐸 (𝛽 ;
𝑆𝑋𝑋
onde
𝑛
1 2
𝑆2 = ̂0 + 𝛽
∑ (𝑌𝑖 − (𝛽 ̂1 𝑋𝑖 )) .
𝑛−2
𝑖=1

Assim, pode-se obter o Intervalo de Confiança, dado por

𝐼𝐶(1−𝛼) (𝛽1 ) = [𝛽̂1 ± 𝑡(𝑛−2;1−𝛼 ⁄2) × 𝐷𝑃𝐸 (𝛽


̂1 )]

Pode-se ainda formular um Teste de Hipóteses para 𝛽1 , onde as hipóteses são

𝐻 : 𝛽 = 𝑏1
{ 0 1
𝐻1 : 𝛽1 ≠ 𝑏1

e a Estatística de Teste é

𝛽̂1 − 𝑏1
𝑡𝑜𝑏𝑠 = ~ 𝑡𝑛−2 sob 𝐻0 .
𝐷𝑃𝐸 (𝛽̂1 )

2.5.2. Inferência sobre 𝜷𝟎

̂0 é
Tem-se que a Esperança de 𝛽

̂0 ] = 𝛽0 ;
𝐸[𝛽

̂0 é
e a Variância de 𝛽

1 𝑋̅ 2
̂ ] 2
𝑉𝑎𝑟[𝛽0 = 𝜎 ( + );
𝑛 𝑆𝑋𝑋

̂0 é
por consequência, o Desvio Padrão de 𝛽
1⁄2
1 𝑋̅ 2
̂ 2
𝐷𝑃(𝛽0 ) = [𝜎 ( + )] .
𝑛 𝑆𝑋𝑋

Dado que 𝜎 2 não é conhecido, utiliza-se


1⁄2
1 𝑋̅ 2
̂ 2
𝐷𝑃𝐸 (𝛽0 ) = [𝑆 ( + )] ;
𝑛 𝑆𝑋𝑋

onde
𝑛
1 2
𝑆2 = ̂0 + 𝛽
∑ (𝑌𝑖 − (𝛽 ̂1 𝑋𝑖 )) .
𝑛−2
𝑖=1
Assim, pode-se obter o Intervalo de Confiança, dado por

̂0 ± 𝑡(𝑛−2;1−𝛼 ⁄2) × 𝐷𝑃𝐸 (𝛽


𝐼𝐶(1−𝛼) (𝛽0 ) = [𝛽 ̂0 )]

Pode-se ainda formular um Teste de Hipóteses para 𝛽0 , onde as hipóteses são

𝐻0 : 𝛽0 = 𝑏0
{
𝐻1 : 𝛽0 ≠ 𝑏0

e a Estatística de Teste é

̂0 − 𝑏0
𝛽
𝑡𝑜𝑏𝑠 = ~ 𝑡𝑛−2 sob 𝐻0 .
𝐸𝑃(𝛽̂0 )

2.6. Resultados Importantes

Não será demonstrados estes resultados, mas são fundamentais para uma
melhor compreensão dos “algebrismos” utilizados ao longo dos estudos de
Análise de Regressão:

a. ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅ ) = 0;
b. ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅ )2 = ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)(𝑋𝑖 − 𝑋̅) = ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)𝑋𝑖 ;
c. ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅ )(𝑌𝑖 − 𝑌̅) = ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅ )𝑌𝑖 ;
d. ∑𝑛𝑖=1 𝑒𝑖 = 0;
e. ∑𝑛𝑖=1 𝑋𝑖 𝑒𝑖 = 0;
f. ∑𝑛𝑖=1 𝑌̂𝑖 𝑒𝑖 = 0;
𝑌̂
g. Seja 𝑌̅̂𝑖 = ∑𝑛𝑖=1 𝑛𝑖 , então , 𝑌̅̂ = 𝑌̅;

h. A reta de mínimos quadrados passa pelo ponto (𝑋̅, 𝑌̅ );


i. ∑𝑛𝑖=1(𝑌̂𝑖 − 𝑌̅)(𝑌𝑖 − 𝑌̂𝑖 ) = 0;
2
j. ̂1 𝑆𝑋𝑌
∑𝑛𝑖=1(𝑌̂𝑖 − 𝑌̅) = 𝛽
2
̂1 2 ∑(𝑋𝑖 − 𝑋̅ )2 .
k. ∑𝑛𝑖=1(𝑌̂𝑖 − 𝑌̅) = 𝛽
2.7. Análise de Variância

Visa afirmar se a variável explicativa é um bom preditor da variável resposta e


o quanto da variação da variável resposta é explicada pela reta de regressão.

2.7.1. Decomposição da Soma Total nas Somas dos Quadrados

𝑌𝑖 − 𝑌̂𝑖 = (𝑌𝑖 − 𝑌̅ ) − (𝑌̂𝑖 − 𝑌̅)

(𝑌𝑖 − 𝑌̅) = (𝑌̂𝑖 − 𝑌̅) + (𝑌𝑖 − 𝑌̂𝑖 )

2
(𝑌𝑖 − 𝑌̅ )2 = [(𝑌̂𝑖 − 𝑌̅) + (𝑌𝑖 − 𝑌̂𝑖 )]

2 2
(𝑌𝑖 − 𝑌̅)2 = (𝑌̂𝑖 − 𝑌̅ ) + (𝑌𝑖 − 𝑌̂𝑖 ) + 2(𝑌̂𝑖 − 𝑌̅ )(𝑌𝑖 − 𝑌̂𝑖 )
𝑛 𝑛 𝑛 𝑛
2 2
∑(𝑌𝑖 − 𝑌 ̅ )2 = ∑(𝑌̂𝑖 − 𝑌̅) + ∑(𝑌𝑖 − 𝑌̂𝑖 ) + 2 ∑(𝑌̂𝑖 − 𝑌̅)(𝑌𝑖 − 𝑌̂𝑖 ).
𝑖=1 𝑖=1 𝑖=1 ⏟
𝑖=1
=0

Veja que
𝑛 𝑛 𝑛 𝑛 𝑛

∑(𝑌̂𝑖 − 𝑌̅)(𝑌𝑖 − 𝑌̂𝑖 ) = ∑ 𝑌̂𝑖 (𝑌𝑖 − 𝑌̂𝑖 ) − 𝑌̅ ∑(𝑌𝑖 − 𝑌̂𝑖 ) = ∑ 𝑌̂𝑖 𝑒𝑖 − 𝑌̅ ∑ 𝑒𝑖 = 0.


𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1

Então
𝑛 𝑛 𝑛
2 2
∑(𝑌𝑖 − 𝑌̅)2 = ∑(𝑌̂𝑖 − 𝑌̅) + ∑(𝑌𝑖 − 𝑌̂𝑖 ) ;
𝑖=1 𝑖=1 𝑖=1

tem então que

𝑆𝑜𝑚𝑎 𝑑𝑒 𝑄𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑆𝑜𝑚𝑎 𝑑𝑒 𝑄𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑆𝑜𝑚𝑎 𝑑𝑒 𝑄𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠


( )=( )+( );
𝑇𝑜𝑡𝑎𝑙 𝑑𝑎 𝑅𝑒𝑔𝑟𝑒𝑠𝑠ã𝑜 𝑑𝑜𝑠 𝑅𝑒𝑠í𝑑𝑢𝑜𝑠

e utilizar-se-á a seguinte notação

𝑆𝑄𝑇 = 𝑆𝑄𝑅 + 𝑆𝑄𝑅𝐸𝑆 ;

onde

 𝑆𝑄𝑇 mede a variação dos valores de 𝑌 na amostra;


 𝑆𝑄𝑅 mede quanto da 𝑆𝑄𝑇 é explicada pela variação dos valores de 𝑋, ou
seja, pelo modelo de regressão ajustado;
 𝑆𝑄𝑅𝐸𝑆 mede quanto da 𝑆𝑄𝑇 não é explicada pelo modelo de regressão
ajustado.

2.7.2. A Tabela de Análise de Variância (Tabela ANOVA)

Graus de Liberdade (GL) é o número relacionado a uma soma de quadrados


que indica quantos partes independentes de informação envolvendo 𝑛
quantidades independentes 𝑌1 , … , 𝑌𝑛 são necessárias para calcular a soma de
quadrados e:

𝑆𝑜𝑚𝑎 𝑑𝑒 𝑄𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠
𝑄𝑢𝑎𝑑𝑟𝑎𝑑𝑜 𝑀é𝑑𝑖𝑜 = .
𝐺𝐿

Logo, tem-se que


𝑆𝑄𝑅
𝑄𝑀𝑅 = ;
1
𝑆𝑄𝑅𝐸𝑆
𝑄𝑀𝑅𝐸𝑆 = = 𝑠2 .
𝑛−2

Utilizar-se-á um importante resultado da teoria de probabilidade, onde se 𝛽1 =


0, então

𝑄𝑀𝑅
~𝜒12 ;
𝜎2

(𝑛 − 2)𝑄𝑀𝑅𝐸𝑆 (𝑛 − 2)𝑠 2 2
= ~𝜒𝑛−2 ;
𝜎2 𝜎2

e sob a suposição que são independentes tem-se que a razão tem distribuição
𝐹 − 𝑆𝑛𝑒𝑑𝑒𝑐𝑜𝑟 com 1 e 𝑛 − 2 graus de liberdade, ou seja:

𝑄𝑀𝑅
𝐹𝑜𝑏𝑠 = ~ 𝐹1; 𝑛−2 sob 𝐻0 .
𝑄𝑀𝑅𝐸𝑆

Portanto, a ANOVA para um modelo de regressão linear simples é dado por


Fonte de Graus de
Soma de Quadrados Quadrado Médio Teste F
Variação Liberdade
𝑛
2
̂1 𝑆𝑋𝑌 𝑆𝑄𝑅
Regressão 1 𝑆𝑄𝑅 = ∑(𝑌̂𝑖 − 𝑌̅ ) = 𝛽 𝑄𝑀𝑅 =
1
𝑖=1 𝑄𝑀𝑅
~ 𝐹1; 𝑛−2
𝑛 𝑄𝑀𝑅𝐸𝑆
2
̂1 𝑆𝑋𝑌 𝑆𝑄𝑅𝐸𝑆
Residual 𝑛−2 𝑆𝑄𝑅𝐸𝑆 = ∑(𝑌𝑖 − 𝑌̂𝑖 ) = 𝑆𝑄𝑇 − 𝛽 𝑄𝑀𝑅𝐸𝑆 = = 𝑆2
𝑛−2
𝑖=1

Total 𝑛−1 𝑆𝑄𝑇 = ∑(𝑌𝑖 − 𝑌̅ )2


𝑖=1

Observação: Outro resultado importante da teoria de probabilidade é que 𝐹1,𝑣 =


[𝑡𝑣 ]2 , e tem que

𝑄𝑀𝑅 𝑄𝑀𝑅 𝛽̂1 𝑆𝑋𝑌 𝛽̂1 2 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅ )2 ̂1 [∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2 ]1⁄2 2


𝛽
𝐹𝑜𝑏𝑠 = = 2 = = ={ }
𝑄𝑀𝑅𝐸𝑆 𝑠 𝑠2 𝑠2 𝑠
2
= 𝑡𝑜𝑏𝑠

Este resultado é válido somente para a regressão linear simples.

2.8. Grau de ajuste da Regressão Linear Simples

Tem-se que

𝑆𝑄𝑅 𝑆𝑄𝑅𝐸𝑆 𝑆𝑄𝑇 𝑆𝑄𝑅 𝑆𝑄𝑅𝐸𝑆


𝑆𝑄𝑅 + 𝑆𝑄𝑅𝐸𝑆 = 𝑆𝑄𝑇 ⟹ + = ⟹ + = 1.
𝑆𝑄𝑇 𝑆𝑄𝑇 𝑆𝑄𝑇 𝑆𝑄𝑇 𝑆𝑄𝑇

Logo, define-se como coeficiente de determinação, ou 𝑅2 , a seguinte medida

𝑆𝑄𝑅 𝑆𝑄𝑅𝐸𝑆
𝑅2 = =1−
𝑆𝑄𝑇 𝑆𝑄𝑇

Este coeficiente mede a proporção da variação total da resposta explicada pela


regressão.

Observação: Tem-se que:

 𝑅2 ≤ 1 igualdade só poder obtida se, e somente se, todos os valores da


variável explicativa são diferente;
 𝑅 é o valor do coeficiente de Pearson entre 𝑋 e 𝑌̂;
 (sinal de 𝛽̂1 )√𝑅2 é o valor do coeficiente de correlação de Pearson entre
𝑋 e 𝑌.

EXEMPLO: Sejam X a temperatura atmosférica média no mês (em Fº) e Y o


consumo mensal de gás residencial (em litros).

𝑋𝑖 𝑌𝑖 𝑌̂𝑖 𝑌𝑖 − 𝑌̂𝑖

35,3 10,98 10,81 0,17

29,7 11,13 11,25 -0,12

30,8 12,51 11,17 1,34

58,8 8,40 8,93 -0,53

61,4 9,27 8,72 0,55

71,3 8,73 7,93 0,80

74,4 ,6,36 7,68 -1,32

76,7 8,50 7,50 1,00

70,7 7,82 7,98 -0,16

57,5 9,14 9,03 0,11

46,4 8,24 9,92 -1,68

28,9 12,19 11,32 0,87

28,1 11,88 11,38 0,50

39,1 9,57 10,50 -0,93

46,8 10,94 9,89 1,05

48,5 9,58 9,75 -0,17

59,3 10,09 8,89 1,20

70,0 8,11 8,03 0,08

70,0 6,83 8,03 -1,20

74,5 8,88 7,68 1,20

72,1 7,68 7,87 -0,19

58,1 8,47 8,98 -0,51

44,6 8,86 10,06 -1,20


33,4 10,36 10,96 -0,60

28,6 11,08 11,34 -0,26

Figura 2: Gráfico de Dispersão das Variáveis X e Y

Estimação dos parâmetros

𝑛 = 25; ∑ 𝑌𝑖 = 235,60; 𝑌̅ = 9,424; ∑ 𝑋𝑖 = 1314; 𝑋̅ = 52,60;

∑ 𝑋𝑖 𝑌𝑖 = 11821,4320; ∑ 𝑋𝑖2 = 76323,42;

𝛽̂1 = −0,079829 e 𝛽̂0 = 13,623005

Com base nos resultados obtidos temos que a equação ajustada é

𝑌̂ = 13,623005 − 0,079829𝑋
Figura 3: Gráfico de Dispersão das Variáveis X e Y e a reta estimada

Tabela ANOVA

FV GL SQ QM

Regressão 1 45,5924 45,5924

Residual 23 18,2234 𝑠 2 = 0,7923

Total 24 63,8158

Estatística R

45,5924
𝑅2 = = 0,7144
63,8158

Dado o valor do coeficiente de determinação, a interpretação que temos é de


que cerca de 71% da variação total da variável consumo de gás para esta
amostra é explicada pela variável temperatura mensal média.

Teste F

45,5924
𝐹= = 57,54 > 𝐹(0,95;1,23) = 4,28 → rejeita − se 𝐻0 : 𝛽1 = 0
0,7923

Inferência sobre 𝛽1

𝛼 = 0,05 𝑡(23;0,975) = 2,069


1⁄2
𝑠2
𝛽̂1 = −0,0798; 𝐸𝑃(𝛽̂1 ) = [ ] = 0,0105
∑(𝑋𝑖 − 𝑋̅ )2

𝐼𝐶𝛽95%
1
= [−0,0798 ± 2,069 × 0,0105] = [−0,1015; −0,0581]

2.9. Resíduos: Gráficos Básicos

Os resíduos possuem informação sobre os motivos pelos quais um modelo não


ter se ajustado bem aos dados. Em geral, isso ocorre quando uma ou mais
suposições sobre o modelo não são verdadeiras.

Principais anomalidades que são detectadas pelos gráficos dos resíduos:

 Não normalidade;
 Efeitos do tempo ou da ordem de coleta dos dados;
 Variância não-constante e possível necessidade de transformar Y;
 Curvatura de ordem maior do que a escolhida para X.

2.9.1. Verificação de Não Normalidade nos Resíduos

Assumimos ques os erros 𝜖𝑖 ~𝑁𝑜𝑟𝑚𝑎𝑙(0, 𝜎 2 ), 𝑖 = 1, … , 𝑛

Usaremos os resíduos 𝑒𝑖 como estimativas dos erros para verificar esta


suposição.

 Histograma: deve ter média zero e ser simétrico.


 Gráfico de Probabilidade Normal: mais adequado.
 Teste de Shapiro-Wilk.
 Teste de Anderson-Darling.
 Outras formas.

Grandes desvios da normalidade implicam em intervalos de confiança, testes t


e F afetados e invalidados. A violação das suposições de linearidade e
homocedasticidade implicam que os resíduos não são normais, portanto é
importante verificar antes essas suposições.
2.9.2. Verificação de Variância Não-Constante, Efeitos de Tempo,
Necessidade de Transformação e Curvatura
 Gráfico dos Resíduos 𝒆𝒊 contra Valores Ajustados 𝒀
̂𝒊

Útil para detectar as seguintes inadequações do modelo:

 A variância do erro não é constante.


 Transformações em ou usar o MMQ ponderados.
 A equação de regressão não é linear.
 Transformações em e/ou ; inclusão do termo quadrático em .
 Presença de observações extremas (possíveis outliers)
 Resíduos cujo valor absoluto é muito maior do que os demais
 Gráficos dos Resíduos contra Variável Explicativa

No caso da regressão linear simples, tem o mesmo papel do gráfico .

 Gráfico dos Resíduos contra o Tempo ou Ordem de Coleta

A presença de configurações neste gráfico pode indica que os erros são


correlacionados.

Observar mesmos padrões do gráfico 𝑒𝑖 × 𝑌̂𝑖 substituindo 𝑌̂𝑖 pelo tempo ou


ordem de coleta.

A existência de correlação temporal pode ser consequência não inclusão de


uma variável explicativa importante relacionada ao tempo.

Autocorrelação: é a correlação entre os erros de determinado período de


tempo e os erros associados a outros períodos de tempo.

As consequências são que os estimadores de MQ dos 𝛽s deixam de ser bons


estimadores e os ICs e testes de hipóteses anteriores tornam-se sem valor
para a análise.
2.10. Regressão Simples – Notação Matricial

A grande vantagem de se escrever e resolver o modelo em forma matricial é


que a solução pode ser empregada a qualquer problema de regressão, não
importando quantos termos há na equação.

2.10.1. O Ajuste de Uma Reta na Forma Matricial

Modelo da amostra

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜖𝑖 , 𝑖 = 1, … , 𝑛

𝑌1 = 𝛽0 + 𝛽1 𝑋1 + 𝜖1

𝑌2 = 𝛽0 + 𝛽1 𝑋2 + 𝜖2

𝑌𝑛 = 𝛽0 + 𝛽1 𝑋𝑛 + 𝜖𝑛

𝑌1 𝛽0 𝛽1 𝑋1 𝜖1
𝑌 𝛽 𝛽𝑋 𝜖2
( 2 ) = ( 0) + ( 1 2 ) + ( ⋮ )
⋮ ⋮ ⋮
𝑌𝑛 𝛽0 𝛽1 𝑋𝑛 𝜖𝑛

𝑌1 1 𝑋1 𝜖1
𝑌 𝑋 𝜖2
( 2 ) = (1) 𝛽0 + ( 2 ) 𝛽1 + ( ⋮ )
⋮ ⋮ ⋮
𝑌𝑛 1 𝑋𝑛 𝜖𝑛

𝑌1 1 𝑋1 𝜖1
𝑌 𝑋2 𝛽 𝜖2
( 2 ) = (1 ) × ( 0) + ( ⋮ )
⋮ ⋮ ⋮ 𝛽1
𝑌𝑛 1 𝑋𝑛 𝜖𝑛

𝐘 = 𝐗𝛃 + 𝛜

𝐘: vetor 𝑛 × 1 das observações

𝐗: matriz 𝑛 × 2 das variáveis explicativas

𝛃: vetor 2 × 1 dos parâmetros

𝛜: vetor 𝑛 × 1 dos erros

Método dos Mínimos Quadrados


𝑛
𝜖1
𝜖
𝑆 = ∑ 𝜖𝑖 2 = (𝜖1 𝜖2 ⋯ 𝜖𝑛 ) ( 2 ) = 𝛜′𝛜

𝑖=1 𝜖𝑛

𝛜 = 𝐘 − 𝐗𝛃

𝑆 = 𝛜′ 𝛜 = (𝐘 − 𝐗𝛃)′ (𝐘 − 𝐗𝛃) = 𝐘 ′ 𝐘 − 𝛃′ 𝐗 ′ 𝐘 − 𝐘 ′ 𝐗𝛃 + 𝛃′𝐗′𝐗𝛃

= 𝐘 ′ 𝐘 − 2𝛃′ 𝐗 ′ 𝐘 + 𝛃′𝐗′𝐗𝛃

𝛿𝑆 𝛿𝑆
= −2𝐗 ′ 𝐘 + 2𝐗 ′ 𝐗𝛃 → =0 ⇒ ̂ = 𝐗′𝐘
𝐗 ′ 𝐗𝛃
𝛿𝛃 𝛿𝛃

Equações Normais

̂ = ( 𝐗 ′ 𝐘)
(𝐗′𝐗)𝛃

̂ = (𝐗′𝐗)−𝟏 (𝐗 ′ 𝐘)
(𝐗′𝐗)−𝟏 (𝐗′𝐗)𝛃

𝐶𝑜𝑚𝑜 (𝐗′𝐗)−𝟏 (𝐗′𝐗) = 𝐈

̂ = (𝐗′𝐗)−𝟏 (𝐗 ′ 𝐘)
𝛃

Resultado Geral de Matrizes

𝑎 𝑏 ]−1 1 [ 𝑑 −𝑏]
𝑀−1 = [ = , onde 𝐷 = 𝑑𝑒𝑡(𝑀)
𝑐 𝑑 𝐷 −𝑐 𝑎

Assim:

1 𝑋1
1 1 𝑛 ∑ 𝑋𝑖
⋯ 1 1 𝑋2
𝐗′𝐗 = [ ⋯ 𝑋𝑛 ] [ ⋮ ]=[ ],
𝑋1 𝑋2 ⋮ 2
∑ 𝑋𝑖 ∑ 𝑋𝑖
1 𝑋𝑛
2
𝑑𝑒𝑡(𝐗 ′ 𝐗) = 𝑛 ∑ 𝑋𝑖 2 − (∑ 𝑋𝑖 ) = 𝑛 ∑(𝑋𝑖 − 𝑋̅ )2

1 ∑ 𝑋𝑖 2 − ∑ 𝑋𝑖
(𝐗 ′ 𝐗)−1 = [ ]
𝑛 ∑(𝑋𝑖 − 𝑋̅)2 − ∑ 𝑋 𝑛
𝑖

E, ainda,
𝑌1
1 1 ∑ 𝑌𝑖
⋯ 1 𝑌2
𝐗′𝐘 = [ ⋯ 𝑋𝑛 ] [ ⋮ ] = [ ]
𝑋1 𝑋2
∑ 𝑋𝑖 𝑌𝑖
𝑌𝑛

Portanto:

1 ∑ 𝑋𝑖 2 − ∑ 𝑋𝑖 ∑ 𝑌𝑖
̂ = (𝐗 ′ 𝐗)−1 𝐗 ′ 𝐘 =
𝛃 [ ][ ]
𝑛 ∑(𝑋𝑖 − 𝑋̅ )2 − ∑ 𝑋 𝑛 ∑ 𝑋𝑖 𝑌𝑖
𝑖

2.10.2. Análise de Variância


𝑛

𝑆𝑄𝑇 = ∑(𝑌𝑖 − 𝑌̅ )2 = ∑ 𝑌𝑖 2 − 𝑛𝑌̅ 2 = 𝐘 ′ 𝐘 − 𝑛𝑌̅ 2


𝑖=1

𝑛
2
̂ ′ 𝐗 ′ 𝐘 − 𝑛𝑌̅ 2
𝑆𝑄𝑅 = ∑(𝑌̂𝑖 − 𝑌̅) = 𝛃
𝑖=1

𝑛
2
̂ ′𝐗 ′ 𝐘
𝑆𝑄𝐸 = ∑(𝑌𝑖 − 𝑌̂𝑖 ) = 𝑆𝑄𝑇 − 𝑆𝑄𝑅 = 𝐘 ′ 𝐘 − 𝛃
𝑖=1

Fonte de Graus de Soma de


Variação Liberdade Quadrados

Regressão 1 ̂ ′ 𝐗 ′ 𝐘 − 𝑛𝑌̅ 2
𝛃

Residual 𝑛−2 ̂ ′𝐗 ′ 𝐘
𝐘 ′𝐘 − 𝛃

Total n−1 𝐘 ′ 𝐘 − 𝑛𝑌̅ 2

2.10.3. ̂
Variância e Covariância de 𝛃

𝜎 2 ∑ 𝑋𝑖2
𝑉𝑎𝑟[𝛽̂0 ] =
𝑛 ∑(𝑋𝑖 − 𝑋̅ )2

𝜎2
𝑉𝑎𝑟[𝛽̂1 ] =
∑(𝑋𝑖 − 𝑋̅)2
𝜎 2 𝑋̅
𝐶𝑜𝑣[𝛽̂0 , 𝛽̂1 ] = −
∑(𝑋𝑖 − 𝑋̅ )2

𝑉𝑎𝑟(𝛽̂0 ) 𝐶𝑜𝑣(𝛽̂0 , 𝛽̂1 ) 𝜎2 ∑ 𝑋𝑖 2 ⁄𝑛 −𝑋̅


̂) = [
𝐶𝑜𝑣(𝛃 ]= [ ]
𝐶𝑜𝑣(𝛽̂0 , 𝛽̂1 ) 𝑉𝑎𝑟(𝛽̂1 ) ∑(𝑋𝑖 − 𝑋̅ )2
−𝑋̅ 1

̂ ) = 𝑉𝑎𝑟 ((𝐗′𝐗)−𝟏 (𝐗 ′ 𝐘)) = [(𝐗′𝐗)−𝟏 𝐗′]𝑉𝑎𝑟(𝐘)[(𝐗′𝐗)−𝟏 𝐗′]′


𝑉𝑎𝑟(𝛃

= [(𝐗′𝐗)−𝟏 𝐗′]𝜎 2 [𝐗((𝐗′𝐗)−𝟏 )′] = 𝜎 2 (𝐗′𝐗)−𝟏 (𝐗′𝐗)(𝐗′𝐗)−𝟏

= 𝜎 2 (𝐗′𝐗)−𝟏 𝐈 = 𝜎 2 (𝐗′𝐗)−𝟏

3. Regressão Linear Múltipla

É o modelo de regressão linear com uma variável resposta e q variáveis


explicativas, com um intercepto:

𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑞 𝑋𝑞 + 𝜖

Com uma amostra de n observações, temos:

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖1 + 𝛽2 𝑋𝑖2 + ⋯ + 𝛽𝑞 𝑋𝑖𝑞 + 𝜖𝑖 , 𝑖 = 1, … , 𝑛

ou seja,

𝑌1 = 𝛽0 + 𝛽1 𝑋11 + 𝛽2 𝑋12 + ⋯ + 𝛽𝑞 𝑋1𝑞 + 𝜖1

𝑌2 = 𝛽0 + 𝛽1 𝑋21 + 𝛽2 𝑋22 + ⋯ + 𝛽𝑞 𝑋2𝑞 + 𝜖2

𝑌𝑛 = 𝛽0 + 𝛽1 𝑋𝑛1 + 𝛽2 𝑋𝑛2 + ⋯ + 𝛽𝑞 𝑋𝑛𝑞 + 𝜖𝑛

𝛽𝑗 É a variação (aumento se 𝛽𝑗 > 0, redução se 𝛽𝑗 < 0) na média de 𝑌 a cada


aumento de uma unidade em 𝑋𝑗 , mantendo-se constante os valores das outras
variáveis explicativas.

Para 𝑋𝑗 = 𝑥𝑗 , tem-se que 𝐸(𝑌) = 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑗 𝑥𝑗 + ⋯ + 𝛽𝑞 𝑥𝑞 .

Para 𝑋𝑗 = 𝑥𝑗 + 1 e mantendo-se as outras 𝑋′𝑠 constantes, tem-se que 𝐸 (𝑌) =


𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑗 (𝑥𝑗 + 1) + ⋯ + 𝛽𝑞 𝑥𝑞 .
Assim a diferença na média de 𝑌 ao se passar de 𝑋𝑗 = 𝑥𝑗 para 𝑋𝑗 = 𝑥𝑗 + 1 é de
𝛽𝑗 .

3.1. Notação Matricial

𝑌1 = 𝛽0 + 𝛽1 𝑋11 + 𝛽2 𝑋12 + ⋯ + 𝛽𝑞 𝑋1𝑞 + 𝜖1

𝑌2 = 𝛽0 + 𝛽1 𝑋21 + 𝛽2 𝑋22 + ⋯ + 𝛽𝑞 𝑋2𝑞 + 𝜖2

𝑌𝑛 = 𝛽0 + 𝛽1 𝑋𝑛1 + 𝛽2 𝑋𝑛2 + ⋯ + 𝛽𝑞 𝑋𝑛𝑞 + 𝜖𝑛

𝛽0
𝑌1 1 𝑋11 𝑋12 ⋯ 𝑋1𝑞 𝜖1
𝛽1
𝑌 𝑋22 ⋯ 𝑋2𝑞 𝜖2
( 2 ) = (1 𝑋21 ) 𝛽2 + ( ⋮ )
⋮ ⋮ ⋮ ⋮ ⋱ ⋮ ⋮ 𝜖𝑛
𝑌𝑛 1 𝑋𝑛1 𝑋𝑛2 ⋯ 𝑋𝑛𝑞
𝛽
( 𝑞)

𝐘 = 𝐗𝛃 + 𝛜

𝐘: vetor 𝑛 × 1 da variável resposta

𝐗: matriz 𝑛 × (𝑞 + 1) das variáveis explicativas

𝛃: vetor (𝑞 + 1) × 1 dos parâmetros

𝛜: vetor 𝑛 × 1 dos erros

3.2. Suposições do Modelo

1. Os erros 𝜖1 , 𝜖2 , … , 𝜖𝑛 têm média igual a zero e variância igual a 𝜎 2 . Implica


que 𝑌𝑖 tem média 𝛽0 + 𝛽1 𝑋𝑖1 + 𝛽2 𝑋𝑖2 + ⋯ + 𝛽𝑞 𝑋𝑖𝑞 e variância 𝜎 2 .

2. Os erros 𝜖1 , 𝜖2 , … , 𝜖𝑛 não são correlacionados. Implica que 𝑌1 , 𝑌2 , … , 𝑌𝑛 não


são correlacionados.

3. Os erros 𝜖1 , 𝜖2 , … , 𝜖𝑛 têm distribuição Normal. Implica que 𝑌1 , 𝑌2 , … , 𝑌𝑛 têm


distribuição Normal.

𝛜~𝑁(𝟎, 𝜎 2 𝐈)
𝜖1 0 1 0 ⋯ 0
𝜖2
𝛜 = ( ⋮ ), 𝟎 = (0), 𝜎 𝐈 = 𝜎 (0
2 2 1 ⋯ 0)
⋮ ⋮ ⋮ ⋱ ⋮
𝜖𝑛 0 0 0 ⋯ 1

O que implica que 𝐘~𝑁(𝐗𝛃, 𝜎 2 𝐈), onde

𝛽0
𝑌1 1 𝑋11 𝑋12 ⋯ 𝑋1𝑞
𝛽1
𝑌 𝑋22 ⋯ 𝑋2𝑞
𝐘 = ( 2) e 𝐗𝛃 = (1 𝑋21 ) 𝛽2
⋮ ⋮ ⋮ ⋮ ⋱ ⋮ ⋮
𝑌𝑛 1 𝑋𝑛1 𝑋𝑛2 ⋯ 𝑋𝑛𝑞
𝛽
( 𝑞)

3.3. Estimação de 𝛃 via Método dos Mínimos Quadrados

Esta estimação, como no modelo para uma variável explicativa, visa encontrar
valores de 𝛃 que minimizem a soma dos quadrados dos erros, ou seja, valores
que minimizem:

𝑛
𝜖1
𝜖
𝑆 = ∑ 𝜖𝑖 2 = (𝜖1 𝜖2 ⋯ 𝜖𝑛 ) ( 2 ) = 𝛜′𝛜

𝑖=1 𝜖𝑛

𝛜 = 𝐘 − 𝐗𝛃

𝑆 = 𝛜′ 𝛜 = (𝐘 − 𝐗𝛃)′ (𝐘 − 𝐗𝛃) = 𝐘 ′ 𝐘 − 𝛃′ 𝐗 ′ 𝐘 − 𝐘 ′ 𝐗𝛃 + 𝛃′𝐗′𝐗𝛃

= 𝐘 ′ 𝐘 − 2𝛃′ 𝐗 ′ 𝐘 + 𝛃′𝐗′𝐗𝛃

𝛿𝑆 𝛿𝑆
= −2𝐗 ′ 𝐘 + 2𝐗 ′ 𝐗𝛃 → =0 ⇒ ̂ = 𝐗′𝐘
𝐗 ′ 𝐗𝛃
𝛿𝛃 𝛿𝛃

Como é possível perceber, os resultados obtidos aqui são, em termos de


notação, idênticos aos do modelo de uma variável em sua notação matricial.
Desta forma, resolvendo as (𝑞 + 1) equações normais também temos que:

̂ = ( 𝐗 ′ 𝐘)
(𝐗′𝐗)𝛃

̂ = (𝐗′𝐗)−𝟏 (𝐗 ′ 𝐘)
(𝐗′𝐗)−𝟏 (𝐗′𝐗)𝛃

𝐶𝑜𝑚𝑜 (𝐗′𝐗)−𝟏 (𝐗′𝐗) = 𝐈

̂ = (𝐗′𝐗)−𝟏 (𝐗 ′ 𝐘)
𝛃
̂:
3.3.1. O vetor de valores esperados de 𝛃

̂ ] = 𝐸 [(𝐗′𝐗)−𝟏 (𝐗 ′ 𝐘)] = (𝐗′𝐗)−𝟏 𝐗 ′ 𝐸 [𝐘] = (𝐗′𝐗)−𝟏 𝐗 ′ (𝐗𝛃)


𝐸[𝛃

= (𝐗′𝐗)−𝟏 (𝐗 ′ 𝐗)𝛃 = 𝐈𝛃 = 𝛃

̂ é um estimador não viciado de 𝛃.


Ou seja, 𝛃

̂:
3.3.2. Matriz de Variâncias e Covariâncias de 𝛃

̂ ) = 𝑉𝑎𝑟 ((𝐗′𝐗)−𝟏 (𝐗 ′ 𝐘)) = [(𝐗′𝐗)−𝟏 𝐗′]𝑉𝑎𝑟(𝐘)[(𝐗′𝐗)−𝟏 𝐗′]′


𝑉𝑎𝑟(𝛃

= [(𝐗′𝐗)−𝟏 𝐗′]𝜎 2 [𝐗((𝐗′𝐗)−𝟏 )′] = 𝜎 2 (𝐗′𝐗)−𝟏 (𝐗′𝐗)(𝐗′𝐗)−𝟏

= 𝜎 2 (𝐗′𝐗)−𝟏 𝐈 = 𝜎 2 (𝐗′𝐗)−𝟏

3.4. Tabela de Análise de Variância

Valor ajustado: 𝑌̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑋𝑖1 + 𝛽̂2 𝑋𝑖2 + ⋯ + 𝛽̂𝑞 𝑋𝑖𝑞 , 𝑖 = 1, … , 𝑛

Resíduo: 𝑒𝑖 = 𝑌𝑖 − 𝑌̂𝑖
𝑛

𝑆𝑄𝑇 = ∑(𝑌𝑖 − 𝑌̅ )2 = ∑ 𝑌𝑖 2 − 𝑛𝑌̅ 2 = 𝐘 ′ 𝐘 − 𝑛𝑌̅ 2


𝑖=1

𝑛
2
̂ ′ 𝐗 ′ 𝐘 − 𝑛𝑌̅ 2
𝑆𝑄𝑅 = ∑(𝑌̂𝑖 − 𝑌̅) = 𝛃
𝑖=1

𝑛
2
̂ ′𝐗 ′ 𝐘
𝑆𝑄𝐸 = ∑(𝑌𝑖 − 𝑌̂𝑖 ) = 𝑆𝑄𝑇 − 𝑆𝑄𝑅 = 𝐘 ′ 𝐘 − 𝛃
𝑖=1

Fonte de Graus de Soma de


Quadrado Médio
Variação Liberdade Quadrados

𝑆𝑄𝑅
Regressão 𝑞 ̂ ′ 𝐗 ′ 𝐘 − 𝑛𝑌̅ 2
𝛃 𝑄𝑀𝑅 =
𝑞

𝑆𝑄𝐸
Residual 𝑛−𝑞−1 ̂ ′𝐗 ′ 𝐘
𝐘 ′𝐘 − 𝛃 𝑄𝑀𝐸 =
𝑛−𝑞−1

Total n−1 𝐘 ′ 𝐘 − 𝑛𝑌̅ 2


3.5. Coeficiente de Determinação ajustado
𝑆𝑄𝑅
O valor de 𝑅2 = , comparado ao seu valor máximo, é frequentemente usado
𝑆𝑄𝑇

como uma medida do "sucesso" da equação de regressão em explicar a


variância da resposta. Mas o uso de 𝑅2 pode ser falho.

Considere uma variável resposta 𝑌 e uma variável explicativa 𝑋.

 Com dois pontos, temos uma reta: 𝑆𝑄𝐸 = 0 → 𝑅2 = 1


 Com três pontos, temos um polinômio do segundo grau: 𝑆𝑄𝐸 = 0 →
𝑅2 = 1
 Com 𝑛 pontos, temos um polinômio de grau 𝑛 − 1: 𝑆𝑄𝐸 = 0 → 𝑅2 = 1

Desta forma, em regressão múltipla, deve-se atentar ao se comparar 𝑅2 de


modelos com quantidade de termos diferentes. Assim, usamos o 𝑅2 ajustado,
que é dado por:

2
𝑆𝑄𝑅 ⁄(𝑛 − 𝑞 − 1) 𝑛−1
𝑅𝑎𝑗𝑑 =1− = 1 − (1 − 𝑅 2 ) ( )
𝑆𝑄𝑇⁄(𝑛 − 1) 𝑛−𝑞−1

3.6. Teste F da Significância da Regressão

A hipótese nula é NENHUM dos 𝛽𝑗 , 𝑗 = 1, … , 𝑞 ser significante.

A hipótese alternativa é PELO MENOS UM dos 𝛽𝑗 , 𝑗 = 1, … , 𝑞 ser significante.

𝐻0 : 𝛽1 = 0 𝑒 𝛽2 = 0 𝑒 … 𝑒 𝛽𝑞 = 0

𝐻1 : 𝛽1 ≠ 0 𝑒/𝑜𝑢 𝛽2 ≠ 0 𝑒/𝑜𝑢 … 𝑒 𝛽𝑞 ≠ 0

Com isso, a estatística do teste

𝑄𝑀𝑅
𝐹𝑜𝑏𝑠 = ~ 𝐹(𝑞,𝑛−𝑞−1) sob 𝐻0
𝑄𝑀𝐸

Para um nível de significância 𝛼 escolhido, rejeita-se 𝐻0 se 𝐹𝑜𝑏𝑠 > 𝐹𝛼 , onde 𝐹𝛼 é


tal que 𝑃[𝐹(𝑞;𝑛−𝑞−1) > 𝐹𝛼 ] = 𝛼.

Desta forma, se 𝐻0 é não é rejeitada, nenhum dos termos 𝛽𝑗 𝑋𝑗 é significante,


portanto nenhum deles permanece no modelo. Do contrário, quando 𝐻0 é
rejeitada, pelo menos um dos termos 𝛽𝑗 𝑋𝑗 é significante. Para sabermos quais
são significantes, procedemos com os testes t individuais.

3.6.1. Testes t Individuais

Com 𝑗 = 1, … , 𝑞 , pode-se testar a significância do coeficiente 𝛽𝑗 na presença


dos demais coeficientes do modelo:

𝐻0 : 𝛽𝑗 = 0

𝐻1 : 𝛽𝑗 ≠ 0

Com isso em mente, a estatística de teste

𝛽̂𝑗
𝑡𝑗 = ~ 𝑡𝑛−𝑞−1 sob 𝐻0
𝐸𝑃(𝛽̂𝑗 )

Onde 𝐸𝑃(𝛽̂𝑗 ) é a raiz quadrada do j-ésimo elemento da diagonal principal da


̂ , ou seja, da matriz
matriz de variâncias e covariância estimada de 𝛃

̂ ) = 𝑠 2 (𝐗′𝐗)−𝟏
𝑉𝑎𝑟(𝛃

Para um nível de significância 𝛼 escolhido, rejeita-se 𝐻0 se |𝑡𝑗 | > 𝑡𝛼 ⁄2 , onde 𝐹𝛼


é tal que 𝑃[𝑡(𝑞;𝑛−𝑞−1) > 𝑡𝛼 ⁄2 ] = 𝛼⁄2.

Você também pode gostar