Apostila Estatística Econômica

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL
INSTITUTO DE MATEMÁTICA
DEPARTAMENTO DE ESTATÍSTICA
APOSTILA:
MAT02207 -
ESTATÍSTICA ECONÔMICA
Prof. Vanessa B. Leotti Torman

(vanessa.leotti@ufrgs.br)
Março de 2012.
MAT02207 – Estatística Econômica – Prof. Vanessa Leotti
ÍNDICE
1 MODELO DE REGRESSÃO LINEAR SIMPLES (MRLS)................................................................. 4
1.1 INTRODUÇÃO À REGRESSÃO .................................................................................................................. 4

1.1.1 RELAÇÕES ESTATÍSTICAS VERSUS DETERMINÍSTICAS ........................................................................... 4
1.2 MODELO DE REGRESSÃO LINEAR SIMPLES (MRLS) ........................................................................... 4
1.2.1 FUNÇÃO LINEAR DE REGRESSÃO POPULACIONAL .................................................................................. 4
1.2.2 FUNÇÃO LINEAR DE REGRESSÃO AMOSTRAL ......................................................................................... 5
1.2.3 PREMISSAS CLÁSSICAS .......................................................................................................................... 6
1.3 ESTIMAÇÃO DOS PARÂMETROS DO MODELO: MÉTODO DE MÍNIMOS QUADRADOS ORDINÁRIOS
(MQO) .............................................................................................................................................................. 7
1.3.1 SIGNIFICADO DE ̂1 E ̂ 2 ...................................................................................................................... 8
1.3.2 PRECISÃO OU ERRO-PADRÃO DAS ESTIMATIVAS DE MQO .................................................................... 9
1.3.3 PROPRIEDADES DOS ESTIMADORES DE MQO ........................................................................................ 9
1.4 COEFICIENTE DE CORRELAÇÃO LINEAR DE PEARSON - R .................................................................. 12
1.5 COEFICIENTE DE DETERMINAÇÃO - R2 ................................................................................................ 13
1.6 A PREMISSA DE NORMALIDADE DOS RESÍDUOS ................................................................................... 15
1.7 ESTIMAÇÃO POR INTERVALO ............................................................................................................... 15
1.7.1 INTERVALOS DE CONFIANÇA PARA OS COEFICIENTES DE REGRESSÃO ................................................ 15
1.7.2 INTERVALO DE CONFIANÇA PARA A VARIÂNCIA RESIDUAL ................................................................ 17
1.8 TESTES DE HIPÓTESES........................................................................................................................... 18
1.8.1 ABORDAGEM DO INTERVALO DE CONFIANÇA...................................................................................... 18
1.8.2 ABORDAGEM DO TESTE DE SIGNIFICÂNCIA ......................................................................................... 19
1.9 PREVISÃO ............................................................................................................................................... 21
1.9.1 INTERVALO DE CONFIANÇA PARA A ESTIMATIVA MÉDIA DE Y, DADO X = X0 .................................... 21
1.9.2 INTERVALO DE CONFIANÇA PARA A ESTIMATIVA INDIVIDUAL DE Y, DADO X = X0 ............................ 22
1.10 ANÁLISE DE VARIÂNCIA – ANOVA ................................................................................................... 23
1.10.1 TESTE DE SIGNIFICÂNCIA PARA O COEFICIENTE DE DETERMINAÇÃO ................................................ 24
1.11 REGRESSÃO PELA ORIGEM ................................................................................................................. 25
1.12 FORMAS FUNCIONAIS DOS MODELOS DE REGRESSÃO ....................................................................... 26
1.12.1 MODELO LOG-LINEAR OU LOG-LOG ................................................................................................. 26
1.12.2 MODELOS SEMILOGARÍTMICOS LOG-LIN E LIN-LOG ........................................................................ 26
1.12.3 MODELOS RECÍPROCOS (INVERSOS).................................................................................................. 27
2 MODELO DE REGRESSÃO LINEAR MÚLTIPLA (MRLM) ......................................................... 29
2.1 SIGNIFICADO DOS PARÂMETROS DO MODELO..................................................................................... 29

2.2 NOTAÇÃO MATRICIAL DO MRLM ....................................................................................................... 29
2.3 PREMISSAS DO MRLM ......................................................................................................................... 30
2.4 MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS (MQO) ............................................................... 30
2.4.1 VARIÂNCIAS DOS ESTIMADORES DE MQO .......................................................................................... 31
2.5 COEFICIENTE MÚLTIPLO DE DETERMINAÇÃO: R2 .............................................................................. 33
2
2.6 COEFICIENTE MÚLTIPLO DE DETERMINAÇÃO AJUSTADO: R ......................................................... 33
2.7 COEFICIENTE DE CORRELAÇÃO PARCIAL ........................................................................................... 34
2.8 COEFICIENTE DE DETERMINAÇÃO PARCIAL ....................................................................................... 35
2.9 INTERVALO DE CONFIANÇA E TESTE DE SIGNIFICÂNCIA INDIVIDUAL PARA OS COEFICIENTES DE
REGRESSÃO ..................................................................................................................................................... 35
2.10 INTERVALO DE CONFIANÇA PARA A VARIÂNCIA RESIDUAL ............................................................. 36
2.11 TESTE DA SIGNIFICÂNCIA GERAL DA REGRESSÃO (ANOVA) .......................................................... 37
2.12 CONTRIBUIÇÃO MARGINAL OU INCREMENTAL DE UMA VARIÁVEL EXPLICATIVA ......................... 39
2.13 PREVISÃO NO MRLM ......................................................................................................................... 41
2.14 MODELO DE REGRESSÃO POLINOMIAL.............................................................................................. 42
2
2.15 VARIÁVEIS DUMMIES .......................................................................................................................... 43

2.15.1 REGRESSÃO SOMENTE COM VARIÁVEIS DUMMIES (MODELOS ANOVA) ......................................... 43
2.15.2 REGRESSÃO COM VARIÁVEIS QUANTITATIVAS E DUMMIES (MODELOS ANCOVA) ......................... 45
2.15.3 EFEITOS DE INTERAÇÃO COM O USO DE VARIÁVEIS BINÁRIAS .......................................................... 46
2.15.4 O EMPREGO DE VARIÁVEIS BINÁRIAS EM ANÁLISES SAZONAIS ......................................................... 48
2.15.5 MODELOS LOG-LIN E VARIÁVEIS DUMMIES ..................................................................................... 48
3 VIOLAÇÕES DAS PREMISSAS DO MODELO DE REGRESSÃO ................................................ 50
3.1 NÃO-NORMALIDADE DOS RESÍDUOS..................................................................................................... 50

3.1.1 DETECÇÃO ........................................................................................................................................... 50
3.1.2 CONSEQÜÊNCIAS ................................................................................................................................. 51
3.1.3 MEDIDAS CORRETIVAS ........................................................................................................................ 51
3.2 MULTICOLINEARIDADE ........................................................................................................................ 53
3.2.1 CONSEQÜÊNCIAS ................................................................................................................................. 54
3.2.2 DETECÇÃO ........................................................................................................................................... 56
3.3 HETEROCEDASTICIDADE ...................................................................................................................... 62
3.3.1 MÉTODO DOS MÍNIMOS QUADRADOS GENERALIZADOS (MQG) ........................................................ 63
3.3.2 CONSEQÜÊNCIAS ................................................................................................................................. 63
3.3.3 DETECÇÃO ........................................................................................................................................... 64
3.4 AUTOCORRELAÇÃO............................................................................................................................... 71
3.4.1 CONSEQÜÊNCIAS ................................................................................................................................. 73
3.4.2 DETECÇÃO ........................................................................................................................................... 73
3
1 MODELO DE REGRESSÃO LINEAR SIMPLES (MRLS)
1.1 Introdução à Regressão
A análise de regressão estuda a dependência de uma variável, chamada de variável

dependente, em relação a uma ou mais variáveis, denominadas de variáveis independentes, com o
objetivo de estimar e/ou prever o valor médio da primeira em termos de valores conhecidos ou
fixados das segundas.
Pressupõe-se implicitamente que as relações causais, se as houver, entre a variável
dependente e as explanatórias só se dão em uma direção: das variáveis explanatórias para a
dependente.
Exemplo: Poderia-se estudar a relação de dependência do rendimento das lavouras em
relação à temperatura, pluviosidade, luz solar ou fertilizante, por exemplo.
1.1.1 Relações estatísticas versus determinísticas
Na análise de regressão, estamos preocupados com o que é conhecido como dependência

estatística, e não funcional ou determinística, entre as variáveis. Nas relações estatísticas entre
variáveis, lidamos essencialmente com variáveis aleatórias ou estocásticas, isto é, variáveis que têm
distribuições probabilísticas. Na dependência funcional ou determinística, por outro lado, também
lidamos com variáveis, mas estas não são aleatórias ou estocásticas.
O exemplo anterior é uma dependência estatística. Já um exemplo de dependência
determinística é a fórmula: lucro bruto = preço x unidades vendidas.
1.2 Modelo de Regressão Linear Simples (MRLS)
Método de ajustamento de uma reta para análise da relação entre uma variável independente
(explicativa ou regressora) e uma variável dependente (explicada ou resposta). Ambas as variáveis
são quantitativas. Este modelo também é conhecido como modelo de duas variáveis.
1.2.1 Função linear de regressão populacional
Denotaremos por Yi o valor da variável dependente para a i-ésima observação e X i o valor

da variável independente para a i-ésima observação.
Como dito anteriormente, o objetivo da regressão é estimar um valor médio da variável
dependente com base nos valores conhecidos da variável explanatória.
Desenho (fertilizante x produtividade):
4
Podemos expressar isso matematicamente escrevendo:
E Y | X i   1   2 X i
onde 1 e  2 são chamados de coeficientes de regressão, ou respectivamente, intercepto e

coeficiente angular, e o subscrito i indica os pares de observações, i = 1, 2, ..., n.
A expressão acima é conhecida como função linear de regressão populacional.
Nem todos os valores de Y caem sobre a reta, existe um desvio em torno de seu valor
esperado, que pode ser denotado por:
ei  Yi  E Y | X i 
Ou
Yi  E Y | X i   ei
O que implica que
Yi  1   2 X i  ei , i
O desvio e, também conhecido como perturbação aleatória, resíduo aleatório, ou distúrbio

aleatório, é um “substituto” ou representante de todas as variáveis que podem afetar Y, mas não
foram incluídas no modelo de regressão; dos elementos não-previsíveis de aleatoriedade e dos erros
de mensuração em Y.
1.2.2 Função linear de regressão amostral
1 e  2 são parâmetros conhecidos apenas se toda a população fosse pesquisada, ou seja, se

um censo fosse realizado. Entretanto, na prática, amostras são utilizadas para estimar a função de
regressão. Assim, temos a função linear de regressão amostral:
Yî  ˆ1  ˆ2 X i
Yî é um estimador de E Y | X i  , assim como a distância eî  Yi  Yî estima o resíduo e.

Assim, pode-se escrever a função de regressão amostral como:
Yi  ˆ1  ˆ2 X i  eî  Yî  eî
A figura abaixo ilustra as diferenças entre a FRP e FRA:
5
Assim, temos duas questões para responder:

- Como obter ̂1 e ̂ 2 ?
- Após ̂1 e ̂ 2 terem sido obtidos, como podemos fazer inferências sobre os verdadeiros
parâmetros 1 e  2 ?
1.2.3 Premissas clássicas
Para realizarmos inferências sobre 1 e  2 , precisamos fazer algumas suposições sobre a

maneira com que X e e influenciam em Y.
[1]: Yi  1   2 X i  ei , i
Estabelece que, para cada observação i, existe uma relação linear de dependência entre uma
variável explicada observável, Y, uma variável explicativa observável, X e um termo de perturbação
aleatório não observável, e.
Ou seja, o modelo é linear nos parâmetros e nas variáveis.
Um exemplo de modelo não linear nas variáveis é Yi  1   2 X i2  ei , e veremos que alguns
casos desse tipo podem ser resolvidos através do modelo acima.
Tipos de não-linearidade nas variáveis:
Um exemplo de modelo não linear nos parâmetros é Yi  1   2  X i  ei e não veremos

2
esse tipo de modelo.
[2]: Os valores de X são fixados em amostragem repetida;

A idéia é que os valores de X são fixos e se observa os valores de Y correspondentes. Isso
implica que X não é uma variável aleatória.
[3]: E ei | X i   0, i
O valor médio do termo de erro é zero. Isso significa que fatores não incluídos no modelo e,
portanto, agrupados em e, não afetam sistematicamente o valor médio de Y.
[4]: Var ei | X i    2 , i

A variância do resíduo aleatório é constante (homoscedasticidade: variâncias iguais;
heteroscedasticidade: variâncias diferentes).
Desenho da heteroscedasticidade:
6
[5]: Cov ei , e j  = 0, i, j , i  j

É nula a covariância entre os resíduos aleatórios (ausência de autocorrelação).
Intuitivamente, a importância dessa hipótese pode ser explicada do seguinte modo: seja
nossa FRP Yt  1   2 X t  ut , onde u t e u t 1 apresentam correlação. Então, Yt não depende
apenas de X t mas também de u t 1 , que em alguma medida, influencia em ut .
[6]: Cov(Xi, ei) = 0;

A covariância entre o termo de erro e a variável explicativa é nula. Assim, presumimos que
X e e exercem influências separadas em Y. Isso ocorre automaticamente se X é não aleatório.
Por isso, mesmo se X não for aleatório, mas for não correlacionado com e, o modelo é
válido.
[7]: O número de observações (n) deve ser maior que o número de parâmetros a serem estimados;
Ou seja, são necessários no mínimo 2 pares de observações para ajustar o modelo postulado em 1.
[8]: A variável explicativa X assume, no conjunto das observações, valores não todos iguais, ou
seja, a variável X não é constante na amostra.
[9]: O modelo está corretamente especificado (não há viés ou erro de especificação);

Exemplo de erro de especificação: ajustar uma reta a dados que tem comportamento quadrático.
Resulta destas hipóteses que Y é uma variável aleatória que tem, para todo i, média dada por:
E(Yi |Xi) = β1 + β2Xi (Implica de 3)
E variância:
Var(Yi|Xi) = σ2 (Implica de 4)
Assim, β1, β2 e σ2 são os parâmetros, geralmente desconhecidos, da distribuição de Y.
1.3 Estimação dos parâmetros do modelo: Método de Mínimos Quadrados

Ordinários (MQO)
Dentre os diversos métodos existentes para estimar os verdadeiros parâmetros de funções

estatísticas, no contexto da análise de regressão, o método dos mínimos quadrados ordinários
(MQO) é um dos mais populares. Para entender esse método será visto brevemente o princípio dos
mínimos quadrados.
Primeiro, devemos lembrar da definição do resíduo estimado, isto é: eî  Yi  Yî . Ou seja, os
resíduos são a distância entre o ponto observado de Y e a reta estimada.
Queremos determinar a FRA de tal modo que seja tão próxima quanto possível do Y
observado. Para tanto, podemos adotar o seguinte critério: escolher a FRA para que a soma dos
resíduos,
 
 eî   Yi  Yî ,
seja a menor possível. Contudo, esse método pode conduzir a resultados inócuos e dessa forma, é
 
2
Y  Yˆ .
2
preferível adotar o critério da minimização dos quadrados dos resíduos, isto é: 
eˆ  i i i
7
Gráfico: Critério dos mínimos quadrados
Assim, através do cálculo diferencial (ver demonstração em Gujarati) o método de MQO nos
2
fornece as estimativas únicas de 1 e  2 que resultam no menor valor possível de  eî . O
processo de diferenciação resulta na resolução do seguinte sistema de equações normais:
 Yi  nˆ1  ˆ2  X i


 X iYi  ˆ1  X i  ˆ2  X i
2
onde, n é o tamanho da amostra. Resolvendo as equações normais simultaneamente, obtemos:
ˆ2  
X i 
 X Yi  Y    xy
 X 
2 2
i X x
e,
ˆ1  Y  ˆ 2 X ,
onde X e Y são as médias amostrais de X e Y, ou seja, X 

X eY
Y ;
n n
e x e y são as variáveis em formato desvio, ou seja, xi  X i  X e yi  Yi  Y .
1.3.1 Significado de ̂1 e ̂ 2
̂1 : valor estimado para Y quando X = 0

̂ 2 : acréscimo (ou decréscimo) em Y quando X aumenta 1 unidade. Seu sinal indica se a relação
entre X e Y é positiva ou negativa.
8
1.3.2 Precisão ou erro-padrão das estimativas de MQO
As estimativas de MQO são uma função dos dados amostrais. Mas, como os dados tendem a
mudar de amostra para amostra, as estimativas também mudarão. Portanto, é necessária alguma
medida da confiabilidade ou precisão dos estimadores ̂1 e ̂ 2 . Em estatística, a precisão de uma
estimativa é medida pelo seu erro-padrão, que nada mais é do que a raiz quadrada da variância.
Pode ser mostrado que as variâncias e os erros-padrão dos estimadores de MQO podem ser
obtidos por:
1 X 2  1 X2
 
 2ˆ1  Var ˆ1   2   2 
  ˆ1
 Ep ˆ
1   
 
n  x2
 n x 
2 
 
 2ˆ  Var ˆ2  2
  ˆ  Ep ˆ2  
2
x 2
x 2
onde  2 é a variância de ei, segundo a premissa 4, que pode ser estimada através da fórmula:
ˆ
 2  eˆ 2 2 2 ˆ 2 2
, onde  e   y   2  x   y 
ˆ 2
 xy 
2
.
n2  x2
Assim, a partir de uma amostra, podemos estimar as variâncias e erros-padrão dos
estimadores de MQO apenas substituindo  2 por ˆ 2 nas expressões acima:
1 X 2  1 X2
 
ˆ 2ˆ1  var ˆ1  ˆ 2   2 
 ˆ ˆ1
 ep ˆ
1 
 ˆ 
n  x2
 n x 
ˆ 2 ˆ
 
ˆ 2ˆ  var ˆ2  2
 
 ˆ ˆ  ep ˆ2 
2
x 2
x 2
1.3.3 Propriedades dos estimadores de MQO
1. A reta de regressão sempre passa pelas médias amostrais de Y e X:

ˆ1  Y  ˆ 2 X  Y  ˆ1  ˆ 2 X
2. A soma dos resíduos estimados é igual a zero:  eˆ   Y  Yˆ   0 .

i i i
3. Dadas as premissas do MRLS, os estimadores de MQO são os melhores estimadores lineares

não-tendenciosos de seus respectivos parâmetros. Isto significa que:
a. Linear: função linear de Y
b. Não-tendencioso: esperança do estimador é igual ao verdadeiro valor do parâmetro.
c. Têm variância mínima dentre todos os estimadores lineares não-tendenciosos.
4. São consistentes, pois quanto maior o n, menor sua variância, ou seja, maior sua precisão.
9
Exemplo 1. Utilize o método dos mínimos quadrados para estimar a reta de regressão entre número
de pizzarias (Y) e renda (X) per capita, baseado numa amostra observada de cinco cidades.
Interprete os valores do intercepto e coeficiente angular. Estime também as variâncias e erros-
padrão dos estimadores.
i X Y x y x² y² xy
1 8 40
2 4 30
3 6 28
4 12 46
5 15 59
Total
Y versus X (com ajustamento por mínimos quadrados)

60
Y = 16,1 + 2,73X
55
50
45
Y
40
35
30
25
4 6 8 10 12 14
X
10
Exercício 1. A tabela a seguir informa quantas semanas (X) seis pessoas trabalharam em um posto
de inspeção de automóveis e quantos automóveis (Y) cada pessoa inspecionou entre 12hs e 14hs, em
determinado dia.
a) Ajuste o modelo de regressão linear para esses dados, interpretando as estimativas obtidas;
b) Estime as variâncias e erros-padrão dos estimadores.
X Y
2 13
7 19
9 20
1 13
5 16
12 21
11
1.4 Coeficiente de correlação linear de Pearson - r
Supondo que exista algum tipo de relação linear entre as variáveis X e Y na população, uma
medida utilizada para verificar o grau de correlação entre elas é o coeficiente de correlação linear
de Pearson, cujo valor amostral é dado por:
r
 xy
 x2  y2
Este coeficiente tem a propriedade de que:  1  r  1 .
Gráfico: Tipos de correlação
Obs: o verdadeiro valor da correlação linear (populacional, em geral, desconhecido) é representado

pela letra ρ (rô).
Exemplo 2. Calcular e interpretar o coeficiente de correlação linear de Pearson para os dados do

Exemplo 1.
Exercício 2. Calcular e interpretar o coeficiente de correlação linear de Pearson para os dados do

Exercício 1.
12
1.5 Coeficiente de determinação - r2
Apesar de ser diretamente ligado ao coeficiente de correlação, o coeficiente de determinação

possui uma interpretação bastante distinta. É uma medida para verificar a qualidade do ajuste de
uma regressão, ou seja, o quão “bem” a reta de regressão se ajusta aos dados. Quando ajustamos
uma reta, esperamos que os resíduos em torno da linha sejam os menores possíveis. Então, quanto
mais próximos da reta os pontos estiverem, melhor será o grau de ajuste e é essa a informação que o
coeficiente de determinação sintetiza.
Lembrando da FRA Yi  Yî  eî , subtraindo-se a média de Y dos dois lados, tem-se:
i i 
Y  Y  Yˆ  Y  Y  Yˆ
i i 
Elevando ao quadrado ambos os lados e somando ao longo da amostra, obtemos:
 i  i  
Y  Y 2  Yˆ  Y 2  Y  Yˆ 2 i i 
SQT = SQE + SQR
onde SQT é a soma de quadrados total, SQE é a soma de quadrados explicados pela regressão e
SQR é a soma de quadrados de resíduos. Ou seja, a variação total dos valores observados de Y em
torno de sua média pode ser divida em duas partes: uma atribuível à linha de regressão e a outra, a
forças aleatórias porque nem todas as observações de Y se situam sobre a linha.
Gráfico. Decomposição da soma de quadrados total
Definimos agora r2 como:

SQE SQR
r2  ou alternativamente, r 2  1 
SQT SQT
Assim, o r2 determina a proporção (percentual) da variação total de Y explicada pela

variação de X (ou pelo modelo de regressão). Seus limites são: 0  r 2  1 .
13
Fórmulas alternativas:
2 ˆ
r  2
 x2 
2 
 xy 
 
2
  y2   x2  y2
 
A relação entre o coeficiente de correlação e o de determinação é dada por:

r   r2 .
Exemplo 3. Calcule e interprete o coeficiente de determinação para os dados do Exemplo 1.
Exercício 3. Calcule e interprete o coeficiente de determinação para os dados do Exercício 1.
14
1.6 A premissa de normalidade dos resíduos
Para poder fazer inferências sobre os parâmetros do modelo de regressão, devemos fazer
alguma pressuposição sobre a distribuição de probabilidades dos resíduos ei. Geralmente se supõe
que:
[11]: ei ~ NID (0, 2 )
Isso implica que:
 
ˆ1 ~ N 1 , 2ˆ ; 1
ˆ2 ~ N  ,  ;
2
2
ˆ
2
2
ˆ
n  2  2 ~  2n2  e


Yi ~ N 1   2 X i , 2 . 
1.7 Estimação por intervalo
Vimos anteriormente a estimação pontual dos coeficientes de regressão por MQO. Podemos
nos perguntar: até que ponto essas estimativas são confiáveis? Em decorrência de variações
amostrais, uma única estimativa possivelmente será diferente do verdadeiro valor, embora se espere
que, em amostras repetidas, seu valor médio seja igual ao verdadeiro valor. Agora, na estatística, a
confiabilidade de um estimador é medida por seu erro-padrão. Portanto, em vez de nos embasar
apenas na estimativa pontual, podemos construir um intervalo em torno do estimador pontual,
digamos, de dois ou três erros-padrão de cada lado, de tal modo que esse intervalo tenha, digamos,
95% de probabilidade de incluir o verdadeiro valor do parâmetro. Essa é a idéia que está por trás
dos intervalos de confiança.
Não podemos dizer que o verdadeiro valor do parâmetro possui tal probabilidade de estar
contido no intervalo. Ele é um número fixo, então ou está ou não está no intervalo (probabilidade 0
ou 1).
Depois de observarmos a amostra e calcularmos o intervalo para ela, ele deixa de ser aleatório
e passa a ser fixo, e então não podemos mais falar em probabilidade. Trocamos então a palavra
probabilidade por confiança. Assim, dizemos que tal intervalo possui “x” de confiança de conter o
verdadeiro valor do parâmetro.
1.7.1 Intervalos de confiança para os coeficientes de regressão
Pode-se demonstrar que, se  2 conhecida, os coeficientes do modelo distribuem-se

normalmente. E assim, tem-se:
ˆ   i
Z i ~ N 0,1 onde i  1,2 .
 ˆ
i
Contudo, sabemos que a variância raramente é conhecida e devemos estimá-la a partir da

amostra. Assim devemos usar a aproximação da normal pela distribuição t de Student com n-2
graus de liberdade, então:
ˆ   i
t i ~ t n 2 
ˆ ˆ i
15
Podemos estabelecer um intervalo de confiança tal que:

 
P  t   t  t    1  
 n  2; 2 n  2;
2 
Substituindo-se em t, temos
 ˆ   i 
P  t   i t    1
 n  2; 2 ˆ î n  2; 
 2 
e, com algumas manipulações, chega-se a

 
P î  t  ˆ ˆ   i  î  t  ˆ ˆ   1  
n  2; i n  2; i
 2 2 
o qual é o intervalo de confiança para βi, e pode ser escrito mais concisamente como:
 
IC 100  1   % para  i :  î  t  ˆ ˆ  .
n  2; i
 2 
Exemplo 4. Intervalos de 95% de confiança para os coeficientes da regressão do Exemplo 1.
Exercício 4. Calcule e interprete os IC com 90% e 99% para os coeficientes de regressão para os
dados do Exercício 1.
16
1.7.2 Intervalo de confiança para a variância residual
Vimos que a variável
q2 
n  2ˆ 2 ~  2  n 2  .
2

Podemos usar essa variável para estabelecer um intervalo de confiança para a variância
residual da seguinte forma:
 
P  2   q 2   2    1  
n  2;1 n 2;
 2 2 
Substituindo-se em q2 e fazendo-se algumas manipulações, temos:

 
 ˆ 2 ˆ 2 
P n  2 2    n  2 2
2
  1
     
n 2; n  2;1
 2 2 
 
 ˆ 2 ˆ 2 
Ou IC 100  1   % para  : n  2  2
2
; n  2  2 .
   
 n 2; n  2;1 
 2 2 
Exemplo 5. Supondo que temos uma amostra de 10 observações de duas variáveis X e Y, a

variância residual estimada foi 42,1591. O IC de 95% para a verdadeira variância residual é:
Exercício 5. Calcule e interprete os IC com 90% e 99% para a variância residual do Exercício 1.
17
1.8 Testes de hipóteses
O problema do teste estatístico de hipóteses pode ser resumido assim: uma dada observação
ou resultado é compatível com alguma hipótese feita ou não? Assim temos a hipótese nula (H0) que
é testada contra a hipótese alternativa (H1), e decidimos sobre a veracidade ou a falsidade da
hipótese nula através dos resultados amostrais. Ou seja, a teoria do teste de hipóteses cuida da
formulação de regras ou procedimentos a serem adotados para decidir se a hipótese nula deve ser
rejeitada ou não rejeitada. Há duas abordagens complementares para a elaboração dessas regras: o
intervalo de confiança e o teste de significância.
- Teste bilateral ou bicaudal

As hipóteses deste teste são:
 H 0 :  i   i*

 H 1 :  i   i*
onde i  1,2 e  i* é um valor constante de interesse do pesquisador.
Por exemplo, poderíamos estar interessados em testar as seguintes hipóteses:

1. O intercepto do modelo (coeficiente linear) é nulo? Ou, a regressão passa pela origem do sistema
coordenado?
H 0 : 1  0

 H 1 : 1  0
2. A inclinação do modelo (coeficiente angular) é nula? Ou, não existe relação linear entre X e Y?
H 0 :  2  0

H 1 :  2  0
Em ambos os casos acima,  i*  0 .
- Teste unilateral ou unicaudal

Às vezes, temos uma forte expectativa a priori ou teórica de que a hipótese alternativa seja
unilateral. Um exemplo de teste unilateral é:
H 0 :  2  0
 .
H1 :  2  0
Veremos a seguir que um teste de hipótese pode ser realizado através de duas abordagens: a
do intervalo de confiança e a do teste de significância. Por questões de facilidade, veremos testes
unilaterais apenas através da abordagem dos testes de significância.
1.8.1 Abordagem do intervalo de confiança
Regra de decisão: para um nível de significância  , estabeleça um intervalo de confiança de

100  1   % para  i . Se  i* cair dentro do intervalo de confiança, não rejeite H0, caso contrário,
rejeite.
Em estatística, quando rejeitamos a hipótese nula, dizemos que nossos resultados foram
estatisticamente significativos.
18
Exemplo 6: Usando um nível de significância de 5%, teste, através dos intervalos de confiança, as
hipóteses de que o intercepto e o coeficiente angular são diferentes de zero para os dados do
Exemplo 1.
Exercício 6: Usando um nível de significância de 10%, teste, através dos intervalos de confiança, as
hipóteses de que o intercepto e o coeficiente angular são significativamente diferentes de zero para
os dados do Exercício 1.
1.8.2 Abordagem do teste de significância
A rotina de procedimentos para os testes de significância pode ser resumida da seguinte

maneira:
a) Escolhe-se o nível de significância α, em geral 1%, 5% ou 10%;
b) Estabelecer as hipóteses e verificar a forma do teste, isto é, unilateral ou bilateral;
c) Verificar o valor crítico (valor tabelado), que será t n2; para um teste bilateral e t n 2;
2
para um teste unilateral;
d) Calcular o valor amostral da estatística de teste:
ˆ   i*
t i
ˆ ˆ i
e) Decidir conforme a tabela abaixo:
Tipo de hipótese H0 H1 Decisão: rejeitar H0 se

Bicaudal H 0 : i   i
*
H1 :  i   i
*
t  t n2;
2
Cauda direita H 0 : i   i
*
H1 :  i   i
*
t  t n 2;
Cauda esquerda * *
H 0 : i   i H1 :  i   i
t  t n2;
19
Exemplo 7: Usando um nível de significância de 5%, teste, através dos testes de significância, as
hipóteses de que o intercepto e o coeficiente angular são diferentes de zero para os dados do
Exemplo 1.
Exemplo 8: Para os dados do exemplo 1, usando um nível de significância de 5%, teste a hipótese
de que o coeficiente angular é maior que 1.
Exercício 7: Considere os dados do Exemplo 1. Em um censo realizado em uma outra região,

obteve-se 1  15,5 e  2  2,34 . Existe diferença significativa entre as estimativas obtidas no
Exemplo 1 e os valores da outra região, a 5% de nível de significância?
Exercício 8: Considere os dados do Exercício 1. A um nível de significância de 1%, teste as

hipóteses de que o intercepto e o coeficiente angular são maiores que zero.
20
- O valor-p: é definido como o menor nível de significância ao qual a hipótese nula pode ser
rejeitada. Só pode ser calculado exatamente através de métodos computacionais.
A relação entre o valor-p e o nível de significância é: se valor-p <  , rejeita-se H0, caso
contrário não se rejeita.
1.9 Previsão
Um dos principais objetivos da análise de regressão é “prever” valores de Y com base em

valores conhecidos de X. Há dois tipos de previsão:
1. Previsão para a estimativa média de Y dado X=X0: Exemplo: Estimar o consumo médio de pizza
para cidades com renda igual a 7.
Yˆ0  estimador de E Y | X  X 0   ˆ1  ˆ2 X 0
2. Previsão para a estimativa individual de Y dado X=X0: Exemplo: Estimar o consumo de pizza
para uma cidade com renda igual a 7.
Yˆ0  estimador de Y | X  X 0   ˆ1  ˆ2 X 0
1.9.1 Intervalo de confiança para a estimativa média de Y, dado X = X0
   1 ( X  X )2 
IC 100  1   % para E Y | X  X 0  : Yˆ0  t  ˆ m  e ˆ m2  ˆ 2   0 2 
n  2; n  x 
 2  
Exemplo 9. Calcular um intervalo com 95% de confiança para o valor médio de Y, quando X = 100,
para a regressão Yˆ  24,4525  0,5091X , obtida de uma amostra de 10 observações, com X  170 ,
 x 2  33.000 e ˆ 2  42,159 .
21
1.9.2 Intervalo de confiança para a estimativa individual de Y, dado X = X0
   1 ( X  X )2 
IC 100  1   % para Y | X  X 0  : Yˆ0  t  ˆ i  e ˆ i2  ˆ 2 1   0 2 
 n
 n  2;
2    x 
Exemplo 10. Calcular um intervalo com 95% de confiança para o valor individual de Y, quando X =
100, para a regressão do Exemplo 9.
Alguns cuidados em relação à previsão:

1. Quanto mais afastados da média dos valores observados na amostra for a estimativa,
menos precisão haverá.
2. Ao extrapolar as estimativas para valores fora do intervalo dos dados amostrais, não
existem garantias de que a relação entre as variáveis manterá o mesmo padrão
observado na amostra.
Exercício 9. Calcular os intervalos com 90% de confiança para a estimativa média e individual de Y
dado que X = 10 para os dados do Exercício 1.
22
1.10 Análise de Variância – ANOVA
Um método complementar para o estudo da análise de regressão é a análise de variância. A

ANOVA verifica se o modelo estimado possui algum grau de explicação sobre a variável resposta.
No caso de apenas duas variáveis (ou seja, MRLS), esse método é equivalente ao teste t para testar
se o coeficiente angular do modelo é nulo, isto é:
H 0 :  2  0

H 1 :  2  0
Como já mencionado, é possível particionar as somas de quadrados da seguinte forma:

2
 Y  Y    Yˆ  Y   Y  Yˆ
2
i  2
i   i i 
SQT = SQE + SQR
Ou seja:
SQT: soma de quadrados total, com (n-1) g.l.;
SQE: soma de quadrados explicada pela regressão, com 1 g.l.;
SQR: soma de quadrados dos resíduos, com (n-2) g.l..
As somas de quadrados também podem ser calculadas através das seguintes expressões:
SQT   Yi  Y    yi2
2
   ˆ  x
SQE   Yî  Y
2 2
2
2
i
SQR   Y  Yˆ    eˆ   y
2 2 2
 ˆ 2 2
 xy  2
2
i i i 2 x   y  x 2

A ANOVA utiliza essa relação entre as somas de quadrados é geralmente resumida e
analisada através da seguinte tabela:
ANOVA
Causas de Variação GL SQ QM F
Devida à regressão 1 ˆ 2
2 x 2
i ˆ22  xi2 QME
QME  QMR
1
Devido aos resíduos n-2  eˆ i
2 2
 eî  ˆ 2
QMR 
n2
Total n-1 y 2
i
O valor da estatística F tem 1 g.l. no numerador e n-2 g.l. no denominador, ou seja:

F ~ F(1;n-2)
Regra de decisão: Se F  F ;1;n2  , rejeita-se H0, caso contrário não se rejeita.
No caso de apenas duas variáveis, deve-se observar que a relação entre as estatísticas t e f é
t2  f .
23
Exemplo 11. Utilizando os dados do Exemplo 1, construa a tabela da análise de variância e analise
os resultados, considerando um nível de significância de 5%.
1.10.1 Teste de significância para o coeficiente de determinação
Alternativamente, pode-se observar que o teste F para testar a significância global do

modelo também pode ser visto como um teste de significância para o coeficiente de determinação
r2, isto é, se o coeficiente de determinação é nulo ou não:
 H 0 :  2  0
 2
 H1 :   0
Através de manipulações algébricas, a tabela ANOVA pode ser re-escrita em termos desse
coeficiente da seguinte forma:
ANOVA
CV GL SQ QM F
Regressão 1 r 2
 y  2
i 
r  y i2 1
2
 n  2r 2

1 r2 
Resíduos n-2 1  r  y  1  r  y  n  2
2 2
i
2 2
i
Total n-1 y 2
i
Exemplo 12. Refazer a tabela de análise de variância do exemplo 11 em termos do coeficiente de

determinação.
24
Exercício 10.
a) Faça a ANOVA para os dados do Exercício 1 e analise os resultados.
b) Refaça a ANOVA em termos do coeficiente de determinação e compare os resultados com o item
a).
1.11 Regressão pela origem
Em algumas situações, a FRP de duas variáveis assume a seguinte forma:

Yi   2 X i  ei
Nesse modelo, o termo do intercepto está ausente ou é nulo. Aplicando então o método de
MQO, obtemos as seguintes fórmulas para ̂ 2 e sua variância:
ˆ2 
 XY , ˆ 2ˆ  ˆ 2 , ˆ 2   eˆ 2 , 2 2
 XY  2
 eˆ  Y  X 2
 X 2 2  X 2 n 1 
A primeira diferença entre o modelo de regressão pela origem e o modelo com intercepto é
que as fórmulas para o primeiro envolvem somas brutas das variáveis, e não no formato desvio.
A segunda diferença são os graus de liberdade, que passam a ser n – 1.
Outra diferença é que, no modelo com intercepto  eî  0 , já na regressão pela origem, isto
nem sempre acontece.
Além disso, o r2 conforme definido anteriormente pode ser negativo nos modelos com
intercepto ausente. Portanto, ele não pode ser usado diretamente nesse caso e também é necessário
ajustar os cálculos, obtendo o que se chama de r2 bruto, definido como:
r 2

 XY 
2
.
bruto 2 2
 X Y
O r2 bruto está sempre entre 0 e 1, mas não pode ser comparado diretamente ao valor do r2
convencional.
Em decorrência das características especiais deste modelo, é preciso ter grande cautela ao
empregá-lo. A menos que exista uma expectativa a priori muito forte, seria preferível ater-se ao
modelo com intercepto.
Exemplo 13. Ajustar o modelo de regressão pela origem aos dados do Exemplo 1, calcular o r2
bruto e testar a hipótese de que existe influência linear de X em Y, para uma significância de 5%.
25
Exercício 11. Ajustar o modelo de regressão pela origem aos dados do Exercício 1, calcular o r2
bruto e testar a hipótese de que existe influência linear de X em Y, para uma significância de 5%.
1.12 Formas funcionais dos modelos de regressão
Trabalhamos até agora com um modelo linear nos parâmetros e nas variáveis. Entretanto,
alguns modelos de regressão bastante usados não são lineares nas variáveis, mas o são nos
parâmetros. Esses modelos podem ser tornados lineares por meio de transformações nas variáveis.
1.12.1 Modelo Log-Linear ou Log-Log

Modelo de Regressão Exponencial:
Yi  1 X i 2 expei 
Este modelo pode ser expresso como:

ln Yi   ln  1    2 ln X i   ei
Se escrevermos   ln1  , temos o modelo log-linear, que é linear nos parâmetros mas não
nas variáveis:
ln Yi      2 ln X i   ei
Se fizermos, Yi*  lnYi  e X i*  ln X i  , teremos o MRLS Yi*     2 X i*  ei , que pode ser
estimado por MQO.
A utilidade desse modelo é que  2 mede a elasticidade de Y em relação a X, isto é, a
variação percentual de Y correspondente a variação de 1% em X. Assim, se Y representa a
quantidade demandada de um bem e X seu preço unitário,  2 mede a elasticidade preço da
demanda.
Desenhos:
No modelo de 2 variáveis, para verificar se o modelo log-linear se ajusta aos dados, traça-se
o diagrama de dispersão de lnYi  contra ln X i  e verifica-se se os pontos se aproximam de uma
reta.
1.12.2 Modelos semilogarítmicos Log-Lin e Lin-Log
- Modelo Log-Lin
Muitas vezes é interessante conhecer a taxa de crescimento de algumas variáveis como
população, PNB, etc. Imagine que desejamos conhecer a taxa de crescimento de uma população no
período t. Denotemos por Yt a população no final do período e Y0 no início do período.
26
Recordando a fórmula de juros compostos, temos que:

Yt Y 0 1  r 
t
Onde r é a taxa de crescimento de Y. Aplicando-se o logaritmo natural nos 2 lados da equação

temos que:
ln Yt   ln Y0   t ln 1  r 
Agora, fazendo 1  lnY0  e  2  ln1  r  , temos:

lnYt   1   2 t .
Incluindo o termo de erro temos o modelo log-lin:

lnYt    1   2 t  et
que pode ser analisado por MQO fazendo-se Yt*  ln Yt  .

Se multiplicarmos  2 por 100 temos a taxa de crescimento de Y.
- Modelo Lin-Log:
No modelo anterior (Log-lin) queremos conhecer o crescimento percentual de Y para uma
variação absoluta em X. O modelo Lin-log serve para conhecermos a variação absoluta em Y para
uma variação percentual em X. Assim,
Yi  1   2 ln X i   ei
que pode ser analisado por MQO fazendo-se X i*  ln X i  .

Dividindo-se  2 por 100 tem-se a variação absoluta de Y dada uma variação de 1% em X.
Uma das aplicações deste modelo são os modelos de despesas de Engel, que verificou que
“o total de despesas com alimentação tende a aumentar em PA enquanto as despesas totais
aumentam em PG”.
1.12.3 Modelos Recíprocos (Inversos)

São do tipo:
 1 
Yi  1   2    ei
 Xi 
 1 
Se fizermos X i*    , podemos utilizar MQO.
 Xi 
Este modelo pode assumir formas como (desenhos):
27
Como ilustração pode-se pensar em ajustar um modelo onde a variável dependente é

mortalidade infantil de vários países, e a variável independente é o PNB per capita de cada um.
Espera-se que, quanto maior o PNB per capita, menor a mortalidade, mas esta relação não é uma
linha reta. Quando PNB aumenta, no início há uma redução substancial da mortalidade, mas depois
a queda ameniza.
Uma das aplicações deste modelo é a curva de Phillips, da macroeconomia.
Exemplo 14: Na tabela a seguir, tem-se parte de um conjunto de dados que mostra as despesas com
serviços por trimestre, no período de 1993 até o 3° trimestre de 1998.
Ano-trimestre t Desp. Serv. (Y) Y*=ln(Y)
1993-I 1 2445,3 7,802
1993-II 2 2455,9 7,806
1993-III 3 2480,0 7,816
1993-IV 4 2494,4 7,822
... ... ... ...
1998-I 21 2829,3 7,948
1998-II 22 2866,8 7,961
1998-III 23 2904,8 7,974
Ajustar um modelo log-lin onde a variável independente é t, e a variável dependente é Y é o

mesmo que ajustar um MRLS onde a variável independente é t e a variável dependente é Y*.
Fazendo isso se obtém a equação Yˆt*  7,7890  0,00743t , isso indica que em um período
que vai do 1° trimestre de 1993 até o 3° trimestre de 1998, as despesas com serviços aumentaram a
uma taxa trimestral de 0,743%.
Exercício 15. Os dados a seguir mostram as despesas com propaganda (X), expressas em
percentagem das despesas totais, e o lucro operacional líquido (Y), expresso em percentagem do
total de vendas, em uma amostra de seis drogarias.
X Y
1,5 3,6
1,0 2,8
2,8 5,4
0,4 1,9
1,3 2,9
2,0 4,3
a) Ajuste a reta de mínimos quadrados que permita predizer o lucro operacional líquido em termos
das despesas com propaganda.
b) Calcule o coeficiente de correlação e interprete.
c) Qual o grau de ajuste do modelo? Interprete.
d) Teste a hipótese nula β2  1,6 contra a hipótese β2 < 1,6, ao nível de 0,01 de significância.
e) Construa um intervalo de 99% de confiança para β2.
f) Construa um intervalo de 90% de confiança para a variância residual.
g) Construa um intervalo de 95% de confiança para o lucro operacional líquido médio quando as
despesas com propaganda são de 2,5% da despesa total.
h) É possível utilizar o modelo ajustado para prever o lucro quando as despesas são iguais a 5%?
i) Ajuste um modelo de regressão que passe pela origem do sistema coordenado.
28
2 MODELO DE REGRESSÃO LINEAR MÚLTIPLA (MRLM)
A teoria econômica raramente é simples a ponto de explicar o comportamento da variável de

interesse com base na informação de apenas uma outra variável explicativa. Dessa forma,
ampliaremos o que já foi discutido para o caso de mais de uma variável independente. O mais
simples caso de regressão múltipla possui três variáveis, sendo duas explicativas e uma resposta, de
forma que a FRP do modelo de três variáveis é dada por:
Yi  1   2 X 2i  3 X 3i  ei
Generalizando quando temos k variáveis:
Yi  1   2 X 2i   3 X 3i     k X ki  ei , com i = 1, 2, ..., n.
Nesse modelo:
- As k-1 variáveis explicativas são X2, X3, ..., Xk, e Y é a variável dependente ou explicada;
- Os ei são os erros aleatórios (resíduos) que seguem as hipóteses clássicas;
- β1 é o intercepto;
- Os coeficientes parciais de regressão, desconhecidos, são β2, β3, ..., βk.
2.1 Significado dos parâmetros do modelo

- β1 é o valor médio de Y quando X2 = X3 = ... = Xk = 0
- β2, β3, ..., βk: βi mede a variação de Y, por uma unidade de variação em Xi, mantendo-se as demais
variáveis constantes (ceteris paribus).
2.2 Notação matricial do MRLM

A grande vantagem da álgebra matricial sobre a álgebra escalar é que ela oferece um método
compacto para lidar com modelos de regressão envolvendo qualquer número de variáveis; uma vez
formulado o modelo, a solução se aplica a uma, duas ou qualquer número de variáveis.
Seja a FRP para o modelo de k variáveis. Essa equação é uma expressão abreviada do
seguinte conjunto de n equações:
Y1   1   2 X 21   3 X 31     k X k1  e1
Y2   1   2 X 22   3 X 32     k X k 2  e2
...
Yn   1   2 X 2 n   3 X 3n     k X kn  en
Em notação matricial, esse conjunto pode ser escrito como:
Y1  1 X 21  X k1   1   e1 
Y  1 X  X k 2    2  e2 
 2   22

            
      
Yn  1 X 2 n  X kn   k  en 
   
Y X β e
29
Assim, a FRP sob a forma matricial é então representada por:

Y  Xβ  e
onde:
Y: é o vetor coluna de dimensão (n x 1) de valores observados;
X: é a matriz (n x k) de valores observados para as variáveis explicativas;
β : é o vetor (k x 1) de parâmetros desconhecidos;
e : representa o vetor (n x 1) de perturbações (erros) aleatórias.
Obs: as notações negrito representam formas matriciais.
2.3 Premissas do MRLM

[1]: Y  Xβ  e ;
[2]: E (e)  0 ;
[3]: E (ee' )   2 I n , sendo In a matriz identidade de ordem n (hipótese de ausência de
heteroscedasticidade ou autocorrelação serial);
E (ee' ) é a chamada matriz de variâncias e covariâncias dos resíduos aleatórios. Os
elementos na diagonal principal dessa matriz são as variâncias, e os elementos fora da diagonal
principal são as covariâncias.
[4]: a matriz X é não aleatória, isto é, consiste em um conjunto de números fixos;
[5]: a raiz característica, ou posto de X é k < n (hipótese de ausência de multicolinearidade);
Isto significa que as colunas da matriz X são linearmente independentes, ou seja, não há uma
relação linear exata entre as variáveis X.
[6]: para realizarmos inferências, é necessário supor que e ~ N 0; 2 I n .  
2.4 Método dos mínimos quadrados ordinários (MQO)

Seja a FRA de k variáveis:
Yi  ˆ1  ˆ 2 X 2i  ˆ3 X 3i    ˆ k X ki  eî  Yî  eî ,
que pode ser escrita em notação matricial como:

Y  Xβˆ  eˆ  Y
ˆ  eˆ .
Da mesma forma que no modelo de duas variáveis, os estimadores de MQO podem ser
obtidos através da minimização da soma dos quadrados dos resíduos, isto é:
 eˆ i
2

  Yi  ˆ1  ˆ 2 X 2i  ˆ3 X 3i    ˆ k X ki 
2
.
Em notação matricial, isto equivale a minimizar eˆ ' eˆ , pois:
 eˆ1 
eˆ 
eˆ ' eˆ  eˆ1  e n    eˆ1  eˆ2    eˆn   eî
2 2 2 2 2
eˆ2 ˆ

 
eˆn 
30
A aplicação desse método conduz ao vetor de estimadores de mínimos quadrados dos

coeficientes de regressão:
βˆ  X' X  X' Y
1
As matrizes X' X e X' Y são dadas por:
 n

X 2i X 3i  X ki 

  Yi 
 
2
 X 2 i X 2i X X 2i 3i  X X
2i ki   X 2i Yi 
2
X' X   X 3i X X 2i 3i X 3i  X X
3i ki
 e X'Y    X 3i Yi  .
   
         
 X 2   X Y
  ki X 2i X ki X 3i X ki   ki 
X   ki i 
Obs: Métodos para inverter uma matriz

1) Cofatores
Queremos determinar a inversa da matriz A, ou seja, A-1. Para isso devemos fazer:
1. Achar o det(A);
2. Obter a matriz de cofatores C, lembrando que: cij   1 M ij , onde Mij é o menor do
i j
elemento da linha i e coluna j, obtido suprimindo-se a linha i e coluna j.

3. Fazer a transposta da matriz de cofatores, C’;
4. Dividir cada elemento de C’ por det(A).
1
Em resumo: A 1  C' .
det(A)
2) Escalonamento
Escreve-se a matriz identidade do lado da matriz que se quer inverter. Fazem-se operações
lineares nas linhas até que a primeira matriz se torne a identidade.
2.4.1 Variâncias dos estimadores de MQO

Demonstra-se que

Var βˆ   2 X' X  ,
1
que é a matriz de variâncias e covariâncias dos estimadores de MQO, que só e conhecida se  2 for
conhecido.
Entretanto, a variância residual pode ser estimada por:
eˆ ' eˆ Y' Y  βˆ ' X' Y
ˆ 2   ,
nk nk
onde Y' Y   Yi 2 .
Assim, as variâncias estimadas dos estimadores de MQO são:

ˆ 2ˆ  ˆ 2 aii , i
1
onde aii é o elemento da linha i, coluna i, da matriz X' X  .
Demonstra-se que o vetor β̂ é um estimador linear, não-tendencioso e de variância mínima.
31
Exemplo 1. Uma empresa de tele-entrega quer estimar o tempo que seus funcionários devem levar
até que retornem com uma lista de tarefas concluída. Assim, coletou o tempo de viagem (Y), a
quantidade de km percorridos (X2) e o número de entregas (X3) de cinco de seus moto-boys. Com
os dados a seguir, estime o modelo de regressão linear múltipla, bem como os erros-padrão dos
estimadores.
i Y X2 X3 Y² X2² X3² X2Y X3Y X2X3

1 9,3 100 4
2 4,8 50 3
3 8,9 100 4
4 6,5 100 2
5 4,2 50 2
Total
32
Exercício 1. Seja a amostra abaixo. Estime o MRLM de três variáveis, bem como as variâncias e
erros-padrão dos estimadores.
Y X2 X3
5 1 1
6 2 1
7 3 2
8 4 2
8 5 2
2.5 Coeficiente múltiplo de determinação: R2

No modelo de k variáveis, o coeficiente de determinação mede a proporção da variação em Y
explicada conjuntamente por todas as variáveis X. Assim, no MRLM o coeficiente múltiplo de
determinação R2 é definido como:
2
2 βˆ ' X' Y  n Y SQE e' e SQR
R  2
 1 2
1
Y' Y  nY SQT Y' Y  nY SQT
Obs.: No modelo de duas variáveis definimos o coeficiente de correlação (r) como uma medida do
grau da relação entre as variáveis. No caso de três ou mais variáveis, há um coeficiente análogo, o
coeficiente de correlação múltipla ( R  R 2 ), que mede a associação entre Y e todas as variáveis
explanatórias em conjunto. Embora r possa ser positivo ou negativo, R sempre será positivo (pois
nem todas as variáveis explicativas podem ter relação no mesmo sentido com a variável resposta).
Na prática, porém, R tem pouca importância. A quantidade mais significativa é R2.
2
2.6 Coeficiente múltiplo de determinação ajustado: R
Uma propriedade importante do R2 é que ele é uma função não-decrescente do número de
variáveis explicativas. O R2 quase invariavelmente aumenta e nunca diminui quando o número de
regressores aumenta.
Em vista disto, ao comparar dois modelos de regressão com a mesma variável dependente,
mas com número diferente de variáveis X, deveríamos escolher o modelo com o R² mais alto. Para
comparar dois termos R², é preciso levar em conta o número de variáveis X presentes no modelo.
Isto pode ser feito se considerarmos o coeficiente múltiplo de determinação ajustado, que é dado
por:
SQR
n 1
R2  1 n  k  1 1 R2
SQT
nk

n 1
O R 2 pode ser negativo, e neste caso, na prática, seu valor será tomado como zero.
Obs.: o R 2 , não é a única forma de correção do R2 e nem a única medida para julgar a adequação
de um modelo de regressão, outras medidas conhecidas são o R2 Modificado, o critério de
Informação de Akaike e os critérios de Predição de Amemiya.
33
Exemplo 2. Cálculo do R2, R 2 para os dados do Exemplo 1.
Exercício 2. Cálculo do R2, R 2 para os dados do Exercício 1.
2.7 Coeficiente de correlação parcial

Na regressão linear múltipla, podemos ter um coeficiente de correlação para cada par de
variáveis do modelo. Por exemplo, no modelo de três variáveis, têm-se r12, r13 e r23. Esses
coeficientes são denominados de coeficientes de correlação simples, ou de ordem zero. Eles podem
ser calculados conforme a fórmula:
 xy  n XY   X  Y 
r
 x 2  y 2 [n X 2   X 2 ][nY 2  Y 2 ]
Seja o coeficiente r12. Ele não refletirá o verdadeiro grau de associação entre Y e X2 na
presença de X3, pelo fato que X3 provavelmente influencia em Y e X2. Para obter um coeficiente de
correlação que reflita o verdadeiro grau da relação entre duas variáveis na presença das demais, é
necessário manter a influência das demais variáveis constante. Assim, no modelo com três
variáveis, denota-se:
r12.3: coeficiente de correlação parcial entre Y e X2, mantendo X3 constante;
r13.2: coeficiente de correlação parcial entre Y e X3, mantendo X2 constante;
r23.1: coeficiente de correlação parcial entre X2 e X3 mantendo Y constante.
As fórmulas de cálculo são:

r12  r13 r23 r13  r12 r23 r23  r12 r13
r12.3  ; r13.2  e r23.1 
1  r132 1  r232  1  r 1  r 
2
12
2
23
1  r 1  r 
2
12
2
13
r12.3, r12.3 e r12.3 são os coeficientes de primeira ordem. Se houvessem mais variáveis no
modelo, ocorreriam também coeficientes de correlação de segunda ordem (r12.34), terceira ordem
(r12.345) e assim por diante.
34
2.8 Coeficiente de determinação parcial
Os coeficientes de determinação parciais expressam o grau de explicação que cada variável

exerce sobre as demais, mantendo constante todos os outros fatores, ou seja:
r122 .3 : o coeficiente de determinação parcial entre Y e X2 é a proporção da variação em Y não
explicada pela variável X3 que foi explicada pela inclusão de X2 no modelo.
Os coeficientes de determinação parciais são obtidos simplesmente tomando-se o quadrado
dos coeficientes de correlação parciais correspondentes.
Existe as seguintes relações entre esses coeficientes e R²:
r 2  r 2  2r r r
R 2  12 13 2 12 13 23
1  r23
 
R 2  r122  1  r122 r132 .2
2
R r 2
13  1  r r
2
13
2
12.3
Então, R 2  r122 desde que r132 .2  0 . Ou seja, R2 sempre cresce com a inclusão de uma nova
variável, a menos que r132 .2  0 , onde teríamos R 2  r122 .
Exemplo 3. Dados r12 = 0,8822, r13 = 0,8089 e r23 = 0,4564 para o Exemplo 1, calcular e interpretar
os coeficientes de determinação parciais.
Exercício 3. Ao se ajustar um modelo de três variáveis, encontrou-se r12 = 0,3048, r13 = 0,1391 e
r23=-0,7043. Calcule e interprete os coeficientes de determinação parciais.
2.9 Intervalo de confiança e teste de significância individual para os coeficientes

de regressão
 
Para podermos realizar inferências, supomos que e ~ N 0;  2 I n . Isso implica que, sob as
hipóteses clássicas, β̂ tem distribuição normal multivariada, isto é:

βˆ ~ N β;  2 X' X 
1

35
E cada β̂i tem distribuição marginal também normal:

βˆ ~N β ; σ 2 a
i  i ii 
com aii sendo o elemento da i-ésima linha e i-ésima coluna de (X’X)-1.
Sendo  2 desconhecido, tem-se que:
ˆ   i*
t i ~ t n  k 
ˆ ˆ i
2 2 2
com ˆ ˆ
 σ a ii e ˆ ˆ  σ a ii .
i i
Assim, o intervalo de confiança para cada coeficiente de regressão é dado por:

 
IC 100  1   % para  i : î  t  ˆ ˆ 
nk ; i
 2 
Além disso, utilizamos o procedimento idêntico do teste de hipóteses para o modelo de duas
variáveis para testar a significância individual dos coeficientes.
Por exemplo, seja o modelo de 3 variáveis. Poderia ser interessante testar as hipóteses
H 0 :  2  0

H 1 :  2  0 .
Neste caso, estaríamos avaliando se X2 tem alguma influência linear sobre Y, mantendo-se
X3 constante.
A tabela abaixo nos dá a área de rejeição de cada teste:
Tipo de hipótese H0 H1 Decisão: rejeitar H0 se

Bicaudal H 0 : i   i
*
H1 :  i   i
*
t  t n k ;
2
Cauda direita H 0 : i   i
*
H1 :  i   i
*
t  t nk ;
Cauda esquerda * *
H 0 : i   i H1 :  i   i
t  t n k ;
2.10 Intervalo de confiança para a variância residual
Na regressão múltipla, sabe-se que

n  k ˆ 2 ~  2 n  k  .
2
Assim, o intervalo de confiança para a variância residual é:
 
2  ˆ 2 ˆ 2 
IC 100  1   % para  : n  k  2 ; n  k  2 .
   
 nk ; n  k ;1 
 2 2 
Exemplo 4. Teste se os coeficientes do modelo de regressão estimado no Exemplo 1 são

significativamente diferentes de zero, para um nível de significância de 5%. Além disso, construa os
intervalos de 95% de confiança para os coeficientes de regressão e para a variância residual.
36
Exercício 4.
a) Teste se os coeficientes do modelo de regressão estimado no Exercício 1 são significativamente
diferentes de zero, para um nível de significância de 5%.
b) Construa um IC de 90% para o coeficiente de X2 e teste se ele é diferente de 1.
c) Teste, a 5% de significância, se o intercepto é maior que 2.
2.11 Teste da significância geral da regressão (ANOVA)
No teste individual, trabalhamos separadamente com a hipótese de que cada verdadeiro

coeficiente parcial de regressão era zero. Mas vejamos agora a seguinte hipótese:
H 0 :  2  3     k  0
Esta hipótese não pode ser testada fazendo-se um teste de significância para cada coeficiente
parcial. Isto porque, se para cada teste adotamos um nível de significância  (probabilidade de erro
tipo I), a probabilidade de erro tipo I de todos os testes simultaneamente é maior que  .
Entretanto, através da ANOVA, podemos testar as hipóteses abaixo de uma única vez:
H 0 :  2   3     k  0

 H 1 : ao menos um dos  i é diferente de zero.
A tabela de ANOVA para o modelo de k variáveis é:
CV GL SQ QM F
^ 2 SQE QME
Regressão k-1 β' X' Y  nY k 1 QMR
^ SQR
Resíduos n-k Y ' Y  β ' X' Y nk
2
Total n-1 Y ' Y  nY
Demonstra-se que a estatística F segue distribuição F de Snedecor com k-1 g.l. no

numerador e n-k g.l. no denominador, ou seja:
F ~ F(k-1;n-k)
Regra de decisão: Se F  F ;k 1;n k  , rejeita-se H0, caso contrário não se rejeita.
Pode-se reescrever a tabela de ANOVA em termos do coeficiente múltiplo de determinação,

R²:
CV GL SQ QM F
n  k R 2
Regressão k-1 
R 2 Y' Y  nY
2
 SQE
k 1 
k  1 1  R 2 
Resíduos n-k 1  R Y' Y  nY
2 2
 SQR
nk
2
Total n-1 Y ' Y  nY
37
Novamente, a ANOVA serve para testar também as hipóteses:

 H 0 :  2  0
 2
 H1 :   0
onde  2 é o coeficiente múltiplo de determinação populacional.
Exemplo 5. Construir a ANOVA, estabelecer as hipóteses e proceder ao teste F, a 5% de

significância, para os dados do Exemplo 1.
Exercício 5. Construir a ANOVA, estabelecer as hipóteses e proceder ao teste F, a 5% de

significância, para os dados do Exercício 1.
38
2.12 Contribuição marginal ou incremental de uma variável explicativa
Seja um modelo de três variáveis. Imagine que façamos a inclusão seqüencial de X2 e X3,
isto é, primeiro fazemos a regressão entre Y e X2 e avaliamos sua significância e então
acrescentamos X3 ao modelo para verificar se este contribui com algo (obviamente, a ordem de
entrada pode ser invertida). Com contribuição, queremos dizer que desejamos saber se a inclusão da
variável no modelo aumenta a SQE (e, por conseqüência, R²) “significativamente” em relação à
SQR. Essa é a contribuição marginal ou incremental de uma variável explicativa.
A questão da contribuição marginal é importante na prática. Na maioria das pesquisas, o
pesquisador pode não estar totalmente convencido de que valha a pena acrescentar uma variável X
ao modelo sabendo que várias outras variáveis X já estão presentes no modelo. Não se quer incluir
variáveis que contribuam muito pouco para a SQE. Contudo, também não se quer excluir variáveis
que aumentem substancialmente a SQE. Mas como decidir se uma variável X reduz
significativamente a SQR? A técnica da ANOVA pode ser empregada para responder essa pergunta.
Primeiramente, fazemos a regressão entre Y e X2, produzindo a tabela de ANOVA abaixo:
CV GL SQ QM
Regressão (devido a X2) 1 Q1=SQE QME
Resíduos n-2 SQR QMR
Total n-1 SQT
Após, acrescentamos X3, e produzimos outra tabela de ANOVA:
CV GL SQ QM
Regressão (devido a X2 e X3) 2 Q3=SQE QME
Resíduos n-3 Q4=SQR QMR
Total n-1 Q5=SQT
Combinando estas duas tabelas, obtemos:
CV GL SQ QM F
Regressão (devido a X2) 1 Q1 Q1 /1
Regressão (devido a X3) 1 Q2 = Q3 – Q1 Q2 /1 (n-3)Q2 /Q4
Regressão (devido a X2 e X3) 2 Q3 Q3 /2
Resíduos n-3 Q4 = Q5 – Q3 Q4 /(n-3)
Total n-1 Q5
A estatística F segue distribuição F com “1” e “n-3” graus de liberdade. Se seu valor for
maior que F ;1;n 3  , concluímos que o acréscimo de X3 ao modelo aumenta significativamente a
SQE, e portanto, R². Assim, deve-se acrescentar X3 ao modelo.
Este teste também poderia ser reformulado em termos dos valores R²:
F
R 2
novo 
 R 2 velho n de novos regressores
.
1  R 2
novo  n  n de parâmetros do novo modelo
Observação: o mesmo procedimento poderia ser usado para testar a adição de um grupo de
variáveis simultaneamente, com as devidas correções dos graus de liberdade.
39
Exemplo 6. Para se estudar o comportamento do consumo pessoal nos EUA em certo período,
observou-se as variáveis despesa de consumo pessoal (Y), renda pessoal disponível (X2) e tempo
medido em anos (X3). Observou-se 15 anos (1956 a 1970).
Primeiramente, regrediu-se Y contra X2, obtendo-se os seguintes resultados:
Yî  12,762  0,8812 X 2i

t  2,7259 77,2982
R ²  0,9978 R ²  0,9977
CV GL SQ QM F
Regressão 1 65898,2353 65898,2353 5947,494
Resíduos 13 144,0340 11,0800
Total 14 66042,2693
Ao se incluir X3 no modelo, obteve-se:
Yî  53,1603  0,7266 X 2i  2,7363 X 3i

t  4,0811 14,9060 3,2246
R ²  0,9988 R ²  0,9986
CV GL SQ QM F
Regressão 2 65965,1000 32982,5500 5129,319
Resíduos 12 77,1693 6,4302
Total 14 66042,2693
Testar se vale a pena acrescentar X3 ao modelo, para 5% de nível de significância.
40
Exemplo 7. Seja um conjunto de dados com 20 observações e 3 variáveis independentes (X2, X3 e

X4). Em um primeiro momento, ajustou-se a regressão entre Y e X2, obtendo-se R² = 0,7111. Após,
ajustou-se o modelo com todas as variáveis independentes, obtendo-se R² = 0,7913. Testar se o
acréscimo de X3 e X4 aumentou significativamente a SQE, a 5%.
Exercício 6. Com os dados do Exemplo 1, construa a tabela ANOVA para analisar se a inclusão de
variável X3 na regressão que já possui X2 é significativa a 5% e interprete o resultado.
2.13 Previsão no MRLM
No contexto de previsão de valores da variável dependente, temos novamente 2 tipos de

previsão: média e individual.
Dado o vetor de valores das variáveis X para os quais queremos prever Y:
X '0  1 X 02 X 03  X 0 k  ,
desejamos prever
Yˆ0  ˆ1  ˆ2 X 02  ˆ3 X 03    ˆk X 0 k
que, na forma matricial, é o mesmo que

Yˆ0  X '0 βˆ .
Este é o valor estimado para Y tanto na previsão média como individual. A diferença está
nas variâncias para os dois tipos de previsão:
Previsão da média: ˆ m2  ˆ 2 X '0 X' X1 X 0

Previsão individual: 
ˆ i2  ˆ 2 1  X '0 X' X1 X 0 
Conseqüentemente, os intervalos de confiança para essas previsões, são:
 
IC para previsão média: IC 100  1   % para E Y | X  X 0  : Yˆ0  t  ˆ m 
nk ;
 2 
 
IC para previsão individual: IC 100  1   % para Y | X  X 0 : Yˆ0  t  ˆ i 
n k ;
 2 
41
Exemplo 8. No Exemplo 1, a empresa quer saber quanto tempo deveria esperar em média para que
um moto-boy retorne de uma tarefa com 3 entregas e 80km a percorrer. Calcule o IC 99% para
E(Y|X=X0).
Exercício 7. Para o Exemplo 1, construa um intervalo com 95% de confiança para o tempo médio
que a empresa deve esperar no caso de um moto-boy sair com 4 entregas e 70km a percorrer.
2.14 Modelo de regressão polinomial
Suponha que desejamos relacionar custo marginal de produção (Y) com quantidade
produzida (X). Poderíamos ajustar uma parábola a esta relação, como abaixo:
O modelo que expressa essa relação é dado por:

Yi   0  1 X i   2 X i2  ei ,
que é a regressão polinomial de 2° grau, e pode ser ajustada normalmente por MQO.
A forma geral da regressão polinomial de k-ésimo grau é:
Yi   0  1 X i   2 X i2     k X ik  ei
42
2.15 Variáveis Dummies
Na análise de regressão, a variável dependente, que é de natureza quantitativa, é

influenciada por variáveis independentes quantitativas, mas também por outras que são de natureza
qualitativa, ou nominal, como sexo, raça, cor, religião, nacionalidade, região geográfica, etc. Uma
maneira de inserir essas variáveis no modelo de regressão é através das variáveis dummies.
As variáveis dummies são também chamadas de variáveis indicadoras, binárias, categóricas,
qualitativas ou dicotômicas, e seus valores são geralmente codificados como 0 e 1.
2.15.1 Regressão somente com variáveis dummies (Modelos ANOVA)

Um modelo de regressão pode conter regressores que sejam de natureza exclusivamente
binária.
Como um exemplo, considere o seguinte modelo:
Yi  1   2 D2i  ei
Onde: Y: salário anual de um professor universitário;

1, se do sexo masculino
D2i  
0, se do sexo feminino
Este modelo nos permite saber se o sexo faz alguma diferença no salário dos professores
universitários, obviamente desconsiderando a influência de variáveis como idade, cursos de pós-
graduação e anos de experiência. Fazendo as suposições clássicas sobre os resíduos, obtém-se que:
Salário médio professora: E Yi | D2i  0   1

Salário médio professor: E Yi | D2i  1  1   2
O coeficiente  2 será a diferença de salário dos homens em relação às mulheres, por isso é
chamado de coeficiente diferencial de intercepto, e o teste para verificar se há diferença nos salários
médios para homens e mulheres é:
H 0 :  2  0

H1 :  2  0
que pode ser verificado pelo teste t usual.
Exemplo 9. Sejam os dados hipotéticos dos salários de 10 professores universitários, e o sexo de

cada um.
Y D Y² D² YD
22 1 484 1 22
19 0 361 0 0
18 0 324 0 0
21,7 1 470,89 1 21,7
18,5 0 342,25 0 0
21 1 441 1 21
20,5 1 420,25 1 20,5
17 0 289 0 0
17,5 0 306,25 0 0
21,2 1 449,44 1 21,2
196,4 5 3888,08 5 106,4
43
Estimar o modelo, e testar se existe diferença nos salários médios entre os sexos, a 5%.
Para se inserir uma variável qualitativa com mais de duas categorias, deve-se criar mais de
uma variável dummy. Por exemplo, suponha que se queira verificar se existe diferença entre os
salários dos professores segundo o nível de pós-graduação (mestrado, doutorado e pós-doutorado).
O modelo seria:
Yi  1   2 D2i   3 D3i  ei
Onde: Y: salário anual de um professor universitário;

1, se doutorado 1, se pós  doutorado
D2i   e D3i  
0, c.c. 0, c.c.
Observe que assim, a categoria “mestrado” já está expressa nas duas variáveis dummies,
sendo que o valor correspondente a essa categoria é o par (0,0), por isso ela é chamada de categoria
de referência.
44
Observações no uso de variáveis dummies:

- Se uma variável qualitativa tem m categorias, devemos introduzir no modelo m – 1 variáveis
dummies;
- A categoria para o qual não se designa uma variável binária é a categoria de referência e todas as
comparações são feitas em relação a ela;
- O valor do intercepto é o valor médio da categoria de referência;
- Os coeficientes angulares, chamados de coeficientes diferencias de intercepto, dão a diferença da
categoria que recebe valor 1 em relação a categoria de referência;
- A categoria de referência é arbitrária ao pesquisador, deve-se estar atento na hora das
interpretações.
Também se pode ter mais de uma variável qualitativa no mesmo modelo.
Exemplo 10. A partir de uma amostra de 528 americanos, foi calculada uma regressão com os
seguintes resultados.
Yî  8,8148  1,0997 D2i  1,6729 D3i
ep  0,4015 0,4642 0,4854
t  21,9528 2,3688  3,4462
p  0,0000 0,0182 0,0006
1, se casado 1, se mora no Sul

Onde Y=salário-hora em $; D2i   e D3i   . Interpretar os resultados.
0, c.c. 0, c.c.
2.15.2 Regressão com variáveis quantitativas e dummies (Modelos ANCOVA)

De modo geral, na maioria dos estudos econômicos, um modelo de regressão contém
algumas variáveis explanatórias quantitativas e outras qualitativas.
Ainda considerando o exemplo dos salários dos professores universitários, suponha que
temos também uma variável quantitativa. Assim:
Y: salário anual de um professor universitário;
X: anos de experiência;
1, se do sexo masculino
Di   .
0, se do sexo feminino
45
Queremos investigar um modelo de regressão do tipo:

Yi  1   2 Di   3 X i  ei
Nesse caso, temos o salário médio de professores de ambos os sexos são:

Salário médio professora: E Yi | X i , Di  0   1   3 X i
Salário médio professor: E Yi | X i , Di  1  1   2    3 X i
Graficamente:
Exemplo 11. Suponha que você gostaria de regredir despesas anuais com saúde (Y), renda anual
(X) e nível de escolaridade (fundamental, médio e superior). Como seria o modelo? Faça o gráfico.
2.15.3 Efeitos de interação com o uso de variáveis binárias

Considere o problema a seguir, onde possuímos uma variável quantitativa e duas
qualitativas binárias:
Yi  1   2 D2i   3 D3i  X i  ei
Y: despesa anual com roupas;
X: renda anual;
1, mulher 1, ensino superior
D2i   D3i  
0, homem 0, c.c
Neste modelo, está implícita a premissa de que o efeito diferencial da variável binária sexo é
constante nas duas categorias de escolaridade e que o efeito diferencial da variável binária
escolaridade também é constante entre os dois sexos. Ou seja, se o gasto anual com roupas é maior
para mulheres que para homens, isso ocorre sejam elas graduados ou não. Do mesmo modo, se
pessoas com ensino superior gastam mais com roupas que as que não possuem, isso se verificará
tanto para homens quanto para as mulheres.
46
Em muitas aplicações, premissas desse tipo são insustentáveis. Uma mulher graduada pode
gastar mais com roupas que um homem graduado. Em outras palavras, pode haver uma interação
entre as duas variáveis qualitativas. Portanto, seu efeito sobre Y pode não ser apenas aditivo, como
no modelo acima, mas também multiplicativo, como no modelo a seguir:
Nesse caso, o modelo com a interação das variáveis qualitativas é representado por:
Yi   1   2 D2i   3 D3i   4 D2i D3i  X i  ei

onde,
 2 : efeito diferencial de ser mulher;
 3 : efeito diferencial de ter nível superior;
 4 : efeito diferencial de ser mulher com nível superior.
Exemplo 12. Regrediu-se salários-hora (Y), contra anos de escolaridade (X), sexo (D2, 1 se mulher)
e raça (D3, 1 se não branco e não hispânico), para 528 americanos. Os resultados estão abaixo:
Yî  0,26100  2,3606 D2i  1,7327 D3i  2,1289 D2i D3i  0,8028 X i
p   0,05  0,05  0,05  0,05( 0,08)  0,05
Fazer o gráfico e interpretar os resultados.
Observação: Neste exemplo, estamos supondo que a taxa de aumento dos salários-hora em relação
à escolaridade (de cerca de 80 centavos de dólar por ano adicional de escolaridade) não varia com o
gênero e raça. Mas pode ser que não seja este o caso. Para testar isso, pode-se incluir coeficientes
diferenciais angulares:
Yi  1   2 D2i   3 D3i   4 D2i D3i  1 X i   2 D2i X i   3 D3i X i  ei
47
2.15.4 O emprego de variáveis binárias em análises sazonais

Muitos dados econômicos são formados a partir de dados mensais ou trimestrais que
apresentam padrões sazonais (movimentos oscilatórios regulares). Exemplos disso são as vendas
das lojas no Natal e em outras épocas, a demanda por passagem aéreas, etc. Através das variáveis
binárias, podemos inserir essa informação no modelo.
Exemplo 13. Estudaram-se as vendas trimestrais de geladeiras (Y), em milhares de unidades, no

período de 1978 a 1995 nos EUA. Também se observou, em cada trimestre, os gastos com bens
duráveis (X), em bilhões de dólares. Ajustou-se o seguinte modelo:
Yî  456,2440  242,4976 D2i  325,2643D3i  86,0804 D4i  2,7734 X i
p   0,05  0,05  0,05  0,05  0,05
 1, se trimestre j
onde D j   . Interpretar os resultados.
0, caso contrário
2.15.5 Modelos Log-Lin e Variáveis Dummies

Já estudamos o modelo log-lin, que são aqueles em que a variável dependente é o logaritmo
natural de Y, e as variáveis independentes estão em suas escalas naturais. Nestes modelos, os
coeficientes angulares das variáveis independentes, após serem multiplicados por 100, são
interpretados como variação percentual de Y para uma variação de uma unidade de X.
Pode-se inserir variáveis independentes dummies nestes modelos, entretanto, a interpretação
dos coeficientes angulares destas variáveis não é a mesma. Para se obter a variação percentual de Y
devida a mudança de categorias na variável dummy, deve-se calcular 100  exp(  )  1 , onde  é o
coeficiente angular da variável dummy.
Exemplo 14. A certo conjunto de dados ajustou-se o modelo de regressão linear múltipla:
ln(Y )  2, 9298  0, 0546 X  0,1341D
t = (481,524) (48,3356) (27,2250) n = 15
onde Y é o salário inicial de professores universitários, X são os anos de experiência, e D é uma

variável indicadora do sexo (D = 1 se homem).
Mantendo-se D constante, o salário dos professores cresce 5,46% a cada ano a mais de
experiência. Mas não se pode dizer que mantendo X constante, o salário é 13,41% maior para
homens em relação a mulheres. Fazendo-se 100  exp(0,1341)  1  14,35% , ou seja, o salário dos
professores é 14,35% maior do que o salário das professoras.
48
Exercício 8: (ANPEC – 2003) O método dos mínimos quadrados ordinários foi empregado para
estimar o modelo de regressão abaixo, cujo objetivo é explicar as variações de renda entre 526
indivíduos:
log(renda)  0,417  0,297 sexo  0,080 educ  0,029 exper  0,00058 exper 2  u ,
( 0, 099) ( 0 , 036) ( 0 , 007 ) ( 0 , 005) ( 0, 00010)
R 2  0,441, n  526,
em que sexo é uma variável dicotômica (valor 1, se for homem e 0, caso contrário), educ é o
número de anos de escolaridade, exper é experiência profissional, também medida em anos. Os
números entre parênteses são os erros-padrão das estimativas ( sb i  0,,.,..
1 .,4) . Com base nos
i
resultados acima, responda V ou F.

a) um ano a mais de escolaridade, mantidos constantes todos os demais fatores, aumenta em 0,08%
a renda de um indivíduo;
b) a significância conjunta das variáveis educ e exper não pode ser medida por meio da estatística t.
Para isto, o teste F deve ser utilizado;
c) o modelo é incapaz de captar diferenças nos retornos da educação entre homens e mulheres;
d) a renda dos homens é 29,7% menor que a renda das mulheres.
49
3 VIOLAÇÕES DAS PREMISSAS DO MODELO DE REGRESSÃO
3.1 Não-normalidade dos resíduos
Vimos que os testes de hipóteses e intervalos de confiança que estudamos somente podem
ser aplicados supondo-se normalidade aos resíduos. Entretanto, essa suposição deve ser verificada,
para se avaliar se essas técnicas de inferência podem ser realmente aplicadas ou não.
3.1.1 Detecção
Para fazer a verificação da normalidade dos resíduos, três técnicas são mais conhecidas:
histograma dos resíduos, gráfico de probabilidade normal e testes não-paramétricos.
- Histograma dos resíduos: Trata-se de um simples gráfico que é usado para conhecer algo da
forma da função de densidade de probabilidade de uma variável aleatória. No eixo horizontal,
dividimos os valores da variável (no caso, dos resíduos) em intervalos adequados e, em cada um,
traçamos retângulos cuja altura é dada pelo número de observações (isto é, sua freqüência) nesse
intervalo de classe. A partir desse gráfico, devemos tentar verificar se a forma de sino na Normal se
aproxima da forma encontrada no histograma.
Exemplos de histogramas gerados pelo Gretl:

0,4 0,7
Estatística de teste para normalidade: uhat1 Estatística de teste para normalidade: uhat2
N(-2,9886e-016 1,025) N(-3,5461e-016 0,9135)
Qui-quadrado(2) = 0,943 [0,6241] Qui-quadrado(2) = 68,648 [0,0000]
0,35
0,6
0,3
0,5
0,25
0,4
Densidade
Densidade
0,2
0,3
0,15
0,2
0,1
0,1
0,05
0 0
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
uhat1 uhat2
- Gráfico de probabilidade normal (ou Q-Q Plot): No eixo vertical, marcamos os valores da
variável que nos interessam (no caso, os resíduos) e no eixo horizontal representamos o valor
esperado para essa variável caso ela fosse normalmente distribuída. Se a variável for, de fato,
normalmente distribuída, o gráfico tomará a forma de uma reta.
50
Exemplos de gráficos de probabilidade normal gerados pelo Gretl:

Gráfico Q-Q para uhat1 Gráfico Q-Q para uhat2
3 4
y=x y=x
3
2
-1
-1
-2
-2
-3 -3
-3 -2 -1 0 1 2 3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5
Quantis normais Quantis normais
- Testes não-paramétricos: Existem vários testes utilizados para verificar se um conjunto de dados é
normalmente distribuído, e estão disponíveis na maioria dos programas estatísticos. Alguns deles
são: Anderson-Darlin, Qui-quadrado, Jarque-Bera, Kolmogorov-Smirnov, Lilliefors, Doornik-
Hansen e Shapiro-Wilk. A hipótese nula desses testes é que os dados provêm de uma distribuição
normal, contra a alternativa de que os dados não provêm de uma distribuição normal.
Ao pedir esses testes no Gretl, devemos observar se o valor-p é menor que o nível de
significância adotado. Se for, a suposição de normalidade não está satisfeita.
Exemplo dos testes de Normalidade no Gretl:

Teste da normalidade de uhat1: Teste da normalidade de uhat2:
Teste de Doornik-Hansen = 0,942923, com p-valor Teste de Doornik-Hansen = 68,6476, com p-valor
0,62409 1,23983e-015
Shapiro-Wilk W = 0,99156, com p-valor 0,78854 Shapiro-Wilk W = 0,83696, com p-valor 4,02623e-009
Teste de Lilliefors = 0,0550418, com p-valor ~= 0,64 Teste de Lilliefors = 0,15247, com p-valor ~= 0
Teste de Jarque-Bera = 1,01753, com p-valor Teste de Jarque-Bera = 61,2039, com p-valor
0,601239 5,12548e-014
3.1.2 Conseqüências
Já vimos que a premissa de normalidade não é essencial se o objetivo for apenas estimar o
modelo. Além disso, demonstra-se que os estimadores de MQO são os melhores estimadores
lineares não tendenciosos quer os resíduos sejam normais quer não.
Entretanto, se os resíduos não forem normais, os testes e intervalos de confiança baseados
nas distribuições t, F e Qui-quadrado serão inválidos.
3.1.3 Medidas corretivas
Demonstra-se que, mesmo se os resíduos não forem normais, mas forem homocedásticos, os
estimadores de MQO seguem distribuição assintoticamente normal. Ou seja, se a amostra for
grande, os habituais procedimentos de inferência ainda são válidos.
Infelizmente, não se tem um consenso sobre quão grande uma amostra deve ser para que a
normalidade assintótica seja válida. Alguns autores consideram n = 30 como sendo um tamanho de
amostra mínimo satisfatório.
51
Quando não se pode aumentar o tamanho da amostra, existe o recurso de proceder

transformações na variável Y, como tomar o logaritmo ou a raiz quadrada de Y.
Exemplo 1. Procedeu-se um estudo sobre gastos com pesquisa e desenvolvimento (PD) e as vendas
(VENDAS) de 20 setores industriais dos EUA. Ajustou-se o modelo PD  1   2VENDAS  e no
Gretl, os resultados estão abaixo.
Modelo 1: MQO, usando as observações 1-20

Variável dependente: PD
Coeficiente Erro Padrão razão-t p-valor

Const 192,994 913,97 0,2112 0,83513
VENDAS 0,0319003 0,00785265 4,0624 0,00073 ***
0,00025
uhat1 Gráfico Q-Q para uhat1
Estatística de teste para normalidade:
N(-4,2633e-014 2601,4) 8000
Qui-quadrado(2) = 13,983 [0,0009]
y=x
0,0002 6000
4000
0,00015
Densidade
2000
0,0001 0
-2000
5e-005
-4000
0 -6000
-8000 -6000 -4000 -2000 0 2000 4000 6000 8000 -5000 -4000 -3000 -2000 -1000 0 1000 2000 3000 4000 5000
uhat1 Quantis normais
Teste da normalidade de uhat1:
Teste de Doornik-Hansen = 13,9829, com p-valor 0,000919708
Shapiro-Wilk W = 0,84162, com p-valor 0,00387022
Teste de Lilliefors = 0,243594, com p-valor ~= 0
Teste de Jarque-Bera = 10,3461, com p-valor 0,00566732
Ajustou-se também o modelo lnPD   1   2VENDAS  e , obtendo-se os seguintes

resultados:

Variável dependente: l_PD

Const 5,88152 0,385208 15,2684 <0,00001 ***
VENDAS 1,47032e-05 3,30963e-06 4,4425 0,00031 ***
52
0,4
uhat2 Gráfico Q-Q para uhat2
Estatística de teste para normalidade:
N(4,4409e-017 1,0964) 2,5
Qui-quadrado(2) = 1,893 [0,3881]
y=x
0,35
2
0,3 1,5
1
0,25
0,5
Densidade
0,2
0
0,15 -0,5
-1
0,1
-1,5
0,05
-2
0 -2,5
-3 -2 -1 0 1 2 3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5
uhat2 Quantis normais
Teste da normalidade de uhat2:
Teste de Doornik-Hansen = 1,89276, com p-valor 0,388144
Shapiro-Wilk W = 0,93767, com p-valor 0,216583
Teste de Lilliefors = 0,172371, com p-valor ~= 0,12
Teste de Jarque-Bera = 1,2612, com p-valor 0,532274
3.2 Multicolinearidade
Uma das premissas do modelo de regressão é que: “não existe multicolinearidade perfeita,
ou seja, não há relações lineares perfeitas entre as variáveis explicativas”. No caso da regressão com
k variáveis envolvendo as variáveis explanatórias X 1 , X 2 ,, X k (onde X 1  1 para todas as
observações a fim de levar em conta o intercepto), diz-se que existe uma relação linear exata se a
seguinte condição for atendida:
1 X 1   2 X 2     k X k  0 ,
onde os i são constantes tais que nem todas são zero simultaneamente.
Entretanto, a multicolinearidade não ocorre apenas com relações perfeitas, e também ocorre
quando as variáveis X são intercorrelacionadas, mas de um modo menos que perfeito, como a
seguir:
1 X 1   2 X 2    k X k   i  0 , onde i é um erro aleatório.

Assim, suponha que a variável X2 possa ser expressa com um alto grau de explicação por
uma composição linear das demais variáveis, nesse caso teríamos:
1   1
X 2i   X 1i  3 X 3i   k X k  i  0
2 2 2 2
O que é o mesmo que regredir X2 sobre as demais variáveis na forma:
X 2i   1   2 X 1i   3 X 3i     k X ki  u i .
Como exemplo numérico, vejamos os seguintes dados hipotéticos:
X2 X3 X4
10 50 52
15 75 75
18 90 97
24 120 129
30 150 152
Observe que X 3i  5 X 2i , portanto há colinearidade perfeita entre essas duas variáveis, e

neste caso o coeficiente de correlação simples é igual a 1. A variável X4 foi criada a partir de X3
simplesmente somando a ele os seguintes números: 2, 0, 7, 9, 2. Assim, não há colinearidade
perfeita entre X2 e X4, mas essas duas variáveis estão estreitamente relacionadas já que o coeficiente
de correlação simples entre elas é 0,9959.
Em modelos de regressão do tipo Yi   0  1 X i   2 X i2     k X ik  ei , a relação
existente entre as variáveis independentes não é linear e rigorosamente falando, não viola a
hipótese de ausência de multicolinearidade. Entretanto, em geral é observada uma alta correlação
entre os regressores.
Vejamos os diagramas que ilustram os diferentes graus de multicolineridade:
1. Se a multicolinearidade é perfeita, os coeficientes da regressão são indeterminados e seus

erros-padrão são infinitos.
Para exemplificar, seja um modelo de 3 variáveis, e as seguintes observações:
Y X2 X3= X2
10 2 2
15 3 3
18 4 4
30 4 4
Onde  é uma constante não nula.
 4 13 13 

Nesse caso, a matriz X ' X   13 45 45  tem determinante:
13 45 45 ² 
det X ' X   8100 ²  7605 ²  7605 ²  7605 ²  8100 ²  7605 ²  0
e por isso a sua inversa não existe, o que nos impede de estimar o modelo.
Há uma razão intuitiva para isto. Lembrando o significado de ̂ 2 : ele nos dá a taxa de
variação de Y quando X2 varia uma unidade, mantendo-se X3 constante. Mas se as duas variáveis
independentes foram perfeitamente colineares, não há modo de manter X3 constante: quando X2
variar, X3 também o fará, a uma taxa de  . O que quer dizer, então, que não há forma de isolar as
influências das duas variáveis na amostra dada.
54
2. Se a multicolinearidade é “imperfeita” mas “alta”, os coeficientes podem ser

determinados, e os estimadores MQO ainda possuem a propriedade de melhores
estimadores lineares não-viesados. Entretanto, os estimadores MQO têm grandes
variâncias, o que diminui a precisão na estimação.
Seja um modelo de regressão múltipla de 3 variáveis. Além da forma matricial de cálculo

das variâncias dos estimadores, também pode-se ter as seguintes expressões:
2
 2ˆ  e
2
 x 1  r 
2
2i
2
23
2
 2ˆ  .
3
 x 1  r 
2
3i
2
23
Assim, percebe-se que, quando r23 tende (em termos absolutos) a 1, ou seja, quando a
colinearidade entre as variáveis X aumenta, as variâncias dos dois estimadores aumentam até o
limite, que é o infinito.
A velocidade com que as variâncias aumentam pode ser mensurada através do Fator de
Inflação de Variância (FIV), definido por:
1
FIV 

1  r232 
Se não há colinearidade, então FIV = 1, e quanto maior a colinearidade maior o FIV.
A figura abaixo mostra o quanto as variâncias dos estimadores aumentam à medida que a
correlação entre as variáveis independentes aumenta.
Para um modelo de k variáveis, pode-se escrever as variâncias dos coeficientes angulares

parciais como:
2
 2ˆ  ,
j
 x 1  R 
2
j
2
j
onde R 2j é o coeficiente múltiplo de determinação da regressão de X j como variável dependente e

os outros k – 2 X como variáveis independentes.
55
Nesse caso, FIV será:

1
FIV j  .
1  R 2j  
O inverso do FIV é conhecido como Tolerância (TOL):
1
TOL j  .
FIV j
3. Por causa da conseqüência 2, os intervalos de confiança tendem a ser bastante amplos,

levando a não rejeição de H 0 : i  0 .
4. Também por causa da conseqüência 2, os testes t de um ou mais coeficientes tendem a ser

estatisticamente não significativos.
5. Apesar das conseqüências 3 e 4, o R² pode ser bastante alto.

Nessas situações o R² pode ser tão alto que, com base no teste F, somos levados à rejeição
da hipótese H 0 :  2   3     k  0 . Na verdade, esse é um dos indícios de multicolinearidade:
valores t insignificantes, mas um alto R² e um valor de F significativo.
6. As estimativas dos coeficientes e dos erros-padrão podem ser muito sensíveis a pequenas
variações nos dados.
Considere a pequena variação nos dados das duas tabelas a seguir:
Y1 X2 X3 Y2 X2 X3
1 2 4 1 2 4
2 0 2 2 0 2
3 4 12 3 4 0
4 6 0 4 6 12
5 8 16 5 8 16
Da primeira tabela, obtemos

Yˆ1  1,1939  0,4463 X 2  0,003 X 3
ep : (0,7737) (0,1848) (0,0851)
p : (0,2628) (0,1371) (0,9747)
Nesse caso temos também que R2 = 0,8101, r23 = 0,5523.

Da segunda tabela, temos
Yˆ2  1,2101  0,4014 X 2  0,0270 X 3
ep : (0,7480) (0,2721) (0,1252)
p : (0,2469) (0,2781) (0,8491)
sendo observados que R2 = 0,8143, r23 = 0,8285.
3.2.2 Detecção
Primeiramente, deve-se ter em mente que a multicolinearidade é uma questão de grau, e não
de tipo. A distinção significativa não é entre a presença e ausência de multicolinearidade, mas entre
56
seus vários graus. Além disso, ela é uma característica da amostra, e não da população. Portanto,
medimos seu grau em uma amostra específica.
Não há um método único para detectar multicolinearidade, e sim algumas regras práticas.
1. R² alto, mas poucas razões t significativas.

Consideraremos um R² alto se for maior que 0,8. Neste caso, o teste F rejeitará, na maioria
das vezes, a hipótese de que os coeficientes parciais angulares são simultaneamente iguais a zero,
mas os testes t individuais mostrarão que nenhum ou muito poucos desses coeficientes são
significativamente diferentes de zero. Este é um critério sensato, mas é exigente demais.
2. Altas correlações entre pares de regressores.

No modelo de 3 variáveis, olharemos para r23 , já no modelo de 4 variáveis, para r23 , r24 , r34 ,
e analogamente para os demais modelos.
Consideraremos a correlação de ordem zero alta se for em módulo maior que 0,8.
Para o modelo de 3 variáveis, esse é um bom critério. Porém, para mais variáveis a
correlação alta é uma condição suficiente mas não necessária para a multicolinearidade.
3. Exame das correlações parciais entre regressores.

Seja um modelo de 4 variáveis. Se R² é alto, mas r122 .34 , r132 .24 , r142 .23 são baixos, isto pode
sugerir que as variáveis independentes são estreitamente intercorrelacionadas. Este exame não é
infalível e é criticado por vários autores.
4. Regressões auxiliares.
Como a multicolinearidade decorre do fato de que um ou mais regressores são combinações
lineares exatas ou aproximadas de outros regressores, uma forma de verificar qual das variáveis X
se relaciona a outras X é fazer regressões de cada Xi contra os demais X e calcular os respectivos R²,
que aqui designamos por Ri2 . Então, pode-se calcular a estatística de teste
Ri2 / k  2 
Fi  ~ Fk 2;n k 1
 
1  Ri2 / n  k  1
onde k é o número de variáveis do modelo com o Y como variável dependente.

Se o F calculado for maior que o tabelado, considera-se que Xi é colinear em relação aos
outros X. Então algo deverá ser feito para corrigir a multicolinearidade.
Em lugar de testar formalmente as regressões auxiliares, pode-se adotar a Regra prática de
Klein: a multicolinearidade só será problema sério se todos os Ri2 forem maiores que o R² geral,
isto é, aquele obtido na regressão entre o Y e todos os X.
5. Tolerância e fator de inflação de variância.

Já vimos o FIV e a TOL. Quanto maior o FIV, e por conseqüência, menor a TOL, maior a
multicolinearidade. Como regra prática, se o FIV de uma variável for maior que 10, o que acontece
se Ri2  0,9 , diz-se que essa variável é altamente colinear.
57
Exemplo 2. Considere uma regressão do consumo (Y) em função da renda (X2) e riqueza (X3), com
os dados abaixo:
Y X2 X3
70 80 810
65 100 1009
90 120 1273
95 140 1425
110 160 1633
115 180 1876
120 200 2052
140 220 2201
155 240 2435
150 260 2686
Através do Gretl, obtemos os seguintes resultados:

Variável dependente: Y

const 24,7747 6,7525 3,6690 0,00798 ***
X2 0,941537 0,822898 1,1442 0,29016
X3 -0,0424345 0,0806645 -0,5261 0,61509
R-quadrado 0,963504 R-quadrado ajustado 0,953077

F(2, 7) 92,40196 P-valor(F) 9,29e-06
Fatores de Inflacionamento da Variância (VIF)
Valor mínimo possível = 1,0

Valores > 10,0 podem indicar um problema de colinearidade
X2 482,128
X3 482,128
VIF(j) = 1/(1 - R(j)^2), onde R(j) é o coeficiente de correlação múltipla

entre a variável j e a outra variável independente
Propriedades da matriz X'X:
Norma-1 = 37022026
Determinante = 2,35068e+009
Número de condição recíproca = 2,727131e-008
Também é interessante observamos o resultado das regressões entre Y e cada um dos X

separadamente:
- Regressão entre Y e X2

Const 24,4545 6,41382 3,8128 0,00514 ***
X2 0,509091 0,0357428 14,2432 <0,00001 ***
58
- Regressão entre Y e X3

Const 24,411 6,8741 3,5512 0,00750 ***
X3 0,0497638 0,00374399 13,2917 <0,00001 ***
Por último, temos a regressão auxiliar entre X2 e X3:

Variável dependente: X2

const -0,386271 2,89796 -0,1333 0,89726
X3 0,0979231 0,00157838 62,0405 <0,00001 ***
Fazer o teste F para verificar se as variáveis independentes são colineares, a um nível de 5%

de significância. Calcular FIV, TOL, e com base em todos os indícios, concluir sobre
multicolinearidade.
59
1. Utilização de informações “a priori”.

Seja o exemplo do consumo versus renda e riqueza. Imagine que saibamos “a priori” que
β3 = 0,1β2, ou seja, que a taxa de variação do consumo em relação à riqueza é um décimo da taxa
correspondente em relação à renda. Então podemos calcular a seguinte regressão:
Y  1   2 X 2  0,1 2 X 3  e  1   2 X  e , onde X  X 2  0,1X 3
A informação a priori pode vir de trabalhos anteriores nos quais o problema de colinearidade
é menos grave ou da teoria do campo de estudo.
2. Combinação de dados de corte transversal e séries temporais.

Corte transversal = pesquisa feita em um único momento do tempo.
Séries temporais = dados são coletados em momentos diferentes no tempo.
Imagine que dispomos de uma série temporal do n° de carros vendidos (Y), seus preços
médios (P) e a renda dos consumidores (R). Sabe-se que preço e renda tendem a registrar alta
colinearidade, nas séries temporais. Seja também o modelo: Y  1   2 P   3 R  e .
Se em determinado momento, se fizer uma pesquisa relacionando consumo e renda, pode-se
chegar a uma estimativa bastante confiável de  3 , pois os preços estarão praticamente constantes.
Com essa estimativa, reescreve-se o modelo como:
Y *  1   2 P  e ,
Onde Y *  Y  ̂ 3 R , isto é, Y* é Y sem o efeito da renda.
3. Excluir variáveis.
Deve-se tomar o cuidado para não cair em um “viés de especificação”, que decorre da
especificação incorreta do modelo empregado. As conseqüências do viés de especificação são que
as estimativas de MQO se tornam viesadas.
4. Transformação de variáveis.
Seja uma série temporal do consumo versus renda e riqueza:
Yt  1   2 X 2t   3 X 3t  et
Ao longo do tempo, renda e riqueza tendem a evoluir na mesma direção, ocasionando

multicolinearidade. Pode-se então tomar a primeira diferença:
Yt  Yt 1  1   2  X 2t  X 2,t 1    3  X 3t  X 3,t 1   u t
Essa transformação normalmente resolve a multicolinearidade, mas pode gerar

autocorrelação dos resíduos. Além disso, perde-se uma observação.
Outra transformação usada na prática é a transformação proporcional. Seja uma série
temporal entre consumo (Y), PNB (X2) e população (X3):
Yt  1   2 X 2t   3 X 3t  et
Em geral PNB e população crescem ao longo do tempo, gerando multicolinearidade. Pode-

se expressar esse modelo em termos “per capita”:
Yt  1  X e
 1     2 2t   3  t
X 3t  X 3t  X 3t X 3t
A desvantagem dessa transformação é que ela pode gerar heterocedasticidade.
60
5. Dados novos.
Ou seja, aumentar o tamanho da amostra. Deve-se cuidar se a conjuntura econômica não se
modificou.
6. Regressões polinomiais.
Exemplo: Yi   0  1 X i   2 X i2  ei .
Pode-se ajustar o modelo: Yi   0  1  X i  X    2  X i  X   ei .
2
Ao subtrair a média, geralmente a multicolinearidade reduz.
7. Outras técnicas.
Há muitas outras técnicas sugeridas e ainda sendo pesquisadas para resolver
multicolinearidade, como análise fatorial e regressão de cumeeira.
Exercício 1. Foi feito um estudo com 20 mulheres saudáveis relacionando quantidade de gordura
corporal (Y), com medidas do tríceps (X1), circunferência da coxa (X2) e circunferência do
antebraço (X3). A regressão resultou nos seguintes resultados:


Const 117,085 99,7824 1,1734 0,25781
X1 4,33409 3,01551 1,4373 0,16991
X2 -2,85685 2,58202 -1,1064 0,28489
X3 -2,18606 1,5955 -1,3701 0,18956

F(3, 16) 21,51571 P-valor(F) 7,34e-06
Fatores de Inflacionamento da Variância (VIF)
Valor mínimo possível = 1,0

Valores > 10,0 podem indicar um problema de colinearidade
X1 708,843
X2 564,343
X3 104,606
VIF(j) = 1/(1 - R(j)^2), onde R(j) é o coeficiente de correlação múltipla

entre a variável j e a outra variável independente
Propriedades da matriz X'X:
Norma-1 = 108567,11
Determinante = 1767107,7
Número de condição recíproca = 5,3078777e-009
Coeficientes de correlação, usando todas as observações 1 - 20

5% valor crítico (bilateral) = 0,4438 para n = 20
X1 X2 X3 Y
1,0000 0,9238 0,4578 0,8433 X1
1,0000 0,0847 0,8781 X2
1,0000 0,1424 X3
1,0000 Y
Há indícios de que a multicolinearidade afeta esses dados? Quais são eles?
61
3.3 Heterocedasticidade
Uma das premissas do modelo de regressão linear clássico é a de que os termos de erro ei
da FRP sejam homocedásticos; isto é, devem ter todos a mesma variância. Simbolicamente:
Homocedasticidade: Var ei    2 , i
Heterocedasticidade: Var ei    i2
Graficamente, temos:
Essa característica pode ser observada em diversos tipos de dados, por exemplo: a
variabilidade do número de erros de digitação que um operador comete tende a diminuir com o
passar do tempo; a variabilidade dos valores depositados numa conta poupança tende a aumentar
com o aumento da renda dos clientes; presença de outliers (valores discrepantes).
Seja um modelo de regressão simples: Yi  1   2 X i  ei . Se a heterocedasticidade estiver

presente, o estimador de MQO de  2 continuará sendo:
ˆ2 
 xy
 x2
mas agora a sua variância é dada por:
xi2 i2
 2ˆ   2
2
x i
2
ao invés da expressão na presença da homocedasticidade:  2ˆ  2
.
2
x
Estudamos que, na presença de homocedasticidade, o estimador de MQO é o melhor
estimador linear não-tendencioso. Pode-se demonstrar que, na presença de heterocedasticidade, o
estimador de MQO ainda é linear e não-tendencioso. Além disso, é consistente e segue distribuição
normal assintótica. Mas é o “melhor” estimador, isto é, possui a variância mínima dentre todos os
estimadores não-tendenciosos? A resposta é não e a justificativa é dada a seguir.
62
3.3.1 Método dos Mínimos Quadrados Generalizados (MQG)
Seja o modelo de duas variáveis: Yi  1   2 X i  ei , que escreveremos como:

Yi  1 X 0i   2 X i  ei ,
Onde X 0i  1 para todas as observações.

Supondo que as variâncias heterocedásticas  i2 são conhecidas, divindo a expressão acima
por elas, obtemos:
Yi X X e
 1 0 i   2 i  i ,
i i i i
*
Yi  1* X 0*i   2* X i*  ei*
Obs: A notação  i* é usada apenas para diferenciar os parâmetros do modelo transformado

dos parâmetros de MQO,  i .
Neste modelo transformado, tem-se que:

  e 2  1
*
  * 2
  
Var ei  E ei  E   i    2 E ei
  i    i
    1 
2
2 i
2
1
i
 
Ou seja, a variância dos resíduos do modelo transformado é uma constante, o que implica que o
modelo é homocedástico. Assim, se aplicarmos MQO ao modelo transformado, ele gerará
estimadores que são os melhores estimadores lineares não tendenciosos. Por isso os estimadores de
MQO no modelo original não são os “melhores”, e sim os estimadores de MQO do modelo
transformado.
O MQG são os MQO aplicados a variáveis transformadas que satisfazem as premissas do
modelo clássico.
Para obter os estimadores de MQG, minimizamos  e  , obtendo-se: * 2
i
  X Y   X  Y 

ˆ2*
i i i i i i i i

  X    X 
i i i
2
i i
2
e sua variância é:
 
Var ˆ2* 
  i
  X   X 

i i i
2
i i
2
onde, i  1  i2 . Ou seja, no MQG o peso de cada observação é inversamente proporcional à sua

variância.
- Se determinado problema é afetado pela heterocedasticidade, e ignoramos esse fato,

continuando a utilizar o MQO tradicional, então as variâncias dos estimadores vão ser viesadas. Em
conseqüência, todas as conclusões ou inferências que podemos fazer com base nos testes de
hipóteses e intervalos de confiança podem ser enganosas.
63
- Se usarmos as fórmulas de MQO que consideram a heterocedasticidade, o estimador não

será o melhor estimador que poderia ser utilizado, pois o melhor é o MQG. Ou seja, a variância do
MQO que considera a heteroscedasticidade é maior que a do MQG. Assim, os testes de hipóteses e
intervalos de confiança nos darão resultados inexatos, e o que parece ser estatisticamente
insignificante, pode na verdade ser significante.
3.3.3 Detecção
Há métodos formais e informais para detectar a heterocedasticidade. Não há regras firmes e

prontas, e sim, apenas algumas regras práticas.
- Método gráfico:
Faz-se um gráfico de dispersão entre Yˆ e ê . Se não for observado algum padrão
sistemático, então se pode assumir que não há heterocedasticidade:
Caso contrário, há indícios de heterocedasticidade:
Pode-se fazer também gráficos entre cada variável X e os resíduos. A maneira de concluir
sobre a heterocedasticidade é a mesma.
- Teste de Goldfeld-Quandt:
Esse método formal é aplicável quando se pressupõe que  i2 se relaciona positivamente

com uma das variáveis explicativas. Seja o modelo Yi  1   2 X i  ei , e imagine que:  i2   2 X i2 ,
onde  2 é uma constante. Ou seja,  i2 é porporcional ao quadrado da variável X.
Esse método consiste nas seguintes etapas:
1. Ordenar as observações de forma crescente de acordo com os valores Xi;
2. Omitir as c observações centrais e dividir as (n-c) observações em dois grupos;
3. Ajustar duas regressões, uma para cada grupo de (n-c)/2 observações, e obter SQR1 e
SQR2. A primeira dessas somas corresponde ao grupo de valores menores Xi, e a
segunda de valores maiores. Cada uma dessas somas tem (n-c-2k)/2 gl;
4. Calcular a estatística de teste:
SQR2 / gl  n  c  2k  n  c  2k  
Fcalc  ~ F ;  gl
SQR1 / gl  2 2 
64
 H 0 : SQR1  SQR2 (homocedasticidade)

As hipóteses desse teste são: 
 H 1 : SQR1  SQR2 (heterocedasticidade)
Rejeita-se H0 se Fcalc > Ftab.
A escolha do valor c é muito importante para o bom desempenho do teste. Os autores do

teste sugerem que c=8 se n for em torno de 30, e de 16 se n=60, para modelos de 2 variáveis. Mas
outro autor sugere que c=4 se n=30 e c=10 se n=60 são valores satisfatórios na prática.
No caso de modelos de 3 variáveis ou mais, deve-se escolher qualquer uma das variáveis X
para fazer a ordenação da primeira etapa.
Exemplo 3. Sejam as despesas de consumo (Y) e a renda (X) de 30 famílias. A análise desses dados
pelo Gretl forneceu os seguintes resultados:


Const 9,29031 5,23139 1,7759 0,08662 *
X 0,637785 0,0286167 22,2872 <0,00001 ***
Média var. dependente 119,7333 D.P. var. dependente 39,06134

Soma resíd. quadrados 2361,153 E.P. da regressão 9,182968
F(1, 28) 496,7183 P-valor(F) 2,33e-19
Log da verossimilhança -108,0538 Critério de Akaike 220,1076
Critério de Schwarz 222,9099 Critério Hannan-Quinn 221,0041
Resíduos da regressão (= observados - ajustados Y)

25
20
15
10
5
resíduo
-5
-10
-15
-20
80 100 120 140 160 180 200 220 240 260
X
Após ordenar as observações, ajustou-se um modelo para as primeiras 13 observações,

obtendo-se: SQR = 377,17. Já para as 13 últimas observações, obteve-se SQR = 1536,8.
Proceda o teste de Goldfeld-Quandt, a 5%, e com base em todos os indícios apresentados,

conclua sobre heterocedasticidade.
65
- Teste de Breusch-Pagan:
Como supomos que os resíduos tem média zero, a suposição de homocedasticididade

 
também pode ser escrita como Var ei   E ei2   2 , i . A idéia do teste de Breusch-Pagan é testar
se os resíduos ao quadrado tem relação linear com uma ou mais variáveis independentes do modelo.
Assim, seja o modelo:
ei2  1   2 X 2i   3 X 3i     k X ki  ui
A hipótese nula de homocedasticidade é: H 0 :  2   3     k  0 , que pode ser testada

através de uma ANOVA. Apesar de não termos os verdadeiros ei2 , teremos os seus valores
amostrais estimados por eî2 . Assim os passos para realização do teste de Breusch-Pagan são:
1. Com os dados pertinentes, estimar o modelo de regressão entre Y e as variáveis

independentes e obter os resíduos estimados, êi .
2. Obter os resíduos estimados ao quadrado, eî2 .
2. Estimar a seguinte regressão (auxiliar):
eî2  1   2 X 2i   3 X 3i     k X ki  ui
Isto é, uma regressão dos quadrados dos resíduos da regressão original contra os regressores
2
X originais. Obter o R² dessa regressão, que denotaremos por RBP .
2
3. Calcular a estatística de teste LM  nRBP , onde n é o tamanho de amostra. Demonstra-se
que LM ~  gl2 assintoticamente, onde gl = k-1.
4. Se o valor de LM   gl2 ; , conclui-se que há heterocedasticidade. Caso contrário, não há
evidências de heterocedasticidade.
Obs: O mesmo resultado seria obtido usando a estatística F da ANOVA da regressão

auxiliar.
Exemplo 4. Sejam os dados de consumo e renda para as 30 famílias. Para fazer o teste de Breusch-
Pagan, ajustou-se o seguinte modelo:
eî2  1   2 X i  ui
obtendo-se um R² de 0,17574. Conduza o teste de Breusch-Pagan para heterocedasticidade, a 5% de
significância.
O Gretl realiza o teste de Breusch-Pagan, com uma pequena modificação nos passos 2 e 3,
pois considera como variável independente eî2 dividido pela sua média (“escalada”). Os resultados
para o exemplo anterior são:
66
Teste de Breusch-Pagan para a heteroscedasticidade

MQO, usando as observações 1-30
Variável dependente: 'uhat^2' escalada
coeficiente erro padrão razão-t p-valor

--------------------------------------------------------
const -0,742614 0,752927 -0,9863 0,3324
X 0,0100632 0,00411865 2,443 0,0211 **
Soma dos quadrados explicada = 10,428
Estatística de teste: LM = 5,214011,

com p-valor = P(Qui-quadrado(1) > 5,214011) = 0,022406
- Teste de White:
O teste de White pressupõe que as variâncias dos resíduos se relacionam funcionalmente aos
regressores, aos seus quadrados ou a seus produtos cruzados.
Seja o modelo de 3 variáveis: Yi  1   2 X 2i   3 X 3i  ei .
O teste de White é conduzido do seguinte modo:
1. Com os dados pertinentes, estimar o modelo acima e obter os resíduos estimados, êi .
2. Calcular a seguinte regressão (auxiliar):
eî2  1   2 X 2i   3 X 3i   4 X 22i   5 X 32i   6 X 2i X 3i  ui
Isto é, uma regressão dos quadrados dos resíduos da regressão original contra os regressores
X originais, seus quadrados e seus produtos cruzados. Para um modelo de k variáveis, é análogo.
3. Obter o R² da regressão anterior (que chamaremos de RW2 ), e calcular a estatística de teste
W  nRW2 , onde n é o tamanho de amostra. Demonstra-se que W ~  gl2 assintoticamente, onde gl =
n° de regressores (excluindo o intercepto) da regressão auxiliar.
4. Se o valor de W   gl2 ; , conclui-se que há heterocedasticidade. Caso contrário, não há
evidências de heterocedasticidade.
Exemplo 5. Sejam os dados de consumo e renda para as 30 famílias. Para fazer o teste de White,
ajustou-se o seguinte modelo:
eî2  1   2 X i   3 X i2  ui
obtendo-se um R² de 0,1777. Conduza o teste de White para heterocedasticidade, a 5% de
significância.
67
O Gretl realiza o teste de White, no exemplo anterior temos como saída:
Teste de White para a heteroscedasticidade

MQO, usando as observações 1-30
Variável dependente: uhat^2
coeficiente erro padrão razão-t p-valor

-----------------------------------------------------------
const -12,2962 191,773 -0,06412 0,9493
X 0,197385 2,36876 0,08333 0,9342
sq_X 0,00170024 0,00670701 0,2535 0,8018
R-quadrado não-ajustado = 0,177697
Estatística de teste: TR^2 = 5,330902,

com p-valor = P(Qui-quadrado(2) > 5,330902) = 0,069568
Exercício 2. Sejam os dados de gastos com pesquisa e desenvolvimento e as vendas, trabalhado na

seção de não-normalidade. Alguns resultados adicionais estão produzidos:
Regressão com as 7 primeiras observações: SQR1 = 412586,0

Regressão com as 7 últimas observações: SQR2 = 97356910
Regressão auxiliar para teste de Breusch-Pagan: R² = 0,2171
Regressão auxiliar para teste de White: R² = 0,2603
Resíduos da regressão (= observados - ajustados PD)

8000
6000
4000
2000
resíduo
-2000
-4000
-6000
0 50000 100000 150000 200000 250000 300000
VENDAS
Verifique se a heterocedasticidade afeta esse problema através de todos os métodos diagnósticos

vistos. Conferir no Gretl.
68
Há duas abordagens para a correção: quando os  i2 são conhecidos e quando não são.
- Quando  i2 são conhecidos – MQG:

Já vimos que, quando  i2 são conhecidos, pode-se aplicar o método dos mínimos quadrados
generalizados, pois os estimadores assim obtidos são os melhores estimadores lineares não
tendenciosos.
Exemplo 6. Imagine que desejamos estudar a relação entre remuneração média por empregado (Y)
e o tamanho da empresa (X), medido através das classes de n° de empregados: 1 (1 a 4
empregados), ..., 9 (1000 a 2499 empregados).
Os dados estão abaixo:
Y X i Yi *  Yi  i X 0*i  1  i X i*  X i  i
3396 1 743,7 4,5664 0,0013 0,0013
3787 2 851,4 4,4480 0,0012 0,0023
4013 3 727,8 5,5139 0,0014 0,0041
4104 4 805,06 5,0978 0,0012 0,0050
4146 5 929,9 4,4585 0,0011 0,0054
4241 6 1080,6 3,9247 0,0009 0,0056
4387 7 1243,2 3,5288 0,0008 0,0056
4538 8 1307,7 3,4702 0,0008 0,0061
4834 9 1112,5 4,3452 0,0009 0,0081
Para se ajustar o modelo Yi  1   2 X i  ei por MQG, deve-se fazer

*
Yi  1* X 0*i   2* X i*  ei* ,
que é um modelo de 3 variáveis mas sem intercepto. Os resultados do Gretl são:

Variável dependente: Yast

X0ast 3408,26 80,7702 42,1970 <0,00001 ***
Xast 153,592 16,9147 9,0804 0,00004 ***
- Quando  i2 não são conhecidos:
1) Tranformações: A partir de alguns pressupostos sobre o padrão de heterocedasticidade, pode-se

transformar o modelo para corrigir o problema.
Seja o modelo: Yi  1   2 X i  ei :
a) Quando a variância do erro é proporcional a X² (  i2   2 X i2 ), divide-se todo o modelo por X:
Yi  e 1
 1   2  i  1   2  ui
Xi Xi Xi Xi
69
  e 2  1
 
Assim, Var ui  E   i    2 E ei
 Xi   Xi
    
2 2
, ou seja, tem-se homocedasticidade.
 
Para voltar ao modelo original, basta multiplicar a equação estimada por X.
b) Quando a variância do erro é proporcional a X (  i2   2 X i ), divide-se todo o modelo por X:
Yi 1 ei 1
  2 X i   1   2 X i  ui
Xi Xi Xi Xi
  e 2 
Assim, Var ui  E   i   
  1
  X i   X i
E ei   2 2
.
 
Essa transformação só pode ser utilizada se os valores de X forem positivos. Observe que o
modelo transformado não tem intercepto. Para voltar ao modelo original, deve-se multiplicar por
X.
c) Em geral, ajustar um modelo log-log lnYi   1   2 ln X i   ei ao invés das variáveis em suas
escalas originais, reduz a heterocedasticidade.
2) Estimadores robustos: Há também estimadores modificados disponíveis em alguns pacotes

estatísticos (como o Gretl) que corrigem para a heterocedasticidade, desenvolvidos por White.
Entretanto, só pode ser utilizados para amostras grandes.
Exemplo 7: Voltando aos dados do Exercício 2, temos os seguintes resultados produzidos no Gretl
utilizando estimadores robustos:

Variável dependente: PD
Erros padrão robustos à heteroscedasticidade, variante HC1

const 192,994 545,684 0,3537 0,72769
VENDAS 0,0319003 0,0100842 3,1634 0,00538 ***
70
3.4 Autocorrelação
Uma das premissas do modelo clássico de regressão era:

E ei e j   0, i  j .
Dito de forma simples, o modelo clássico pressupõe que o termo de erro relacionado a
qualquer das observações não é influenciado pelo termo de erro de qualquer outra observação.
Quando há autocorrelação, então:
E ei e j   0, i  j
Há dois tipos de autocorrelação: no tempo (em dados de séries temporais) e no espaço (em
dados de corte transversal), embora ela seja mais comum no primeiro caso. Exemplos: observando-
se índices de preços de ações diariamente, não é raro verificar que esses índices sobem ou descem
por vários dias seguidos (autocorrelação no tempo); ao regredir despesas de consumo com renda das
famílias, o aumento de despesa de consumo de uma família pode levar a vizinha a aumentar o
consumo também, para não ficar para trás (autocorrelação no espaço).
Os gráficos abaixo apresentam alguns padrões plausíveis de presença e de ausência de
autocorrelação serial:
Além de ser classificada como no tempo e no espaço, a autocorrelação também pode ser
positiva ou negativa. A autocorrelação positiva se caracteriza quando os resíduos evoluem para
cima ou para baixo durante longos períodos, já na negativa, há oscilações constantes. Os gráficos a
seguir ilustram os dois processos.
71
Para avaliar os efeitos da autocorrelação no modelo de regressão, voltemos novamente ao

modelo de duas variáveis:
Yt  1   2 X t  et .
O subscrito t está sendo usado para destacar que estamos lidando com séries temporais.
Para avançar, precisamos imaginar o mecanismo que gera et . Como ponto de partida,
podemos supor que o termo de erro seja gerado pelo seguinte mecanismo:
et  et 1  ut , com  1    1 ,
Onde  é conhecido como coeficiente de autocorrelação, e ut é o termo de erro que atende as

premissas clássicas de um modelo de regressão (média zero, homocedasticidade e independência).
Na linguagem de séries temporais, ut geralmente é chamado de ruído branco.
O esquema anterior é conhecido como esquema auto-regressivo de primeira ordem de
Markov – AR(1). A denominação auto-regressivo é usada porque o esquema pode ser interpretado
como uma regressão de et contra ele mesmo com defasagem de um período. É de primeira ordem
porque apenas o resíduo do período anterior influencia no resíduo atual. Poderia-se ter esquemas
AR(2), AR(3) e assim por diante.
Na presença da autocorrelação de primeira ordem, o estimador de MQO de β2, como de
hábito, é:
ˆ 2 
 xt y t
 xt2
Mas sua variância é:
 
Var ˆ2 
2 
1  2 
x x t t 1
 2 2
x x t t 2
   2  n1
x1 xn 

AR1 2 2 2
 x 
t x t x t  xt2 
Lembrando que, no modelo tradicional essa variância era:
2
 
Var ˆ2 
 xt2
Percebe-se que a primeira é igual a segunda multiplicada por um termo que depende de  .
Obviamente, se   0 , as duas coincidem.
Imagine que continuamos a empregar o estimador de MQO, ̂ 2 , e que ajustamos a variância
habitual levando em conta o esquema AR(1). Quais são, agora, as propriedades de ̂ 2 ? Pode-se
demonstrar que ele ainda é linear e não tendencioso. Também é consistente e com distribuição
normal assintótica. Entretanto, ele não é mais o MELNT (não é eficiente), assim como na
heterocedasticidade.
Para encontrar o MELNT na presença de autocorrelação, devemos novamente recorrer ao
MQG. Continuando com o modelo de duas variáveis, e admitindo o processo AR(1), podemos
mostrar que o MELNT é dado pela expressão:
n
  x   x  y   y 
t t 1 t t 1
ˆ2 MQG  t 2
n
C
2
 x  x 
t 2
t t 1
Em que C é um fator de correção que, na prática, pode ser desconsiderado.

72
Esse estimador possui variância mínima, a qual é dada por:

2

Var ˆ2MQG  n
2
D
 x  x 
t 2
t t 1
Em que D também é um fator de correção que pode ser desconsiderado.
- Se determinado problema é afetado pela autocorrelação, e ignoramos esse fato,

continuando a utilizar o MQO tradicional, então:
1. A variância residual provavelmente subestimará o verdadeiro  2 .
2. Em conseqüência, R² será superestimado.
   
3. Mesmo que  2 não seja subestimado, Var ̂ 2 pode subestimar Var ˆ2 AR1 .
4. Portanto, os habituais testes de significância, não serão mais válidos e provavelmente nos
levarão a conclusões extremamente equivocadas quanto à significância dos coeficientes.
- Se usarmos as fórmulas de MQO que consideram a presença de autocorrelação, o

estimador não será o melhor estimador que poderia ser utilizado, pois o melhor é o MQG. Ou seja, a
variância do MQO que considera a autocorrelação é maior que a do MQG. Assim, os testes de
hipóteses e intervalos de confiança nos darão resultados inexatos, e o que parece ser
estatisticamente insignificante, pode na verdade ser significante.
3.4.2 Detecção
- Método gráfico:
1. Plotagem seqüencial no tempo: Faz-se um gráfico de dispersão com o tempo ou n° da
observação do eixo X e os resíduos no eixo Y. Se observar que os resíduos seguem algum padrão
não-aleatório, há indícios de autocorrelação.
2. Plotar et versus et 1 : Ou seja, os resíduos no período t contra seu valor em t-1. Se houver
autocorrelação, observaremos padrões como estes:
73
- O teste de Durbin-Watson:
Esse teste é muito popular e já está incorporado na maioria dos pacotes estatísticos, como o
SPSS. A estatística d de Durbin-Watson é definida por:
n
 eˆ
t 2
t  eˆt 1 
2
d n
2
 eˆ
t 1
t
É importante estar atento às premissas subjacentes desse teste:

a) O modelo possui intercepto. Se não possuir deve-se refazer a regressão incluindo o mesmo.
b) Os regressores são fixos em amostragem repetida (não-aleatórios);
c) Os termos de erro são gerados pelo esquema AR(1);
d) Os resíduos seguem distribuição Normal;
e) O modelo não inclui valores defasados da variável independente como uma das variáveis
explanatórias;
f) Não há observações faltantes.
n
 eˆ eˆ
t 2
t t 1
Seja o estimador do coeficiente de autocorrelação: ̂  n
. Demonstra-se que:
 eˆt2
t 1
d  21  ̂  . Logo: 0  d  4 , pois  1    1 .
Os procedimentos para a execução do teste de Durbin-Watson são:

1.Rodar a regressão por MQO e obter os resíduos estimados;
2.Calcular a estatística d;
3.Anotar os valores críticos dL e dU (Tabela D) baseado no número de observações (n), no
número de regressores (k’ = k-1) e no nível de significância;
4.Decidir conforme a tabela abaixo:
Hipótese nula Decisão Se
Ausência de autocorrelação positiva Rejeitar 0  d  dL
Ausência de autocorrelação positiva Sem decisão d L  d  dU
Ausência de autocorrelação negativa Rejeitar 4  dL  d  4
Ausência de autocorrelação negativa Sem decisão 4  dU  d  4  d L
Ausência de autocorrelação positiva ou negativa Não rejeitar dU  d  4  dU
A figura a seguir ilustra as regiões de rejeição, aceitação e indecisão do teste:
74
Caso a estatística do teste seja encontrada em alguma das regiões de indecisão, pode-se
recorrer ao teste d modificado. Dado o nível de significância  :
1. H 0 :   0 versus H 1 :   0 . Rejeita-se H 0 ao nível  se d  dU . Isto é, há autocorrelação

positiva estatisticamente significativa.
2. H 0 :   0 versus H 1 :   0 . Rejeita-se H 0 ao nível  se 4  d   dU . Isto é, há autocorrelação
negativa estatisticamente significativa.
3. H 0 :   0 versus H 1 :   0 . Rejeita-se H 0 ao nível 2 se d  dU ou se 4  d   dU . Isto é, há
autocorrelação, seja positiva ou negativa, estatisticamente significativa.
Exemplo 8. Têm-se dados relativos a índices de remuneração real por hora (Y) e produção por hora
(X), anualmente, no período de 1959 a 1998 nos EUA (n=40). A análise no Gretl forneceu:
Resíduos da regressão (= observados - ajustados Y) uhat1 versus uhat1_1 (com ajustamento por mínimos quadrados)
4 4
Y = 0,0438 + 0,914X
3 3
2 2
1 1
0
0
uhat1
resíduo
-1
-1
-2
-2
-3
-3
-4
-4
-5
-5
-6
-6 -5 -4 -3 -2 -1 0 1 2 3
1960 1965 1970 1975 1980 1985 1990 1995 uhat1_1
Estatística de Durbin-Watson = 0,122904

p-valor = 4,66575e-011
Testar, a 5% de significância, se existe autocorrelação e, com base em todos os indícios,

concluir se esse problema afeta esses dados.
Exemplo 9. Seja um problema com n = 50, 4 variáveis regressoras e d = 1,43. A 5% de

significância, teste se existe autocorrelação positiva.
Exercício 3. Considere um conjunto de dados com 32 observações, com o qual se ajustou um

MRLS e obteve-se d = 0,1380. Teste a 5% de significância de a autocorrelação afeta esse problema.
75
1. Primeiro, deve-se tentar verificar se se trata de uma autocorrelação pura, e não de um

erro de especificação do modelo. Às vezes, observamos padrões nos resíduos porque o modelo foi
especificado de forma equivocada – isto é, foram excluídas algumas variáveis importantes – ou
porque sua forma funcional é incorreta.
2. Se se tratar de autocorrelação pura, e ρ for conhecido, utiliza-se MQG. Seja o modelo de

duas variáveis:
Yt  1   2 X t  et
O mesmo modelo, mas no período t-1 é: Yt 1  1   2 X t 1  et 1 . Multiplicando-se por ρ em

ambos os lados obtém-se: Yt 1  1   2 X t 1  et 1 , e subtraindo-se do modelo original:
Yt  Yt 1   1 1      2  X t  X t 1   et  et 1 
 1 1      2  X t  X t 1   ut
Fazendo-se Yt*  Yt  Yt 1  , 1*  1 1    , X t*   X t  X t 1  e  2*   2 , pode-se estimar

Yt*  1*   2* X t*  ut , por MQO.
Esta regressão é conhecida como a equação em diferenças generalizadas. Nesse processo de

obtenção das diferenças, sempre perdemos a primeira observação.
3. Se se tratar de autocorrelação pura, e ρ não for conhecido, deve-se usar técnicas de séries
temporais.
76

Apostila Estatística Econômica

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apostila Estatística Econômica

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

Prof. Vanessa B. Leotti Torman

1 MODELO DE REGRESSÃO LINEAR SIMPLES (MRLS)................................................................. 4

1.1 INTRODUÇÃO À REGRESSÃO .................................................................................................................. 4

2 MODELO DE REGRESSÃO LINEAR MÚLTIPLA (MRLM) ......................................................... 29

2.1 SIGNIFICADO DOS PARÂMETROS DO MODELO..................................................................................... 29

2.15 VARIÁVEIS DUMMIES .......................................................................................................................... 43

3 VIOLAÇÕES DAS PREMISSAS DO MODELO DE REGRESSÃO ................................................ 50

3.1 NÃO-NORMALIDADE DOS RESÍDUOS..................................................................................................... 50

1 MODELO DE REGRESSÃO LINEAR SIMPLES (MRLS)

1.1 Introdução à Regressão

A análise de regressão estuda a dependência de uma variável, chamada de variável

1.1.1 Relações estatísticas versus determinísticas

Na análise de regressão, estamos preocupados com o que é conhecido como dependência

1.2 Modelo de Regressão Linear Simples (MRLS)

1.2.1 Função linear de regressão populacional

Denotaremos por Yi o valor da variável dependente para a i-ésima observação e X i o valor

Desenho (fertilizante x produtividade):

Podemos expressar isso matematicamente escrevendo:

onde 1 e  2 são chamados de coeficientes de regressão, ou respectivamente, intercepto e

O desvio e, também conhecido como perturbação aleatória, resíduo aleatório, ou distúrbio

1.2.2 Função linear de regressão amostral

1 e  2 são parâmetros conhecidos apenas se toda a população fosse pesquisada, ou seja, se

Yî é um estimador de E Y | X i  , assim como a distância eî  Yi  Yî estima o resíduo e.

A figura abaixo ilustra as diferenças entre a FRP e FRA:

Assim, temos duas questões para responder:

1.2.3 Premissas clássicas

Para realizarmos inferências sobre 1 e  2 , precisamos fazer algumas suposições sobre a

Um exemplo de modelo não linear nos parâmetros é Yi  1   2  X i  ei e não veremos

esse tipo de modelo.

[2]: Os valores de X são fixados em amostragem repetida;

[4]: Var ei | X i    2 , i

[5]: Cov ei , e j  = 0, i, j , i  j

[6]: Cov(Xi, ei) = 0;

[9]: O modelo está corretamente especificado (não há viés ou erro de especificação);

Assim, β1, β2 e σ2 são os parâmetros, geralmente desconhecidos, da distribuição de Y.

1.3 Estimação dos parâmetros do modelo: Método de Mínimos Quadrados

Dentre os diversos métodos existentes para estimar os verdadeiros parâmetros de funções

Gráfico: Critério dos mínimos quadrados

 Yi  nˆ1  ˆ2  X i

onde, n é o tamanho da amostra. Resolvendo as equações normais simultaneamente, obtemos:

onde X e Y são as médias amostrais de X e Y, ou seja, X 

1.3.1 Significado de ̂1 e ̂ 2

̂1 : valor estimado para Y quando X = 0

1.3.2 Precisão ou erro-padrão das estimativas de MQO

1.3.3 Propriedades dos estimadores de MQO

1. A reta de regressão sempre passa pelas médias amostrais de Y e X:

2. A soma dos resíduos estimados é igual a zero:  eˆ   Y  Yˆ   0 .

3. Dadas as premissas do MRLS, os estimadores de MQO são os melhores estimadores lineares

Y versus X (com ajustamento por mínimos quadrados)

1.4 Coeficiente de correlação linear de Pearson - r

Gráfico: Tipos de correlação

Obs: o verdadeiro valor da correlação linear (populacional, em geral, desconhecido) é representado

Exemplo 2. Calcular e interpretar o coeficiente de correlação linear de Pearson para os dados do

Exercício 2. Calcular e interpretar o coeficiente de correlação linear de Pearson para os dados do

1.5 Coeficiente de determinação - r2

Apesar de ser diretamente ligado ao coeficiente de correlação, o coeficiente de determinação

Gráfico. Decomposição da soma de quadrados total

Definimos agora r2 como:

Assim, o r2 determina a proporção (percentual) da variação total de Y explicada pela

A relação entre o coeficiente de correlação e o de determinação é dada por:

Exemplo 3. Calcule e interprete o coeficiente de determinação para os dados do Exemplo 1.

Exercício 3. Calcule e interprete o coeficiente de determinação para os dados do Exercício 1.