Você está na página 1de 43

ECONOMETRIA

Notas de Aula

Prof. Cláudio André


PARTE I
A Econometria através de um estudo de caso...

O Sr. Econopoulos é o representante exclusivo em Fortaleza das camionetas


APRIGIUS, as mais espaçosas e resistentes do mercado.

O preço de uma camioneta nova e de seus opcionais é determinado pela fábrica


e, portanto, não é uma variável de controle dele.

Entretanto, a sua loja encarrega-se também da venda de camionetas usadas e os


seus preços não sofrem qualquer ingerência da montadora.

O problema seria, então, determinar o preço de um modelo usado. De posse dessa


informação, o ganho em cada venda poderia ser otimizado.

Mais especificamente, o Sr. Econopoulos está preocupado que os preços


determinados pelo Sr. Picaretti, o seu gerente de vendas de camionetas usadas,
não estejam sendo determinados de forma clara e previsível.

Depois de comparecer a um seminário sobre vendas, ele decidiu implantar um


sistema de determinação de preços em sua revendedora. Mas, que sistema
implantar?

O Sr. Econopoulos pensou bastante sobre o assunto, e lembrou-se que um dos


palestrantes falou sobre a possibilidade de utilizar a ECONOMETRIA na
determinação dos preços de revenda de veículos.

Mas, o que é Econometria?

O Sr. Econopoulos não sabia, mas ficou bastante curioso para aprender na
tentativa de solucionar o seu problema.

E, então, o que é a Econometria?

Em suas leituras introdutórias, o Sr. Econopoulos descobriu que a Econometria


consiste basicamente da utilização da teoria econômica, da Matemática e da
Estatística na tentativa de mensurar as relações existentes entre variáveis
econômicas.

No caso, o papel da teoria seria o de sugerir variáveis e relações importantes entre


elas, enquanto que a Matemática e a Estatística serviriam para quantificar estas
relações.

Com base nessas idéias básicas, o Sr. Econopoulos pensou:


“Se eu conseguir escolher um conjunto de variáveis importantes para determinar o
preço de revenda de camionetas usadas, então, eu poderei aumentar os lucros
obtidos em cada venda.”
Muito entusiasmado, ele conversou com o Sr. Picaretti a este respeito que
prontamente respondeu:
“Eu sinceramente acho que isto é uma total perda de tempo! A determinação do
preço de veículos usados é antes de tudo uma arte. No fundo, é a experiência e a
percepção do avaliador que contam.”

Mas, o Sr. Econopoulos não concordou... Ele já havia percebido que a Econometria
seria capaz de lhe dar uma resposta mais precisa, isto é, menos dependente de
juízos de valor.

Então, como os preços seriam determinados?

O Sr. Econopoulos verificou que as análises econométricas partem sempre de uma


abordagem teórica do tema em questão.

Portanto, o primeiro passo para implantar um sistema de avaliação de camionetas


usadas seria a formulação de um modelo teórico.

No caso, os modelos mais simples tratam da relação entre duas variáveis, uma
chamada de dependente (a que se quer explicar) e outra chamada de variável
independente ou explicativa.

E, então? Quais seriam as variáveis que mais se adequariam neste contexto?

O Sr. Econopoulos não teve dúvidas quanto à variável dependente neste caso. Esta
seria exatamente o preço de revenda da camioneta, em reais, que doravante será
representado por pr.

Mas, qual seria a variável explicativa neste caso? Utilizando a sua experiência, o Sr.
Econopoulos verificou que o ano de fabricação da camioneta (af) seria
fundamental para determinar o seu valor de revenda.

E, que tipo de relação existiria entre estas duas variáveis? No caso, o Sr.
Econopoulos espera que a relação entre elas seja positiva, ou seja, ele espera que
quanto mais nova a camioneta (i.e., quanto maior for o seu ano de fabricação),
maior tenderá a ser o seu preço de revenda.

BOX: Os tipos de relações

Basicamente as relações, se existirem, entre variáveis econômicas podem ser de


dois tipos:
- Positivas: quando dos dados tendem a se mover na mesma direção (e.g., Lei
da Oferta)
- Negativas: quando dos dados tendem a se mover na direção oposta (e.g.,
Lei da Demanda).
Obs.: duas variáveis que tendem a se mover em um padrão relativamente previsível
não possuem necessariamente uma relação que possa ser teoricamente
interpretada.
BOX: Os tipos de relações (continuação)
Por exemplo, pode haver uma correlação muito forte entre a taxa de crescimento
do PIB brasileiro e a taxa de crescimento da população de borboletas na Mongólia.
Será que você poderia explicar esse fenômeno? Este é um exemplo de uma
relação espúria.

Mas, como representar esta idéia matematicamente? Com base em seus estudos, o
Sr. Econopoulos representou a sua relação teórica entre as variáveis da seguinte
forma:
⎛ + ⎞
pr = ψ⎜ af ⎟
⎝ ⎠

No caso, o preço da camioneta seria uma função (representada pela letra grega
psi) do ano de fabricação da camioneta. O sinal positivo acima da variável
explicativa significa que a relação entre ela e a dependente é positiva ou
diretamente proporcional.

Mas, na prática, que forma deveria assumir esta função genérica especificada
acima? O Sr. Econopoulos havia lido que os modelos matemáticos mais básicos são
os modelos lineares. Portanto, o seu modelo poderia ser escrito da seguinte forma:

pr = ψ(af ) = β1 + β 2 .af

β1 representa o intercepto desta função, ou seja, seria o valor de pr quando af = 0.


Neste caso, este termo não teria um significado econômico óbvio.

β2, por sua vez, representa o coeficiente de declividade desta função, isto é, ele
mede a variação de pr dada uma variação em af.

Formalmente:
∆pr dpr
β2 = ≈
∆af daf

Graficamente:
Como, neste caso, a relação esperada entre pr e af é positiva, então, supõe-se que
β2 > 0.

Em termos práticos, tem-se que cada ano adicional de uso reduz o preço de
revenda da camioneta em β2 reais.

Exemplo:

Considere a função Y = 5 + 2.X

Verifique que, neste caso, β1 = 5 e β2 = 2.

Logo:

Se X = 0, então Y = 5 = β1

Se X = 1, então Y = 5 + 2.1 = 7

Considerando-se esses dois casos, então, tem-se que:

∆Y = 7 – 5 = 2 e ∆X = 1 – 0 =1

Logo, ∆Y/∆X = 2/1 = 2 = β2

Assim, para cada unidade que X aumenta, Y crescerá em 2 unidades.

Um ponto fundamental é que o Sr. Econopoulos desconhece os valores de β1 e de


β2 e, por conseguinte, o modelo econômico proposto terá utilidade limitada para a
realização de seus objetivos.

Outro ponto de essencial importância é que, na prática, as relações entre variáveis


econômicas nunca é perfeita. Os economistas formulam modelos simplificando a
realidade, pois, ela é muito complexa. O argumento fundamental é que os modelos
não precisam ser realistas, desde que proporcionem boas previsões (e.g., um
mapa).

Desta forma, para levar em consideração esses dois aspectos, faz-se necessário
desenvolver um modelo econométrico a partir do modelo econômico proposto. E,
o que diferencia o modelo econométrico do modelo matemático?

O modelo econométrico

O Sr. Econopoulos aprendeu que o modelo econométrico diferencia-se do modelo


econômico, pois, deixa explícito que a relação entre as variáveis não é perfeita, i.e.,
que outras variáveis podem afetar a variável dependente em análise.

No caso em questão, quais seriam, portanto, as outras variáveis que podem afetar o
valor de uma camioneta usada mas que não foram incluídas no modelo? Vários
exemplos poderiam ser mencionados, tais como a inclusão ou não de acessórios
opcionais, o cuidado do dono anterior, o tipo de pintura, etc.

Os econometristas também consideram que os modelos teóricos não são perfeitos


por dois outros motivos adicionais, quais sejam:
- as relações entre variáveis econômicas possuem sempre um certo grau de
indeterminação (fator humano); e
- podem haver erros de medição das variáveis em análise.

De fato, o Sr. Econopoulos já havia percebido que, em certos casos, camionetas


com mais anos de uso poderiam ser vendidas por preços maiores que os das mais
novas. Isto se deve exatamente aos outros fatores além do ano de fabricação que
afetam o preço e não estão contidos no modelo.

Então, o primeiro passo para se formular um modelo econométrico é admitir


claramente o que está implícito na análise econômica, de que os modelos teóricos
não tem a pretensão de descrever todos os casos possíveis, mas sim “apenas”
como as relações entre as variáveis se verificam na média.

Logo, o modelo teórico deveria ser reescrito da seguinte forma:

E(pr |af ) = ψ(af ) = β1 + β 2 .af

onde “ E “ representa a esperança matemática. Note que utiliza-se, na verdade, a


esperança condicional, i.e., considera-se como variável dependente o valor
esperado do preço de revenda dado o ano de fabricação.

Nessa nova formulação do modelo, que será a forma utilizada daqui em diante,
tem-se que:

β1 representa o intercepto da função, ou seja, seria o valor de E(pr|af) quando af =


0. Neste caso, este termo não teria um significado econômico óbvio.

β2, por sua vez, representa o coeficiente de declividade da função, isto é, ele
mede a variação de E(pr|af) dada uma variação em af.

Considera-se, portanto, que cada ano adicional de uso reduz o preço de revenda
da camioneta em β2 reais, em média.

Após essa reformulação do modelo econômico, então, é possível construir


econométrico, que se divide em duas partes: um termo determinístico (dado pelo
modelo teórico reformulado) e um componente aleatório, ε (imprevisível a priori),
que representaria exatamente os fatores que tendem a distorcer as relações entre
as variáveis econômicas. Desta forma, o modelo econométrico poderia ser escrito
como se segue:

pr = E(pr |af ) + ε = β1 + β 2 .af + ε


Para perceber verdadeiramente a necessidade de se incluir o termo aleatório no
modelo, o Sr. Econopoulos deveria tentar primeiramente coletar dados referentes às
variáveis em questão.

Mas, que tipo de dados coletar? Os tipos de dados mais básicos que existem são
aqueles que são coletados para as variáveis ao longo do tempo (séries temporais)
ou aqueles que são coletados em um determinado ponto do tempo (séries
transversais).

BOX: Séries temporais X séries transversais

Séries temporais são aquelas coletadas, como o nome sugere, ao longo do tempo.
A freqüência depende da situação, podendo ser anuais, semestrais, trimestrais,
mensais, semanais, diárias etc.

Séries transversais são aquelas coletadas em um ponto do tempo (que depende


do contexto).

Então, como reconhecer esses tipos de séries? Nos modelos com séries temporais,
as variáveis têm observações referentes a um país, empresa, família etc. durante
vários períodos de tempo. Já nos modelos com séries transversais, em um
determinado período, são coletadas informações de vários países, regiões, estados,
municípios, empresas, pessoas, famílias etc.

Exemplos:
- PIB anual do Brasil de 1970 a 2000 ⇒ Séries temporais (observações do PIB anual do
Brasil em um certo período, ano a ano).
- PIBs dos países da Comunidade Européia em 2000 ⇒ Séries transversais
(observações dos PIBs de vários países em um determinado ano).

Então, o Sr. Econopoulos coletou uma amostra que consistia nas camionetas usadas
vendidas por sua firma durante o ano de 20031. Esta amostra consiste de 30
observações, de dados transversais, cujos valores das variáveis em questão são
apresentados a seguir:

obs af pr obs af pr obs af pr


1 2002 38600 11 1999 29000 21 1997 32500
2 2001 41900 12 1999 27800 22 1997 25200
3 2001 46800 13 1999 42300 23 1997 30600
4 2001 38500 14 1999 44200 24 1996 28900
5 2000 46500 15 1999 38600 25 1996 29300
6 2000 41000 16 1999 32300 26 1996 23100
7 2000 27200 17 1998 36500 27 1996 25400
8 2000 33100 18 1998 39400 28 1995 22700
9 2000 51200 19 1998 25000 29 1995 21500
10 1999 30000 20 1998 32400 30 1995 19800

1 Para que os valores de pr sejam comparáveis, eles são dados em termos reais, i.e., já descontada a
inflação mensal.
Graficamente,

60000

50000

40000
pr

30000

20000

10000
1994 1996 1998 2000 2002 2004

af

Após tabular os dados e de representá-los graficamente através de um diagrama


de dispersão, o Sr. Econopoulos constatou que camionetas que foram fabricadas
no mesmo ano, de fato, foram revendidos por preços diferentes.

Ademais, ele também confirmou a hipótese que, na média, carros mais novos são
mais caros que os mais antigos.

BOX: Construção e interpretação de um diagrama de dispersão

De acordo com os dados disponíveis, crie uma caixa retangular onde os valores da
variável explicativa (genericamente representada por X) devem ser colocados na linha
e os da dependente (genericamente representada por Y) na coluna. Para cada
observação, forme pontos definidos por suas respectivas coordenadas de X e Y.

Interprete o diagrama da seguinte forma:

Uma relação positiva Uma relação negativa


 
Y Y
 
 
 
 
 
 
 
 
X X
Mas, conforme foi salientado antes, ele ainda desconhece os valores de β1 e de β2.
Como ele tem apenas informações de uma amostra com 30 observações, ele será
capaz de estimar os valores destes parâmetros desde que certas hipóteses sejam
satisfeitas. E que hipóteses são estas? Isto é o que será visto na próxima parte.
PARTE II
Linearidade e estimação dos parâmetros do modelo de regressão

O Sr. Econopoulos deseja estimar os parâmetros desconhecidos de seu modelo


econométrico (os β’s). Mas, antes de utilizar um método para tanto, ele verificou
que a hipótese de linearidade dos parâmetros do modelo é fundamental.

No caso, essa hipótese atesta que a relação entre as variáveis explicativas X2, ....
XK, e a variável dependente Y é linear “nos parâmetros”, ou seja, o modelo poderá
ser escrito da seguinte forma:

Yi = β1 + β 2 .X 2i + K + βK .XKi + ε i , i = 1,K ,n

onde β1 é o parâmetro de intercepto, e os βk’s, para k = 2,...,K, representam os


coeficientes de declividade entre cada uma das variáveis independentes X e a
variável dependente Y.

BOX: Linearidade “nos parâmetros”

Basicamente, um modelo linear “nos parâmetros” é aquele apresenta o formato


acima, i.e., todos os parâmetros desconhecidos devem estar multiplicando
variáveis explicativas ou transformações delas.

Considere os seguintes exemplos:

(i) Yi = β1 + β 2 .X i + β 3 .Z i + ε i

(ii) Yi = β1 + β 2 .X i + β 3 .X i2 + ε i

(iii) Yi = β1 + β 2 .X i + β 3 .X iθ + ε i
(iv) log(Yi ) = β1 + β 2 . log(X i ) + ε i
(v) Yi = A.X iθ .ε i

(vi) Yi = A.X iθ + ε i

Então, quais são lineares “nos parâmetros”? De acordo com o conceito, seriam os
modelos (i), (ii) e (iv). Por quê?

Obs.: Não confundir a terminologia. Linear “nos parâmetros” não quer dizer
necessariamente que a relação entre a variável dependente e cada uma das
explicativas é linear “nas variáveis”, i.e., que pode ser expressa por uma reta ou
equivalente. Veja o caso dos exemplos (ii) e (iv) acima.

Se dispusermos de uma amostra com n observações distintas, então, será possível


escrever o sistema de equações da seguinte forma:
Y1 = β1 + β 2 .X 21 + K + βK .XK1 + ε1
Y2 = β1 + β 2 .X 22 + K + βK .XK 2 + ε 2
Y3 = β1 + β 2 .X 23 + K + βK .XK 3 + ε 3
K K K K K K
Yn = β1 + β 2 .X 2n + K + βK .XKn + ε n

Na forma matricial:

⎡ Y1 ⎤ ⎡1 X 21 X 31 L XK1 ⎤ ⎡ β1 ⎤ ⎡ ε1 ⎤
⎢Y ⎥ ⎢1 X ⎥
X 32 L XK 2 ⎥ ⎢⎢β 2 ⎥⎥ ⎢⎢ε 2 ⎥⎥
⎢ 2⎥ = ⎢ 22
. +
⎢ M ⎥ ⎢M M M M ⎥⎢M ⎥ ⎢M⎥
⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥
⎣Yn ⎦ ⎣1 X 2n X 3n K x Kn ⎦ ⎣βK ⎦ ⎣ε n ⎦
(n × 1) (n × K ) (K × 1) (n × 1)

Ou simplesmente:

Y = X.β + ε

Essa é a representação genérica de um modelo linear de regressão (apenas deve-


se ter em mente que a cada caso n e K podem ser diferentes).

Estimação dos Parâmetros do Modelo


A partir do modelo geral apresentado anteriormente, tem-se que:

ε = Y − X.β

O método de estimação dos Mínimos Quadrados Ordinários (M.Q.O.) consiste em


determinar uma solução para o seguinte problema:

n
Min ∑ε 2
i ou Min (ε'.ε )
βi 's β
i =1

Portanto, o vetor b seria aquele que minimizaria a soma dos resíduos ao quadrado.
Assim, encontraria-se a curva que melhor descreveria o comportamento médio da
relação entre as variáveis explicativas e a dependente.

Pode-se mostrar que, na forma matricial:

b = (X' X ) X' Y
−1

No modelo de regressão linear simples, esta fórmula é equivalente a


∑ (X − X)(. Y − Y )
n

i i
b2 = i=1
e b1 = Y − b 2 .X .
∑ (X − X)
n
2
i
i=1

Observação:

No caso do modelo linear (cuja curva estimada é uma reta), a reta estimada passa
exatamente no ponto em que X i = X e Ŷi = Y . Por quê?

Ŷ = b1 + b 2 .X i e b1 = Y − b 2 .X ⇒ Y = b1 + b 2 .X

Logo: Se X i = X , então Ŷi = Y .

Um exemplo
O Sr. Econopoulos agora será capaz de obter estimativas para os parâmetros
desconhecidos de seu modelo, utilizando os estimadores de mínimos quadrados.

O modelo proposto era o seguinte:


pr = β1 + β 2 .af + ε

Logo, a equação estimada será dada por:

p̂ri = −6187470 + 3113,02.afi

Observações:

[a] Perceba que na equação estimada utiliza-se p̂r já que através dessa equação
serão obtidas estimativas de pr e não necessariamente os seus reais valores.

[b] Não faz sentido somar o termo aleatório na equação estimada. Por quê?

Como interpretar os resultados do ponto de vista econômico?

- Neste caso, a constante não possui significado econômico, apenas matemático.


Seria o valor de p̂r caso o ano de fabricação fosse igual a zero.

- De acordo com a estimativa do coeficiente de declividade, a cada ano mais


nova for a camioneta o seu preço de revenda tenderá a aumentar em
aproximadamente R$ 3.113,02 ou cada ano adicional de uso reduz o preço de
revenda em R$ 3.113,02, em média.
Graficamente:

PR vs. AF
60000

50000

40000
E(PR)
R
P 30000

20000

E(AF)
10000
1994 1996 1998 2000 2002 2004

AF

E, para que servem esses resultados?

Para fazer previsões da variável dependente. Por exemplo:

Se afi = 2000 ⇒ p̂ri = −6187470 + 3113,02.2000 = $38.570

Então, o preço esperado de revenda para uma camioneta fabricada no ano 2000
seria de $38.570, aproximadamente. Com isto, o Sr. Econopoulos poderia tentar
maximizar os seus lucros, já que ele teria uma boa idéia de qual seria o preço de
revenda de uma determinada camioneta.
ANEXO II.1
DERIVAÇÃO DOS ESTIMADORES DE M.Q.O.

Considere o seguinte modelo de regressão:

Yi = β1 + β 2 .X i + ε i

Então:

ε i = Yi − (β1 + β 2 .X i )

Pelo método dos Mínimos Quadrados Ordinários (MQO) deseja-se

Min S = ∑ ε i2 ou Min S = ∑ (Yi − β1 − β 2 .X i )


2
β1 ,β 2 β1 ,β 2
i i

Condições de primeira ordem do problema:

∂S
= −2.∑ (Yi − β1 − β 2 .X i ) = 0 (1)
∂β1 i

∂S
= −2.∑ (Yi − β1 − β 2 .X i ).X i = 0 (2)
∂β 2 i

Reescrevendo essas equações, temos que:

∑Y i − n.β1 − β 2 .∑ X i = 0 1∗ ( )
i i

∑ Y .X i i − β1 .∑ X i − β 2 .∑ X i2 = 0 2 ∗ ( )
i i i

Então:

n.β1 + β 2 .∑ X i = ∑ Yi
i i

β1 .∑ X i + β 2 .∑ X i2 = ∑ Yi .X i
i i i

Logo, na forma matricial:

⎡ n

∑X
i
i ⎤ ⎡ ∑ Yi ⎤
⎥.⎡ β1 ⎤ = ⎢ i ⎥
2 ⎢ ⎥ ⎢ Y .X ⎥
⎢∑ X i
⎢⎣ i
∑X
i
i
⎥ β ∑
⎥⎦ ⎣ 2 ⎦ ⎢⎣ i
i i
⎥⎦
Então, utilizando-se a Regra de Cramer temos que:

n ∑Y i
i

∑X i ∑ Y .X i i

b2 = β =
i i

∑X
2
n i
i

∑X i
i ∑X i
2
i

n ∑X i
desde que i
≠0
∑X i
i ∑X i
2
i

Logo:

n.∑ Yi .X i − ∑ Yi .∑ X i
b2 = i i i
2
⎛ ⎞
n.∑ X − ⎜ ∑ X i ⎟ 2
i
i ⎝ i ⎠

Mas, esta expressão pode também ser escrita de uma forma alternativa:

∑ Y .∑ X i i

∑ Yi .X i − i

n
i

b2 = i
2
⎛ ⎞
⎜∑ Xi ⎟
∑i X i2 − ⎝ i n ⎠

∑ Y .∑ X i i ∑ Y .∑ X i i ∑ Y .∑ Xi i

∑ Yi .X i − i

n
i
− i

n
i
+ i

n
i

b2 = i
2 2
⎛ ⎞ ⎛ ⎞
⎜∑ Xi ⎟ ⎜∑ Xi ⎟
∑i X i2 − 2. ⎝ i n ⎠ + ⎝ i n ⎠

∑ Y .∑ X i i ∑ Y .∑ X i i ∑X ∑Y i i

∑ Y .X i i − i

n
i
− i

n
i
+ n. i

n
. i

n
b2 = i
2
⎛ ⎞
⎜∑ Xi ⎟ ∑i X i ∑i X i
⎝ ⎠
∑i X i − 2. n + n. n . n
2 i
∑ Y .X i i − X.∑ Yi − Y.∑ X i + n.X.Y
b2 = i i i

∑X − 2.X.∑ X i + n.X
2 2
i
i i

∑ (Y .X i i − Yi .X − X i Y + X.Y )
b2 =
∑ (X )
i
2
2
i − 2.X.X i + X
i

∑ (Y )(
− Y . Xi − X )
∑ (Y − Y )(. X − X )
i
i
i i
n −1 Côv(X, Y )
= i
= =
( ) ∑( )
b2
Vâr(X )

2 2
X − X i Xi − X
i i

n −1

Agora, b1 poderá ser facilmente derivado a partir de (1 ):


∑Y
i
i − n.b 1 − b 2 .∑ X i = 0
i

n.b 1 = ∑ Yi − b 2 .∑ X i
i i

∑Y i ∑X i
b1 = i
− b2. i

n n

b 1 = Y − b 2 .X

Desta forma, diz-se que (b 1 , b 2 ) = Arg Min S já que eles formam a solução para o
problema proposto.

Uma forma mais geral de derivar os estimadores de M.Q.O., que poderá ser utilizada
para qualquer modelo linear de regressão simples ou múltipla é apresentada a
seguir:

Considere o seguinte modelo de regressão:

Y = X.β + ε ⇒ ε = Y − X.β

Pelo método dos Mínimos Quadrados Ordinários (MQO) deseja-se

Min S = ε '.ε = (Y − X.β )'.(Y − X.β ) = Y '.Y − Y '.X.β − β'.X '.Y + β'.X '.X.β
β
Condição de primeira ordem do problema:

∂S
= − X '.Y + X '.X.β = 0
∂β'

Então:

X '.X.β = X '.Y ⇒ (X'.X )−1 .(X'.X ).β = (X'.X )−1 .X'.Y ⇒ b = β ∗ = (X '.X ) .X '.Y
−1

Aqui diz-se que b = Arg Min S pois é o vetor solução para o problema.
ANEXO II.2
UM EXEMPLO UTILIZANDO MATRIZES

Considere os valores da tabela abaixo:

Y X2 X3 Y X2 X3
800 2 0,8 2070 11 0,8
1160 4 0,7 1890 10 0,7
1580 6 0,5 1830 9 0,6
2010 8 0,4 1740 8 0,1
1890 7 0,2 1380 6 0,5
2600 12 0,2 1060 4 0,4

Estime a regressão de Y em função de X2 e X3.

O modelo a ser estimado é o seguinte:

Yi = β1 + β 2 .X 2i + β 3 .X 3i + ε i , i = 1,...,12.

Em notação matricial:

⎡ Y1 ⎤ ⎡1 X 21 X 31 ⎤ ⎡ ε1 ⎤ ⎡ 800 ⎤ ⎡1 2 0,8 ⎤ ⎡ ε1 ⎤
⎢ Y ⎥ ⎢1 ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ε ⎥
⎢ 2⎥ ⎢ X 22 X 32 ⎥ ⎢ ε2 ⎥ ⎢1160 ⎥ ⎢1 4 0,7 ⎥ ⎢ 2⎥
⎢ Y3 ⎥ ⎢1 X 23 X 33 ⎥ ⎢ ε3 ⎥ ⎢ 1580 ⎥ ⎢1 6 0,5 ⎥ ⎢ ε3 ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢ Y4 ⎥ ⎢1 X 24 X 34 ⎥ ⎢ ε4 ⎥ ⎢2010 ⎥ ⎢1 8 0,4⎥ ⎢ ε4 ⎥
⎢ Y5 ⎥ ⎢1 X 25 X 35 ⎥ ⎢ ε5 ⎥ ⎢1890 ⎥ ⎢1 7 0,2⎥ ⎢ ε5 ⎥
⎢ ⎥ ⎢ ⎥ ⎡ β1 ⎤ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎡ β1 ⎤ ⎢ ⎥
⎢ Y6 ⎥ ⎢1 X 26 X 36 ⎥ ⎢ ⎥ ⎢ ε 6 ⎥ ⎢2600 ⎥ = ⎢1 12 0,2⎥ ⎢β ⎥ + ⎢ ε 6 ⎥
⎢ Y ⎥ = ⎢1 X 27
. β +
X 37 ⎥ ⎢ ⎥ ⎢ ε 7 ⎥
2 ⇒ ⎢2070 ⎥ ⎢1 11 0,8 ⎥.⎢ 2 ⎥ ⎢ ε ⎥
⎢ 7⎥ ⎢ ⎥ ⎢⎣β 3 ⎥⎦ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢⎣β 3 ⎥⎦ ⎢ 7 ⎥
⎢ Y8 ⎥ ⎢1 X 28 X 38 ⎥ ⎢ ε8 ⎥ ⎢1890 ⎥ ⎢1 10 0,7 ⎥ ⎢ ε8 ⎥
⎢ Y ⎥ ⎢1 X 29 X 39 ⎥ ⎢ε ⎥ ⎢1830 ⎥ ⎢1 9 0,6⎥ ⎢ε ⎥
⎢ 9⎥ ⎢ ⎥ ⎢ 9⎥ ⎢ ⎥ ⎢ ⎥ ⎢ 9⎥
⎢ Y10 ⎥ ⎢1 X 210 X 310 ⎥ ⎢ε 10 ⎥ ⎢1740 ⎥ ⎢1 8 0,1⎥ ⎢ε 10 ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢ Y11 ⎥ ⎢1 X 211 X 311 ⎥ ⎢ ε 11 ⎥ ⎢1380 ⎥ ⎢1 6 0,5 ⎥ ⎢ ε 11 ⎥
⎢⎣ Y12 ⎥⎦ ⎢⎣1 X 212 X 312 ⎥⎦ ⎢⎣ε 12 ⎥⎦ ⎢⎣1060 ⎥⎦ ⎢⎣1 4 0,4⎥⎦ ⎢⎣ε 12 ⎥⎦

Y(12 x1) = X (12 x 3 ) .β (3 x1) + ε (12 x1)


A matriz X’X e a sua inversa serão dadas por:

⎡1 2 0,8 ⎤
⎢1 4 0,7 ⎥
⎢ ⎥
⎢1 6 0,5 ⎥
⎢ ⎥
⎢1 8 0,4⎥
⎢1 7 0,2⎥
⎡1 1 1 1 1 1 1 1 1 1 1 1 ⎤⎢ ⎥

X' X = ⎢ 2 4 6 8 7 12 11 10 9 8 6 ⎥
4 ⎥.⎢⎢ 1 12 0,2⎥
1 11 0,8 ⎥
⎢⎣0,8 0,7 0,5 0,4 0,2 0,2 0,8 0,7 0,6 0,1 0,5 0,4⎥⎦ ⎢ ⎥
⎢1 10 0,7 ⎥
⎢1 9 0,6⎥
⎢ ⎥
⎢1 8 0,1⎥
⎢ ⎥
⎢1 6 0,5 ⎥
⎢⎣1 4 0,4⎥⎦

⎡ 12 87 5,9 ⎤ ⎡ 1,25 − 0,09 − 1,04⎤


X' X = ⎢⎢ 87 731 41 ⎥⎥ ⇒ (X' X) = ⎢⎢− 0,09 0,01 0,03 ⎥⎥
−1

⎢⎣5,9 41 3,53⎥⎦ ⎢⎣ − 1,04 0,03 1,67 ⎥⎦

E, a matriz X’Y será:

⎡ 20010 ⎤
X' Y = ⎢⎢160810 ⎥⎥
⎢⎣ 9309 ⎥⎦

A estimativa de β será dada, então, por:

⎡ 1,25 − 0,09 − 1,04⎤ ⎡ 20010 ⎤ ⎡ 789,33 ⎤


b = (X' X ) X' Y = ⎢⎢− 0,09 0,01 0,03 ⎥⎥.⎢⎢160810 ⎥⎥ = ⎢⎢ 149,56 ⎥⎥
−1

⎢⎣ − 1,04 0,03 1,67 ⎥⎦ ⎢⎣ 9309 ⎥⎦ ⎢⎣− 419,26⎥⎦

Portanto, o modelo estimado é:

Ŷ = 789,33 + 149,56.X 2 − 419,26.X 3


PARTE III
O coeficiente de determinação

Considerando-se o modelo básico de regressão

Yi = β1 + β 2 .X 2i + K + βK .XKi + ε i , i = 1,K,n

Vale relembrar que a variável dependente (Y) varia em função das variáveis
independentes (X’s).

Em termos gerais, o que se procura é escolher as variáveis independentes de tal


forma que esta explique o máximo possível da variação de Y.

Para se estabelecer uma medida de variação em Y que seja explicada pelo


modelo, deve-se separar os seus componentes explicável e não explicável. Assim,
tem-se que
Yi = β1 + β 2 .X 2i + K + βK .XKi + ε i = E(Yi ) + ε i

onde E(Yi) é o componente explicável (ou sistemático) e εi é o componente não-


explicável (aleatório).

Como os verdadeiros valores dos β’s não são conhecidos, então, utiliza-se o método
dos mínimos quadrados ordinários para se obter suas estimativas para um
determinado conjunto de dados.Assim, será possível decompor o valor de Yi em

Yi = Ŷi + e i

onde Ŷi = b1 + b 2 .X 2 i + K + b K .X Ki e e i = Yi − Ŷi .

Subtraindo a média de Y de ambos os membros da equação acima, obteremos

( )
Yi − Y = Ŷi − Y + e i ,

evidenciando que a diferença entre Y e a sua média consiste em uma parte


explicada pelo modelo e outra parte não-explicada.

Após algumas transformações (ver o Anexo III.1), pode-se mostrar que

∑ (Y − Y ) = ∑ (Ŷ − Y ) + ∑ (e )
2 2 2
i i i
⇓ ⇓ ⇓
SQT SQR SQE

Onde:
SQT = Soma de Quadrados Total
SQR = Soma de Quadrados da Regressão
SQE = Soma de Quadrados dos Erros
Portanto, SQT seria uma medida de variação total em Y em relação à sua média
amostral, enquanto que SQR seria a parcela desta variação total que seria
explicada pelo modelo de regressão.

Logo, SQE seria a parcela de variação total de Y em relação à sua média que não
é explicada pelo modelo.

Assim, pode-se escrever simplesmente que:

SQT = SQR + SQE

Então, ter-se-á que:


SQT SQR SQE
= +
SQT SQT SQT

O que implica que


SQR SQE
R2 = = 1−
SQT SQT

O componente SQR / SQT representa o chamado Coeficiente de Determinação e


é usualmente representado por R2.

O coeficiente de determinação mostra a capacidade de explicação do modelo


de regressão.

Note que se o modelo for capaz de explicar 100% da variação em Y, o R2 seria


necessariamente igual a 1, pois, SQE = 0, neste caso.

Caso o modelo não consiga explicar de forma alguma a variação total de Y, então
será o caso que R2 = 0.

Portanto, pode-se concluir que 0 ≤ R2 ≤ 1.

Uma observação importante é que o R2 não mede por si mesmo a qualidade do


modelo de regressão. Portanto, não é recomendável seguir uma estratégia de
regressão que vise apenas a sua maximização.

⇒ Lembre-se que a escolha do modelo econométrico deve estar intrinsecamente


vinculada à teoria econômica.

Perceba ainda que o R2 é sensível tanto às variáveis independentes escolhidas


como ao tipo de modelo econométrico adotado.

Ademais, é mais fácil obter um R2 alto quando se lida com séries temporais. No
caso, séries transversais, em geral, apresentam uma maior heterogeneidade.
Um exemplo:

O Sr. Econopoulos deseja, portanto, saber o grau de ajustamento de seu modelo.


No seu caso:

SQR 6782,92
R2 = = = 0,5413
SQT 12531,82
ou
SQE 5748,896
R 2 = 1− = 1− = 1− 0,4587 = 0,5413 .
SQT 12531,82

Como interpretar este resultado?

No caso, o modelo econométrico escolhido explica 54,13% da variação de pr em


relação a sua média. O modelo possui um grau de ajustamento razoável.

Diferentes Formas Funcionais e o R2

O R2, que representa o grau de ajustamento do modelo, e este indicador é sensível


à forma funcional escolhida para o modelo.

A forma mais utilizada é a forma linear (nas variáveis), que é a que se tem utilizado
até o presente momento.

[1] Yi = β1 + β 2 .X i + ε i (LINEAR)
Outras formas funcionais podem ser utilizadas de acordo com o contexto e/ou com
a teoria que fundamenta o modelo econométrico.

Mas, que outras formas funcionais são mais utilizadas?

[2] log(Yi ) = β1 + β 2 . log(X i ) + ε i (LOG − LOG)


O modelo LOG-LOG é derivado a partir de uma função potência, tal como:

Yi = A.Xβi 2 .ui

No caso do modelo acima, tem-se que:

β1 = log(A ) e εi = log(ui )

O modelo LOG-LOG é muito importante especialmente devido ao significado do


parâmetro β2 .

No caso, este parâmetro mede a elasticidade de X em relação a Y, representada


por η. Relembrando:
∆% Y d log(Y ) dY X
η= = = . = β2
∆% X d log(X ) dX Y

A elasticidade mede a variação percentual de Y dada uma variação percentual


em X, i.e., para cada 1% que X variar, Y variará em β2%.

Este modelo também é conhecido como o modelo de elasticidade constante.

[3] log(Yi ) = β1 + β 2 .X i + ε i (LOG − LINEAR)


O modelo LOG-LINEAR é derivado a partir de uma função exponencial, tal como:

Yi = A.eβ2 . Xi .ui

No caso do modelo acima, tem-se que:

β1 = log(A) e ε i = log(ui )

[4] Yi = β1 + β 2 . log(X i ) + ε i (LINEAR − LOG)


O modelo LINEAR-LOG é apropriado para descrever valores crescentes, mas que
crescem a taxas decrescentes.

[5] Yi = β1 + β 2 .
1
Xi
+ εi (RECÍPROCO)
O modelo RECÍPROCO é apropriado para descrever valores que se comportam
como uma função Hipérbole.

[6] Yi = β1 + β 2 .X i + K + β n .X ni−1 + ε i (POLINOMIAL )


O modelo POLINOMIAL é apropriado para descrever várias situações.
O formato da curva estimada dependerá do grau do polinômio em questão.

Neste caso, o grau do polinômio será igual a “n - 1”.

Perceba que se o grau for 1, o modelo polinomial será exatamente igual ao modelo
linear.
ANEXO III.1
DERIVAÇÃO DO R2

Considere o seguinte modelo de regressão:

Yi = β1 + β 2 .X i + ε i

Após a estimação do modelo tem-se que:

Yi = Ŷi + e i , onde Ŷi = b1 + b 2 .X i .

Então, algumas operações podem ser feitas na expressão acima, quais sejam:

Yi − Y = Ŷi − Y + e i

∑ (Y − Y ) = ∑ (Ŷ − Y + e )
2 2
i i i
i i

∑ (Y − Y )
i
2
= ∑ Ŷi − Y ( ) + ∑ (Ŷ − Y ).e + ∑ (e )
2
i i i
2

i i i i

Mas, pode-se mostrar que ∑ (Ŷ − Y ).e


i
i i = 0 . No caso:

∑ (Ŷ − Y ).e = ∑ Ŷ .e
i
i i
i
i i − Y.∑ e i
i

Mas, ∑e i
i = 0 , pois:

∑ e = ∑ (Y − Ŷ ) = ∑ Y − ∑ Ŷ = ∑ Y − ∑ (b
i
i
i
i i
i
i
i
i
i
i
i
1 + b 2 .X i )

∑ e = ∑ Y − n.b
i i 1 − b 2 .∑ X i = ∑ Yi − n. Y − b 2 .X − b 2 .∑ X i ( )
i i i i i

∑ e = ∑ Y − n.Y + n.b
i
i
i
i 2 .X − b 2 .∑ X i
i
∑ e = ∑ Y − ∑ Y + b .∑ X
i
i
i
i
i
i 2
i
i − b 2 .∑ X i = 0
i

Logo:

∑ (Ŷ − Y ).e = ∑ Ŷ .e = ∑ (b
i
i i
i
i i
i
1 + b 2 .X i ).e i

∑ (Ŷ − Y ).e
i
i i = b1.∑ e i + b 2 .∑ X i .e i = b 2 .∑ X i .e i
i i i

que só será igual a zero se e somente se ∑ X .e


i
i i = 0 . Mas,

∑ X .e = ∑ X .(Y − Ŷ ) = ∑ X .Y − ∑ X .Ŷ = ∑ X .Y − ∑ X .(b


i
i i
i
i i i
i
i i
i
i i
i
i i
i
i 1 + b 2 .X i )

∑ X .e = ∑ X .Y − b .∑ X
i
i i
i
i i 1
i
i − b 2 .∑ X i2
i

∑ X .e = ∑ X .Y − (Y − b .X ).∑ X
i
i i
i
i i 2
i
i − b 2 .∑ X i2
i

∑ X .e = ∑ X .Y − Y.∑ X
i
i i
i
i i
i
i + b 2 .X.∑ X i − b 2 .∑ X i2
i i

1 ⎡ 1 ⎛ ⎞
2

∑i i i ∑i i i n ∑i i ∑i i 2 ⎢∑i i n ⎜⎝ ∑i i ⎟⎠ ⎥
X .e = X .Y − . Y . X − b . X 2
− . X
⎢⎣ ⎥⎦

Mas,

∑ (X )( ) 1
i − X . Yi − Y n.∑ X i .Yi − ∑ X i .∑ Yi ∑i i i n .∑i X i .∑i Yi
X .Y −
b2 = i
= i i i
=
∑ (X )
2 2 2
−X ⎛ ⎞ 1⎛ ⎞
i
i
n.∑ X − ⎜ ∑ X i ⎟ 2
i ∑i X − 2
i.⎜ ∑ i ⎟⎠
X
i ⎝ i ⎠ n⎝ i

Então:
1 ⎡ 1 ⎤
∑ X .e = ∑ X .Y − n .∑ Y .∑ X
i
i i
i
i i
i
i
i
i − ⎢∑ X i .Yi − .∑ Yi .∑ X i ⎥ = 0
⎣ i n i i ⎦

Portanto:

∑ (Y − Y ) = ∑ (Ŷ − Y ) + ∑ (e )
2 2 2
i i i
i i i

⇓ ⇓ ⇓
SQT SQR SQE

onde:
SQT = Soma de Quadrados Total
SQR = Soma de Quadrados da Regressão
SQE = Soma de Quadrados do Erro

Assim:

SQT = SQR + SQE

SQT SQR + SQE


=
SQT SQT

SQR SQE
+ =1
SQT SQT

Então, defina:

SQR SQE
R2 = = 1−
SQT SQT
Ou alternativamente:

∑ (Ŷ − Y )
2
∑e
2
i i
R2 = i
= 1− i

∑ (Y − Y ) ∑ (Y − Y )
2 2 (C.Q.D.)
i i
i i
PARTE IV
Hipóteses do modelo de regressão linear e as propriedades dos
estimadores de mínimos quadrados

Hipóteses do modelo de regressão

O modelo geral de regressão pode ser completamente especificado com base nas
oito hipóteses a seguir:

[1] Linearidade dos parâmetros ⇒ Ver a explicação na Parte II.

[2] As variáveis explicativas devem ser consideradas determinísticas (i.e., não são
aleatórias) e linearmente independentes entre si, i.e., uma variável X não pode ser
uma função linear de outra.

De uma maneira geral, uma variável é determinística quando se considera que os


seus valores podem ser pré-fixados, i.e., quando são fixos em repetidas amostras.
Assim, no caso do Sr. Econopoulos poderíamos pré-determinar um ano de
fabricação qualquer, digamos 2000, e então sortear aleatoriamente uma
camioneta usada e observar o seu preço de revenda. Depois, mantendo-se o
mesmo ano de fabricação, poderíamos sortear mais uma camioneta usada e
observar mais uma vez o preço por que foi revendida. E, assim por diante.

As variáveis explicativas também devem ser linearmente independentes, i.e., não é


possível estimar um modelo em que uma variável explicativa é uma combinação
linear de outras variáveis explicativas. Portanto, como ficará mais claro futuramente,
não será possível estimar, por exemplo o seguinte modelo:

Yi = β1 + β 2 .X i + β 3 .Mi + β 3 .SBCi + ε i

onde Xi representa exportações do país “ i ”, Mi as importações do país “ i ”, e SBCi o


saldo da balança comercial do país “ i ”. É fácil perceber que:

SBCi = X i − Mi

Essa hipótese também implica que os valores de uma determinada variável


explicativa não podem ser todos iguais.

[3] E(ε i |X 2i ,K , XKi ) = E(ε i ) = 0, ∀i ou E(ε|X ) = E(ε ) = 0 .

Essa hipótese diz que, dados os valores de X, o valor esperado do termo aleatório
deve ser zero para todas as observações. Em outras palavras, o modelo não
comete erros sistemáticos, i.e., comete erros para mais ou para menos, mas que
tendem a se cancelar.
Essa hipótese é equivalente a dizer que

E(Yi |X 2i ,K , XKi ) = β1 + β 2 .X 2 i + K + βK .XKi , ∀i ou E(ε|X ) = X.β ,


ou seja, o modelo teórico está, na média, correto.

Graficamente (em uma regressão simples):

[4] A distribuição de probabilidade de cada termo aleatório εi (i = 1,2, ...,n) é tal que
todas as distribuições apresentam a mesma variância (Homocedasticidade).

Formalmente, tem-se que:

Var(ε1) = Var(ε2) = ... = Var(εn) = σ2 (cte.)

Graficamente:
[5] A distribuição de probabilidade de cada termo aleatório εi (i = 1,2, ...,n) é tal que
todos eles não se correlacionam (hipótese da não-autocorrelação dos resíduos).

Formalmente, tem-se que:

Cov(εp, εq) = 0, ∀p,q , tal que p ≠ q.

[6] O número de observações n deve ser maior que o número de parâmetros a


serem estimados. Caso contrário, o modelo de regressão não poderá ser estimado.

[7] O modelo econométrico está bem especificado, i.e., ele deve ser compatível
com a teoria que deseja testar e não conter erros de especificação.

[8] Os valores aleatórios εi (i = 1,2, ...,n) tem distribuição normal com média 0 e
variância σ2, ou seja:

εi ~ N(0, σ2) ou ε ~ N(0, σ2.I) (Forma matricial)

Estas hipóteses, em conjunto, vão garantir propriedades estatísticas desejáveis ao


modelo, permitindo a estimação dos parâmetros desconhecidos.

Propriedades dos estimadores de mínimos quadrados

O Sr. Econopoulos ficou muito contente com os resultados encontrados através da


utilização dos estimadores de mínimos quadrados na estimação dos parâmetros
desconhecidos.
Mas, uma questão específica o preocupou: “Será que se eu coletasse outra
amostra diferente as estimativas obtidas para o modelo seriam as mesmas?”

Ele pensou a respeito e percebeu que já que a fórmula utilizada é a mesma, então,
obviamente, amostras diferentes gerariam estimativas diferentes para os parâmetros
desconhecidos.

Assim, ele percebeu que o valor assumido pelos estimadores não poderiam ser
previstos a priori. Logo, os estimadores de M.Q. seriam, na verdade, variáveis
aleatórias.

E, se são V.A.’s, podem ser calculadas suas médias e variâncias.

Assim, utilizando o conceito de esperança matemática, o Sr. Econopoulos foi capaz


de mostrar que

E (bk ) = βk , ∀k
n
ou, em forma matricial

E (b ) = β
n
Ou seja, o Sr. Econopoulos descobriu que o valor esperado dos estimadores de M.Q.
é igual ao verdadeiro valor, desde que as hipóteses básicas do modelo de
regressão sejam mantidas.

Desta forma, os estimadores de M.Q. satisfazem uma propriedade estatística muito


importante. Eles são ditos não tendenciosos ou não viesados.

Perceba que esta propriedade não garante que, ao estimar um modelo por este
método, os resultados serão os verdadeiros valores dos parâmetros.

Ela garante que, se forem computadas as estimativas de um número muito grande


de amostras, os valores médios destas estimativas deverão ser iguais aos
verdadeiros valores dos parâmetros. Esta é, sem dúvida, uma propriedade
desejável.

Já que o Sr. Econopoulos não pode ter certeza absoluta se os valores dos
parâmetros estimados são iguais aos verdadeiros valores, ele pelo menos gostaria
de ter um certo grau de confiança de que os valores estimados pelo modelo são
representativos da realidade.

Para que isto seja possível, primeiramente é necessário calcular a variância dos
estimadores de M.Q. No caso, pode-se mostrar que

Var (b ) = σ 2 .( X ' X )
−1

Mais especificamente, as variâncias dos parâmetros serão das pelos elementos da


diagonal principal da matriz acima.
O problema é que a variância do termo aleatório, σ2, também é desconhecida.
Então, o que fazer?
O Sr. Econopoulos leu a respeito e verificou que um estimador não tendencioso de
σ2 é o seguinte:

⎛ n ⎞
s2 =
e'.e
= ⎜ ∑ êi2 ⎟ (n − K )
n − K ⎝ i =1 ⎠
onde,
e = Y − Ŷ = Y − X .b

ou
ei = Yi − Ŷi = Yi − b1 − b2 .X 2i − ... − bK .X Ki

que representa o resíduo estimado de mínimos quadrados.


Assim, ele poderia estimar Var(b) da seguinte forma:

Vâr (b ) = s 2 .( X ' X )
−1

E, então, os erros padrões dos parâmetros poderiam ser calculados da seguinte


fórmula:

ep(bk ) = Vâr (bk )

O erro padrão é uma estimativa do desvio-padrão do parâmetro e é uma medida


da variabilidade do parâmetro.

Um Exemplo Numérico

Utilizando a sua amostra, o Sr. Econopoulos foi capaz de fazer os cálculos vistos
anteriormente. No caso:

e'.e 9 ,25.10 8
s2 = = ≈ 33.035.714
n−K 30 − 2

Vâr (b1 ) = 1,17 × 1012

ep(b1 ) = Vâr (b1 )


ep(b1 ) = 1.082.318

Vâr (b2 ) = 293.341,5

ep (b2 ) = Vâr (b2 )


ep (b2 ) = 541,6101
O Caso do Modelo de Regressão Simples

Modelo básico: Yi = β1 + β2 .X i + εi

Equação estimada: Ŷi = b1 + b2 .X i

Erro amostral: ei = Yi − Ŷi = Yi − b1 − b2 .X i


n

∑e 2
i
Estimador da variância dos erros: s 2 = i =1
n−2

Variância amostral e erro padrão de b1 e b2:

⎡ n

⎢ ∑ X i2 ⎥
vâr (b1 ) = s 2 .⎢ n i =1 ⎥ e ep(b1 ) = vâr (b1 )
⎢⎣ ∑
(
⎢ n. X − X
i )2⎥

⎥⎦
i =1

s2
vâr (b2 ) = e ep(b2 ) = vâr (b2 )
∑ (X − X)
n
2
i
i =1

O Teorema de Gauss-Markov

O Sr. Econopoulos ficou intrigado, pois, havia descoberto fórmulas para as médias e
variâncias dos estimadores de M.Q., mas não sabia ainda se os resultados obtidos
eram confiáveis.

Neste sentido, a primeira coisa a verificar seria se existem outros estimadores que
produzem resultados melhores que os de M.Q.

O teorema de Gauss-Markov garante que, se as hipóteses do modelo de regressão


linear forem satisfeitas (a hipótese de normalidade não é necessária), então, os
estimadores de M.Q. serão MELNT (Melhores Estimadores Lineares Não
Tendenciosos).
No caso, os estimadores de M.Q. serão os melhores estimadores lineares não
tendenciosos, pois, possuem a menor variância se comparados a qualquer outro
estimador não-tendencioso.

Em outras palavras, os estimadores de M.Q. são eficientes.


O teorema de Gauss Markov, portanto, mostra que nenhum outro estimador não
tendencioso poderá produzir resultados melhores do que os dos estimadores de
M.Q. dado o conjunto de hipóteses do modelo de regressão linear.

Se o modelo não der bons resultados utilizando-se os estimadores de M.Q., então,


com certeza não melhorará utilizando-se qualquer outro estimador.

A Consistência dos Estimadores de Mínimos Quadrados

Quais são as propriedades dos estimadores de mínimos quadrados se temos uma


amostra grande, i.e., quando n → ∞?

A resposta para os estimadores de mínimos quadrados – quer os erros sejam normais


ou não – encontra-se em duas propriedades já estabelecidas para eles:
– Os estimadores de mínimos quadrados são não-tendenciosos.
– As variâncias dos estimadores de mínimos quadrados convergem para
zero quando n → ∞.

À medida que o tamanho da amostra aumenta, as distribuições dos estimadores de


mínimos quadrados tendem a concentrar-se em torno dos verdadeiros parâmetros.

E, quando n → ∞, a probabilidade de uma estimativa b estar próxima de β tende


para um. Assim, dizemos que os estimadores de mínimos quadrados são
consistentes.
PARTE V
O teste de significância dos parâmetros

O Sr. Econopoulos continua em sua busca por uma maior confiabilidade nos
resultados obtidos através da estimação do modelo.

Ele percebeu que, apesar dos estimadores de M.Q. possuírem propriedades


estatísticas desejáveis, não se pode ter certeza absoluta se os valores estimados dos
parâmetros são verdadeiramente representativos da realidade.

Mais especificamente, além da estimativa pontual dos parâmetros, faz sentido levar
também em consideração a sua variabilidade amostral. E, assim, deseja-se excluir a
hipótese de que cada um dos parâmetros possa ser igual a zero.

Se a hipótese de normalidade dos resíduos for satisfeita, então, será possível


desempenhar um teste para verificar se tal hipótese pode ou não pode ser
refutada.

Testes de Hipóteses

Um teste de hipóteses é constituído por 4 elementos:


[1] Uma hipótese nula (H0)
[2] Uma hipótese alternativa (H1)
[3] Um teste estatístico
[4] Uma região de rejeição de H0.

O Teste de Significância dos Parâmetros

O teste de significância dos parâmetros é um teste de hipóteses particular em que


as hipóteses nula e alternativa são sempre as seguintes:
H0: βk = 0
H1: βk ≠ 0
para k = 1,...,K, ou seja, o teste deve ser efetuado para todos os parâmetros do
modelo individualmente.

Perceba que a hipótese nula é aquela que se quer colocar à prova. De acordo
com o teste estatístico será possível rejeitá-la ou, então, não haverá como afirmar
com um alto grau de certeza que o parâmetro em questão é, de fato, diferente de
zero.

No caso em análise, o teste que será utilizado será o teste t, cuja estatística é dada
por:
b k − βk
t=
ep(bk )
Se H0 for verdadeira, então, pode-se mostrar que

bk
t= ~ t (n−K )
ep(bk )

Caso contrário, t não seguirá a distribuição t com n - K graus de liberdade.

E, como saber se o teste rejeita ou não rejeita a hipótese nula?

Deve-se comparar o valor obtido da estatística t com um valor crítico determinado


de acordo com a distribuição t. Este valor será representado por tc. No caso, tem-se
que
α
P(t > t c ) = P(t < −t c ) =
2
α é o nível de significância do teste, que representa um valor de probabilidade que
usualmente é escolhido como 5%.

Perceba que o valor de tc também depende do número de graus de liberdade do


modelo que é igual a n – K. Em geral, quanto mais graus de liberdade, menores
serão os valores de tc.

Perceba que a probabilidade do valor de t estar à direita de tc ou à esquerda de -


tc é igual à metade do nível de significância, ou 2,5%.

Como a distribuição t é simétrica, isto significa dizer que a probabilidade do t


calculado estar em cada uma das caudas da distribuição é de 2,5%.
Como conseqüência,

P(− t c ≤ t ≤ t c ) = 1 − α = 95%

A partir dessas idéias, então, é possível definir um regra clara para a rejeição ou não
rejeição de H0.

Assim, como regra geral, tem-se que se t < - tc ou se t > tc então rejeita-se a hipótese
nula e, portanto, diz-se que o parâmetro é estatisticamente significante ou
significativamente diferente de zero ao nível de significância α.
Mas, se - tc ≤ t ≤ tc então não se poderá rejeitar a hipótese nula e, portanto, diz-se
que o parâmetro em questão não é estatisticamente significante ao nível de
significância α.

Note ainda que no teste de significância usualmente deseja-se rejeitar a hipótese


de que os parâmetros sejam individualmente iguais a zero, para que as variáveis
explicativas escolhidas tenham realmente algum poder de explicação da variável
dependente.

Caso contrário, ter-se-á, por exemplo, que:

Yi = β1 + β2 .X 2i + ... + 0.X ji + ... + βK .XKi + εi

Ou seja, o impacto da variável explicativa Xj sobre Y será desprezível.

No caso do teste de significância, quando não se rejeita a hipótese nula, isto não
quer dizer que o verdadeiro valor do parâmetro é igual a zero.

O ponto fundamental é que não será possível afirmar com um alto nível de
confiança que o parâmetro é diferente de zero.

Portanto, do ponto de vista estatístico, se pode ser igual a zero, então, deve ser
tratado como se fosse zero.

Exemplo: Preço de revenda de camionetas (I)

Seja α=0,05. O valor crítico tc é 2,048 para uma distribuição t com (T−2) = 28 graus de
liberdade.

A estimativa de mínimos quadrados de β2 é b2 = 3.133,02 com erro padrão ep(b2)=


541,61. O valor da estatística do teste é

b2 3113,02
t= = = 5,747710 > t c = 2,048
ep(b 2 ) 541,61

Conclusão: Já que t = 5,74 > tc = 2,048, nós rejeitamos H0: β2=0 e não rejeitamos a
alternativa, H1: β2≠0. Assim, existe uma relação estatisticamente significante entre a
o preço de revenda e o ano de fabricação da camioneta.

O P-Valor do Teste de Hipótese

Um problema com a análise anterior é que nem sempre o valor do t crítico é


fornecido pelos pacotes econométricos.

Assim, o p-valor do teste é calculado encontrando qual é a probabilidade da


distribuição t tomar um valor igual ou maior do que o valor absoluto do valor
amostral da estatística do teste.
Regra de rejeição: quando o p-valor do teste de hipótese é menor do que o valor
escolhido de α, então o procedimento do teste leva à rejeição da hipótese nula.

Se o p-valor for maior do que α, nós não rejeitamos a hipótese nula.

Exemplos gráficos: t1 < tc e t2 > tc

Exemplo: Preço de revenda de camionetas (II)

Considerando-se agora o p-valor tem-se que para β2 :

O p-valor para o teste de hipótese é p = 0,0000 que é a área nas caudas da


distribuição t(28), onde |t| ≥ 5,74. Já que p ≤ α, nós rejeitamos a hipótese nula de
que β2 = 0 e não rejeitamos a alternativa de que β2 ≠ 0. Assim, existe uma relação
“estatisticamente significante” entre pr e af.

Perceba esta análise deve também ser feita para β1 e para os demais parâmetros
do modelo quando for o caso. Mais especificamente, neste exemplo, p-valor para
β1 foi igual a zero, mostrando que a constante é neste caso estatisticamente
diferente de zero.

Exemplo: Preço de revenda de camionetas (III)

Considere agora o seguinte modelo:

pri = β1 + β 2 .afi + β3 .nfi + εi


onde nf representa o número de filhos dos donos anteriores.

A estimação do modelo mostra que os p-valores de β1 e de β2 são iguais a 0,0000


enquanto que o p-valor de β3 é igual a 0,8961.

Assim, conclui-se β3 não é estatisticamente significante, i.e., pode ser igual a zero, e,
portanto, esta variável adicionada não possui qualquer impacto sobre o modelo.

Em outras palavras, a variável adicionada é redundante, pois, ela não explica os


movimentos de pr.
PARTE VI
O R2 ajustado e o teste de significância do modelo

Depois de aprender sobre o coeficiente de determinação, o Sr. Econopoulos


percebeu que ainda poderia melhorar o grau de ajustamento de seu modelo.

No caso, a forma funcional escolhida parecia-lhe apropriada para analisar o


problema em questão. Então, o que fazer?

Uma opção seria incluir variáveis explicativas no modelo, pois, à medida em que
elas são acrescentadas, o R2 do modelo necessariamente não se reduzirá (é
provável que aumente).

Logo, a questão será que variável ou variáveis explicativas incluir.

O Sr. Econopoulos pensou bastante e lembrou-se que as camionetas APRIGIUS


possuem três tipos de motorização.

O modelo padrão vem com motor de 2000 cilindradas, mas o cliente poderá optar
por motores de 3000 ou 4000 cilindradas.

Então, o Sr. Econopoulos decidiu acrescentar o número de cilindradas (cc) da


camioneta como uma variável explicativa adicional do modelo.

No caso, ele espera que o sinal do coeficiente que multiplica esta variável seja
positivo, pois, quanto mais cilindradas maior deverá ser o preço de revenda da
camioneta, em média.

O seu modelo econométrico será agora:

pri = β1 + β 2 .afi + β3 .cc i + εi

A estimação do modelo por M.Q. produziu os seguintes resultados:

p̂ri = −5664873 + 2843,19.afi + 7,02.cc i


t (− 7,82) (7,84 ) (6,04 )
R 2 = 0,804755

Como pode-se perceber, o parâmetro da variável cc é significativamente diferente


de zero, conforme indica o seu teste t. E, o sinal de seu coeficiente foi compatível
com o que era esperado.

⇒ O coeficiente estimado indica, neste caso, que cada cilindrada a mais no motor,
aumentará o preço de revenda em R$ 7,02 aproximadamente.

Ademais, o grau de ajustamento do modelo aumentou bastante depois da inclusão


desta variável, passando de 54% para mais de 80%.
Este resultado foi bastante animador para o Sr. Econopoulos, pois, a sua confiança
no modelo aumentou.

O R2 ajustado
Uma dificuldade com o R2 é que ele pode ser aumentado pela inclusão de novas
variáveis, mesmo se as variáveis acrescentadas não apresentarem qualquer
justificativa econômica.

⇒ Novas variáveis tendem a reduzir SQE.

Uma medida alternativa para mensurar a qualidade do ajustamento é chamada


de R2 ajustado. Ele é calculado como

SQE (n − K )
R 2 = 1−
SQT (n − 1)

Perceba que, no caso do R2 ajustado, o SQE está dividido por (n - K) e se forem


adicionadas novas variáveis ao modelo ele não necessariamente crescerá.

Mais especificamente, o quanto mais elevados e próximos forem o R2 e o R2


ajustado, melhor será a qualidade do modelo estimado.

Quanto mais variáveis insignificantes forem introduzidas no modelo, maior tende a


ser a diferença entre o R2 e o R2 ajustado.

Isto sugere que não se deve adotar a estratégia de aumentar o R2 incluindo


indiscriminadamente o maior número de variáveis explicativas possível.
Para testar estas idéias, o Sr. Econopoulos resolveu acrescentar a variável nf ao
modelo para comparar os resultados com o seu modelo atual. Ele obteve os
seguintes resultados:

p̂ri = −5664873 + 2843,19.afi + 7,02.cc i


t (− 7,82) (7,84 ) (6,04 )
R 2 = 0,804755 R 2 = 0,790292

p̂ri = −5482767 + 2751,47.afi + 7,17.cc i + 439,71.nfi


t (− 7,34 ) (7,36 ) (6,11) (1,00 )
R 2 = 0,811954 R 2 = 0,790256

Como se pode perceber, a introdução de uma variável que não é significativa no


modelo aumentou o R2 e ainda provocou uma pequena queda no R2 ajustado do
modelo.
Mais especificamente, pode-se notar que a diferença entre estes dois indicadores
aumentou, o que indica que esta variável adicional está inflando o R2 sem melhorar
necessariamente o poder de explicação do modelo.

O R2 ajustado não tem o mesmo significado que o R2. Ele apenas mostra se a
inclusão de variáveis adicionais é justificável.

O teste de significância do modelo

O Sr. Econopoulos também verificou que não é suficiente verificar a significância


dos parâmetros individualmente.

⇒ “Claro!”, pensou o Sr. Econopoulos. “Quando assisto a uma partida de futebol eu


não analiso apenas a performance individual dos jogadores. Eu também estou
interessado em saber se o time jogou bem!”

Assim, o Sr. Econopoulos deve encontrar uma maneira de verificar se o modelo


escolhido é significante. Como fazer isto?O Sr. Econopoulos considerou o seguinte
modelo:
pri = β1 + β 2 .afi + β3 .cc i + εi

Este será considerado o modelo sem restrições.

Ele deseja, então, testar as seguintes hipóteses:

H0: β2 = 0 e β3 = 0

H1: β2 ≠ 0 e/ou β3 ≠ 0

Se a hipótese nula for verdadeira, então:

pri = β1 + εi

Este será o modelo restrito, representado por R.

Desta forma, o teste que será efetuado é o seguinte:

F=
(SQER − SQE ) J
SQE (n − K )

J é o número de hipóteses, que no caso do teste de significância do modelo é igual


a “K - 1”.

Deve-se perceber que:


SQER − SQE ≥ 0
Ou seja, a soma de quadrados dos erros do modelo restrito é sempre maior ou igual
à soma de quadrados dos erros do modelo irrestrito.

⇒ Lembre-se que a inclusão de variáveis explicativas no modelo não pode piorar o


seu poder de explicação!

Portanto, o que o teste tenta medir é exatamente se a inclusão de todas as


variáveis explicativas desejadas provocaram uma redução significativa em SQE.Se
a hipótese nula for verdadeira, então a estatística F tem uma distribuição F com J
graus de liberdade no numerador e (n - K) graus de liberdade no denominador.

Deve-se rejeitar a hipótese nula se o valor da estatística do teste F se tornar muito


grande (os dois modelos serão muito diferentes).

É preciso comparar o valor de F com um valor crítico que deixa uma probabilidade
α na cauda superior da distribuição F com J e (n - K) graus de liberdade.

Assim, como no teste t, um nível de significância de 5% é usualmente utilizado neste


caso.

A figura abaixo mostra o valor de Fc no caso em que há dois graus de liberdade no


numerador (m=2) e 27 graus de liberdade no denominador (n=27). Tem-se que Fc =
3,36.

Existe uma fórmula mais simples para o teste de significância do modelo com a qual
não é necessário comparar dois modelos diferentes. Basta pensar no modelo sem
restrição (que é o modelo proposto).

Esta fórmula parte da idéia que SQER = SQT (Soma de Quadrados Total do modelo
sem restrições). Então:

F=
(SQT − SQE ) (K − 1) = SQR (K − 1)
SQE (n − K ) SQE (n − K )
F=
(SQR SQT ) (K − 1) = R2 (K − 1)
(SQE SQT ) (n − K ) (1 − R 2 ) (n − K )
Exemplo
No caso do modelo do Sr. Econopoulos, tem-se que n = 30; K = 3; e R2 = 0,804755.
Então:

0,804755 (3 − 1)
F= ≅ 55,64
(1 − 0,804755 ) (30 − 3)
Então, pode-se perceber que F = 55,64 > 3,36 = Fc.

Assim, rejeita-se a hipótese nula de que os parâmetros β2 e β3 são simultaneamente


iguais a zero. Logo, o modelo é estatisticamente significativo.

P-valor = 0,0500

P-valor = 0,0000

Você também pode gostar