Escolar Documentos
Profissional Documentos
Cultura Documentos
1 - Introdução........................................................................................................................................................2
2 - Exemplos de previsão:....................................................................................................................................2
3 - Natureza dos dados..........................................................................................................................................3
4 - Causalidade.....................................................................................................................................................3
5 - Regressão Simples...........................................................................................................................................4
6. Inferência no modelo de regressão...................................................................................................................7
7. Regressão Múltipla.........................................................................................................................................11
8 - multicolinearidade.........................................................................................................................................16
9 - Heterocedasticidade.......................................................................................................................................21
10 - Autocorrelação Dos Resíduos.....................................................................................................................23
www.ipeadata.gov.br
www.fgvdados.com.br
1 - Introdução
O produto final deste estudo é um Modelo cuja construção é efetuada com a utilização:
da teoria
da matemática
de métodos estatísticos
e com análise crítica
Nós expressamos nossas idéias sobre relações entre variáveis econômicas, utilizando o
conceito matemático de função.
Por exemplo, para expressarmos uma relação entre renda i e consumo c, podemos
escrever
C = f(i)
A demanda para um bem individual, digamos um carro Renault Clio pode ser expressa
como
q d = f ( p, p s , p c , i)
2 - Exemplos de previsão:
4 - Causalidade
A análise de regressão estuda a relação causal entre uma variável econômica a ser
explicada (variável dependente y) e uma ou mais variáveis independentes ou explicativas
(X).
3 pontos importantes:
Dado que não há uma relação precisa entre y e x, como levar em conta outros fatores
que afetam y?
Qual a relação funcional entre y e x?
Como capturar uma relação entre y e x (se for o caso)?
Y = b0 + b1X + e
O erro deve ser incluído na relação exata postulada pela teoria econômica, a fim de torná-
la probabilistica (i.e, a fim de refletir o fato que, no mundo real, as relações econômicas
entre as variáveis econômicas são inexatas e, algumas vezes, erráticas).
y = b1 + b2x + e
250,00
Gastos com alimentação (R$)
200,00
150,00
100,00
50,00
y = 0,1194x + 47,553
-
- 200,00 400,00 600,00 800,00 1.000,00 1.200,00 1.400,00
Renda Semanal
b 2=
n ∑ xt yt −∑ xt ∑ yt
2
n ∑ x 2t − ∑ x t
Análise da variância
A análise da variância envolve dividir a variável y em duas partes: a parte explicada pela
regressão e a não explicada (resíduos).
R2 =
∑( yˆ − y ) 2
∑( y − y ) 2
A soma dos quadrados dos resíduos é uma parcela pequena do total e a soma dos
quadrados explicados é uma parcela importante. Essa proporção é conhecida como
coeficiente de determinação ou simplesmente R2.
A expressão linear nos parâmetros significa que os parâmetros não são multiplicados
entre si, nem divididos, nem elevados ao quadrado.
Simplicidade: entre uma forma funcional simples e uma complexa, tendem-se a escolher a
primeira, se ambas explicam o fenômeno de modo igualmente bem. Por este motivo,
muitos pesquisadores escolhem a forma linear.
Poder preditivo: A forma funcional deve ajustar-se aos dados afim de auxiliar nas
previsões.
1 - α = intervalo de confiança
α = nível de significância
Para determinar o intervalo de confiança utiliza-se a variável aleatória t com (n-2) graus
de liberdade.
t = b1 - β 1 ~ t(n-2)
dp(b1)
b2 +- tc α ep (b2)
2
b1 +- tc α ep (b1)
2
EXERCÍCIOS
realize?
Etapa 3 = Calcular o t
T = 0,119423 - 0 = 4,0195
0,0297
Como o valor calculado t = 4,0195 > tc = 2,024, rejeitamos a hipótese nula e aceitamos a
hipótese alternativa de que há relação entre a renda semanal e os gastos com
alimentação.
Na tabela abaixo constam os dados de salário médio, anos de estudo e sexo. Faça a
regressão. Analise estatisticamente os resultados. Do ponto de vista econômico, um ano
a mais de estudo provoca um aumento de quanto no salário? Há discriminação no
mercado de trabalho. Por quê?
2) Na tabela abaixo são dados, para vários imóveis, a área, o padrão de construção, o
número de vagas na garagem e o número de dormitórios, se há ou não piscina. Faça
uma regressão do preço em função destas características. A seguir, teste a significância
dos parâmetros e, se for o caso, elimine um e refaça a estimação.
yt = β1 + β2 xt 2 + β3 xt 3 + … + βK xtK +et
Grande parte dos resultados desenvolvida para o modelo de regressão simples pode ser
estendida naturalmente para esse caso geral. Existem pequenas mudanças na
interpretação dos parâmetros β , os graus de liberdade para a distribuição t mudarão e
nós necessitaremos modificar as hipóteses concernentes as características das variáveis
explicativas (x).
Cada semana, o gerente de uma rede de lanchonetes deve decidir quanto gastar com
propaganda e que promoções (como preços mais baixos) deveria oferecer.
Como se altera a receita total à medida que o nível de gastos com propaganda muda?
Um aumento nos gastos com propaganda elevaria a receita total? Se afirmativo, o
aumento na receita total é suficiente para justificar uma elevação nos gastos com
propaganda?
Nós, inicialmente, assumimos que a receita total, RT, é linearmente relacionada com o
preço, p, e com os gastos em propaganda, a. Assim, o modelo econômico é:
RT = β1 + β2 p + β3 a
7.3. Resultados
O intercepto estimado implica que se tanto o preço como o gasto com propaganda forem
zero, a ganho de receita total seria de $104.790. Isso é obviamente incorreto. Nesse
modelo, assim como em outros, o intercepto é incluído no modelo para melhorar a
capacidade de previsão dele e dar uma especificação matemática mais completa
SQE /(T − K )
R2 = 1−
SQT /(T − 1)
A significância global da regressão pode ser testada pela razão da variância explicada
com a variância não explicada. Esta apresenta uma distribuição F com k-1 e n-k graus de
liberdade, onde n é o número de observações e k é o número de parâmetros estimados:
F=
( SQER − SQEU ) J
SQEU ( T − K )
Para examinar se temos um modelo viável, nós elaboramos as seguintes hipóteses nula e
alternativa
H 0 : β2 = 0, β 3 = 0, … , β K = 0
H1 : pelo menos um dos βk não é zero
Se essa hipótese nula for verdadeira, nenhuma das variáveis explicativas influenciam o y
e assim nosso modelo é de pouco ou nenhum valor.
Se a hipótese alternativa H1 for verdadeira, então pelo menos um dos parâmetros não é
zero. A hipótese alternativa não indica, contudo, qual dessas variáveis pode ser.
Relação é Linear
7.8 - Exemplos:
Produção de soja
Faturamento do comércio em relação às vendas e taxa de juros
Fatores que influenciaram na produção de máquinas agrícolas
Fatores que influenciaram a produção e venda de veículos nacionais
Determinantes da produção mundial de arroz
Determinantes da demanda por energia elétrica
Determinantes do rendimento médio das pessoas ocupadas
Determinantes dos preços dos imóveis em Natal
Hipótese básica: Cada variável independente Xi não pode ser combinação linear das
demais.
X3 = 2X2
X3 = X2 + 3
Ou ainda, envolvendo mais de duas variáveis.
X4 = 2X2 + 3X3 + 4
Regression Summary for Dependent Variable: Consumo (US$ bilhões) (Aula 3 - Multicolin
R= ,85486728 R²= ,73079807 Adjusted R²= ,68938239
F(2,13)=17,645 p<,00020 Std.Error of estimate: 5,9070
Beta Std.Err. B Std.Err. t(13) p-level
N=16 of Beta of B
Intercept 111,4873 66,84031 1,66796 0,119216
Renda (US$ bilhões) 0,366340 0,282167 0,3742 0,28826 1,29831 0,216742
Taxa de juros (% a.a.) -0,519084 0,282167 -6,0967 3,31407 -1,83963 0,088763
Esse resultado é, no mínimo estranho. Imaginar que o nível de consumo não depende da
renda disponível é surpreendente.
Mais estranho ainda é analisar o teste F (2,13). O valor tabela é 3,81. Como o valor
encontrado foi em torno de 17,6, pelo teste F concluímos que o modelo de regressão é
válido.
Se a regressão foi aceita pelo teste F, a pergunta que fica é: Por que os dois parâmetros
não são significantes (pelo menos a 5%)? O que deu errado com o teste t?
A resposta esta na natureza da variável. Há uma forte influência da taxa de juros real
sobre a renda.
A correlação amostral entre a taxa de juros e a renda é: -0,86
Regression Summary for Dependent Variable: Consumo (US$ bilhões) (Aula 3 - Multicoline
R= ,81284538 R²= ,66071761 Adjusted R²= ,63648315
F(1,14)=27,264 p<,00013 Std.Error of estimate: 6,3902
Beta Std.Err. B Std.Err. t(14) p-level
N=16 of Beta of B
Intercept -7,85898 17,40514 -0,451532 0,658522
Renda (US$ bilhões) 0,812845 0,155674 0,83039 0,15903 5,221452 0,000129
Exercício:
Em uma cidade, foram obtidos os valores da tabela abaixo. Faça uma regressão que
tome como variável dependente o preço do imóvel e como variáveis explicativas as
variáveis: distância ao centro, número de dormitórios, área do imóvel e renda mensal do
chefe da família.
1 2 3 4 5
Preço (R$) Distância (Km) Dormitórios Área (m2) Renda mensal (R$)
1 107.135 1 2 94 3.537
2 107.750 2 2 96 3.174
3 108.573 2 3 116 3.072
4 99.151 3 4 149 2.683
5 85.663 3 2 98 2.512
6 80.614 3 3 115 2.580
7 74.624 4 2 93 2.031
8 64.195 5 3 119 1.549
9 40.950 6 4 142 1.104
10 82.479 4 2 93 2.119
11 41.926 6 3 122 1.068
12 20.386 7 1 72 549
13 48.141 6 1 72 1.043
14 30.062 7 2 97 671
15 65.520 5 4 148 1.521
Existe uma elevada correlação entre as variáveis renda e distância; preço e distância;
renda e preço.
entre elas o número de dormitórios e a área útil. Se esse estudo fosse realizado em um
bairro ou uma pequena cidade onde o padrão dos imóveis não varia muito, é possível que
o tamanho dos aposentos também não varie, fazendo com que a área útil dos
apartamentos esteja altamente correlacionada ao número de dormitórios.
Nesse casos, talvez fosse melhor substituir o preço total dos apartamentos pelo preço por
metro quadrado.
Correlações Parciais
Redundancy of Independent Variables; DV: Preço (R$) (Spreadsheet27 in Aula 3 - Multi Exercicios)
R-square column contains R-square of respective
variable with all other independent variables
Toleran. R-square Partial Semipart
Variable Cor. Cor.
Distância (Km) 0,003385 0,996615 0,055550 0,010786
Dormitórios 0,011620 0,988380 -0,235707 -0,047022
Área (m2) 0,011647 0,988353 0,265020 0,053285
Análise de Regressão -0,003391
Renda mensal (R$) 0,996609
Prof. Fernanda 0,331971 0,068230
Queiroz 20
9 - Heterocedasticidade
É desejável que a variância dos resíduos et, gerados pela estimação de um modelo, seja
constante. Nesse caso, var (et) = σ 2
, onde σ é uma constante. A violação desse
pressuposto é a heterocedasticidade.
Tal problema é mais freqüente em séries não temporais, ou seja, cross section.
Imagine uma regressão onde estamos fazendo uma pesquisa de salários em função
dos anos de estudo. A relação certamente existe, pois pessoas com vários anos de
escolaridade ganham, em média, mais do que pessoas pouco escolarizadas.
Mas a situação muda muito no que se refere ao erro: para aqueles com pouco ou
nenhum estudo, os salários não deverão variar muito, fazendo com que a variância
seja muito pequena.
No caso das pessoas com muitos anos de estudo, embora se espere que ganhem
mais, é possível que uma pessoa desse grupo tenha problemas em avançar na
carreira ou se torne proprietário de uma grande empresa, o que torna a variância dos
salários nesse caso muito alta.
• Teste de Quandt-Goldfeld
SQR2 = Soma dos quadrados dos resíduos dos valores mais elevados de X
SQR1 = Soma dos quadrados dos resíduos dos valores mais baixos de X
e) Se F observado > F crítico para (n-c)/2; k-1 graus de liberdade, a hipótese nula de
homocedasticidade será rejeitada.
Utilizar o método dos mínimos quadrados generalizados por meio de uma transformação
no modelo.
qt = b1 1 + b2pt + b3t + e
π 1 π 1 π 1 π 1 π 1 =1
qt = b1 1 + b2pt + b3t + e =1
π 2 π 2 π 2 π 2 π 2
Deste modo, as variâncias se tornaram constantes e iguais a 1, logo não existe mais o
problema da heterocedasticidade.
qt = 1 + pt + t
π 2 π 2 π 2 π 2
Conseqüências
Quando os resíduos são autocorrelacionados, as estimativas de MQO dos
parâmetros não são eficientes, isto é, não apresentam variância mínima, além de seu
erro-padrão ser viesado; o que conduz a teste de hipóteses e intervalos de confiança
incorretos.
Autocorrelação positiva: os resíduos são diretamente relacionados entre si, isto é:
et = ρ et-1 + vt ρ >0; (1)
se ρ < 0 a autocorrelação será negativa.
Fontes de autocorrelação
Omissão de variável
Erro de especificação:
Má especificação do verdadeiro termo aleatório: