Relatório Estatística Econômica - UFRGS

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL
ESTATÍSTICA ECONÔMICA (MAT02207)
RELATÓRIO DE ESTATÍSTICA ECONÔMICA
ALUNO: ANGELO FRANCISCO SIRTOLI DELAMARE - 00287871
PROFESSOR: FERNANDO HEPP PULGATI
PORTO ALEGRE
2018
LISTA DE IMAGENS
Imagem 1: Relação estatística entre duas variáveis ................................................... 5

Imagem 2: Critério dos mínimos quadrados ................................................................ 9
Imagem 3: Linha de regressão .................................................................................. 12
Imagem 4: Coeficientes de Regressão ..................................................................... 12
Imagem 5: Intervalo de Confiança β1........................................................................ 16
Imagem 6: Intervalo de Confiança β0........................................................................ 19
Imagem 7: Gráfico do Intervalo de Confiança para E{Yh} ......................................... 23
Imagem 8: Representação Gráfica do IC para a Linha de Regressão ...................... 24
Imagem 9: Teste de Breush-Pagan........................................................................... 30
LISTA DE TABELAS
Tabela 1: Amostra do relatório .................................................................................... 4

Tabela 2: Cálculo estimadores b0 e b1 ..................................................................... 11
Tabela 3: Comprovação propriedades da linha de regressão para a amostra .......... 13
Tabela 4: Intervalo de Confiança para E{Yh} ............................................................ 22
Tabela 5: Intervalo de Confiança para a Linha de Regressão .................................. 23
Tabela 6: Tabela de Análise de Variância ................................................................. 24
Tabela 7: Soma de Quadrados para a Amostra ........................................................ 26
Tabela 8: Tabela de Análise de Variância para a Amostra ....................................... 26
Tabela 9: Tabela de Análise de Variância para a Amostra feita no Gretl .................. 27
Tabela 10: Grupos dos termos de erro ...................................................................... 29
Tabela 11: Cálculo dos desvios dos resíduos para o teste de Brown-Forsythe ........ 29
SUMÁRIO
INTRODUÇÃO ............................................................................................................ 4
1. REGRESSÃO LINEAR SIMPLES ........................................................................ 5
1.1 MODELO DE REGRESSÃO LINEAR SIMPLES ............................................ 6
1.2 CARACTERÍSTICAS IMPORTANTES DO MODELO .................................... 7
2. MÉTODO DOS MÍNIMOS QUADRADOS ............................................................ 8
2.1 ESTIMADOR PONTUAL DA RESPOSTA MÉDIA ......................................... 9
2.2 PROPRIEDADES DA LINHA DE REGRESSÃO AJUSTADA ...................... 10
3. LINHA DE REGRESSÃO PARA AMOSTRA...................................................... 11
3.1 PROPRIEDADES DA LINHA DE REGRESSÃO NA AMOSTRA ................. 13
4. VARIÂNCIA E DESVIO PADRÃO DO MODELO ............................................... 14
5. INFERÊNCIA SOBRE β1 ................................................................................... 15
5.1 INTERVALO DE CONFIANÇA PARA β1 ..................................................... 15
5.2 TESTE DE HIPÓTESE PARA β1 ................................................................. 17
6. INFERÊNCIA SOBRE β0 ................................................................................... 18
6.1 INTERVALO DE CONFIANÇA PARA βo ..................................................... 18
6.2 TESTE DE HIPÓTESE PARA β0 ................................................................. 19
7. INFERÊNCIA SOBRE 𝐄{𝐘𝐡} .............................................................................. 20
8. INTERVALO DE CONFIANÇA DA LINHA DE REGRESSÃO ............................ 23
9. ANÁLISE DE VARIÂNCIA .................................................................................. 24
9.1 TESTE F ...................................................................................................... 27
10. COEFICIENTE DE DETERMINAÇÃO ............................................................. 27
11. TESTES DE HOMECEDASTICIDADE ............................................................ 28
11.1 TESTE DE BROWN-FORSYTHE ............................................................. 28
11.2 TESTE DE BREUSH-PAGAN ................................................................... 30
REFERÊNCIAS BIBLIOGRÁFICAS .......................................................................... 31
INTRODUÇÃO
O relatório tem como foco o desenvolvimento dos conteúdos atrelados ao

modelo de regressão linear simples abordado nas aulas de Estatística Econômica no
semestre 2018/1. No tópico 1 será mostrado o modelo de regressão linear simples e
suas características mais importantes. No tópico 2 será introduzido o método dos
mínimos quadrados para estimar as respostas médias e mostrado as principais
características da linha de regressão ajustada. No tópico 3 será calculada a linha de
regressão para amostra fornecida pelo professor e comprovado que tal linha respeita
as características expressadas no tópico 2. No tópico 4 serão mostrados e calculados,
para a amostra, a variância e o desvio padrão do modelo. Os tópicos 5 e 6 referem-
se respectivamente as inferências sobre os coeficientes de regressão β1 e βo, sendo
desmembrados em intervalo de confiança e em teste de hipótese para cada
parâmetro. O tópico 7 será direcionado a inferência sobre a 𝐄{𝐘𝐡}, enquanto o tópico
8 refere-se ao intervalo de confiança para a linha de regressão da amostra. Os tópicos
9 e 10 são direcionados à análise de variância e ao coeficiente de regressão,
respectivamente. Por fim, o tópico 11 trata de dois testes sobre a constância da
variância dos termos de erro da amostra. A amostra utilizada no trabalho é dada pela
Tabela 1, na qual X refere-se a faixa etária (anos) e Y refere-se a média dos anos de
experiência para os economistas.
Tabela 1: Amostra do relatório
4
1. REGRESSÃO LINEAR SIMPLES
A análise de regressão estuda a dependência de uma variável, denominada de

variável dependente ou resposta, em relação a outra, denominada de variável
preditora, explanatória ou independente. O objetivo é estimar o valor médio da variável
dependente em relação aos valores fixos da preditora. É importante ressaltar que
ambas as variáveis do modelo são de natureza quantitativa, isto é, apresentam
valores numéricos.
Na análise de regressão, o interesse do pesquisador está na dependência

estatística e não na dependência funcional entre as duas variáveis. A relação funcional
é expressa por uma formulação matemática exata1, haja vista que as variáveis não
são aleatórias. Assim, para cada valor de x, a função expressa um valor
correspondente para y. Por sua vez, a relação estatística não pode ser expressa por
uma formulação exata, haja vista que as variáveis são aleatórias, ou seja, possuem
uma distribuição de probabilidade.
Imagem 1: Relação estatística entre duas variáveis
Conforme mostrado pelos gráficos2 acima, na relação estatística a tendência

da variável resposta é expressa como uma variação sistemática da variável
independente. Além disso, a dispersão dos pontos em torno da linha mostra a
dependência estatística. Portanto, no modelo de regressão existe uma distribuição
de probabilidade para a variável dependente a cada valor da variável independente e
1No caso com duas variáveis: y = f (x).

2Gráfico do exemplo sobre as avaliações de desempenho para 10 funcionários obtidas no meio do ano
e no final do ano. KUTNER, Michael; NACHTSHEIM, Christopher; NETER, John; LI, William. Applied
Linear Statical Models. 5 ed. New York: McGraw Hill/Irwin, página 4.
5
as médias destas distribuições variam de forma sistemática com a variação da variável
preditora.
Outra observação importante a ser feita é que uma relação estatística por si
não implica logicamente uma causa, está depende, na maioria das vezes, de
considerações teóricas. Ademais, regressão também não significa correlação. A
segunda mede a força da associação linear entre as variáveis, enquanto a primeira se
interessa, como já explanado, pela estimação do valor médio de uma variável com
base nos valores conhecidos de outra. Também deve-se destacar o fato que na
regressão existe uma assimetria no tratamento das variáveis resposta e preditora (a
primeira possui uma distribuição de probabilidade, enquanto a segunda possui valores
fixos), a qual não existe na correlação.
1.1 MODELO DE REGRESSÃO LINEAR SIMPLES
Antes de apresentar o modelo de regressão é necessário fazer uma última

observação, como tratamos de uma relação que não pode ser formula de maneira
exata, devemos introduzir um termo de erro, o qual é uma variável aleatória que
representa todas as variáveis omitidas, mas que conjuntamente afetam a variável
resposta. Logo, o modelo de regressão linear simples é o seguinte:
Yi = βo + β1 Xi + εi
Onde:
Yi é o valor da variável dependente na i-ésima tentativa, isto é, o valor da

distribuição condicional de Y dado um X , E(XΙY).
βo é um dos parâmetros ou coeficientes de regressão, representa o intercepto

da linha de regressão. Expressa a média da distribuição condicionada de Y
quando X assume o valor zero, caso X = 0 não esteja incluso no modelo, βo
não tem intepretação isolada.
β1 é o outro parâmetro ou coeficiente de regressão, representa a inclinação da

linha de regressão. Ele indica a mudança na média da distribuição de
probabilidade de Y por unidade variada em X.
6
Xi é o valor da variável preditora na i-ésima tentativa, ou seja, é uma constante
conhecida.
εi é o termo de erro aleatório com média E{εi } = 0 e variância constante

σ2 {εi } = σ2 .
O modelo é chamado simples porque há apenas uma variável explanatória e

linear porque a esperança condicional de Y é uma função linear nos parâmetros.
Portanto, a expressão regressão linear significa uma regressão linear nos parâmetros,
podendo ou não ser linear nas variáveis preditoras.
1.2 CARACTERÍSTICAS IMPORTANTES DO MODELO
1) A resposta Yi é a soma de duas componentes: o termo constante (βo + β1 Xi )

e o termo de erro aleatório (εi )
2) Como a média do termo de erro aleatório é nula, E{εi } = 0, a resposta Yi

segue uma distribuição de probabilidade com média E{Yi } = βo + β1 Xi, pois:
E(Yi ) = E {βo + β1 Xi + εi }
E(Yi ) = βo + β1 Xi + E {εi }
E(Yi ) = βo + β1 Xi
3) A resposta Yi afasta-se do valor da linha de regressão pela quantidade expressada

pelo termo de erro, ou seja, o termo de erro é simplesmente o desvio de Yi do seu
valor esperado (média condicional).
4) Os termos de erro tem variância constante, σ2 {εi } = σ2 , desse modo, a resposta Yi

tem a mesma variância constante, σ2 {Yi } = σ2 .
σ2 {Yi } = σ2 {βo + β1 Xi + εi } = σ2 {εi },
pois pela teoria estatística: σ2 {a + bX} = b2 σ2 {X}, onde a e b são constantes.
5) Os termos de erros são não correlacionados, então as respostas também não são
correlacionadas.
7
2. MÉTODO DOS MÍNIMOS QUADRADOS
Nesse trabalho será utilizado o método dos mínimos quadrados para estimar a
função de regressão, o qual foi elaborado por Carl Friedrich Gauss. O procedimento
utiliza uma amostra com n pares de observações (Xi, Yi). Para cada uma delas, o
método considera os desvios de Yi em relação ao valor esperado de Yi.
(Y− (βo + β1 Xi ))2
A soma dos n desvios (erros) quadráticos (pois é um para cada par de

observações) será dada por:
n n
Q = ∑(Y− (βo + β1 Xi ))2 = ∑ ei 2

i=1 i=1
Portanto, o método dos mínimos quadrados propõe estimadores para βo e β1

que minimizem o critério Q para uma dada amostra de pares de observações. Isto é,
o melhor ajuste será aquele que apresentar a linha de regressão com o menor valor
de Q. De acordo com o método3, os estimadores b1 e b0 são fornecidos pelas
respectivas fórmulas:
∑ni=1(Xi − )(Yi − )
b1 =
(Xi − )2
n n
1
b0 = (∑ Yi − b1 ∑ Xi ) = b1
n
i=1 i=1
Onde: e são as médias amostrais de X e de Y.
Segundo o Teorema de Gauss Markov, os estimadores apresentam as

seguintes propriedades:
 bo e b1 são estimadores não viesados

 bo e b1 são funções lineares de Y.
3Manipulação algébrica para chegar aos estimadores b0 e b1 disponível em: GUJARATI, Damodar.
Econometria Básica. 4ed. Rio de Janeiro: Editora Elsevier, 2006.
8
Uma observação pertinente é sobre a necessidade de elevar os desvios ao
quadrado. Pela imagem abaixo4, podemos notar que a distância do termo de erro 5 1,
e1 , é igual a distância do termo de erro 4, e4 , o mesmo ocorre para os termos de erro
2 e 3. Respeitado a constatação anterior, isto é, os valores 1-4 e 2-3 devem possuir a
mesma grandeza em módulo, supõe-se os seguintes valores para estes resíduos:
e1 = 50; e2 = −10; e3 = 10; e4 = − 50. A soma de tais valores resultaria em zero, o
que passaria a ilusão de um ajustamento perfeito em função da soma dos erros ser
igual a zero, porém pela Imagem 2 fica claro que isso não ocorre. Na verdade, os
quatros termos de erros estão dispersos ao longo da linha de regressão. Dessa
maneira, utiliza-se o critério Q elevado ao quadrado, pois existem infinitas linhas de
regressão que teriam uma soma de termos de erros igual a zero, todavia o foco está
na que fornece a menor incerteza. Resultado que só pode ser obtivo através do critério
Q da forma definida anteriormente, pois quanto maior o valor do termo de erro elevado
ao quadrado, maior será sua participação no somatório Q.
Imagem 2: Critério dos mínimos quadrados
2.1 ESTIMADOR PONTUAL DA RESPOSTA MÉDIA
Através dos estimadores bo e b1 estimaremos a função de regressão na forma:
̂ = bo + b1 X
Y
4 Fonte: GUJARATI, Damodar. Econometria Básica. 4ed. Rio de Janeiro: Editora Elsevier, 2006, página
48.
5 Gujarati utiliza a notação 𝑢
̂ para os termos de erro.
9
Onde: ̂
Y é o estimador pontual da resposta média para um determinado nível
̂i é o valor estimado da função de regressão para o nível
de X. Logo, Y
Xi da variável independente.
Por seu turno, os resíduos são encontrados através da diferença entre o valor
observador e o corresponde valor fornecido pelo estimador pontual da resposta média,
o valor ajustado. Assim, o i-ésimo resíduo é dado por:
̂i
ei = Yi − Y
Onde: Yi e ̂
Yi são, respectivamente, o valor observado e ajustado na i-ésima
tentativa.
No modelo de regressão linear simples, o i-ésimo resíduo será dado por:
ei = Yi − bo − b1 Xi
2.2 PROPRIEDADES DA LINHA DE REGRESSÃO AJUSTADA
A linha de regressão ajustada possui seis propriedades:

1. A soma dos resíduos é igual a zero.
n
∑ ei = 0
i=1
2. A soma dos quadrados dos resíduos ∑ni=1 ei 2 é a mínima entre todas as linhas
que passam pelo vetor (X, Y).
3. A soma dos valores observados é igual à soma dos valores ajustados
𝑛 𝑛
∑ Yi = ∑ ̂
Yi
𝑖=1 𝑖=1
4. A soma dos resíduos ponderados é igual a zero quando o i-ésimo resíduo for
ponderado pelo i-ésimo valor da variável preditora.
n
∑ X i ei = 0
i=1
10
5. A soma dos resíduos é igual a zero quando o i-ésimo resíduo for ponderado
pelo i-ésimo valor ajustado.
n
∑̂
Yi ei = 0
i=1
6. A linha de regressão obrigatoriamente passará pelo vetor (X, Y).
3. LINHA DE REGRESSÃO PARA AMOSTRA
Por meio das informações da amostra, fornecidas na introdução do relatório, e

do método dos mínimos quadrados, explicado nas seções anteriores, foi estimada a
linha de regressão com o objetivo de analisar a relação entre a faixa etária (variável
preditora) representada por X e a média dos anos de experiência do economistas
(variável resposta) representada por Y.
Tabela 2: Cálculo estimadores b0 e b16
Com as informações disponibilizadas pela Tabela 2, pode-se calcular os

estimadores bo e b1:
∑ni=1(Xi − )(Yi − ) 1230,1922

b1 = = = 0,4473
(Xi − )2 2750
b0 = b1 ( )( )
6 Fonte: elaboração própria através do programa Excel.

11
Assim, a função de regressão é estimada na forma: Ŷi = −6,3235 + 0,4473 Xi .
Os valores ajustados são fornecidos na coluna 8 da tabela 2, enquanto os termos de
erro são fornecidos na coluna 9. Dessa maneira, a linha de regressão linear7 é a
seguinte:
Imagem 3: Linha de regressão
Na Imagem 4, os mesmos valores para os coeficientes bo e b1, agora

encontrados por meio do software Gretl.
Imagem 4: Coeficientes de Regressão
7 Fonte: elaboração própria através do programa Gretl.
12
3.1 PROPRIEDADES DA LINHA DE REGRESSÃO NA AMOSTRA
A seguir, por meio das informações da Tabela 3, a comprovação que a linha de

regressão ajustada para a amostra é compatível com as cinco propriedades
apresentadas na seção 2.2
Tabela 3: Comprovação propriedades da linha de regressão para a amostra8
1. A soma dos resíduos é igual a zero. Comprovado pela intersecção da linha

13 com a coluna 5 da Tabela 3.
2. A soma dos quadrados dos resíduos é a mínima entre todas as linhas que
passam pelo vetor (𝐗, 𝐘). Comprovado pelo próprio uso do método dos
mínimos quadrados.
3. A soma dos valores observados é igual à soma dos valores ajustados.
Comprovado pela intersecção da linha 13 com as colunas 3 e 4 da Tabela 3.
4. A soma dos resíduos ponderados é igual a zero quando o i-ésimo resíduo
for ponderado pelo i-ésimo valor da variável preditora. Comprovado pela
intersecção da linha 13 com a coluna 7 da Tabela 3.
5. A soma dos resíduos é igual a zero quando o i-ésimo resíduo for
ponderado pelo i-ésimo valor ajustado. Comprovado pela intersecção da
linha 13 com a coluna 8 da Tabela 3.
8 Fonte: elaboração própria através do programa Excel.
13
6. A linha de regressão obrigatoriamente passará pelo vetor (𝐗, 𝐘).
Comprovado pela Imagem 4.
4. VARIÂNCIA E DESVIO PADRÃO DO MODELO
Para estimar a variância do modelo, utilizamos a mesma lógica que para uma
população finita. Lembrando que a variância pode ser denotada como quadrado
médio, em virtude da soma de quadrados ser dividida pelo número apropriado de
graus de liberdade.
Ademais, como explicado na seção 1.2, a variância de cada resposta Yi para o

modelo de regressão linear simples é igual a variância de cada termo de erro, σ2 {Yi } =
σ2 . Desse modo, tomando como base os desvios, sua soma de quadrados é denotada
por Soma de Quadrados do erro (SQErro).
n n
̂i )2 = ∑ ei 2
SQErro = ∑(Yi − Y
i=1 i=1
A SQErro possui n-2 graus de liberdade, pois dois graus de liberdade são
̂i . Portanto a variância
perdidos ao estimarmos β0 e β1 para obtermos a estimativa Y
do modelo, S 2 , denotada por Erro Quadrático Médio (EQM) é estimada pela seguinte
fórmula:
SQErro
S 2 = EQM =
n−2
Por sua vez, o estimador do desvio padrão é: S = √EQM
Com essas informações, podemos calcular a variância e o desvio padrão do

modelo para a amostra. Para isso fazemos uso da SQErro fornecida pela intersecção
da linha 13 com a coluna 6 da Tabela 3 e da informação que a amostra possui 11
observações.
66,9334
S 2 = EQM = = 7,4370
11−2
S = √7,4370 = 2,7271
14
5. INFERÊNCIA SOBRE β1
5.1 INTERVALO DE CONFIANÇA PARA β1
Antes de focar no intervalo de confiança para o coeficiente β1, é preciso fazer

uma observação sobre a distribuição amostral de b 1. Como visto na seção 2, o
estimador de b1 é:
∑ni=1(Xi − )(Yi − )
b1 =
(Xi − )2
Desta forma, a distribuição amostral de b1 refere-se aos diferentes valores de

b1 que são obtidos com repetidas amostragens, mantendo-se constante os níveis da
variável preditora. No caso do modelo de regressão linear, b 1 ou melhor sua
distribuição amostral terá variância fornecida pela seguinte fórmula:
σ2
σ2 {𝑏1 } =
∑(Xi − )2
De modo semelhante a estimação da variância do modelo, o estimador da

variância de b1 será:
EQM
S 2 {𝑏1 } =
∑(Xi − )2
Por seu turno, o estimador do desvio padrão será dado pela raiz quadrada
positiva do estimador da variância de b1.
Feita essa observação inicial, o intervalo de confiança para o parâmetro β19 do

modelo de regressão, será fornecido pela seguinte fórmula:
α
IC{β1 } = b1 ± t (1 − , n − 2) S{b1 }
2
Onde: t(1 − α/2 , n − 2) denota uma distribuição t-student com n-2 graus de liberdade.
9 Manipulação algébrica para chegar aos intervalo e confiança de β1 disponível em: GUJARATI,
Damodar. Econometria Básica. 4ed. Rio de Janeiro: Editora Elsevier, 2006.
15
Com essas informações, pode-se calcular o intervalo de confiança do
coeficiente β1. Para isso, inicia-se calculando a estimativa da variância e do desvio
padrão, utilizando o valor encontrado na seção 4 para o numerador da variância e o
valor da intersecção da linha 13 com a coluna 7 da Tabela 2 para o denominador.
EQM 7,4370
S 2 {b1 } = 2
= = 0,0027
∑(Xi − ) 2750
S{b1 } = √S 2 {b1 } = 0,0520
Assim, utilizando um nível de confiança de 95%, o mesmo utilizado em todos

os exercícios realizados na sala de aula, teremos:
α
IC = b1 ± t (1 − , n − 2) S{b1 }
2
IC = 0,4473 ± 2,262*0,0520
IC = [0,3297; 0,5649]
O intervalo de confiança de β1 é entre 0,3297 e 0,5649. Isto significa que há

95% de chance do verdadeiro valor de β1 está contido no intervalo acima. Esse
mesmo resultado foi encontrado utilizando o software Gretl.
Imagem 5: Intervalo de Confiança β1
16
5.2 TESTE DE HIPÓTESE PARA β1
Ao realizar-se o teste de hipótese para o coeficiente β1 estamos interessados

em saber se existe uma relação linear entre a variável preditora (X) e a variável
resposta (Y). Logo, traça-se as seguintes hipóteses:
HO : β1 = 0
H1 : β1 ≠ 0
A situação de aceitação da hipótese nula significa que tal relação não existe,
por seu turno, a situação de rejeição da hipótese nula significa que tal relação entre
as variáveis existe.
Para realizarmos o teste de hipótese devemos “normalizar” a distribuição

amostral de b1, como b1 é normalmente distribuído, pressuposto do modelo
trabalhado, a estatística padronizada (b1 − β1 )/σ{b1}) é uma normal padrão. Todavia,
como se estima a variância através de S 2 (conforme mostrado na seção anterior), a
estatística torna-se studentizada com n-2 graus de liberdade. Assim, a estatística do
teste é a seguinte:
(b1 − β1 ) (b1 − 0) b1
t∗ = = =
S{b1 } S{b1 } S{b1 }
A troca de β1 por 0 ocorre porque o foco está na hipótese nula. Além disso, a
regra de decisão é a seguinte:
Se |𝑡 ∗ | ≤ t(1 − α/2 , n − 2), aceita-se H0.
Se |𝑡 ∗ | > t(1 − α/2 , n − 2), rejeita-se H0.
Com essas informações, podemos realizar o teste de hipótese para b1. Para
calcular utiliza-se um nível de significância de 5% e n-2 = 9, assim t(0,025;9) será
2,262. Ademais, toma-se o valor estimado para b1 na seção 3 e o de sua variância na
seção 5.1.
b1 0,4473
t∗ = = = 8,6019
S{b1 } 0,0520
Como |𝑡 ∗ | > t(1 − α/2 , n − 2), isto é, 8,6019 > 2,262, rejeita-se a hipótese nula.
Desse modo, há uma relação linear entre X e Y.
17
6. INFERÊNCIA SOBRE β0
6.1 INTERVALO DE CONFIANÇA PARA βo
De igual maneira a análise feita para β1, antes de focar no intervalo de confiança
para o coeficiente β0, é preciso fazer uma observação sobre a distribuição amostral
de b0. Como visto na seção 2, o estimador de b0 é:
b0 = b1
Desta forma, a distribuição amostral de b0 refere-se aos diferentes valores de

bo que são obtidos com repetidas amostragens, mantendo-se constante os níveis da
variável preditora. No caso do modelo de regressão linear, b o ou melhor sua
distribuição amostral terá variância fornecida pela seguinte fórmula:
2
1
σ2 {𝑏0 } 2
=σ [ + ]
𝑛 ∑(Xi − )2

variância de b0 será:
2
1
S 2 {b1 } = EQM [ + ]
n ∑(Xi − )2
positiva do estimador da variância de b0.
Feita essa observação inicial, o intervalo de confiança para o parâmetro β010 do

modelo de regressão, será fornecido pela seguinte fórmula:
α
IC{β0 } = b0 ± t (1 − , n − 2) S{b0 }
2
10Manipulação algébrica para chegar aos intervalo e confiança de β1 disponível em: GUJARATI,
Damodar. Econometria Básica. 4ed. Editora Elsevier.
18
Com essas informações, pode-se calcular o intervalo de confiança do
coeficiente βo. Para isso, inicia-se calculando a estimativa da variância e do desvio
padrão, utilizando o valor do EQM encontrado na seção 4, o valor ∑(Xi − )2
encontrado na intersecção da linha 13 com a coluna 7 da Tabela 2, o valor
X encontrado na intersecção da linha 14 com a coluna 2 da Tabela 2 e n igual a 11.
2
2 {b
1 1 472
S }
0 = EQM [ + ] = 7,4370 [ + ] = 6,65
n ∑(Xi − )2 11 2750
S{b0 } = √S 2 {b0 } = 2,5788
Assim, utilizando um nível de confiança de 95%, o mesmo utilizado em todos

os exercícios realizados na sala de aula, teremos:
α
IC = bo ± t (1 − , n − 2) S{b1 }
2
IC = − ± 2,262*2,5788
IC = [−12,1567; −0,4903]
O intervalo de confiança de β0 é entre -12,1567 e -0,4903. Isto significa que há

95% de chance do verdadeiro valor de β0 está contido no intervalo acima. Esse
mesmo resultado foi encontrado de modo aproximado utilizando o software Gretl.
Imagem 6: Intervalo de Confiança β0
6.2 TESTE DE HIPÓTESE PARA β0
Na formulação do teste de hipótese para o coeficiente βo se traça as seguintes

hipóteses:
HO : β1 = 0
H1 : β1 ≠ 0
19
Para realizarmos o teste devemos “normalizar” a distribuição amostral de b 0,
como b0 é normalmente distribuído, pressuposto do modelo trabalhado, a estatística
padronizada (b0 − β0 )/σ{bo }) é uma normal padrão. Todavia, como se estima a
variância através de S 2 (conforme mostrado na seção anterior), a estatística torna-se
studentizada com n-2 graus de liberdade. Assim, a estatística do teste é a seguinte:
(bo − βo ) (bo − 0) bo
t∗ = = =
S{bo } S{bo } S{bo }
A troca de βo por 0 ocorre porque o foco está na hipótese nula. Ademais, a

regra de decisão é a seguinte:
Se |𝑡 ∗ | ≤ t(1 − α/2 , n − 2), aceita-se H0.
Se |𝑡 ∗ | > t(1 − α/2 , n − 2), rejeita-se H0.
Com essas informações, podemos realizar o teste de hipótese para b o. Para

calcular utiliza-se um nível de significância é 5% e n-2 = 9, assim t(0,025;9) será 2,262.
Ademais, toma-se o valor estimado para bo na seção 3 e o de sua variância na seção
6.1.
bo −6,3235
t∗ = = = −2,4521
S{bo } 2,5788
Como |𝑡 ∗ | > t(1 − α/2 , n − 2), isto é, 2,4521 > 2,262, rejeita-se a hipótese nula.
7. INFERÊNCIA SOBRE 𝐄{𝐘𝐡 }
Como já mostrado no início desse relatório, a função do modelo de regressão

é estimar o valor médio para cada nível da variável preditora. Denota-se por Xh o nível
de X que estamos interessados em estimar a resposta média, a qual é denotada por
E{Yh }. De igual maneira ao explicado na seção da linha de regressão, mas agora
̂h da E{Yh } é:
utilizando uma noção um pouco diferente, o estimador pontual Y
̂h = bo + b1 Xh
Y
Semelhante aos casos dos parâmetros b0 e b1 há uma distribuição de amostral

̂h . Esta refere-se aos diferentes valores de Y
de Y ̂h que podem ser obtidos com
repetidas amostragens, mantendo constante os níveis da variável explanatória X. No

20
̂h ou melhor sua distribuição amostral terá
caso do modelo de regressão linear, Y
variância fornecida pela seguinte fórmula:
1 (Xh − 2
̂2 2
σ {Yh } = σ [ + ]
𝑛 ∑(Xi − )2

̂h será:
variância da distribuição amostral de Y
1 (Xh − 2
2 ̂
S {Yh } = EQM [ + ]
n ∑(Xi − )2
̂h .
positiva do estimador da variância da distribuição amostral de Y
Feita essa observação inicial, o intervalo de confiança para E{Yh }11será

fornecido pela seguinte fórmula:
α
̂h ± t (1 − , n − 2) S{Y
IC{E{Yh }} = Y ̂h }
2
Com essas informações, pode-se calcular o intervalo de confiança da resposta

média para determinado nível de X. Para exemplificar escolhi Xh = 22, utilizando o valor
do EQM encontrado na seção 4, o valor ∑(Xi − )2 encontrado na intersecção da linha
13 com a coluna 7 da Tabela 2, o valor X encontrado na intersecção da linha 14 com
̂h .
a coluna 2 da Tabela 2 e n igual a 11 consigo estimar a variância de Y
1 (X − 2 1 (22 − 47)2
̂h } = EQM [ + h
S 2 {Y ] = 7,4370 [ + ] = 2,3663
n ∑(Xi − )2 11 2750
̂h } = √S 2 {Y
S{Y ̂h } = 1,5383
11Manipulação algébrica para chegar aos intervalo e confiança de β1 disponível em: KUTNER, Michael;
NACHTSHEIM, Christopher; NETER, John; LI, William. Applied Linear Statical Models. 5 ed. New York:
McGraw Hill/Irwin.
21
̂h = 3,5180, utilizando um nível de
Assim, como para Xh = 22 o valor ajustado é Y
confiança de 95%, o mesmo utilizado em todos os exercícios realizados na sala de
aula, teremos:
α
̂h ± t (1 − , n − 2) S{Y
IC = Y ̂h }
2
IC = 3,5180 ± 2,262*1,5383
IC = [0,0384; 6,9976]
̂h = 3,5180 é entre 0,0384 e

O intervalo de confiança da resposta média para Y
6,9976. A estimativa do intervalo de confiança da resposta média referente a outros
níveis da variável preditora é representada na Tabela 4.
Tabela 4: Intervalo de Confiança para E{Yh}12
A partir das informações da Tabela 4 foi montado o gráfico do intervalo de

confiança para E{Yh}. Nesse fica claro que à medida que os dados se afastam da
média de X e Y, o erro aumenta e, consequentemente, os limites do intervalo de
confiança elevassem.
12 Fonte: elaboração própria através do software Gretl.

22
Imagem 7: Gráfico do Intervalo de Confiança para E{Yh}13
8. INTERVALO DE CONFIANÇA DA LINHA DE REGRESSÃO
O intervalo de confiança para a linha de regressão é fornecido pela seguinte

expressão:
̂h ± WS{Y
IC = Y ̂h }
Onde: W 2 = 2F(1 − α; 2; n − 2);
Tabela 5: Intervalo de Confiança para a Linha de Regressão14
13 Fonte: elaboração própria através do software Gretl.

14 Fonte: elaboração própria através do software Excel.
23
Utilizando um nível de significância de 5%, W 2 será dado por W 2 =
2F(0,05; 2; 9). Como F(0,05; 2; 9) = 4,256, logo W 2 = 8,5120 e W = 2,9175. Utilizando
os dados do desvio padrão da Tabela 4, podemos encontrar os limites inferiores e
superiores para o intervalo de confiança da linha de regressão, os quais são
apresentados na Tabela 5. O gráfico representa a hipérbole formada pelo IC para a
linha de regressão, onde a linha vermelha representa a linha de regressão ajustada.
Imagem 8: Representação Gráfica do IC para a Linha de Regressão
9. ANÁLISE DE VARIÂNCIA
A análise de variância tem como base a partição da soma de quadrados e dos

graus de liberdades associados a variável resposta Y. A tabela da análise de variância
é a seguinte:
Tabela 6: Tabela de Análise de Variância
Fonte de Variação Soma de Graus de Quadrados Médios

Quadrados Liberdade
Regressão SQR 1 QMR
Erro SQE n-2 QME
Total SQT n-1
24
A Soma de Quadrados Totais é soma dos desvios quadráticos, isto é, dos
desvios de Yi em relação a Y.
SQT = ∑(Y − Y)2

i=1
A Soma de Quadrados do Erro é soma dos desvios dos valores observados em

relação aos valores ajustados, assim, reflete a incerteza da variável resposta em torno
da linha de regressão.
SQE = ∑(Y − Ŷi )2

i=1
A diferença entre SQT e SQE é a Soma de Quadrados devido a Regressão.

Nela, cada desvio é a diferença entre o valor ajustado na linha de regressão e a média
dos valores ajustados.
SQR = ∑(Ŷi − Y)2

i=1
No que tange aos graus de liberdade associados as Somas de Quadrados, a

Soma de Quadrados Totais possui n-1 graus, pois um grau é perdido porque seus
desvios devem somar zero. A Soma de Quadrados dos Erros tem n-2 graus de
liberdade, pois 2 graus são perdidos porque os parâmetros de regressão são
estimados para obter os valores ajustados. A Soma de Quadrados devido a
Regressão tem apenas um grau de liberdade, pois todos os valores ajustados são da
mesma linha de regressão. Uma linha de regressão está associada a dois graus de
liberdade, o intercepto e a inclinação, porém no caso da SQR um deles é perdido
porque os desvios Ŷi − Y devem somar zero.
Ao dividirmos as somas de quadrados pelos seus respectivos graus de

liberdade encontramos os quadrados médios:
SQR SQE SQT

QMR = QME = QMT = = s2
1 n−2 n−1
25
Com essas informações, pode-se elaborar a tabela da análise de variância. Na
tabela 7 é expressa os cálculos das três Somas de Quadrados para a amostra e a
seguir é feito os cálculos dos Quadrados Médios.
Tabela 7: Soma de Quadrados para a Amostra15
SQR 550,3174
QMR = = = 550,3174
1 1
SQE 66,9334
QME = = = 7,4370
n−2 9
SQT 617,2508
QMT = = = 61,7251
n−1 10
Assim, a tabela de análise de variância para a amostra é:
Tabela 8: Tabela de Análise de Variância para a Amostra
Fonte de Variação Soma de Graus de Quadrados Médios

Quadrados Liberdade
Regressão 550,3174 1 550,3174
Erro 66,9334 9 7,4370
Total 617,2508 10 61,7251

26
Essa mesma tabela foi encontrada utilizando o software Gretl.
Tabela 9: Tabela de Análise de Variância para a Amostra feita no Gretl
9.1 TESTE F
Ao realizar-se o teste de hipótese F estamos interessados em saber se existe

uma relação linear entre a variável preditora (X) e a variável resposta (Y). Logo, traça-
se as seguintes hipóteses:
HO : β1 = 0
H1 : β1 ≠ 0
QMR
A estatística do teste é dada por: F ∗ = . Ademais, a regra de decisão é a
QME
seguinte:
Se F ∗ ≤ F(1 − α , 1, n − 2), aceita-se H0.
Se F ∗ > F(1 − α , 1, n − 2), rejeita-se H0.
Com essas informações, podemos realizar o teste de hipótese F. Para calcular

se utiliza um nível de significância de 5%, logo, a F tabelada será F(0,05;1;9) com
valor igual 4,256. A estatística do teste será:
QMR 550,3174
F∗ = = = 73,9972
QME 7,4370
Como F ∗ > F(1 − α , 1, n − 2), isto é, 73,9972 > 4,256, rejeita-se a hipótese nula.
10. COEFICIENTE DE DETERMINAÇÃO
SQR SQE
r2 = =1−
SQT SQT
O coeficiente de determinação, r 2 , é o indicador mais usado para medir a
qualidade do ajustamento de uma linha de regressão. Ele mede a proporção da
27
variação total de Y explicada pelo modelo de regressão. Se r 2 = 1, significa um
ajustamento perfeito, isto é, Yi = Ŷi para todo i. Se r 2 = 0, significa que não há
qualquer relação entre as variáveis.
O coeficiente de determinação para a amostra é o seguinte:
SQR 550,3174
r2 = = = 0,8916
SQT 617,2508
Isso diz que 0,8916 da variação de Y é explicada pela regressão.
11. TESTES DE HOMECEDASTICIDADE
Homocedasticidade é o termo utilizado para designar variância constante dos

termos de erro do modelo. Em outras palavras, o interesse está em testar a constância
da variância dos termos de erro do modelo.
11.1 TESTE DE BROWN-FORSYTHE
O teste de Brown-Forsythe é baseado na variabilidade dos resíduos, o método

divide os dados em dois grupos de acordo com o nível de X. Se a variância dos
resíduos aumenta ou diminui em relação a X, os termos de erro de um grupo
apresentam mais variabilidade que os de outro.
Ele utiliza os desvios dos resíduos, em termos absolutos, em relação à mediana

de seu grupo.
di1 = |ei1 − ẽ1 | di2 = |ei2 − ẽ2 |
Onde:
𝑒̃1 e 𝑒̃2 são as medianas dos respectivos grupos 1 e 2.
𝑒𝑖1 e 𝑒𝑖2 são os i-ésimos resíduos dos respectivos grupos 1 e 2.
𝑑𝑖1 e 𝑑𝑖2 são os desvios dos resíduos, em termos absolutos, em relação à
mediana dos respectivos grupos 1 e 2.
A estatística do teste é dada por:
d1 − d2
t BF ∗ =
1 1
S√n + n
1 2
28
Onde:
d1 e d2 são as médias amostrais de di1 e di2 .
2
∑(𝑑𝑖1 − d1 )2 + ∑(𝑑𝑖2 − d2 )2
𝑆 =
𝑛−2
Com essas informações, podemos iniciar o teste.

Tabela 10: Grupos dos termos de erro16
Grupo 1 Grupo2
e1 = -1,6759 e7 = 3,5148
e2 = -2,0589 e8 = 2,0429
e3 = -1,8889 e9 = 0,1733
e4 = -0,0539 e10 = -1,9942
e5 = 2,2148 e11 = -4,0637
e6 = 3,7897
Reordenando os termos de erro, temos:

𝑒1 +𝑒4
 Grupo 1: e2, e3, e1, e4, e5, e6 𝑒̃1 = = − 0,8649
2
 Grupo 2: e11, e10, e9,e8,e7 𝑒̃2 = 0,1733
Tabela 11: Cálculo dos desvios dos resíduos para o teste de Brown-Forsythe17
2
∑(𝑑𝑖1 − d1 )2 + ∑(𝑑𝑖2 − d2 )2 12,6121 + 10,3268
𝑆 = = = 2,5488
𝑛−2 9

29
Assim, a estatística do teste será:
d1 − d2 1,9290 − 2,3231
t BF ∗ = = = −0,2553
1 1 1 1
S√n + n 2,5488√6 +
1 2 5
A regra de decisão é a seguinte:
Se |𝑡𝐵𝐹 ∗ | ≤ t(1 − α , n − 2), conclui-se que a variância dos termos de erro é

constante.
Se |𝑡𝐵𝐹 ∗ | > t(1 − α , n − 2), conclui-se que a variância dos termos de erro não é
constante.
Para calcular, utiliza-se um nível de significância de 5% e n-2 = 9, assim

t(0,05;9) será 2,262. Como |t BF ∗ | ≤ t(0,05 ,9), conclui-se que a variância do termo de
erro é constante. Isto significa que a variância do resíduo não varia com o nível de X.
11.2 TESTE DE BREUSH-PAGAN
O teste de Breush-Pagan é outra maneira de testar a constância da variância

dos termos de erro do modelo. Para realiza-lo foi utilizado o software Gretl.
Imagem 9: Teste de Breush-Pagan
A hipótese nula é sem heteroscedasticidade, enquanto a hipótese alternativa é

com heteroscedasticidade. Utilizando um nível de significância de 5%, aceitamos a
hipótese nula porque p-valor ≥ α. Logo, a intepretação é a mesma que foi encontrada
no teste de Brown-Forsythe: a variância do termo de erro é constante; isto significa
que a variância do resíduo não varia com o nível de X.
30
REFERÊNCIAS BIBLIOGRÁFICAS
GUJARATI, Damodar. Econometria Básica. 4ed. Rio de Janeiro: Editora Elsevier,

2006.
KUTNER, Michael; NACHTSHEIM, Christopher; NETER, John; LI, William. Applied

Linear Statical Models. 5 ed. New York. McGraw Hill/Irwin.
31

Relatório Estatística Econômica - UFRGS

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Relatório Estatística Econômica - UFRGS

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

ESTATÍSTICA ECONÔMICA (MAT02207)

RELATÓRIO DE ESTATÍSTICA ECONÔMICA

ALUNO: ANGELO FRANCISCO SIRTOLI DELAMARE - 00287871

PROFESSOR: FERNANDO HEPP PULGATI

Imagem 1: Relação estatística entre duas variáveis ................................................... 5

Tabela 1: Amostra do relatório .................................................................................... 4

O relatório tem como foco o desenvolvimento dos conteúdos atrelados ao

Tabela 1: Amostra do relatório

A análise de regressão estuda a dependência de uma variável, denominada de

Na análise de regressão, o interesse do pesquisador está na dependência

Imagem 1: Relação estatística entre duas variáveis

Conforme mostrado pelos gráficos2 acima, na relação estatística a tendência

1No caso com duas variáveis: y = f (x).

1.1 MODELO DE REGRESSÃO LINEAR SIMPLES

Antes de apresentar o modelo de regressão é necessário fazer uma última

Yi é o valor da variável dependente na i-ésima tentativa, isto é, o valor da

βo é um dos parâmetros ou coeficientes de regressão, representa o intercepto

β1 é o outro parâmetro ou coeficiente de regressão, representa a inclinação da

εi é o termo de erro aleatório com média E{εi } = 0 e variância constante

O modelo é chamado simples porque há apenas uma variável explanatória e

1.2 CARACTERÍSTICAS IMPORTANTES DO MODELO

1) A resposta Yi é a soma de duas componentes: o termo constante (βo + β1 Xi )

2) Como a média do termo de erro aleatório é nula, E{εi } = 0, a resposta Yi

3) A resposta Yi afasta-se do valor da linha de regressão pela quantidade expressada

4) Os termos de erro tem variância constante, σ2 {εi } = σ2 , desse modo, a resposta Yi

σ2 {Yi } = σ2 {βo + β1 Xi + εi } = σ2 {εi },

pois pela teoria estatística: σ2 {a + bX} = b2 σ2 {X}, onde a e b são constantes.

(Y− (βo + β1 Xi ))2

A soma dos n desvios (erros) quadráticos (pois é um para cada par de

Q = ∑(Y− (βo + β1 Xi ))2 = ∑ ei 2

Portanto, o método dos mínimos quadrados propõe estimadores para βo e β1

Onde: e são as médias amostrais de X e de Y.

Segundo o Teorema de Gauss Markov, os estimadores apresentam as

 bo e b1 são estimadores não viesados

Imagem 2: Critério dos mínimos quadrados

2.1 ESTIMADOR PONTUAL DA RESPOSTA MÉDIA

Através dos estimadores bo e b1 estimaremos a função de regressão na forma:

2.2 PROPRIEDADES DA LINHA DE REGRESSÃO AJUSTADA

A linha de regressão ajustada possui seis propriedades:

6. A linha de regressão obrigatoriamente passará pelo vetor (X, Y).

3. LINHA DE REGRESSÃO PARA AMOSTRA

Por meio das informações da amostra, fornecidas na introdução do relatório, e

Tabela 2: Cálculo estimadores b0 e b16

Com as informações disponibilizadas pela Tabela 2, pode-se calcular os

∑ni=1(Xi − )(Yi − ) 1230,1922

6 Fonte: elaboração própria através do programa Excel.

Imagem 3: Linha de regressão

Na Imagem 4, os mesmos valores para os coeficientes bo e b1, agora

Imagem 4: Coeficientes de Regressão

7 Fonte: elaboração própria através do programa Gretl.

A seguir, por meio das informações da Tabela 3, a comprovação que a linha de

Tabela 3: Comprovação propriedades da linha de regressão para a amostra8

1. A soma dos resíduos é igual a zero. Comprovado pela intersecção da linha

8 Fonte: elaboração própria através do programa Excel.

4. VARIÂNCIA E DESVIO PADRÃO DO MODELO

Ademais, como explicado na seção 1.2, a variância de cada resposta Yi para o

Por sua vez, o estimador do desvio padrão é: S = √EQM

Com essas informações, podemos calcular a variância e o desvio padrão do

5.1 INTERVALO DE CONFIANÇA PARA β1

Antes de focar no intervalo de confiança para o coeficiente β1, é preciso fazer

Desta forma, a distribuição amostral de b1 refere-se aos diferentes valores de

De modo semelhante a estimação da variância do modelo, o estimador da

Feita essa observação inicial, o intervalo de confiança para o parâmetro β19 do