P. 1
conceitos basicos de regressão e causalidade

conceitos basicos de regressão e causalidade

|Views: 169|Likes:
Publicado porMaykon Bueno

More info:

Published by: Maykon Bueno on Nov 30, 2011
Direitos Autorais:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as DOC, PDF, TXT or read online from Scribd
See more
See less

12/11/2012

pdf

text

original

UNIVERSIDADE FEDERAL DA PARAÍBA

CENTRO DE CIÊNCIAS SOCIAIS APLICADAS
DEPARTAMENTO DE ECONOMIA
Regressão, Correlação e Causalidade
Objetivos
Apresentar alguns conceitos básicos de regressão de duas variáveis, além de uma
introdução sobre a intensidade de associação entre duas variáveis. O conceito de
coeficiente de correlação linear é usado para expressar esse grau de associação.
Bibliografia
Livro Texto:
GUJARATI, D. N. Econometria Básica. São Paulo: MAKRON Books, 2000. Capítulo 2.
Complementar:
HILL, C.; GRIFFITHS,W.; JUDGE,G. Econometria. São Paulo: Saraiva, 1999.
HOFFMAN, R. e VIEIRA, S. Análise de regressão: uma introdução à econometria. São
Paulo: Hucitec, 1983 (pg 39).
HOFFMAN, Rodolfo. Estatística para economistas. São Paulo: Editora Pioneira, 1980.
JOHNSTON, J. Métodos econométricos. São Paulo: Atlas, 1976.
KMENTA, Jan. Elementos de econometria. São Paulo: Atlas, 1988.
MATOS, O. C. Econometria básica: teoria e aplicação. São Paulo: Atlas, 1995.
SALVATORE, Dominic. Estatística e econometria. São Paulo: McGraw-Hill, 1983.
WONNACOTT, R. J. e WONNACOTT, T.H. Econometria. Rio de Janeiro: LTC, 1976.
UFPB–Departamento de Economia Disciplina: 1201110 – Econometria – 2004.2
Alguns conceitos básicos de regressão
A análise de regressão se preocupa largamente em estimar e/ou prever a média (da
população) ou o valor médio das variáveis dependentes a partir dos valores conhecidos ou
fixados de uma ou mais variáveis explicativas.
Como se faz isto? Imagine um país hipotético com uma população total de 60
famílias. Estamos interessados em prever o nível médio de consumo semanal da população
sabendo da renda semanal da família. Para isto dividimos as 60 famílias em 10 grupos de
famílias com aproximadamente a mesma renda e examinaremos o consumo das famílias
em cada um desses níveis.Os dados estão na tabela 1.
Tabela 1– Renda Familiar Semanal (X) e Consumo Familiar Semanal (Y)
X →
Y ↓
80 100 120 140 160 180 200 220 240 260
55
(1/5)
65
(1/6)
79
(1/5)
80
(1/7)
102
(1/6)
110
(1/6)
120
(1/5)
135
(1/7)
137
(1/6)
150
(1/7)
60
(1/5)
70
(1/6)
84
(1/5)
93
(1/7)
107
(1/6)
115
(1/6)
136
(1/5)
137
(1/7)
145
(1/6)
152
(1/7)
65
(1/5)
74
(1/6)
90
(1/5)
95
(1/7)
110
(1/6)
120
(1/6)
140
(1/5)
140
(1/7)
155
(1/6)
175
(1/7)
70
(1/5)
80
(1/6)
94
(1/5)
103
(1/7)
116
(1/6)
130
(1/6)
144
(1/5)
152
(1/7)
165
(1/6)
178
(1/7)
75
(1/5)
85
(1/6)
98
(1/5)
108
(1/7)
118
(1/6)
135
(1/6)
145
(1/5)
157
(1/7)
175
(1/6)
180
(1/7)
---- 88
(1/6)
--- 113
(1/7)
125
(1/6)
140
(1/6)
----- 160
(1/7)
189
(1/6)
185
(1/7)
---- ------ --- 115
(1/7)
----- ------ 162
(1/7)
----- 191
(1/7)
Total
(média)
325
(65)
462
(77)
445
(89)
707
(101)
678
(113)
750
(125)
685
(137)
1043
(149)
966
(161)
1211
(173)
A tabela deve ser interpretada da seguinte forma. Quando a renda semanal
familiar é igual a 80, existem 5 famílias cujo consumo varia de 55 a 75 e o consumo médio
semanal é igual 65. Similarmente para as outras classes de renda. Ou seja, a tabela fornece
a distribuição Y condicionada a X, ou seja, a distribuição condicional de Y.
A partir da distribuição condicional se pode facilmente obter as probabilidades de Y
condicionadas a X, também chamada de probabilidades condicionais, cuja forma mais
comum de falar é P(Y/X). A partir de P(Y/X) se pode obter as médias condicionais de Y ou
valores esperados de Y dado X. Denominada de média de Y condicional a X e expressa
por E(Y/X=X) ou E(Y/X). (Mostrar os dados em um diagrama de dispersão em torno da
média).
O diagrama de dispersão mostra claramente que o consumo, em média, aumenta
quando a renda aumenta. Ou seja, os valores médios condicionais de Y aumenta quando X
aumenta. O diagrama mostra que essas médias formam uma linha reta com declividade
Prof. Dr. Sinézio Fernandes Maia
2
2
UFPB–Departamento de Economia Disciplina: 1201110 – Econometria – 2004.2
positiva. Esta linha é conhecida como curva de regressão da população ou regressão de
Y sobre X. ou seja, a curva de regressão de Y sobre X é nada mais do que o lugar
geométrico das médias ou expectativas condicionais das variáveis dependentes, dadas os
valores fixados da variável explicativa.
Fica claro que cada média condicional E(Y/X
i
) é função de X
i
. ou seja,
E(Y/X
i
) = f(X
i
) (1)
A equação acima também é conhecida de função de regressão populacional (FRP)
ou apenas regressão populacional (RP). Ela expressa que a média da distribuição de Y se
relaciona funcionalmente com X
i
. Mas qual forma assume?
Esta é uma questão importante por que na arrasadora maioria das vezes não temos
dados populacionais. Como primeira aproximação, podemos admitir que a função tem a
seguinte forma:
E(Y/X
i
) = β
0
+ β
1
X
i
(2)
Onde os β
0
e β
1
são chamados de coeficiente da regressão e podem ser interpretados
como o coeficiente do intercepto (β
0
)e o coeficiente angular (β
0
). Esta equação é conhecida
como função de regressão linear da população ou regressão linear da população.
Qual o significado para o termo linear?
Existem duas interpretações para o termo linear. São elas:
a) A primeira interpretação de linearidade implica que a expectativa condicional de Y é
uma função linear de X
i
, como na equação (1). Nesta interpretação, a seguinte função
E(Y/X
i
) = β
0
+ β
1
X
2
i
não é linear.
b) A segunda interpretação de linearidade implica que a expectativa condicional de Y é
uma função linear dos parâmetros, β. Neste caso, a equação E(Y/X
i
) = β
0
+ β
1
X
2
i
é linear,
mas nos parâmetros.
A segunda interpretação é extremamente relevante para se desenvolver os modelos
de regressão empregados neste curso. Por isso, quando nos referimos ao termo regressão
linear estamos dizendo que expectativa condicional de Y é uma função linear dos
parâmetros, β, podendo não ser nas variáveis.
Especificação estocástica da FRP
A expressão (2) deixa claro que quando aumenta a renda semanal familiar também
aumenta, em média, o consumo semanal familiar. Mas, qual o comportamento de uma
família específica? Pela tabela 1 se vê que o consumo semanal familiar não
necessariamente aumenta com o aumento do nível de renda semanal familiar. Na classe de
renda familiar 100 existe uma família específica que consome 65, que é menor do que o
consumo de duas famílias que tem renda de 80 (70 e 75). Mas, no entanto, o consumo
médio das famílias com 100 de renda é maior do que o consumo médio das famílias com 80
Prof. Dr. Sinézio Fernandes Maia
3
3
UFPB–Departamento de Economia Disciplina: 1201110 – Econometria – 2004.2
de renda. Então, o que se pode dizer sobre a relação entre o consumo de uma família
individual e um dado nível de renda? O que podemos dizer é que pode existir um desvio Y
em torno de sua expectativa condicional, como mostra a equação (3):
μ
i
= Y
i
– E(Y/X
i
) ou Y
i
= E(Y/X
i
) + μ
i
(3)
μ
i
é o desvio de Y
i
em torno de seu valor esperado condicional E(Y/X
i
) . μ
i
é uma
variável aleatória que pode assumir valores positivos ou negativos. Ele também é
conhecido como perturbação estocástica ou erro estocástico. Então, o consumo semanal
de uma família é composta de uma parte sistemática ou determinística [E(Y/X
i
)] e uma
parte aleatória ou assistemática ou aleatória.
Y
i
= E(Y/X
i
) + μ
i
como E(Y/X
i
) = β
0
+ β
1
X
i
então,
Y
i
= β
0
+ β
1
X
i
+ μ
i
(4)
A hipótese de que a reta de regressão passa pelos valores médios condicionais de Y
implica que os valores médios condicionais de μ
i
são zero, ou seja,
E(μ
i
/X
i
) = 0 (ver o exemplo para a classe de renda 80 da tabela 1).
Qual o significado de μ
i
?
O significado de μ
i
pode ser interpretado como um substituto de todas as variáveis
que afetam Y mas que não estão em (4). Por que isto acontece?
1) imprecisão da teoria;
2) indisponibilidade dos dados;
3) variáveis periféricas;
4) aleatoriedade implícita no comportamento humano;
5) variáveis Proxy fracas;
6) princípio da parcimônia – regra da navalha de occam. Que as descrições sejam
mantidas tão simples até que se mostrem inadequadas. Entidades não devem ser
multiplicadas sem necessidade.
E quando não tivermos dados populacionais e, sim, amostras dos dados da
população? Ou seja, pode-se prever o comportamento médio de Y dado os valores de X a
partir de uma amostra da população?
A resposta é sim, mas não de forma acurada. Ou seja, o termo μ
i
irá crescer. Neste
caso teremos uma reta amostral ou função de regressão amostral. Nos supomos que esta
reta seja uma boa representação, ou aproximação, da reta de regressão populacional. Então,
Y
i
= β
0
+ β
1
X
i
+ μ
i

Terá como aproximação
Y
*
i
= β
0
*
+ β
1
*
Xi

+ μ
i
*


Prof. Dr. Sinézio Fernandes Maia
4
4
UFPB–Departamento de Economia Disciplina: 1201110 – Econometria – 2004.2

A questão é: existe algum método para que Y
*
i
= β
0
*
+ β1
*
Xi

+ μ
i
*
seja a melhor
aproximação de Y
i
= β
0
+ β
1
Xi

+ μ
i
. A resposta é que existe e é denominado de método dos
mínimos quadrados e será analisado próximamente.

Coeficiente de Correlação Linear (r)
Correlação e Causalidade
Pai: pra que aquela figura de rato na janela do seu quarto?
Filho: é pra espantar os dragões.
Pai: mas não há dragões por aqui.
Filho: então a coisa funciona mesmo!...
Quando duas variáveis são correlacionadas, é possível predizer valores de uma delas
com base no conhecimento da outra. Isso leva freqüentemente à conclusão errônea de que
uma variável é causa da outra. E isso é particularmente verdadeiro quando a variável
“causal” precede a outra variável no tempo. Entretanto, o fato de haver um relacionamento
matemático entre duas variáveis nada nos diz quanto à causa e efeito. Logo, há três
explicações possíveis para a obtenção de uma correlação:
i)existe uma relação de causa e efeito;
ii) ambas as variáveis se acham relacionadas com uma terceira; ou
iii)a correlação é devida ao acaso.
O caso da segunda possibilidade, é exemplificado pelas folhas que caem das
árvores pouco antes de começar o inverno. Pode-se concluir que a queda das folhas tenha
causado a queda da temperatura, ou ambas as ocorrências estão relacionadas com a
mudança de estações?
Estatísticas têm demonstrado acentuada correlação entre o consumo de álcool e a
elevação dos salários dos professores. É de concluir que os professores estejam consumindo
seus aumentos de salários para “afogar as magoas”, ou será mais lógico admitir que, à
medida que aumenta o nível geral dos salários (inclusive dos professores), haja também um
aumento do consumo de bens em geral, inclusive bebidas?
Há muitos exemplos interessantes de relacionamentos espúrios, ou sem sentido. Por
exemplo, um estudo recente revelou alta correlação entre o movimento de preços na bolsa
de Nova Iorque e a variação no comprimento de saias das mulheres. Outro estudo revelou
correlação entre os nascimentos na Inglaterra e a produção de ferro gusa nos Estados
Unidos.
É que, para estabelecer relações válidas, é preciso mais que simplesmente
emparelhar qualquer tipo de dados até achar alguma correlação. Em vez disso, usam-se
estudos correlacionais como pesquisas exploratórias iniciais a fim de identificar futuras
áreas de pesquisa. Resultados que parecem promissores com base na lógica ou na teoria
devem ser submetidos a maior análise para determinar se existe uma relação de causa e
efeito.
O verdadeiro perigo na utilização de relações para fins preditivos que não tenham
sido validadas em termos de causa e efeito é que as relações podem se modificar, ou que
modificações deliberadas na variável causal possam não conduzir às modificações
esperadas na variável efeito.
Prof. Dr. Sinézio Fernandes Maia
5
5
UFPB–Departamento de Economia Disciplina: 1201110 – Econometria – 2004.2
Dessa forma, a regressão e a correlação são técnicas destinadas a estimar o
relacionamento entre duas ou mais variáveis. A correlação sintetiza o grau de
relacionamento, enquanto a regressão equaciona matematicamente o relacionamento. A
equação pode ser usada para predizer valores de uma variável, dados os valores da outra.
Correlação: É o grau de relação entre as variáveis e, determina o quanto uma
equação linear descreve, ou “explica” a relação entre as variáveis.
O Coeficiente de Correlação de Pearson (r) ou r(X,Y), estudado por Karl
Pearson (1903), é uma medida da relação entre duas variáveis. Expressa tanto o “sentido”
quanto à “força” da correlação entre as variáveis.
Ex: Peso de uma pessoa com sua altura
Quantidade Vendida e Preços
Quantidade Consumida e Renda (salários)
Ex:
¹
¹
¹
'
¹
· ·
· ·
+ + · ·
) ( ) (
) ( ) (
) , (
r f I l f y
Y f C k f y
G I C Y L K f Y
Na população, o coeficiente de correlação (ρ ) mede a aderência ou qualidade do
ajustamento à verdadeira reta da relação entre X e Y, ou ainda o grau de relação entre elas.
Na amostra, o coeficiente de correlação (r) mede a quantidade de dispersão em
torno da equação linear ajustada através do método dos mínimos quadrados.O (r) é uma
estimativa do parâmetro (ρ ), medindo os desvios em relação à reta ajustada.O coeficiente
de correlação (r) será definido como a razão entre a covariância e a raiz quadrada do
produto das variâncias de X e Y.
[ ] [ ]
r
X X Y Y
X X Y Y
·
− −
− −
Σ
Σ Σ
( )( )
( ) ( )
2 2

Levando-se em consideração o tamanho da amostra, pode-se dividir o numerador e o
denominador por (n).
Critério 1 
[ ] [ ]
r
n
X X Y Y
n
X X Y Y
·
− −
− −
1
1
2 2
Σ
Σ Σ
( )( )
( ) ( )

ou
Prof. Dr. Sinézio Fernandes Maia
6
6
UFPB–Departamento de Economia Disciplina: 1201110 – Econometria – 2004.2
Critério 2 
y x
S S
Y X Cov
r
) , (
·
1
1
]
1

¸

Σ
− Σ
1
1
]
1

¸

Σ
− Σ
Σ Σ
− Σ
·
n
Y
Y
n
X
X
n
Y X
XY
r
2
2
2
2
) ( ) (
MEMÓRIA:
Média:
n
X
n
X
X
i i ∑ ∑
· · µ
Desvio-Padrão:
n
X
n
X X
S
x x
∑ ∑

·


·
2 2
) (
1
) ( µ
σ
Coeficiente de Variação: 100
X
S
CV
x
· > 30: Dispersão muito grande em torno da Média
< 15: A média é representativa para uma amostra
Critério das Variáveis Reduzidas
Considerando ) ( ) ( Y Y y e X X x
i i i i
− · − · , nota-se que adotar este critério, elimina-se
qualquer influência das unidades de medida de X e Y.
2 2
( )( )
xy
r
x y
Σ
·
Σ Σ

O intervalo de variação de (r) – que expressa tanto o sentido quanto a força da correlação -
se situa entre -1 < r <1.
Prof. Dr. Sinézio Fernandes Maia
7
7
UFPB–Departamento de Economia Disciplina: 1201110 – Econometria – 2004.2
Observações: quanto maior a qualidade de ajuste, mais próximo de –1 ou +1 estará o valor
de (r). Quando não há relação então r=0.
Como se obtém as equações de r?
A técnica mais usada para determinar a equação da reta é a técnica dos mínimos
quadrados; a denominação provém do fato de a reta resultante minimizar a soma dos
quadrados dos desvios dos pontos em relação à reta. Assim, pode-se dizer que a análise de
regressão envolve inferências quanto ao verdadeiro relacionamento existente na população.
A inferência envolve tanto testes de significância como a construção de intervalos de
confiança. Além disso, pode-se calcular um valor de coeficiente de correlação (r) que sirva
de medida de quão bem a reta “se ajusta” ao conjunto dos pontos.
Baseado em médias e desvios-padrão é possível calcular o coeficiente angular de
uma reta ajustada sobre a relação linear de duas variáveis.
) )( (
2 2
y x
xy
r
Σ Σ
Σ
·
O procedimento, agora, é buscar calcular uma reta, a partir da média de X e Y.
Equação da Reta
Y = a + bX
Método dos mínimos quadrados para calcular a média de Y
o o o

Y

o o o
2
) ( Y Y −

· − S Y Y
2
) (
Minimizar S em torno de uma média significa derivar S em relação
Y
,
Prof. Dr. Sinézio Fernandes Maia
8
8
UFPB–Departamento de Economia Disciplina: 1201110 – Econometria – 2004.2
n
Y
Y
Y n Y
Y Y
Y Y
Y
S
Σ
·
· Σ
· − Σ −
· − − Σ ·
0 ) ( 2
0 ) 1 )( ( 2
δ
δ
Para se calcular a reta da equação a partir das médias, é preciso:
( )
.
a bX
Y
n
na b X
Y
n
na X
Y b
n n
Y a bX
Σ+
·

·
Σ
·+
·+
Os pontos das coordenadas X e Y estão definidas pelas seguintes equações
) ( ) ( ) ( X b a bX a Y Y + − + · −
) ( ) ( X X b Y Y − · − - queremos saber a magnitude de (b)
(Multiplica-se ambos os lados por (X -
X
)
) )( ( ) )( ( X X X X b X X Y Y − − · − − - Aplicando a propriedade do Somatório
2
) ( ) )( ( X X b X X Y Y − · − −
∑ ∑
- Se dividirmos ambos os lados por

2 2
) ( ) ( Y Y X X − Σ − Σ
[ ] [ ] [ ] [ ]
2 2
2
2 2
) ( ) (
) (
) ( ) (
) )( (
Y Y X X
X X b
Y Y X X
Y Y X X
r
− Σ − Σ
− Σ
·
− Σ − Σ
− − Σ
·

Chamando S
xx
de Variância de X e S
yy
Variância de Y
Prof. Dr. Sinézio Fernandes Maia
9
9
UFPB–Departamento de Economia Disciplina: 1201110 – Econometria – 2004.2
2
2
) (
) (
Y Y S
X X S
yy
xx
− Σ ·
− Σ ·
yy xx
xx
S S
bS
r
.
·
- Dividindo-se os Valores por (n)
Chamando Sx
2
= Sx/n e Sy
2
= Sy/n
Sx
Sy
r b
Sy
Sx
b r
Sy Sx
bSx
Sy Sx
bSx
r · ⇔ · · · · .
.
.
2
2 2
2
sendo
) (
) (
.
Sx Padrão Desvio
Sy Padrao Desvio
r b


·
Teste de Significância do Coeficiente de Correlação
O valor de (r) calculado através dos n pares de valores das variáveis X e Y,
representa apenas uma estimativa do verdadeiro coeficiente de correlação populacional ρ .
Para testar a hipótese de que o coeficiente de correlação é igual a zero (H
0
:ρ =0), é
necessário aplicar o teste t:
2
1
2
r
n
r t
cal


·
O t calculado será comparado ao t tabelado, a um nível α de significância, com n-2
graus de liberdade. Se t
cal
≥ t
tab
, rejeita-se H
0
, ou seja, existe uma correlação entre as
variáveis avaliadas, dada pelo valor de r.
Prof. Dr. Sinézio Fernandes Maia
10
10
UFPB–Departamento de Economia Disciplina: 1201110 – Econometria – 2004.2
Exercício
Exemplo 1:
X Y XY X
2
Y
2
x
i
=(X-
X
) y
i
=(Y-
Y
) x
i
2
y
i
2
x
i
y
i
6 7 42 36 49 0 1 0 1 0
5 6 30 25 36 -1 0 1 0 0
9 10 90 81 100 3 4 9 16 12
10 9 90 100 81 4 3 16 9 12
3 2 6 9 4 -3 -4 9 16 12
4 3 12 16 9 -2 -3 4 9 6
8 9 72 64 81 2 3 4 9 6
7 5 35 49 25 1 -1 1 1 -1
6 6 36 36 36 0 0 0 0 0
2 3 6 4 9 -4 -3 16 9 12
60 60 419 420 430 60 70 59
6 6
Critério 1:
1
1
]
1

¸

Σ
− Σ
1
1
]
1

¸

Σ
− Σ
Σ Σ
− Σ
·
n
Y
Y
n
X
X
n
Y X
XY
r
2
2
2
2
) ( ) (
9103 , 0
8074 , 64
59
70 . 60
59
10
) 60 (
430
10
) 60 (
420
10
60 . 60
419
2 2
· · · ·
1
1
]
1

¸


1
1
]
1

¸



· r r
Critério 2:
) )( (
2 2
y x
xy
r
Σ Σ
Σ
·
9103 , 0
8074 , 64
59
) 70 )( 60 (
59
· · · · r r
Teste de significância:
t
cal
=
2
1
2
r
n
r t
cal


· =
2199 , 6
17135 , 0
8
9103 , 0
) 9103 , 0 ( 1
2 10
9103 , 0
2
· ·


Interpretação: Observar o valor tabelado na tabela t-student, com n-2 (g.l.) ao nível
de 5%, obtendo um t
tab
=2,306. Observa-se que o valor t
cal
>t
tab
, rejeita-se H
0
:ρ =0, ou seja,
existe uma correlação entre as variáveis avaliadas.
Prof. Dr. Sinézio Fernandes Maia
11
11

(Mostrar os dados em um diagrama de dispersão em torno da média). A partir de P(Y/X) se pode obter as médias condicionais de Y ou valores esperados de Y dado X. existem 5 famílias cujo consumo varia de 55 a 75 e o consumo médio semanal é igual 65. Sinézio Fernandes Maia 2 . Como se faz isto? Imagine um país hipotético com uma população total de 60 famílias. os valores médios condicionais de Y aumenta quando X aumenta.2 2 Alguns conceitos básicos de regressão A análise de regressão se preocupa largamente em estimar e/ou prever a média (da população) ou o valor médio das variáveis dependentes a partir dos valores conhecidos ou fixados de uma ou mais variáveis explicativas. em média. a tabela fornece a distribuição Y condicionada a X. A partir da distribuição condicional se pode facilmente obter as probabilidades de Y condicionadas a X.Os dados estão na tabela 1.UFPB–Departamento de Economia Disciplina: 1201110 – Econometria – 2004. Dr. a distribuição condicional de Y. Estamos interessados em prever o nível médio de consumo semanal da população sabendo da renda semanal da família. Ou seja. O diagrama mostra que essas médias formam uma linha reta com declividade Prof. Similarmente para as outras classes de renda. ou seja. Quando a renda semanal familiar é igual a 80. também chamada de probabilidades condicionais. Tabela 1– Renda Familiar Semanal (X) e Consumo Familiar Semanal (Y) X → Y↓ 80 55 (1/5) 60 (1/5) 65 (1/5) 70 (1/5) 75 (1/5) ------Total (média) 100 65 (1/6) 70 (1/6) 74 (1/6) 80 (1/6) 85 (1/6) 88 (1/6) -----462 (77) 120 79 (1/5) 84 (1/5) 90 (1/5) 94 (1/5) 98 (1/5) ----445 (89) 140 160 180 200 220 240 260 325 (65) 80 102 110 120 135 137 150 (1/7) (1/6) (1/6) (1/5) (1/7) (1/6) (1/7) 93 107 115 136 137 145 152 (1/7) (1/6) (1/6) (1/5) (1/7) (1/6) (1/7) 95 110 120 140 140 155 175 (1/7) (1/6) (1/6) (1/5) (1/7) (1/6) (1/7) 103 116 130 144 152 165 178 (1/7) (1/6) (1/6) (1/5) (1/7) (1/6) (1/7) 108 118 135 145 157 175 180 (1/7) (1/6) (1/6) (1/5) (1/7) (1/6) (1/7) 113 125 140 ----160 189 185 (1/7) (1/6) (1/6) (1/7) (1/6) (1/7) 115 ---------. Ou seja. aumenta quando a renda aumenta.162 ----191 (1/7) (1/7) (1/7) 707 678 750 685 1043 966 1211 (101) (113) (125) (137) (149) (161) (173) A tabela deve ser interpretada da seguinte forma. Denominada de média de Y condicional a X e expressa por E(Y/X=X) ou E(Y/X). Para isto dividimos as 60 famílias em 10 grupos de famílias com aproximadamente a mesma renda e examinaremos o consumo das famílias em cada um desses níveis. cuja forma mais comum de falar é P(Y/X). O diagrama de dispersão mostra claramente que o consumo.

dadas os valores fixados da variável explicativa. A segunda interpretação é extremamente relevante para se desenvolver os modelos de regressão empregados neste curso. Mas qual forma assume? Esta é uma questão importante por que na arrasadora maioria das vezes não temos dados populacionais. podemos admitir que a função tem a seguinte forma: E(Y/Xi) = β0 + β1Xi (2) Onde os β0 e β1 são chamados de coeficiente da regressão e podem ser interpretados como o coeficiente do intercepto (β0)e o coeficiente angular (β0). em média. ou seja. o consumo semanal familiar. a curva de regressão de Y sobre X é nada mais do que o lugar geométrico das médias ou expectativas condicionais das variáveis dependentes. Sinézio Fernandes Maia 3 . Por isso. Fica claro que cada média condicional E(Y/Xi) é função de Xi. Mas. que é menor do que o consumo de duas famílias que tem renda de 80 (70 e 75). ou seja. Mas. β. Ela expressa que a média da distribuição de Y se relaciona funcionalmente com Xi. no entanto. Esta linha é conhecida como curva de regressão da população ou regressão de Y sobre X. Neste caso. b) A segunda interpretação de linearidade implica que a expectativa condicional de Y é uma função linear dos parâmetros. β. São elas: a) A primeira interpretação de linearidade implica que a expectativa condicional de Y é uma função linear de Xi. quando nos referimos ao termo regressão linear estamos dizendo que expectativa condicional de Y é uma função linear dos parâmetros. como na equação (1). mas nos parâmetros. a equação E(Y/Xi) = β0 + β1X2i é linear. Na classe de renda familiar 100 existe uma família específica que consome 65. podendo não ser nas variáveis.2 3 positiva. Nesta interpretação. Especificação estocástica da FRP A expressão (2) deixa claro que quando aumenta a renda semanal familiar também aumenta. Dr. Qual o significado para o termo linear? Existem duas interpretações para o termo linear. E(Y/Xi) = f(Xi) (1) A equação acima também é conhecida de função de regressão populacional (FRP) ou apenas regressão populacional (RP).UFPB–Departamento de Economia Disciplina: 1201110 – Econometria – 2004. o consumo médio das famílias com 100 de renda é maior do que o consumo médio das famílias com 80 Prof. a seguinte função E(Y/Xi) = β0 + β1X2i não é linear. qual o comportamento de uma família específica? Pela tabela 1 se vê que o consumo semanal familiar não necessariamente aumenta com o aumento do nível de renda semanal familiar. Esta equação é conhecida como função de regressão linear da população ou regressão linear da população. Como primeira aproximação.

Sinézio Fernandes Maia 4 . pode-se prever o comportamento médio de Y dado os valores de X a partir de uma amostra da população? A resposta é sim. 3) variáveis periféricas. Entidades não devem ser multiplicadas sem necessidade. Ou seja. E quando não tivermos dados populacionais e. Nos supomos que esta reta seja uma boa representação. como mostra a equação (3): μi = Yi – E(Y/Xi) ou Yi = E(Y/Xi) + μi (3) μi é o desvio de Yi em torno de seu valor esperado condicional E(Y/Xi) . o que se pode dizer sobre a relação entre o consumo de uma família individual e um dado nível de renda? O que podemos dizer é que pode existir um desvio Y em torno de sua expectativa condicional. o consumo semanal de uma família é composta de uma parte sistemática ou determinística [E(Y/Xi)] e uma parte aleatória ou assistemática ou aleatória. Yi = β0 + β1Xi + μi Terá como aproximação Y*i = β0* + β1*Xi + μi* Prof.2 4 de renda. ou seja. μi é uma variável aleatória que pode assumir valores positivos ou negativos. 4) aleatoriedade implícita no comportamento humano. Qual o significado de μi? O significado de μi pode ser interpretado como um substituto de todas as variáveis que afetam Y mas que não estão em (4). sim. amostras dos dados da população? Ou seja. ou aproximação.UFPB–Departamento de Economia Disciplina: 1201110 – Econometria – 2004. Yi = β0 + β1Xi + μi (4) A hipótese de que a reta de regressão passa pelos valores médios condicionais de Y implica que os valores médios condicionais de μi são zero. Então. o termo μi irá crescer. Dr. mas não de forma acurada. da reta de regressão populacional. Ele também é conhecido como perturbação estocástica ou erro estocástico. 5) variáveis Proxy fracas. Que as descrições sejam mantidas tão simples até que se mostrem inadequadas. 2) indisponibilidade dos dados. Então. 6) princípio da parcimônia – regra da navalha de occam. Neste caso teremos uma reta amostral ou função de regressão amostral. Então. Yi = E(Y/Xi) + μi como E(Y/Xi) = β0 + β1Xi então. E(μi /Xi) = 0 (ver o exemplo para a classe de renda 80 da tabela 1). Por que isto acontece? 1) imprecisão da teoria.

Pode-se concluir que a queda das folhas tenha causado a queda da temperatura. Isso leva freqüentemente à conclusão errônea de que uma variável é causa da outra.. É de concluir que os professores estejam consumindo seus aumentos de salários para “afogar as magoas”. Quando duas variáveis são correlacionadas. O verdadeiro perigo na utilização de relações para fins preditivos que não tenham sido validadas em termos de causa e efeito é que as relações podem se modificar. um estudo recente revelou alta correlação entre o movimento de preços na bolsa de Nova Iorque e a variação no comprimento de saias das mulheres. é exemplificado pelas folhas que caem das árvores pouco antes de começar o inverno. é possível predizer valores de uma delas com base no conhecimento da outra. ou ambas as ocorrências estão relacionadas com a mudança de estações? Estatísticas têm demonstrado acentuada correlação entre o consumo de álcool e a elevação dos salários dos professores. Por exemplo. É que. inclusive bebidas? Há muitos exemplos interessantes de relacionamentos espúrios. usam-se estudos correlacionais como pesquisas exploratórias iniciais a fim de identificar futuras áreas de pesquisa. Outro estudo revelou correlação entre os nascimentos na Inglaterra e a produção de ferro gusa nos Estados Unidos. ou que modificações deliberadas na variável causal possam não conduzir às modificações esperadas na variável efeito. Logo. Filho: então a coisa funciona mesmo!. Entretanto. haja também um aumento do consumo de bens em geral. à medida que aumenta o nível geral dos salários (inclusive dos professores). Prof. Resultados que parecem promissores com base na lógica ou na teoria devem ser submetidos a maior análise para determinar se existe uma relação de causa e efeito. Dr. é preciso mais que simplesmente emparelhar qualquer tipo de dados até achar alguma correlação. A resposta é que existe e é denominado de método dos mínimos quadrados e será analisado próximamente.. o fato de haver um relacionamento matemático entre duas variáveis nada nos diz quanto à causa e efeito. Coeficiente de Correlação Linear (r) Correlação e Causalidade Pai: pra que aquela figura de rato na janela do seu quarto? Filho: é pra espantar os dragões. Pai: mas não há dragões por aqui. O caso da segunda possibilidade.2 5 A questão é: existe algum método para que Y*i = β0* + β1*Xi + μi* seja a melhor aproximação de Yi = β0 + β1Xi + μi. ii) ambas as variáveis se acham relacionadas com uma terceira. ou será mais lógico admitir que.UFPB–Departamento de Economia Disciplina: 1201110 – Econometria – 2004. ou iii)a correlação é devida ao acaso. para estabelecer relações válidas. ou sem sentido. há três explicações possíveis para a obtenção de uma correlação: i)existe uma relação de causa e efeito. Sinézio Fernandes Maia 5 . Em vez disso. E isso é particularmente verdadeiro quando a variável “causal” precede a outra variável no tempo.

o coeficiente de correlação (ρ ) mede a aderência ou qualidade do ajustamento à verdadeira reta da relação entre X e Y. Sinézio Fernandes Maia 6 .Y).O (r) é uma estimativa do parâmetro (ρ ). pode-se dividir o numerador e o denominador por (n). Correlação: É o grau de relação entre as variáveis e. 1 Critério 1  r= 1 n [ Σ( X − X ) [ Σ(Y − Y ) ] ] 2 2 n Σ( X − X )(Y − Y ) ou Prof. estudado por Karl Pearson (1903).2 6 Dessa forma. dados os valores da outra. o coeficiente de correlação (r) mede a quantidade de dispersão em torno da equação linear ajustada através do método dos mínimos quadrados.O coeficiente de correlação (r) será definido como a razão entre a covariância e a raiz quadrada do produto das variâncias de X e Y. L)  Ex:  y = f (k )  y = f (l )  Y =C + I +G C = f (Y ) I = f (r ) Na população. medindo os desvios em relação à reta ajustada. Dr. A equação pode ser usada para predizer valores de uma variável. ou ainda o grau de relação entre elas. a regressão e a correlação são técnicas destinadas a estimar o relacionamento entre duas ou mais variáveis. enquanto a regressão equaciona matematicamente o relacionamento. Expressa tanto o “sentido” quanto à “força” da correlação entre as variáveis. é uma medida da relação entre duas variáveis. Σ( X − X )(Y − Y ) 2 r= [ Σ( X − X ) [ Σ(Y − Y ) ] ] 2 Levando-se em consideração o tamanho da amostra. Na amostra. O Coeficiente de Correlação de Pearson (r) ou r(X. determina o quanto uma equação linear descreve. ou “explica” a relação entre as variáveis. Ex: Peso de uma pessoa com sua altura Quantidade Vendida e Preços Quantidade Consumida e Renda (salários) Y = f ( K . A correlação sintetiza o grau de relacionamento.UFPB–Departamento de Economia Disciplina: 1201110 – Econometria – 2004.

Dr. nota-se que adotar este critério. elimina-se qualquer influência das unidades de medida de X e Y. Y ) SxSy 7 Critério 2  r= ΣXY − ΣXΣY n  (ΣX ) 2   2 (ΣY ) 2  2 ΣX −  ΣY −  n  n      MEMÓRIA: Média: X = ∑X n i µ= ∑X n i Desvio-Padrão: S = x ∑(X − X ) n −1 2 σx = ∑ ( X − µ) n 2 Coeficiente de Variação: CV = Sx 100 X > 30: Dispersão muito grande em torno da Média < 15: A média é representativa para uma amostra Critério das Variáveis Reduzidas Considerando xi = ( X i − X ) e yi = (Yi − Y ) .2 r= Cov ( X .UFPB–Departamento de Economia Disciplina: 1201110 – Econometria – 2004. r= Σ xy (Σ x 2 )( Σy 2 ) O intervalo de variação de (r) – que expressa tanto o sentido quanto a força da correlação se situa entre -1 < r <1. Prof. Sinézio Fernandes Maia 7 .

Assim. agora. Dr. Sinézio Fernandes Maia 8 . pode-se calcular um valor de coeficiente de correlação (r) que sirva de medida de quão bem a reta “se ajusta” ao conjunto dos pontos. A inferência envolve tanto testes de significância como a construção de intervalos de confiança. Prof. pode-se dizer que a análise de regressão envolve inferências quanto ao verdadeiro relacionamento existente na população. mais próximo de –1 ou +1 estará o valor de (r). a partir da média de X e Y. Como se obtém as equações de r? A técnica mais usada para determinar a equação da reta é a técnica dos mínimos quadrados. Além disso.UFPB–Departamento de Economia Disciplina: 1201110 – Econometria – 2004.2 8 Observações: quanto maior a qualidade de ajuste. é buscar calcular uma reta. a denominação provém do fato de a reta resultante minimizar a soma dos quadrados dos desvios dos pontos em relação à reta. Baseado em médias e desvios-padrão é possível calcular o coeficiente angular de uma reta ajustada sobre a relação linear de duas variáveis. Quando não há relação então r=0. Equação da Reta Y = a + bX Método dos mínimos quadrados para calcular a média de Y o o (Y − Y ) 2 o o o o Y ∑ (Y − Y ) 2 =S Minimizar S em torno de uma média significa derivar S em relação Y . Σxy (Σx 2 )(Σy 2 ) r= O procedimento.

Dr. n Os pontos das coordenadas X e Y estão definidas pelas seguintes equações (Y − Y ) = (a + bX ) − (a + bX ) (Y − Y ) = b( X − X ) - queremos saber a magnitude de (b) (Multiplica-se ambos os lados por (X . Sinézio Fernandes Maia 9 .UFPB–Departamento de Economia Disciplina: 1201110 – Econometria – 2004. é preciso: Y = Σa b ) ( + X n n +X a bΣ Y = n Y = n a Y =+ b n Y = b a+X XΣ .2 9 δS = 2Σ(Y − Y )(−1) = 0 δY − 2Σ(Y − Y ) = 0 ΣY = nY ΣY n Para se calcular a reta da equação a partir das médias.X ) Aplicando a propriedade do Somatório Se dividirmos ambos os lados por Σ( X − X ) 2 Σ(Y − Y ) 2 (Y − Y )( X − X ) = b( X − X )( X − X ) - ∑ (Y − Y )( X − X ) = b∑ ( X − X ) 2 - r= [Σ( X − X ) [Σ(Y −Y ) ]] 2 2 Σ( X − X )(Y −Y ) = [Σ( X − X ) [Σ(Y −Y ) ]] 2 2 bΣ( X − X ) 2 Chamando Sxx de Variância de X e Syy Variância de Y Prof.

Sy Sy Sx sendo b = r. Prof. Desvio − Padrao( Sy ) Desvio − Padrão( Sx ) Teste de Significância do Coeficiente de Correlação O valor de (r) calculado através dos n pares de valores das variáveis X e Y. rejeita-se H0.Sy 2 bSx 2 Sx Sy = = r = b. Sinézio Fernandes Maia 10 .2 10 Dividindo-se os Valores por (n) Chamando Sx2 = Sx/n e Sy2 = Sy/n r= bSx 2 Sx 2 .S yy - Disciplina: 1201110 – Econometria – 2004. ou seja. dada pelo valor de r. é necessário aplicar o teste t: t cal = r n−2 1− r2 O t calculado será comparado ao t tabelado. Dr. com n-2 graus de liberdade. Se tcal ≥ ttab. a um nível α de significância.UFPB–Departamento de Economia S xx = Σ( X − X ) 2 S yy = Σ(Y − Y ) 2 r= bS xx S xx . Para testar a hipótese de que o coeficiente de correlação é igual a zero (H0:ρ =0). ⇔b=r Sx. representa apenas uma estimativa do verdadeiro coeficiente de correlação populacional ρ . existe uma correlação entre as variáveis avaliadas.

Prof.2199 0. Sinézio Fernandes Maia 11 .9103 10 − 2 1 − (0. Dr. rejeita-se H0:ρ =0.306. com n-2 (g.) ao nível de 5%.Y ) 49 0 1 36 -1 0 100 3 4 81 4 3 4 -3 -4 9 -2 -3 81 2 3 25 1 -1 36 0 0 9 -4 -3 430 ΣXΣY n xi2 0 1 9 16 9 4 4 1 0 16 60 yi2 1 0 16 9 16 9 9 1 0 9 70 xiyi 0 0 12 12 12 6 6 -1 0 12 59 r= ΣXY −  2 (ΣX ) 2   2 (ΣY ) 2  ΣX −  ΣY −  n  n      60. obtendo um ttab=2.X ) yi=(Y.9103 64.17135 Interpretação: Observar o valor tabelado na tabela t-student. Observa-se que o valor tcal>ttab.9103) 2 = 0.l.9103 8 = 6.60 10 = 59 60.70 = 59 = r = 0. ou seja.9103 64.2 Exercício 11 Exemplo 1: X Y 6 7 5 6 9 10 10 9 3 2 4 3 8 9 7 5 6 6 2 3 60 60 6 6 Critério 1: XY 42 30 90 90 6 12 72 35 36 6 419 X2 36 25 81 100 9 16 64 49 36 4 420 Y2 xi=(X.UFPB–Departamento de Economia Disciplina: 1201110 – Econometria – 2004. existe uma correlação entre as variáveis avaliadas.8074 r= 419 −  (60) 2   (60) 2  420 −  430 −  10   10      Critério 2: r= Σxy (Σx 2 )(Σy 2 ) = 59 = r = 0.8074 r= Teste de significância: tcal= t cal = r n−2 1− r 2 59 (60)(70) = 0.

You're Reading a Free Preview

Descarregar
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->