Escolar Documentos
Profissional Documentos
Cultura Documentos
Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
3.1.1 Introdução
describe
Contains data
obs: 130
vars: 45
size: 21,970 (97.9% of memory free)
Sorted by:
Note: dataset has changed since last saved
0 500 1000 .4 .6 2 3 4 5
.15
.1
PDES
.05
0
1000
500 SALMEDPNAD
0
10
EDUCPEA 5
0
.6
GINI
.4
.4
PCPROPRIA .2
0
5
4
ATRAESCOL
3
2
10000000
GSTOTAL 5000000
0
0 .05 .1 .15 0 5 10 0 .2 .4 0 5000000 10000000
Vamos começar por analisando as variáveis por partes. Vamos admitir que
os fatores que mais influenciam a taxa de desemprego (pdes) nos estados
são os seguintes: educação média (educpea), qualidade da educação das
pessoas (proxy atraescol), o mercado de trabalho – salário reserva
(salmedpnad) e as distorções de distribuição de renda (gini). Estas hipóteses
são razoáveis para um início de trabalho.
scatter pdes educpea, mlabel (estados)
.15
AM
RR
AM AP DF
RR
AM
AM
AP PE AM
AL
.1
BA AC
AC
RR SE PE PA DF
AL PEAC PA
BA
PE
DF
AL BA SE MT SP AC SP
PDES
BA
SE
PA AL AP PA
AC RJDF DF
AL PA RJ
SP
RJ RN BA GO RO SPSP RJ
RO SE RN PE RS
SECE MG AP RJ
RN
CE PB
CE ESGOMS RO
MG
CE RNCEGO MT RO ES
GO RNMS
MGPR RR PR
PRRO RS
PR
MG
MT
RS MS GOESMGAP RR
.05
MS
ES PB MT PR RS
PB
MS MTES RS
PI SC
PB SC
SC MAMA PI SC SC
MA MAMA
PI PIPB
PI
0
0 2 4 6 8
EDUCPEA
Neste caso temos claramente que os dados para o ano de 1994 foram
digitados incorretamente em percentagem em vez de valores absolutos (o
incrível que é verdade na base de dados). Portanto vamos fazer a correção
gerando os valores corretos que constitue simplesmente em multiplicar estas
observações por 10. Tente usar os menus do programa para efetuar o
comando abaixo.
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
replace educpea = educpea*10 if educpea <=2, nopromote
save estados9296a
Vamos efetuar nossa regressão múltipla para testar nossa teoria. Lembre-se
que estamos postulando entre outras hipóteses de que existe uma relação
linear entre as variáveis.
Predict r, rstudent
Stem r
Stem-and-leaf plot for r (Studentized residuals)
-2** | 95
-2** |
-2** |
-2** | 38
-2** |
-1** | 91,88,82
-1** | 78,72
-1** | 59,53
-1** | 39,37,37,32,29,22,21
-1** | 12,07,05
-0** | 93,90,83,81
-0** | 76,73,70,66,64,63,60,60
-0** | 56,50,48,46,45,45,44,41
-0** | 38,37,37,37,35,35,34,32,30,30,27,26,25,24,23,21,21
-0** | 18,18,16,12,12,11,11,09,09,06,05,05,04,04,01
0** | 05,05,06,06,08,09,09,12,14
0** | 20,23,24,25,27,28,28,34
0** | 40,42,43,48,53,54,57
0** | 60,63,65,66,67,67,68,70,75,77,77,78
0** | 82,82,82,86,89,92
1** | 01,05,09
1** | 25,34
1** | 47,49,51
1** | 68,69,70,75
1** | 90
2** | 08,12
2** |
2** |
2** |
2** | 94
3** |
3** |
3** |
3** | 68
Devemos nos preocupar com valores de r acima de -2,0 e 2,0, mas valores
em especial que devemos nos preocupar é com aqueles que excedem a faixa
-3,0 e 3,0. Portanto analise qual o estado e ano ocorreu estes valores.
O truque é listá-los para valores nesta faixa, assim fica mais fácil sua
identificação.
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
stem lev
Stem-and-leaf plot for lev (Leverage)
1* | 00122222333444445677777899
2* | 000001112223333444444455566667778899999
3* | 000122223445556678899999
4* | 011344456668
5* | 1224557889
6* | 133467
7* | 199
8* | 7
9* | 128
10* | 457
11* |
12* | 24
13* |
14* |
15* |
16* |
17* |
18* |
19* |
20* |
21* | 6
display (2*4+2)/130
.07692308
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
Portanto, o valor de lev maior que 0.77 devem ser analizado com maior
detalhe.
As observações mais críticas são: 4, 7, 59, 111 e 112. Assim, devemos listar
elas e verificar o quanto estão fora do esperado para as variáveis do modelo.
Por favor investiguem os problemas destas observações.
+---------------------------+
| lev estados ano |
|---------------------------|
| .1050512 DF 1994 |
| .1071867 RR 1996 |
| .1220454 AP 1992 |
| .1236637 DF 1996 |
| .216175 RR 1995 |
+---------------------------+
lvr2plot, mlabel(estados)
RR
.2
.15
Leverage
DF AP
DFDF RR
.1
RR
RR DF
DF
SC SP
AC
RSAP SP
RO SC
SP
RSPA
PA MAPI AM
RJ
.05
MS AP PI
PR ES
RJ
MT MA MA SC
PR
SP
PB PI
RJ
AC
RS
PBRS
AMBAAL MA RR
AL
RORSRJ
AM
PR BABA AL SCRO SE PI
SE
ES
BA
CE
PA
PR
MG RO AL SC PI
SP
BA
ES
CE
PA
MS
PR
MS
MS
GO
CE
PB
CE
RJ
PE ES
AP
SE
RN PBPE PE
AC PB MA AL
AP AM
AM
ES
PA
CE
MT
SE
MS
MG
PE RN AC
GO
RO
RN
GO
GOMT
MT AC
RN
PE
RNMG MT
MG MG
0
+----------------------------------------------------------------+
| estados ano pdes educpea atraes~l salmed~d gini |
|----------------------------------------------------------------|
3. | AM 1992 .109 6.49 3.87 91.9 .5398 |
17. | PI 1992 .0391 3.39 4.95 54.13 .579 |
22. | RR 1992 .0578 6.15 2.2 138.34 .5205 |
29. | AM 1993 .1502 5.98 3.74 226.2 .548 |
43. | PI 1993 .0259 4.09 4.51 88.13 .5977 |
|----------------------------------------------------------------|
48. | RR 1993 .0531 7.17 3.4 383.75 .545 |
55. | AM 1994 .1286 4.6 3.76 353.32 .5506 |
69. | PI 1994 .0243 5.8 4.51 117.31 .5823 |
74. | RR 1994 .0941 5.7 3.48 592.48 .4906 |
81. | AM 1995 .107 6.49 3.78 419.54 .5531 |
|----------------------------------------------------------------|
95. | PI 1995 .0226 3.52 4.51 132.7 .567 |
100. | RR 1995 .1351 6.32 3.56 592.04 .4363 |
107. | AM 1996 .105 6.61 3.29 539.58 .532 |
121. | PI 1996 .0303 5.03 4.54 166.26 .5747 |
126. | RR 1996 .1197 6.75 2.69 617.61 .4546 |
+----------------------------------------------------------------+
+---------------------------------------------------------------------------+
| estados pdes educpea atraes~l salmed~d gini d ano |
|---------------------------------------------------------------------------|
4. | AP .0543 5.94 3.65 105 .4549 .0314637 1992 |
29. | AM .1502 5.98 3.74 226.2 .548 .0497212 1993 |
55. | AM .1286 4.6 3.76 353.32 .5506 .0394313 1994 |
56. | AP .1056 4.6 3.28 560.62 .5839 .0373676 1994 |
69. | PI .0243 5.8 4.51 117.31 .5823 .0895066 1994 |
|---------------------------------------------------------------------------|
85. | DF .081 8 2.83 814.24 .5733 .0334892 1995 |
95. | PI .0226 3.52 4.51 132.7 .567 .0315965 1995 |
100. | RR .1351 6.32 3.56 592.04 .4363 .157411 1995 |
121. | PI .0303 5.03 4.54 166.26 .5747 .039825 1996 |
126. | RR .1197 6.75 2.69 617.61 .4546 .0539579 1996 |
+---------------------------------------------------------------------------+
egen sdedupea=sd(DFeducpea)
gen sdeducpeai=sdedupea*(-2)
gen sdeducpeas=sdedupea*(2)
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
line DFeducpea sdeducpeas sdeducpeai seq
.4
.2
0
-.2
-.4
0 50 100 150
SEQ
Os beta’s que estão fora do esperado são aquelas que estão fora dos valores
+- dois desvios padrões. Portanto, estas são as mais sérias e certamente
aquelas previstas anteriormente pelos testes. Faça para as demais variáveis.
Alguns autores recomendam que os valores de betas esteja entre +- 2/sqrt(n)
que para o nosso caso é +- 0.17, enquanto que o utilizado no gráfico é +-
0.19.
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
scatter DFeducpea DFatraescol DFsalmedpnad DFgini
seq, ylabel(-1(.5)2) yline(.19 -.19)
2
1.5
1
.5
0
-.5
-1
0 50 100 150
SEQ
Os valores em geral para os quais devemos ter como limites para identificar
os problemas são os seguintes:
<--output omitted-->
where statistic is
Unstarred statistics are available both in and out of sample; type "predict ...
if e(sample) ..." if wanted only for the estimation sample. Starred statistics
are calculated for the estimation sample even when "if e(sample)" is not speci-
fied.
AM
.05
AM
AP AM
e( pdes | X )
AL PE
PE AC
SE RR
AC RR SP DFPA DF
AP AM
AL BA BAAL AM AC DF
BA
ACPE AP PE
SE
AL SERN RR RJRJ
RN ES MT BA PR MG SP PA
MS
RJ PAALRN SE GO RS ROPAAC PA
SP
0
RR
SE CE ES
BA
ROSPPERS RJ
SP DF MSRN CECE
PB GO
ES RJ
RSPR
PB
GO SC
MSMT PRCE
GO GO
MGMG
PR
MT RS RO
RS
DF
RO MSESMT PBMS PR CE
RN
AP AP
MG ES MG MT
RR
PB
MA RO
PI SC SC
MA SC PI MA
SC MAMA
PB PI PI
-.05
PI
-2 -1 0 1 2
e( educpea | X )
coef = .01048919, se = .00238917, t = 4.39
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
avplots
.1
.1
e( pdes | X )
e( pdes | X )
.05
.05
0
0
-.05
-.05
-2 -1 0 1 2 -1 -.5 0 .5 1 1.5
e( educpea | X ) e( atraescol | X )
coef = .01048919, se = .00238917, t = 4.39 coef = .0209017, se = .00454805, t = 4.6
.1
.1
.05
.05
e( pdes | X )
e( pdes | X )
0
0
-.05
-.05
Predict r, residual
Kdensity r, normal
25
20 15
Density
10 5
0
qnorm r
.1
.05
Residuals
0
-.05
-.05 0 .05
Inverse Normal
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
iqr r
mean= -1.9e-11 std.dev.= .0208 (n= 130)
median= -.0015 pseudo std.dev.= .0177 (IQR= .0239)
10 trim= -4.0e-04
low high
-------------------
inner fences -.046 .0494
# mild outliers 2 2
% mild outliers 1.54% 1.54%
Outro comando similar é o Swilk test, devido a Shapiro e Wilk. Este test
fornece diretamente o valor da probabilidade.
swilk r
Rvfplot, yline(0)
.1
.05
Residuals
0
-.05
hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of pdes
chi2(1) = 2.16
Prob > chi2 = 0.1413
whitetst
White's general test statistic : 16.48795 Chi-sq(14) P-value = .2845
vif
Variable | VIF 1/VIF
-------------+----------------------
atraescol | 2.42 0.412684
educpea | 1.80 0.554605
salmedpnad | 1.73 0.577685
gini | 1.43 0.698761
-------------+----------------------
Mean VIF | 1.85
3 4 5 6 7 8
EDUCPEA
3 4 5 6 7 8
EDUCPEA
linktest
------------------------------------------------------------------------------
pdes | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
_hat | .9849054 1.117172 0.88 0.380 -1.225777 3.195588
_hatsq | .1022491 7.505794 0.01 0.989 -14.75036 14.95486
_cons | .0005381 .0407576 0.01 0.989 -.0801138 .08119
------------------------------------------------------------------------------
ovtest
Ramsey RESET test using powers of the fitted values of pdes
Ho: model has no omitted variables
F(3, 122) = 0.32
Prob > F = 0.8132
------------------------------------------------------------------------------
pdes | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
educpea | .0104892 .0023892 4.39 0.000 .0057607 .0152176
atraescol | .0209017 .004548 4.60 0.000 .0119006 .0299028
salmedpnad | .0000503 .0000129 3.90 0.000 .0000248 .0000759
gini | -.0745983 .0650835 -1.15 0.254 -.2034066 .05421
_cons | -.034454 .0380365 -0.91 0.367 -.109733 .0408249
------------------------------------------------------------------------------
dwstat
Durbin-Watson d-statistic( 5, 130) = 1.644788
durbina
Durbin's alternative test for autocorrelation
---------------------------------------------------------------------------
lags(p) | chi2 df Prob > chi2
-------------+-------------------------------------------------------------
1 | 4.121 1 0.0423
---------------------------------------------------------------------------
H0: no serial correlation
Veja no help a opção help regdiag para verificar todos os diagnósticos após
regressão.
archlm
LM test for autoregressive conditional heteroskedasticity (ARCH)
---------------------------------------------------------------------------
lags(p) | chi2 df Prob > chi2
-------------+-------------------------------------------------------------
1 | 1.165 1 0.2805
---------------------------------------------------------------------------
H0: no ARCH effects vs. H1: ARCH(p) disturbance
bgodfrey