Você está na página 1de 35

Prof. Dr.

Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br

3. DIAGNÓSTICO DAS REGRESSÕES

3.1 – REGRESSÃO SIMPLES E MULTIPLA

3.1.1 Introdução

Nesta seção verificamos os problemas associados as regressões de mínimos


quadrados. Alguns comandos serão repetidos com a intenção de fixá-los. Os
principais aspectos a serem abordados serão:
i) Linearidade – Se a relação entre as variáveis são linear;
ii) Normalidade – Se os erros são distribuídos normalmente;
iii) Homocedasticidade – SE a variância dos erros são homocedásticas;
iv) Independência – Se os erros de uma observação não está
correlacionado com os de outra;
v) Especificação do Modelo – Verificar se a especificação está
correta ou existe a falta de variáveis;
vi) Multicolinearidade.
Ainda verificaremos o problema de outlier, leverage e influence. Outlier
refere-se aos pontos totalmente fora do esperado, enquanto que leverage
mede o quanto a variável independente desvia da sua média e influence
mede o quanto uma observação é influente no resultado.
O mais importante é que estaremos trabalhando com dados dos Estados do
Brasil. Estarei utilizando estes dados para reproduzir com vocês o trabalho
que estou fazendo para o artigo. Também estaremos trabalhando com os
dados do censo de 2000 do Paraná. Os dados do censo possuem acima de
hum milhão de observações e, portanto, requer um trabalho anterior de
separação das variáveis para permitir que o STATA possa lê-los.

3.1.2 Hipótese de Trabalho


Este é o mais importante elemento que o pesquisador deve ter ao começar a
trabalhar com os dados. Ou seja, com qual objetivo estarei analisando meus
dados. Nesta aula estaremos tentando explicar as taxas de desemprego dos
estados brasileiros. Quais são os elementos importantes na determinação da
taxa de desemprego dos estados brasileiros. Estamos admitindo aqui que
todos vocês conhecem as teorias de desemprego e, portanto, o modelo
teórico está dado.
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br

3.1.3 Avaliando os Dados


Os dados dos estados brasileiros referem-se ao período 1992 e 1996. Nesta
fase estaremos trabalhando com os dados na forma de “pooled”ou seja
combinando série no tempo com dados seccionais. Na segunda fase
estaremos trabalhando com os dados na forma de painéis. Além destes dados
também usaremos os dados da aula1 em alguns exemplos (trabalho para casa
por exemplo). Vamos começar fazendo a leitura dos dados (loading).
use estados9296

describe
Contains data
obs: 130
vars: 45
size: 21,970 (97.9% of memory free)

storage display value


variable name type format label variable label

order byte %8.0g ORDER


estados str2 %9s ESTADOS
ano int %8.0g ANO
popest long %12.0g POPEST
poppnad long %12.0g POPPNAD
pobre40 float %9.0g POBRE40
rico10 float %9.0g RICO10
educpea float %9.0g EDUCPEA
pibrealpc float %9.0g PIBREALPC
pibreal float %9.0g PIBREAL
gini float %9.0g GINI
atraescol float %9.0g ATRAESCOL
txanalfa float %9.0g TXANALFA
gstotal long %12.0g GSTOTAL
matrpop float %9.0g MATRPOP
ptrabpea float %9.0g PTRABPEA
ntrabpnad float %9.0g NTRABPNAD
ntrabest long %12.0g NTRABEST
peapnad int %8.0g PEAPNAD
peaest long %12.0g PEAEST
peapoppnad float %9.0g PEAPOPPNAD
tsalest double %10.0g TSALEST
salmedpnad float %9.0g SALMEDPNAD
rendtotal float %9.0g RENDTOTAL
pea int %8.0g PEA
v26 float %9.0g EDUCPEA
rendpea float %9.0g RENDPEA
ndespnad int %8.0g NDESPNAD
educdes float %9.0g EDUCDES
pdes float %9.0g PDES
emppnad int %8.0g EMPPNAD
educemp float %9.0g EDUCEMP
rendemp float %9.0g RENDEMP
pemppea float %9.0g PEMPPEA
nempres int %8.0g NEMPRES
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
educempres float %9.0g EDUCEMPRES
rempres float %9.0g REMPRES
pemprespea float %9.0g PEMPRESPEA
cpropria int %8.0g CPROPRIA
educcpropria float %9.0g EDUCCPROPRIA
rcpropria float %9.0g RCPROPRIA
pcpropria float %9.0g PCPROPRIA
gseduc float %9.0g GSEDUC
cambio float %9.0g CAMBIO
imptecn float %9.0g IMPTECN

Sorted by:
Note: dataset has changed since last saved

Como estes dados precisam de explicações vamos usar o comando label


para introduzir explicações de cada variável. Por exemplo
label variable rcpropria "rendimento por conta própria"

graph matrix graph matrix pdes salmedpnad educpea gini


pcpropria atraesc gstotal

0 500 1000 .4 .6 2 3 4 5
.15

.1
PDES
.05

0
1000

500 SALMEDPNAD

0
10

EDUCPEA 5

0
.6

GINI

.4
.4

PCPROPRIA .2

0
5

4
ATRAESCOL
3

2
10000000

GSTOTAL 5000000

0
0 .05 .1 .15 0 5 10 0 .2 .4 0 5000000 10000000

Verificamos que vários pontos com problemas de outliers. Por exemplo a


Variável educpea educação média da pea (população economicamente
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
ativa) apresenta dois grupos distintos. Quanto a gstotal apresenta claramente
outliers. Portanto, temos que analisar estes dados com muito cuidado para
solucionar estes problemas.

Vamos começar por analisando as variáveis por partes. Vamos admitir que
os fatores que mais influenciam a taxa de desemprego (pdes) nos estados
são os seguintes: educação média (educpea), qualidade da educação das
pessoas (proxy atraescol), o mercado de trabalho – salário reserva
(salmedpnad) e as distorções de distribuição de renda (gini). Estas hipóteses
são razoáveis para um início de trabalho.
scatter pdes educpea, mlabel (estados)
.15

AM

RR
AM AP DF
RR

AM
AM
AP PE AM
AL
.1

BA AC
AC
RR SE PE PA DF
AL PEAC PA
BA
PE
DF
AL BA SE MT SP AC SP
PDES

BA
SE
PA AL AP PA
AC RJDF DF
AL PA RJ
SP
RJ RN BA GO RO SPSP RJ
RO SE RN PE RS
SECE MG AP RJ
RN
CE PB
CE ESGOMS RO
MG
CE RNCEGO MT RO ES
GO RNMS
MGPR RR PR
PRRO RS
PR
MG
MT
RS MS GOESMGAP RR
.05

MS
ES PB MT PR RS
PB
MS MTES RS
PI SC
PB SC
SC MAMA PI SC SC
MA MAMA
PI PIPB
PI
0

0 2 4 6 8
EDUCPEA

No gráfico acima verificamos que o problema não está associado a algum


estado em particular mas provavelmente a um período, já que estamos
usando dados “pooled”. Sabemos que estes dados estão na faixa 0-2,
portanto podem ser facilmente separados dos demais para uma análise mais
minuciosa. No entanto vamos repetir para os demais dados o mesmo gráfico.
O que você encontrou de potencial problemas?? Anote.
Vamos solucionar o problema da variável educpea. Uma forma de visualizar
é usando o seguinte comando.
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br

list ano estados educpea if educpea<=2


+--------------------------+
| ano estados educpea |
|--------------------------|
53. | 1994 AC .5 |
54. | 1994 AL .53 |
55. | 1994 AM .46 |
56. | 1994 AP .46 |
57. | 1994 BA .48 |
|--------------------------|
58. | 1994 CE .48 |
59. | 1994 DF .5 |
60. | 1994 ES .49 |
61. | 1994 GO .49 |
62. | 1994 MA .5 |
|--------------------------|
63. | 1994 MG .48 |
64. | 1994 MS .48 |
65. | 1994 MT .49 |
66. | 1994 PA .47 |
67. | 1994 PB .51 |
|--------------------------|
68. | 1994 PE .5 |
69. | 1994 PI .58 |
70. | 1994 PR .48 |
71. | 1994 RJ .48 |
72. | 1994 RN .48 |
|--------------------------|
73. | 1994 RO .46 |
74. | 1994 RR .57 |
75. | 1994 RS .48 |
76. | 1994 SC .48 |
77. | 1994 SE .46 |
|--------------------------|
78. | 1994 SP .48 |
+--------------------------+

Neste caso temos claramente que os dados para o ano de 1994 foram
digitados incorretamente em percentagem em vez de valores absolutos (o
incrível que é verdade na base de dados). Portanto vamos fazer a correção
gerando os valores corretos que constitue simplesmente em multiplicar estas
observações por 10. Tente usar os menus do programa para efetuar o
comando abaixo.
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
replace educpea = educpea*10 if educpea <=2, nopromote

save estados9296a

Portanto, agora temos um novo banco de dados que corrige o anterior.


Confira se houve realmente a substituição das variáveis, através do comando
list. Vamos usar este arquivo nas nossas análises a seguir.

3.1.4 Análise das Regressões

Vamos efetuar nossa regressão múltipla para testar nossa teoria. Lembre-se
que estamos postulando entre outras hipóteses de que existe uma relação
linear entre as variáveis.

Regress pdes educpea atraescol salmedpnad gini

regress pdes educpea atraescol salmedpnad gini


Number of
Source SS df MS = 130
obs
F( 4, 125) = 12.12
Model .021624695 4 .005406174 Prob > F = 0.0000
Residual .055737578 125 .000445901 R-squared = 0.2795
Adj R-squared = 0.2565
Total .077362273 129 .000599708 Root MSE = .02112

pdes Coef. Std. Err. t P>t [95% Conf. Interval]

educpea .0104892 .0023892 4.39 0.000 .0057607 .0152176


atraescol .0209017 .004548 4.60 0.000 .0119006 .0299028
salmedpnad .0000503 .0000129 3.90 0.000 .0000248 .0000759
gini -.0745983 .0650835 -1.15 0.254 -.2034066 .0542101
_cons -.034454 .0380365 -0.91 0.367 -.109733 .0408249

De acordo com o nosso resultado, a única variável que não é signficativa é


gini. Ou seja, as distorções de distribuição da renda posteriori a sua geração
não influencia a taxa de desemprego dos estados. Faça uma analise
pormenorizada dos coeficientes das variáveis.
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
Vamos fazer uma análise agora dos resíduos da regressão. Usando os
resíduos stundentizado (distribuição t de student) vamos verificar as
condições de outliers e outros problemas de normalidade.

Predict r, rstudent
Stem r
Stem-and-leaf plot for r (Studentized residuals)

r rounded to nearest multiple of .01


plot in units of .01

-2** | 95
-2** |
-2** |
-2** | 38
-2** |
-1** | 91,88,82
-1** | 78,72
-1** | 59,53
-1** | 39,37,37,32,29,22,21
-1** | 12,07,05
-0** | 93,90,83,81
-0** | 76,73,70,66,64,63,60,60
-0** | 56,50,48,46,45,45,44,41
-0** | 38,37,37,37,35,35,34,32,30,30,27,26,25,24,23,21,21
-0** | 18,18,16,12,12,11,11,09,09,06,05,05,04,04,01
0** | 05,05,06,06,08,09,09,12,14
0** | 20,23,24,25,27,28,28,34
0** | 40,42,43,48,53,54,57
0** | 60,63,65,66,67,67,68,70,75,77,77,78
0** | 82,82,82,86,89,92
1** | 01,05,09
1** | 25,34
1** | 47,49,51
1** | 68,69,70,75
1** | 90
2** | 08,12
2** |
2** |
2** |
2** | 94
3** |
3** |
3** |
3** | 68

A distribuição parece muito bem comportada, a exceção das observações 95,


38, 94 e 68 que podem ser potenciais outliers.

sort estados ano


Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
list estados ano r
+----------------------------+
| estados ano r |
|----------------------------|
1. | AC 1992 .4326572 |
2. | AC 1993 1.341668 |
3. | AC 1994 1.754177 |
4. | AC 1995 .8203539 |
5. | AC 1996 -.300675 |
|----------------------------|
6. | AL 1992 1.245796 |
7. | AL 1993 2.081601 |
8. | AL 1994 .9215596 |
9. | AL 1995 1.054077 |
10. | AL 1996 .3952554 |
|----------------------------|
11. | AM 1992 1.474492 |
12. | AM 1993 3.675202 |
13. | AM 1994 2.938073 |
14. | AM 1995 .6988909 |
15. | AM 1996 .6678368 |
|----------------------------|
16. | AP 1992 -1.071815 |
17. | AP 1993 .63167 |
18. | AP 1994 1.895836 |
19. | AP 1995 2.116107 |
20. | AP 1996 -.7282656 |
|----------------------------|
21. | BA 1992 .8637151 |
22. | BA 1993 1.012058 |
23. | BA 1994 .3410739 |
24. | BA 1995 -.0372643 |
25. | BA 1996 .8878881 |
|----------------------------|
26. | CE 1992 .062786 |
27. | CE 1993 -.1213005 |
28. | CE 1994 -.3025842 |
29. | CE 1995 -.0492777 |
30. | CE 1996 -.630334 |
|----------------------------|
31. | DF 1992 .2773142 |
32. | DF 1993 .0885962 |
33. | DF 1994 .6041477 |
34. | DF 1995 -1.286409 |
35. | DF 1996 .7510687 |
|----------------------------|
36. | ES 1992 .6589178 |
37. | ES 1993 -.1077086 |
38. | ES 1994 -.2658397 |
39. | ES 1995 -.8091516 |
40. | ES 1996 -.1834696 |
|----------------------------|
41. | GO 1992 .1206143 |
42. | GO 1993 -.3715985 |
43. | GO 1994 -.1169769 |
44. | GO 1995 -.2602021 |
45. | GO 1996 -.0850308 |
|----------------------------|
46. | MA 1992 -1.04539 |
47. | MA 1993 -.8300438 |
48. | MA 1994 -1.906408 |
49. | MA 1995 -1.211673 |
50. | MA 1996 -1.368596 |
|----------------------------|
51. | MG 1992 .2455388 |
52. | MG 1993 -.4830338 |
53. | MG 1994 -.4546973 |
54. | MG 1995 -.9344906 |
55. | MG 1996 -.4421055 |
|----------------------------|
56. | MS 1992 .5251479 |
57. | MS 1993 -.3496037 |
58. | MS 1994 -.2335139 |
59. | MS 1995 -.3816361 |
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
60. | MS 1996 .0548371 |
|----------------------------|
61. | MT 1992 -.4953871 |
62. | MT 1993 -.8951945 |
63. | MT 1994 -.4072196 |
64. | MT 1995 -.3666879 |
65. | MT 1996 .4830173 |
|----------------------------|
66. | PA 1992 .5700447 |
67. | PA 1993 -.0086219 |
68. | PA 1994 .4249011 |
69. | PA 1995 -.350488 |
70. | PA 1996 -.4637688 |
|----------------------------|
71. | PB 1992 -.3358978 |
72. | PB 1993 -.0871706 |
73. | PB 1994 -1.369019 |
74. | PB 1995 -1.721926 |
75. | PB 1996 -.0466735 |
|----------------------------|
76. | PE 1992 1.487671 |
77. | PE 1993 1.676184 |
78. | PE 1994 .7746227 |
79. | PE 1995 -.3221657 |
80. | PE 1996 .5413555 |
|----------------------------|
81. | PI 1992 -1.221918 |
82. | PI 1993 -1.777716 |
83. | PI 1994 -2.94785 |
84. | PI 1995 -1.883816 |
85. | PI 1996 -2.376526 |
|----------------------------|
86. | PR 1992 .2275589 |
87. | PR 1993 -.4522481 |
88. | PR 1994 .045852 |
89. | PR 1995 -.3684538 |
90. | PR 1996 -.6591794 |
|----------------------------|
91. | RJ 1992 -.1624023 |
92. | RJ 1993 -.209598 |
93. | RJ 1994 .6512483 |
94. | RJ 1995 -.7638322 |
95. | RJ 1996 -.6048023 |
|----------------------------|
96. | RN 1992 .8157468 |
97. | RN 1993 .672116 |
98. | RN 1994 .2691228 |
99. | RN 1995 .085773 |
100. | RN 1996 -.6999179 |
|----------------------------|
101. | RO 1992 -.1824383 |
102. | RO 1993 -.1122337 |
103. | RO 1994 .0609587 |
104. | RO 1995 -.6045136 |
105. | RO 1996 -1.533519 |
|----------------------------|
106. | RR 1992 .67558 |
107. | RR 1993 -1.822597 |
108. | RR 1994 .1395709 |
109. | RR 1995 1.703421 |
110. | RR 1996 1.509153 |
|----------------------------|
111. | RS 1992 -.0565339 |
112. | RS 1993 -.638493 |
113. | RS 1994 .2399925 |
114. | RS 1995 -.5648483 |
115. | RS 1996 -.2518429 |
|----------------------------|
116. | SC 1992 -.2149138 |
117. | SC 1993 -1.318736 |
118. | SC 1994 -1.122731 |
119. | SC 1995 -1.593382 |
120. | SC 1996 -1.394546 |
|----------------------------|
121. | SE 1992 .2770085 |
122. | SE 1993 1.693963 |
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
123. | SE 1994 .7672206 |
124. | SE 1995 .081399 |
125. | SE 1996 .7778141 |
|----------------------------|
126. | SP 1992 1.08601 |
127. | SP 1993 .2045769 |
128. | SP 1994 .8162305 |
129. | SP 1995 -.2437074 |
130. | SP 1996 -.0446543 |
+----------------------------+

Devemos nos preocupar com valores de r acima de -2,0 e 2,0, mas valores
em especial que devemos nos preocupar é com aqueles que excedem a faixa
-3,0 e 3,0. Portanto analise qual o estado e ano ocorreu estes valores.

O truque é listá-los para valores nesta faixa, assim fica mais fácil sua
identificação.
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br

. list pdes educpea atraescol salmedpnad gini r if


abs(r)>2
+-----------------------------------------------------------+
| pdes educpea atraes~l salmed~d gini r |
|-----------------------------------------------------------|
28. | .1024 4.32 4.11 162.31 .6077 2.078602 |
29. | .1502 5.98 3.74 226.2 .548 3.676795 |
55. | .1286 4.6 3.76 353.32 .5506 2.931973 |
69. | .0243 5.8 4.51 117.31 .5823 -2.939521 |
82. | .1296 6.5 3.21 501.59 .5363 2.114429 |
|-----------------------------------------------------------|
121. | .0303 5.03 4.54 166.26 .5747 -2.372869 |
+-----------------------------------------------------------+

As observações acima demonstram serem grandes problemas. Mas, podemos


verificar quão influentes as mesmas são nos coeficientes da regressão
usando leverage.

stem lev
Stem-and-leaf plot for lev (Leverage)

lev rounded to nearest multiple of .001


plot in units of .001

1* | 00122222333444445677777899
2* | 000001112223333444444455566667778899999
3* | 000122223445556678899999
4* | 011344456668
5* | 1224557889
6* | 133467
7* | 199
8* | 7
9* | 128
10* | 457
11* |
12* | 24
13* |
14* |
15* |
16* |
17* |
18* |
19* |
20* |
21* | 6

Os pontos de leverage maiores que (2k+2)/n, onde é o número de variáveis


independentes e n o número de observações, devem ser verificados com
cuidado. Portanto, vamos aprender calcular estes limites para o nosso
problema, onde n=130 e k=4.

display (2*4+2)/130
.07692308
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
Portanto, o valor de lev maior que 0.77 devem ser analizado com maior
detalhe.

list pdes educpea atraescol salmedpnad gini r lev


if lev > 0.077
+----------------------------------------------------------------------+
| pdes educpea atraes~l salmed~d gini r lev |
|----------------------------------------------------------------------|
4. | .0543 5.94 3.65 105 .4549 -1.064378 .1220454 |
7. | .0811 7.64 3.13 161.32 .5856 .2858367 .1043031 |
22. | .0578 6.15 2.2 138.34 .5205 .6774928 .091327 |
24. | .0382 5.71 2.44 106.76 .526 -.2132086 .0785113 |
33. | .0926 7.92 3 481.66 .6 .0920997 .0867867 |
|----------------------------------------------------------------------|
59. | .0868 4.8 2.92 782.64 .5866 .6977538 .1050512 |
74. | .0941 5.7 3.48 592.48 .4906 .1356191 .0978731 |
78. | .0762 4.8 2.51 610.5 .5287 .8049561 .0785942 |
85. | .081 8 2.83 814.24 .5733 -1.287972 .0921238 |
100. | .1351 6.32 3.56 592.04 .4363 1.702081 .216175 |
|----------------------------------------------------------------------|
111. | .1273 8.16 2.79 920.89 .5814 .7473097 .1236637 |
126. | .1197 6.75 2.69 617.61 .4546 1.506669 .1071867 |
+----------------------------------------------------------------------+

As observações mais críticas são: 4, 7, 59, 111 e 112. Assim, devemos listar
elas e verificar o quanto estão fora do esperado para as variáveis do modelo.
Por favor investiguem os problemas destas observações.

hilo lev estados ano, show(5) high


5 highest observations on lev

+---------------------------+
| lev estados ano |
|---------------------------|
| .1050512 DF 1994 |
| .1071867 RR 1996 |
| .1220454 AP 1992 |
| .1236637 DF 1996 |
| .216175 RR 1995 |
+---------------------------+

As observações acima devem ser avaliadas e verificar o quanto estão fora


dos valores esperados das variáveis. Outro comando é o de utilizar gráfico
para avaliar estes problemas.

lvr2plot, mlabel(estados)

Este comando cria um gráfico da leverage contra os resíduos ao quadrado.


Assim, temos que RR, PI e AM são os maiores problemas.
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br

RR
.2
.15
Leverage

DF AP

DFDF RR
.1

RR
RR DF
DF
SC SP
AC
RSAP SP
RO SC
SP
RSPA
PA MAPI AM
RJ
.05

MS AP PI
PR ES
RJ
MT MA MA SC
PR
SP
PB PI
RJ
AC
RS
PBRS
AMBAAL MA RR
AL
RORSRJ
AM
PR BABA AL SCRO SE PI
SE
ES
BA
CE
PA
PR
MG RO AL SC PI
SP
BA
ES
CE
PA
MS
PR
MS
MS
GO
CE
PB
CE
RJ
PE ES
AP
SE
RN PBPE PE
AC PB MA AL
AP AM
AM
ES
PA
CE
MT
SE
MS
MG
PE RN AC
GO
RO
RN
GO
GOMT
MT AC
RN
PE
RNMG MT
MG MG
0

0 .02 .04 .06 .08 .1


Normalized residual squared
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
list estados ano pdes educpea atraescol salmedpnad
gini if estados=="AM" | estados=="PI"
estados=="RR"

+----------------------------------------------------------------+
| estados ano pdes educpea atraes~l salmed~d gini |
|----------------------------------------------------------------|
3. | AM 1992 .109 6.49 3.87 91.9 .5398 |
17. | PI 1992 .0391 3.39 4.95 54.13 .579 |
22. | RR 1992 .0578 6.15 2.2 138.34 .5205 |
29. | AM 1993 .1502 5.98 3.74 226.2 .548 |
43. | PI 1993 .0259 4.09 4.51 88.13 .5977 |
|----------------------------------------------------------------|
48. | RR 1993 .0531 7.17 3.4 383.75 .545 |
55. | AM 1994 .1286 4.6 3.76 353.32 .5506 |
69. | PI 1994 .0243 5.8 4.51 117.31 .5823 |
74. | RR 1994 .0941 5.7 3.48 592.48 .4906 |
81. | AM 1995 .107 6.49 3.78 419.54 .5531 |
|----------------------------------------------------------------|
95. | PI 1995 .0226 3.52 4.51 132.7 .567 |
100. | RR 1995 .1351 6.32 3.56 592.04 .4363 |
107. | AM 1996 .105 6.61 3.29 539.58 .532 |
121. | PI 1996 .0303 5.03 4.54 166.26 .5747 |
126. | RR 1996 .1197 6.75 2.69 617.61 .4546 |
+----------------------------------------------------------------+

Os dados não parecem estarem com muitos problemas, podemos notar


alguns detalhes como do salário real do AM que aumenta em muito entre os
anos 92-96. Para verificarmos a influence direta deste valores no coeficiente
podemos utilizar duas medidas similares: Cook’s D e DFITS. Ambas mede
diretamente a influencia das observações nos coeficientes. O ponto
convencional de limite para Cook’d D = 4/n e para DFITS = 2*sqrt(k/n).

list estados pdes educpea atraescol salmedpnad gini


d ano if d > 4/130

+---------------------------------------------------------------------------+
| estados pdes educpea atraes~l salmed~d gini d ano |
|---------------------------------------------------------------------------|
4. | AP .0543 5.94 3.65 105 .4549 .0314637 1992 |
29. | AM .1502 5.98 3.74 226.2 .548 .0497212 1993 |
55. | AM .1286 4.6 3.76 353.32 .5506 .0394313 1994 |
56. | AP .1056 4.6 3.28 560.62 .5839 .0373676 1994 |
69. | PI .0243 5.8 4.51 117.31 .5823 .0895066 1994 |
|---------------------------------------------------------------------------|
85. | DF .081 8 2.83 814.24 .5733 .0334892 1995 |
95. | PI .0226 3.52 4.51 132.7 .567 .0315965 1995 |
100. | RR .1351 6.32 3.56 592.04 .4363 .157411 1995 |
121. | PI .0303 5.03 4.54 166.26 .5747 .039825 1996 |
126. | RR .1197 6.75 2.69 617.61 .4546 .0539579 1996 |
+---------------------------------------------------------------------------+

predict dfit, dfits


list estados pdes educpea atraescol salmedpnad gini
dfit ano if abs(dfit) > 2*sqrt(4/130)
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
+----------------------------------------------------------------------------+
| estados pdes educpea atraes~l salmed~d gini dfit ano |
|----------------------------------------------------------------------------|
3. | AM .109 6.49 3.87 91.9 .5398 .3545163 1992 |
4. | AP .0543 5.94 3.65 105 .4549 -.3968446 1992 |
29. | AM .1502 5.98 3.74 226.2 .548 .522976 1993 |
48. | RR .0531 7.17 3.4 383.75 .545 -.3675272 1993 |
55. | AM .1286 4.6 3.76 353.32 .5506 .4573161 1994 |
|----------------------------------------------------------------------------|
56. | AP .1056 4.6 3.28 560.62 .5839 .436638 1994 |
69. | PI .0243 5.8 4.51 117.31 .5823 -.6891219 1994 |
85. | DF .081 8 2.83 814.24 .5733 -.4102788 1995 |
95. | PI .0226 3.52 4.51 132.7 .567 -.4015124 1995 |
100. | RR .1351 6.32 3.56 592.04 .4363 .8938679 1995 |
|----------------------------------------------------------------------------|
121. | PI .0303 5.03 4.54 166.26 .5747 -.4544244 1996 |
126. | RR .1197 6.75 2.69 617.61 .4546 .5220449 1996 |
+----------------------------------------------------------------------------+

Ambas indicam que a observação com maior influência é RR 1995, seguido


por PI 1994. Portanto, podemos subsitituir estas variáveis por suas médias
e/ou apagá-las para verificarmos as regressões com e sem elas. Outra forma
é usar o comando dfbeta.

list DFeducpea DFatraescol DFsalmedpnad DFgini ano


estados
+----------------------------------------------------------------+
| DFeducpea DFatrae~l DFsalme~d DFgini ano estados |
|----------------------------------------------------------------|
1. | .0581721 .0166023 -.0546031 -.0214563 1992 AC |
2. | -.0840964 .0619915 -.0344317 -.1116287 1992 AL |
3. | .2675329 .1454647 -.1719226 -.0899456 1992 AM |
4. | -.0779965 -.1679651 .0546802 .3489143 1992 AP |
5. | -.0045383 .0968389 -.0123653 -.0621999 1992 BA |
|----------------------------------------------------------------|
6. | -.0017853 .0045118 -.0019282 -.004724 1992 CE |
7. | .0753336 -.0189249 -.0628104 .0475388 1992 DF |
8. | -.0241286 -.0514224 -.0881456 -.0643623 1992 ES |
9. | .0014357 -.0056824 -.0138792 .0024676 1992 GO |
10. | .1520653 -.0504472 -.0010355 .0834718 1992 MA |
|----------------------------------------------------------------|
11. | .0098249 .0007927 -.0265173 -.0153071 1992 MG |
12. | -.0272613 -.0974984 -.0901085 .0454518 1992 MS |
13. | .0002099 -.0229078 .0339537 .0790013 1992 MT |
14. | .095073 .0958169 -.040185 -.0634487 1992 PA |
15. | .02484 -.01515 .0122227 .0326823 1992 PB |
|----------------------------------------------------------------|
16. | .0614744 .0492536 -.1315841 -.0343222 1992 PE |
17. | .089672 -.1722208 -.0441941 .0913751 1992 PI |
18. | .0051958 -.0276253 -.0396654 -.0004661 1992 PR |
19. | -.0254446 .0007117 .0252479 .0060064 1992 RJ |
20. | -.0205467 -.0087011 -.0665212 .0119784 1992 RN |
|----------------------------------------------------------------|
21. | -.014914 -.000585 .0218991 .0091694 1992 RO |
22. | -.0047012 -.1696277 -.153119 .0243979 1992 RR |
23. | -.0029475 .0079888 .0108351 .0001433 1992 RS |
24. | .0067554 .0490768 .0449388 -.006085 1992 SC |
25. | -.0023301 .023831 -.0088261 -.0139149 1992 SE |
|----------------------------------------------------------------|
26. | .0876488 -.0698916 -.1753707 -.1096361 1992 SP |
27. | .1207956 .0067305 -.1112754 -.0083572 1993 AC |
28. | -.0880439 -.0373866 -.0561561 .19615 1993 AL |
29. | .324824 .2622842 -.1211584 -.1686197 1993 AM |
30. | .0380957 -.0636837 -.0329658 .1511432 1993 AP |
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
|----------------------------------------------------------------|
31. | .0149603 .0431668 -.0155241 .1086151 1993 BA |
32. | .0023313 -.0036433 .0007568 -.008265 1993 CE |
33. | .0212274 -.0014407 -.004203 .0166673 1993 DF |
34. | .0010244 .0129602 .0108473 -.0076628 1993 ES |
35. | -.000653 .0195714 .0279611 -.0150414 1993 GO |
|----------------------------------------------------------------|
36. | .1181176 .0407203 .0277929 -.0502193 1993 MA |
37. | -.0125994 .000344 .0192436 -.0086605 1993 MG |
38. | .0164235 .0397958 .0289862 -.0129401 1993 MS |
39. | -.0144398 -.0071664 .0349229 .0373548 1993 MT |
40. | -.0005985 -.0003888 .0002009 -.0001358 1993 PA |
|----------------------------------------------------------------|
41. | .0032022 .0061078 .0067 -.0134248 1993 PB |
42. | .1169295 .0457831 -.1040389 .1414558 1993 PE |
43. | .0484017 -.0963798 .0368041 -.0559601 1993 PI |
44. | -.0009312 .0514067 .0377913 -.0197891 1993 PR |
45. | -.0361441 -.0049655 .0168136 -.0103454 1993 RJ |
|----------------------------------------------------------------|
46. | -.0372541 -.0230519 -.0359342 -.0063452 1993 RN |
47. | -.0001907 .0025977 .0003779 .0050526 1993 RO |
48. | -.3098577 -.1699712 .0068355 .0561517 1993 RR |
49. | -.0348461 .0823582 .0829275 -.0230939 1993 RS |
50. | .077523 .1366454 .0732078 .1364146 1993 SC |
|----------------------------------------------------------------|
51. | -.070812 -.0207152 -.0725794 .1612932 1993 SE |
52. | .0121468 -.0147321 -.0112005 .0001946 1993 SP |
53. | -.132046 -.1272477 -.0290536 -.012115 1994 AC |
54. | .045799 .0194429 -.0145974 .1077546 1994 AL |
55. | -.259611 .143933 .2631235 -.2144266 1994 AM |
|----------------------------------------------------------------|
56. | -.2909808 -.0904781 .2845486 .0935994 1994 AP |
57. | .0061762 .0295822 .0128885 .0183714 1994 BA |
58. | .0010538 -.013448 -.0067974 -.0175684 1994 CE |
59. | -.1424874 -.0452723 .1776318 .0465621 1994 DF |
60. | .0279957 .034458 .000888 -.020394 1994 ES |
|----------------------------------------------------------------|
61. | .0071075 .0036303 .0008118 .0022363 1994 GO |
62. | -.0947631 -.1123113 .0997521 -.0516929 1994 MA |
63. | .0387568 .012192 -.022177 -.002965 1994 MG |
64. | .0274645 .0192822 -.0034869 .0052547 1994 MS |
65. | .0366458 .012358 -.0139479 .0187275 1994 MT |
|----------------------------------------------------------------|
66. | -.0262825 .021463 .0347141 -.0110926 1994 PA |
67. | -.0479044 -.0063113 .0622718 -.1353291 1994 PB |
68. | .0072055 .0382211 .0060586 .016137 1994 PE |
69. | -.4716076 -.4601009 .1386191 .0050634 1994 PI |
70. | -.0061927 -.0057508 .0014367 .0012634 1994 PR |
|----------------------------------------------------------------|
71. | -.0772206 -.0436114 .0401022 .0086477 1994 RJ |
72. | -.0109477 -.0069234 -.0071471 .0048193 1994 RN |
73. | -.0093344 -.0004708 .010246 -.0024981 1994 RO |
74. | -.0063491 .0257034 .0308352 -.0358496 1994 RR |
75. | -.0414012 -.0439936 .0018215 .0049996 1994 RS |
|----------------------------------------------------------------|
76. | .2253147 .1431086 -.0778506 .1027861 1994 SC |
77. | -.0029631 .0187186 -.0225065 .0433763 1994 SE |
78. | -.1786771 -.0956347 .1160966 -.043044 1994 SP |
79. | .0008559 -.0306169 .0224938 .0055249 1995 AC |
80. | -.1025438 -.0515209 .0271682 .131727 1995 AL |
|----------------------------------------------------------------|
81. | .0830585 .1026242 .0494493 -.0391701 1995 AM |
82. | .115568 .142677 .1666978 -.1334473 1995 AP |
83. | .000102 -.004049 -.002508 -.0001946 1995 BA |
84. | .001618 -.0009147 -.0009977 -.0027337 1995 CE |
85. | -.2040269 -.1036653 -.2159564 -.0835094 1995 DF |
|----------------------------------------------------------------|
86. | .012511 .0904521 .02593 -.0917608 1995 ES |
87. | .006717 -.0064606 -.0077945 .0179842 1995 GO |
88. | .1905471 -.0266509 -.044559 .0527156 1995 MA |
89. | -.0037582 .0155285 -.0148726 -.025848 1995 MG |
90. | .022755 .0123202 -.0104203 .0223481 1995 MS |
|----------------------------------------------------------------|
91. | .0131616 .0128625 -.0068004 .0091879 1995 MT |
92. | -.0352345 -.0435576 -.0205453 .0123265 1995 PA |
93. | .1284185 .0037605 -.0167853 -.0608249 1995 PB |
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
94. | -.0092662 -.0277474 -.0105259 .0091407 1995 PE |
95. | .2081195 -.1635708 -.0895649 .1467305 1995 PI |
|----------------------------------------------------------------|
96. | .0062564 .0426345 .0010079 -.0248372 1995 PR |
97. | -.0991504 -.018996 -.023541 -.0265756 1995 RJ |
98. | -.0038075 -.0031608 -.0014854 .0040723 1995 RN |
99. | -.0313376 -.0323634 -.0651011 -.0164593 1995 RO |
100. | .0294792 .5735572 .4646943 -.8062549 1995 RR |
|----------------------------------------------------------------|
101. | -.0188458 .0625214 .0134477 -.0331552 1995 RS |
102. | .0739623 .1598424 -.0112093 .0418941 1995 SC |
103. | -.003098 .0035143 .001836 .0006317 1995 SE |
104. | -.0037381 .0101089 -.0208777 .0076923 1995 SP |
105. | -.0353229 .0003633 -.0208846 -.0573344 1996 AC |
|----------------------------------------------------------------|
106. | -.0196611 .0089229 .0264373 .0386906 1996 AL |
107. | .0439962 .0708637 .0733421 -.0593945 1996 AM |
108. | -.0046844 -.0355655 -.0760758 .0497005 1996 AP |
109. | .0325562 .066441 .0533416 .0924394 1996 BA |
110. | -.0011063 -.0418399 -.034293 -.0385896 1996 CE |
|----------------------------------------------------------------|
111. | .1197444 .0729504 .167917 .0619142 1996 DF |
112. | .001112 .016931 .0033104 -.0104537 1996 ES |
113. | .0006688 -.0014927 -.0055821 -.0001798 1996 GO |
114. | .1941427 -.0447665 -.0710558 .0554016 1996 MA |
115. | -.0040432 .0043125 -.0134021 -.000449 1996 MG |
|----------------------------------------------------------------|
116. | -.0029834 -.0046219 .0012332 .0030139 1996 MS |
117. | -.0016672 -.0148285 .0157618 .0118844 1996 MT |
118. | -.0708454 -.0886234 -.0448408 .0091894 1996 PA |
119. | .0032453 -.0019066 -.0021194 -.0001948 1996 PB |
120. | .0421399 .0277032 .0085373 .041867 1996 PE |
|----------------------------------------------------------------|
121. | -.147601 -.3647385 -.0398137 .1047074 1996 PI |
122. | .0108915 .0681077 -.0222897 -.0451826 1996 PR |
123. | -.0764547 -.018123 -.0450239 -.0275381 1996 RJ |
124. | -.0035059 -.032806 -.0246005 -.0215127 1996 RN |
125. | -.0537289 -.101667 -.1683922 .120027 1996 RO |
|----------------------------------------------------------------|
126. | -.0045957 .1749728 .2390565 -.4414159 1996 RR |
127. | -.0082994 .027783 -.0008828 -.0137177 1996 RS |
128. | .0396894 .1021185 -.0412038 .07547 1996 SC |
129. | -.0286379 .0042843 .024168 .0640378 1996 SE |
130. | -.0006223 .0005953 -.0068852 .0029614 1996 SP |
+----------------------------------------------------------------+

A análise dos betas é efetuado da seguinte forma. Considere Dfeducpea


observação 3, valor 0.267. Significa por estar inclusa esta observação esta
influencia 0.267 do desvio padrão do coeficiente da varia’vel educpea.
Assim, podemos olhar especificamente nos coeficientes para verificarmos o
quanto os mesmos influenciam em excesso do esperado para aquelas
observações com problemas. Podemos fazer gráficos destes coeficientes.

egen sdedupea=sd(DFeducpea)

gen sdeducpeai=sdedupea*(-2)

gen sdeducpeas=sdedupea*(2)
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
line DFeducpea sdeducpeas sdeducpeai seq
.4
.2
0
-.2
-.4

0 50 100 150
SEQ

Dfbeta educpea sdeducpeas


sdeducpeai

Os beta’s que estão fora do esperado são aquelas que estão fora dos valores
+- dois desvios padrões. Portanto, estas são as mais sérias e certamente
aquelas previstas anteriormente pelos testes. Faça para as demais variáveis.
Alguns autores recomendam que os valores de betas esteja entre +- 2/sqrt(n)
que para o nosso caso é +- 0.17, enquanto que o utilizado no gráfico é +-
0.19.
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
scatter DFeducpea DFatraescol DFsalmedpnad DFgini
seq, ylabel(-1(.5)2) yline(.19 -.19)
2
1.5
1
.5
0
-.5
-1

0 50 100 150
SEQ

Dfbeta educpea Dfbeta atraescol


Dfbeta salmedpnad Dfbeta gini

Os valores em geral para os quais devemos ter como limites para identificar
os problemas são os seguintes:

Medida Valor limite


leverage >(2k+2)/n
abs(rstu) >2
Cook's D > 4/n
abs(DFITS) > 2*sqrt(k/n)
abs(DFBETA) > 2/sqrt(n)
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
help regress
-------------------------------------------------------------------------------
help for regress (manual: [R] regress)
-------------------------------------------------------------------------------

<--output omitted-->

The syntax of predict following regress is

predict [type] newvarname [if exp] [in range] [, statistic]

where statistic is

xb fitted values; the default


pr(a,b) Pr(y |a>y>b) (a and b may be numbers
e(a,b) E(y |a>y>b) or variables; a==. means
ystar(a,b) E(y*) -inf; b==. means inf)
cooksd Cook's distance
leverage | hat leverage (diagonal elements of hat matrix)
residuals residuals
rstandard standardized residuals
rstudent Studentized (jackknifed) residuals
stdp standard error of the prediction
stdf standard error of the forecast
stdr standard error of the residual
(*) covratio COVRATIO
(*) dfbeta(varname) DFBETA for varname
(*) dfits DFITS
(*) welsch Welsch distance

Unstarred statistics are available both in and out of sample; type "predict ...
if e(sample) ..." if wanted only for the estimation sample. Starred statistics
are calculated for the estimation sample even when "if e(sample)" is not speci-
fied.

<--more output omitted here.-->

Alguns gráficos que também ajudam, pois separam a influência de cada


variável é o seguinte.
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
. avplot educpea, mlabel(estados)
.1

AM
.05

AM
AP AM
e( pdes | X )

AL PE
PE AC
SE RR
AC RR SP DFPA DF
AP AM
AL BA BAAL AM AC DF
BA
ACPE AP PE
SE
AL SERN RR RJRJ
RN ES MT BA PR MG SP PA
MS
RJ PAALRN SE GO RS ROPAAC PA
SP
0

RR
SE CE ES
BA
ROSPPERS RJ
SP DF MSRN CECE
PB GO
ES RJ
RSPR
PB
GO SC
MSMT PRCE
GO GO
MGMG
PR
MT RS RO
RS
DF
RO MSESMT PBMS PR CE
RN
AP AP
MG ES MG MT
RR
PB
MA RO
PI SC SC
MA SC PI MA
SC MAMA
PB PI PI
-.05

PI

-2 -1 0 1 2
e( educpea | X )
coef = .01048919, se = .00238917, t = 4.39
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
avplots
.1

.1
e( pdes | X )

e( pdes | X )
.05

.05
0

0
-.05

-.05
-2 -1 0 1 2 -1 -.5 0 .5 1 1.5
e( educpea | X ) e( atraescol | X )
coef = .01048919, se = .00238917, t = 4.39 coef = .0209017, se = .00454805, t = 4.6
.1

.1
.05

.05
e( pdes | X )

e( pdes | X )
0

0
-.05

-.05

-400 -200 0 200 400 -.15 -.1 -.05 0 .05 .1


e( salmedpnad | X ) e( gini | X )
coef = .00005032, se = .0000129, t = 3.9 coef = -.07459826, se = .06508349, t = -1.15

Procure refazer a regressão retirando ou estados ou observações com


problemas que você escolher. Use o comando avplots, mlabel(estados) para
ajudá-lo a decidir.
Faça um sumário do que você aprendeu, refaça como exercício os principais
comandos já utilizados.
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
3.1.5 Diagnóstico das Regressões

3.1.5.1 – Normalidade dos Resíduos

A normalidade dos resíuos implica que os testes t e F são válidos. No


entanto, devemos lembrar que em nada influência os coeficientes em si com
viés. Os comandos normalmente utilizados são kdensity, pnorm e qnorm
como anteriormente.

Predict r, residual

Kdensity r, normal
25
20 15
Density
10 5
0

-.1 -.05 0 .05 .1


Residuals

Kernel density estimate


Normal density
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
pnorm r 1.00
Normal F[(r-m)/s]
0.50 0.25
0.00 0.75

0.00 0.25 0.50 0.75 1.00


Empirical P[i] = i/(N+1)

qnorm r
.1
.05
Residuals
0
-.05

-.05 0 .05
Inverse Normal
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br

Faça sua análise dos gráficos acima.

Existe um comando denominado de IQR que singifica inter-quartile range.


O problema sério de outliers está se os valores forem 3 acima ou abaixo do
terceiro inter-quartile (complicado), mas o resultado é fácil de interpretar.

iqr r
mean= -1.9e-11 std.dev.= .0208 (n= 130)
median= -.0015 pseudo std.dev.= .0177 (IQR= .0239)
10 trim= -4.0e-04
low high
-------------------
inner fences -.046 .0494
# mild outliers 2 2
% mild outliers 1.54% 1.54%

outer fences -.0818 .0852


# severe outliers 0 0
% severe outliers 0.00% 0.00%

O resultado indica que temos dois problemas médios de outliers e nenhum


problema extremamente sério (severe).

Outro comando similar é o Swilk test, devido a Shapiro e Wilk. Este test
fornece diretamente o valor da probabilidade.

swilk r

Shapiro-Wilk W test for normal data


Variable | Obs W V z Prob>z
-------------+-------------------------------------------------
r | 130 0.98407 1.641 1.114 0.13262

Como vocês viram os testes acima são ligeiramente diferentes daqueles


aprendido nos livros. Portanto, aplique os testes específicos do livro para
confirmar os resultados acima.
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
3.1.5.2 – Verificando a Homocedasticidade

A forma mais tradicional é imprimir os resíduos versus os valores preditos


da variável.

Rvfplot, yline(0)
.1
.05
Residuals
0
-.05

.04 .06 .08 .1 .12


Fitted values

O comando yline(0) coloca uma linha no valor zero. A característica desta


distribuição parece indicar problemas de heterocedasticidade já que temos
valores bastante fora do esperado para os resíduos. Mas, devemos fazer dois
testes para confirmar.

hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of pdes

chi2(1) = 2.16
Prob > chi2 = 0.1413

Existe portanto uma probabilidade de 14% dos residuos serem


homocedásticos, o que é aceitável mínimamente pois excede os 10%.
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br

whitetst
White's general test statistic : 16.48795 Chi-sq(14) P-value = .2845

O teste de White é menos sensível a problemas de outiliers e, portanto,


melhora o resultado do teste anterior, pois a probabilidade aumenta para
28,45%.

3.1.5.3 – Verificando a Multicolinearidade

A colinearidade reflete a relação existe entre duas ou mais variáveis


independentes. Quanto maior for esta colinearidade maior será a
instabilidade do coeficiente, além de inflar o desvio padrão dos coeficientes.
Uma forma de verificar é utilizando o comando VIF-Variance Inflator
Factor.

vif
Variable | VIF 1/VIF
-------------+----------------------
atraescol | 2.42 0.412684
educpea | 1.80 0.554605
salmedpnad | 1.73 0.577685
gini | 1.43 0.698761
-------------+----------------------
Mean VIF | 1.85

O valor limite para considerar a variável como combinação linear de outra é


0.1 que implica em VIF=10. No nosso exemplo não temos aparentemente
este problema. Outro comando para certificar é de diagnóstico da
colinearidade.
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
collin educpea atraescol salmedpnad gini
Collinearity Diagnostics
SQRT R-
Variable VIF VIF Tolerance Squared
----------------------------------------------------
educpea 1.80 1.34 0.5546 0.4454
atraescol 2.42 1.56 0.4127 0.5873
salmedpnad 1.73 1.32 0.5777 0.4223
gini 1.43 1.20 0.6988 0.3012
----------------------------------------------------
Mean VIF 1.85
Cond
Eigenval Index
---------------------------------
1 4.7007 1.0000
2 0.2611 4.2431
3 0.0313 12.2597
4 0.0056 28.9786
5 0.0014 58.5842
---------------------------------
Condition Number 58.5842
Eigenvalues & Cond Index computed from scaled raw sscp (w/ intercept)
Det(correlation matrix) 0.2575

A informação adicional importante aqui é o condition number para valores


acima de 10 é uma clara indicação de instabilidade do coeficiente. Para
verificar este problema usamos dois outros diagnósticos.

coldiag educpea atraescol salmedpnad gini


condition number = 29.41

coldiag2 educpea atraescol salmedpnad gini


symmetric __000000[4,4]
__000008 __000009 __00000A __00000B
__000008 1
__000009 .94553689 1
__00000A .88774513 .78081192 1
__00000B .97658897 .98768415 .84302093 1

Condition number using scaled variables = 29.41

Ambos confirma o problema de instabilidade dos coeficientes, em especial


associados às variável atraescol salmedpnad e gini. Devemos estudar qual
variáveis podemos usar e/ou verificar os problemas associados de suas
combinações. Pode ser os problemas de outiliers???
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
3.1.5.4 – Verificando a Linearidade e a Especificação do Modelo

Alguns autores argumentam que o teste de especificação é na verdade um


teste de não linearidade das variáveis, já que não temos um teste específico
para linearidade, a especificação do modelo pode nos fornecer uma relação
que não a linear existente entre as variáveis. Mas este teste de especificação
é também de omissão de variáveis e, portanto, devemos estar atentos a este
problema. A linearide é investigada usando gráficos. Fizemos exemplo para
uma das variáveis.

twoway (scatter pdes educpea) (lfit pdes educpea)


(lowess pdes educpea)
.15
.1
.05
0

3 4 5 6 7 8
EDUCPEA

PDES Fitted values


lowess pdes educpea

Procure repetir o comando para as demais variáveis para identificar algum


problema de não-linearidade entre a dependente e a independente. Outro
comando é utilizar os resíduos contra a variável independente.
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
.25
Augmented component plus residual
.1 .15 .05 .2

3 4 5 6 7 8
EDUCPEA

A especificação do modelo pode ser facilmente testada. Este teste verifica se


existe variáveis omitidas e/ou variáveis irrelevantes no modelo. Os erros de
especificação afetam diretamente os coeficientes estimados, o que torna este
teste particularmente importante.

linktest

Source | SS df MS Number of obs = 130


-------------+------------------------------ F( 2, 127) = 24.64
Model | .021624777 2 .010812389 Prob > F = 0.0000
Residual | .055737496 127 .000438878 R-squared = 0.2795
-------------+------------------------------ Adj R-squared = 0.2682
Total | .077362273 129 .000599708 Root MSE = .02095

------------------------------------------------------------------------------
pdes | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
_hat | .9849054 1.117172 0.88 0.380 -1.225777 3.195588
_hatsq | .1022491 7.505794 0.01 0.989 -14.75036 14.95486
_cons | .0005381 .0407576 0.01 0.989 -.0801138 .08119
------------------------------------------------------------------------------

As variáveis _hat e _hatsq que é a previsão das variáveis dependente.


Espera-se que _hat seja significante uma vez que a mesma é o valor predito
da variável dependente, mas também pode não ser, e _hatsq não deve ser já
que é a variável depedente prevista ao quadrado. Ambas as variáveis não são
significantes o que rejeita a hipótese de especificação incorreta, a priori o
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
modelo parece estar ok. Mas, vamos fazer um teste adicional de
especificação.

ovtest
Ramsey RESET test using powers of the fitted values of pdes
Ho: model has no omitted variables
F(3, 122) = 0.32
Prob > F = 0.8132

O teste de Rtamsey acima confirma a hipótese de que não há variáveis


omitidas no modelo. Portanto, em cojunto os testes confirmam não existir
problemas de especificação.

Questão: Se tivessemos encontrado problemas, use gladder para verificar as


transformações a serem utilizadas.

3.1.5.5 – Verificando a Independência

A hipótese é de que os erros associados com uma observação não estão


corrrelacionados com os erros de qualquer outra observação. Um problema
potencial no nosso caso é a questão dos clusters (grupos). Exemplo estados
que compõem a mesma região tendem a possuir comportamentos similares.
Outra problema é que estamos trabalhando com dados que também tem
séries temporais. Ainda não estudaremos em separado estes dois problemas
que deixaremos para os estudos de dados em painéis. Para certificarmos que
não temos problemas de autocorrelação no tempo que viola a hipótese de
independência, vamos admitir que a nossa variável seq seja na verdade a
variável tempo, ou seja as nossas observações referem-se a uma série
temporal agora.
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
tsset seq
time variable: seq, 1 to 130

regress pdes educpea atraescol salmedpnad gini

Source | SS df MS Number of obs = 130


-------------+------------------------------ F( 4, 125) = 12.12
Model | .021624695 4 .005406174 Prob > F = 0.0000
Residual | .055737579 125 .000445901 R-squared = 0.2795
-------------+------------------------------ Adj R-squared = 0.2565
Total | .077362273 129 .000599708 Root MSE = .02112

------------------------------------------------------------------------------
pdes | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
educpea | .0104892 .0023892 4.39 0.000 .0057607 .0152176
atraescol | .0209017 .004548 4.60 0.000 .0119006 .0299028
salmedpnad | .0000503 .0000129 3.90 0.000 .0000248 .0000759
gini | -.0745983 .0650835 -1.15 0.254 -.2034066 .05421
_cons | -.034454 .0380365 -0.91 0.367 -.109733 .0408249
------------------------------------------------------------------------------

dwstat
Durbin-Watson d-statistic( 5, 130) = 1.644788

durbina
Durbin's alternative test for autocorrelation
---------------------------------------------------------------------------
lags(p) | chi2 df Prob > chi2
-------------+-------------------------------------------------------------
1 | 4.121 1 0.0423
---------------------------------------------------------------------------
H0: no serial correlation

Enquanto no primeiro test temos o resultado do DW no Segundo testamos a


sua significância usando um método alternativo. Se os dados fossem
realmente uma série temporal teríamos problemas de autocorrelação de
acordo com o resultado acima.
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br

Veja no help a opção help regdiag para verificar todos os diagnósticos após
regressão.

Aplique o exemplo de archlm e bgodfrey e interprete os resultados.

archlm
LM test for autoregressive conditional heteroskedasticity (ARCH)
---------------------------------------------------------------------------
lags(p) | chi2 df Prob > chi2
-------------+-------------------------------------------------------------
1 | 1.165 1 0.2805
---------------------------------------------------------------------------
H0: no ARCH effects vs. H1: ARCH(p) disturbance

bgodfrey

Breusch-Godfrey LM test for autocorrelation


---------------------------------------------------------------------------
lags(p) | chi2 df Prob > chi2
-------------+-------------------------------------------------------------
1 | 4.182 1 0.0409
---------------------------------------------------------------------------
H0: no serial correlation
Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
Exercícios Adicionais:

1)Considere o modelo e selelecione a regressão por ano, estimando os


coeficientes em separado. Depois compare os coeficientes.

2)Use os dados da aula1 (log do consumo e renda) e faça os diagnósticos de


outliers, autocorrelação e heterocedasticidade.

3) Fazer testes dos parâmetros para diferentes igualdades.

4)Se tiverem alguma sugestão estamos abertos para exercícios.


Prof. Dr. Joilson Dias
Programa de Mestrado em Economia
Departamento de Economia
Universidade Estadual de Maringá
Maringá-PR
01/08/2005 jdias@uem.br
Appendix:
anova analysis of variance and covariance
arch autoregressive conditional heterosce. family of estimators
arima autoregressive integrated moving average models
bsqreg quantile regression with bootstrapped standard errors
clogit conditional logistic regression
cnreg censored-normal regression
cnsreg constrained linear regression
ereg maximum-likelihood exponential distribution models
glm generalized linear models
glogit weighted least squares logit on grouped data
gprobit weighted least squares probit on grouped data
ivreg instrumental variable and two-stage least squares regression
lnormal maximum-likelihood lognormal distribution models
logistic logistic regression
logit maximum-likelihood logit regression
mlogit maximum-likelihood multinomial logit models
mvreg multivariate regression
nbreg maximum-likelihood negative binomial regression
nl nonlinear least squares
ologit maximum-likelihood ordered logit
oprobit maximum-likelihood ordered probit
poisson maximum-likelihood poisson regression
probit maximum-likelihood probit estimation
qreg quantile regression
reg3 three-stage least squares regression
regress linear regression
rreg robust regression using IRLS
sureg seemingly unrelated regression
tobit tobit regression
vwls variance-weighted least squares regression
zinb zero-inflated negative binomial model
zip zero-inflated poisson models

Você também pode gostar