Você está na página 1de 9

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

Nome: Tiago Henrique Lenhard.

Carto: 191984.

Disciplina: Estatstica Econmica.


Professor: Fernando Augusto Boeira Sabino da Silva.
Objetivos:
O presente trabalho tem por objetivo aplicar mtodos de Regresso Linear,
vistos na disciplina de Estatstica Econmica, em um banco de dados real, onde a
varivel dependente a eficincia do sono (es) e tambm realizar outra anlise onde a
varivel dependente a eficincia do sono entre os pacientes com insnia e com iaht
menor que cinco.
Anlise da varivel Eficincia do sono:
Primeiramente, foi rodado um modelo com todas as variveis independentes
solicitadas pelo mtodo dos mninos quadrados ordinrios (MQO). O resultado est na
tabela abaixo
Modelo inicial: MQO, usando as observaes 1-16597 (T = 4572)
Observaes ausentes ou incompletas foram ignoradas: 12025
Varivel dependente: es

Const

Coeficiente
0,916998

Erro Padro
0,0213575

razo-t
42,9356

p-valor
<0,00001

***

Idade

-0,00170891

0,000136535

-12,5162

<0,00001

***

Sexo

0,0140101

0,00417281

3,3575

0,00079

***

Somatizacao

0,045094

0,00726572

6,2064

<0,00001

***

Obsess_Comp

0,0287625

0,00634711

4,5316

<0,00001

***

Sens_Interp

0,0293248

0,0064247

4,5644

<0,00001

***

DEPRESSAO

0,0279311

0,00875597

3,1899

0,00143

***

ANSIEDADE

0,0108732

0,00851261

1,2773

0,20156

HOSTILIDADE

0,0142194

0,0048341

2,9415

0,00328

ANS_FOBICA

0,00093187

0,00565297

0,1648

0,86907

IDEA_PARAN

0,021076

0,00555544

3,7938

0,00015

***

PSICOTIC

0,0275731

0,00838042

3,2902

0,00101

***

IND_GL_S

-0,223675

0,0429756

-5,2047

<0,00001

***

-0,000591335

0,000144548

-4,0909

0,00004

***

IMC

0,00174314

0,000676392

2,5771

0,00999

***

cos_w

0,00168446

0,00251589

0,6695

0,50319

sin_w

-0,00114444

0,00243053

-0,4709

0,63776

0,12288

0,102459

1,1993

0,23047

PRES_ART_SIST

PERCER_ALTURA

***

CINTURA_ALTURA

0,000297268

0,0469576

0,0063

0,99495

Mdia var. dependente


Soma resd. Quadrados

0,842933
61,29525

D.P. var. dependente


E.P. da regresso

0,120616
0,116028

R-quadrado

0,078264

R-quadrado ajustado

0,074620

F(18, 4553)

21,47727

P-valor(F)

7,13e-68

3369,854

Critrio de Akaike

-6701,707

Critrio Hannan-Quinn

-6658,709

Log da verossimilhana
Critrio de Schwarz

-6579,581

Para verificar se o modelo est bem especificado usaremos o teste RESET (NA
pg. 86), para isso acrescentam-se na regresso original quadrados e cubos das varveis
explicativas, caso o modelo esteja corretamente especificado estas novas variveis
teoricamente no sero significativas para o modelo.
No estudo em questo verificou-se que mesmo com todas as variveis
dependentes o modelo no est corretamente especificado (ET = 22,55; pvalor
<0,001). Fato esse que persistir com a seleo do modelo final.
Mesmo colocando os dados como srie temporal, no abriu a opo para
verificar a autocorrelao, pois h muitos missings no banco de dados.
Procurando por pontos de influncia e alavancagem (MADALLA cap. 12) no
encontramos nenhuma observao que pudesse comprometer o estudo.
A multicolinearidade (MADALLA CAP 7) foi observada, logo o determinante
bem prximo de zero, ou seja, teremos problemas com a inverso da matriz XX.
Para tanto a varivel IND_GL_S foi excluda do modelo (obteve um VIF = 193,331)
porque estava influenciando as outras variveis (principalmente a varivel Ansiedade
que passou a ser significativa aps a excluso dessa varivel). Com a excluso, o
problema da multicolinearidade eliminado e a varincia do modelo reduzida, alm
de reduzir consideravelmente os valores de AIC e BIC (quanto menor a medida
melhor). Com o sentido de eliminar variveis que no contribuem para o modelo,
algumas variveis foram omitidas, utilizando = 0,10, obteve-se um modelo que no
acrescentasse ou diminusse muito os critrios do AIC e BIC a partir de novas
excluses, o modelo final dado a seguir:

Modelo final: MQO, usando as observaes 1-16597 (T = 4612)


Observaes ausentes ou incompletas foram ignoradas: 11985
Varivel dependente: es

Const
Idade

Coeficiente
0,932263
-0,00171977

Erro Padro
0,016427
0,00012159

razo-t
56,7518
-

p-valor
<0,00001
<0,00001

***
***

Sexo
Somatizacao
ANSIEDADE
PRES_ART_SIST

0,0186213
0,0126591
-0,0249253
-

6
0,00384513
0,00363819
0,00404196
0,00014326

14,1433
4,8428
3,4795
-6,1666
-3,9346

<0,00001
0,00051
<0,00001
0,00008

***
***
***
***

IMC

0,000563675
0,00187291

2
0,00031328

5,9784

<0,00001

***

1
Mdia var. dependente
Soma resd. Quadrados
R-quadrado
F(6, 4605)
Log da verossimilhana
Critrio de Schwarz

0,842914
62,31448
0,069320
57,16550
3381,394
-6703,733

D.P. var. dependente


E.P. da regresso
R-quadrado ajustado
P-valor(F)
Critrio de Akaike
Critrio Hannan-Quinn

0,120503
0,116327
0,068107
1,88e-68
-6748,788
-6732,932

Teste RESET para especificao Hiptese nula: a especificao adequada


Estatstica de teste: F(2, 4603) = 19,4681
com p-valor = P(F(2, 4603) > 19,4681) = 3,80782e-009
Teste de White para a heteroscedasticidade:
Hiptese nula: sem heteroscedasticidade
Estatstica de teste: LM = 118,519
com p-valor = P(Qui-quadrado(26) > 118,519) = 8,96973e-014
Teste de Breusch-Pagan para a heteroscedasticidade Hiptese nula: sem heteroscedasticidade
Estatstica de teste: LM = 214,494
com p-valor = P(Qui-quadrado(6) > 214,494) = 1,55291e-043

Como podemos ver ainda temos problemas de especificao do modelo que


observado pelo teste RESET (p-valor <0,0001).
H problemas de heterocedasticidade, como vemos no teste de White (NA pg.
85) (pvalor <0,0001) e Breusch-Pagan (NA pg. 23) (pvalor <0,0001).
Portanto esse modelo no o mais adequando para explicar a eficincia do sono.
Como soluo, pode-se utilizar o modelo MQO com erro padro robusto e pelo
mtodo MQG.
Erro Padro Robusto:
3

No foi possvel realizar, pois h (muitos) dados faltantes.


Mnimos Quadrados Generalizados
Usando um modelo que corrige a heterocedasticidade obtemos o modelo com
todas as variveis:
Modelo Inicial MQG: Heteroscedasticidade-corrigida, usando as observaes 1-16597 (T = 4572)
Observaes ausentes ou incompletas foram ignoradas: 12025
Varivel dependente: es

Const

Coeficiente
0,920872

Erro Padro
0,0212015

razo-t
43,4343

p-valor
<0,00001

***

Idade

-0,00139614

0,000133311

-10,4728

<0,00001

***

Sexo

0,0169917

0,00405616

4,1891

0,00003

***

Somatizacao

0,0519579

0,00779621

6,6645

<0,00001

***

Obsess_Comp

0,0331941

0,00654417

5,0723

<0,00001

***

Sens_Interp

0,0344193

0,00661801

5,2008

<0,00001

***

DEPRESSAO

0,0402233

0,00927964

4,3346

0,00001

***

ANSIEDADE

0,0104426

0,00880243

1,1863

0,23555

HOSTILIDADE

0,0186758

0,00488853

3,8203

0,00014

ANS_FOBICA

0,00492123

0,00603277

0,8157

0,41469

IDEA_PARAN

0,0249919

0,00560338

4,4601

<0,00001

***

PSICOTIC

0,028931

0,00859963

3,3642

0,00077

***

IND_GL_S

-0,265949

0,0474766

-5,6017

<0,00001

***

PRES_ART_SIST

***

-0,000506969

0,000147732

-3,4317

0,00061

***

IMC

0,00126548

0,000621075

2,0376

0,04165

**

cos_w

0,00311038

0,00239827

1,2969

0,19472

sin_w

-0,0008031

0,00225788

-0,3557

0,72209

PERCER_ALTURA

0,0477049

0,102402

0,4659

0,64134

CINTURA_ALTURA

0,00355166

0,0435434

0,0816

0,93500

Estatsticas baseadas nos dados ponderados:


Soma resd. Quadrados
R-quadrado
F(18, 4553)
Log da verossimilhana
Critrio de Schwarz

19931,06
0,062706

E.P. da regresso
R-quadrado ajustado

16,92231

P-valor(F)

4,33e-52

Critrio de Akaike

19744,26

Critrio Hannan-Quinn

19787,26

-9853,130
19866,39

2,092263
0,059001

Estatsticas baseadas nos dados originais:


Mdia var. dependente
Soma resd. Quadrados

0,842933
61,48869

D.P. var. dependente


E.P. da regresso

0,120616
0,116211

A multicolinearidade foi observada, para tanto, a varivel IND_GL_S foi


excluda do modelo (obteve um VIF = 193,331) porque estava influenciando as outras
4

variveis. Ento foram omitidas algumas variveis usando a mesma ideia do mtodo
anterior, e utilizando = 0,10, vale ressaltar que na hora de omitir tanto para a varivel
Cosseno w e Depresso, o AIC e BIC pioraram, o que significa que mesmo no sendo
significativas, essas variveis devem permanecer no modelo pois ajudam na explicao
do mesmo. O modelo final, mais adequado para explicar a eficincia do sono :
Modelo Final MQG: Heteroscedasticidade-corrigida, usando as observaes 1-16597 (n = 4572)
Observaes ausentes ou incompletas foram ignoradas: 12025
Varivel dependente: es

const
idade
sexo
Somatizacao
Sens_Interp
DEPRESSAO
ANSIEDADE
ANS_FOBICA
PRES_ART_SIST
IMC
cos_w

Coeficiente
0,92563
-0,00141077
0,018822
0,0128304
0,0122532
-0,00250724
-0,024366
-0,0145869
-0,000497897
0,00132793
0,00277403

Erro Padro
0,0166214
0,000122879
0,00378649
0,00352987
0,00397531
0,00508853
0,00549361
0,00477432
0,000146454
0,000284966
0,002381

razo-t
55,6890
-11,4810
4,9708
3,6348
3,0823
-0,4927
-4,4353
-3,0553
-3,3997
4,6599
1,1651

p-valor
<0,00001
<0,00001
<0,00001
0,00028
0,00207
0,62223
<0,00001
0,00226
0,00068
<0,00001
0,24405

***
***
***
***
***
***
***
***
***

Estatsticas baseadas nos dados ponderados:


Soma resd. Quadrados
R-quadrado
F(10, 4561)
Log da verossimilhana
Critrio de Schwarz

19501,39
0,056068
27,09134
-9803,310
19699,32

E.P. da regresso
R-quadrado ajustado
P-valor(F)
Critrio de Akaike
Critrio Hannan-Quinn

2,067772
0,053998
8,21e-51
19628,62
19653,51

Estatsticas baseadas nos dados originais:


Mdia var. dependente
Soma resd. Quadrados

0,842933
61,84589

D.P. var. dependente


E.P. da regresso

0,120616
0,116446

Com esse modelo percebemos que h indcios, mesmo que no significativos, de


que a sazonalidade interfere na eficincia do sono assim como a depresso tambm
pode influenciar.

Anlise da varivel Eficincia do sono restrito a indivduos com Insnia e com


IAHT <5:
Mnimos Quadrados Ponderados:
Assumindo a heterocedasticidade do modelo, para a realizao das anlises ser
utilizado o mtodo do MQP, que ser ponderado pela varivel insnia. Utilizando a
componente principal PC1 no modelo, obtiveram-se os seguintes resultados utilizando
todas as variveis:
Modelo Inicial MQP: WLS, usando as observaes 1-1012 (n = 302)
Observaes ausentes ou incompletas foram ignoradas: 710
Varivel dependente: es
Varivel usada como peso: insonia

Const
Idade
Sexo
PRES_ART_SIST
IMC
cos_w
sin_w
PERCER_ALTURA
CINTURA_ALTURA
PC1

Coeficiente
1,30302
-0,00160772
-0,0266617
-0,00150941
0,00819899
0,00613627
0,00866827
-1,97796
-0,133072
-0,00274912

Erro Padro
0,160909
0,000780875
0,027383
0,00101957
0,00484823
0,0150338
0,014179
0,923051
0,330597
0,00343881

razo-t
8,0978
-2,0589
-0,9737
-1,4804
1,6911
0,4082
0,6113
-2,1429
-0,4025
-0,7994

p-valor
<0,00001
0,04039
0,33103
0,13983
0,09188
0,68345
0,54145
0,03295
0,68760
0,42469

***
**

**

Estatsticas baseadas nos dados ponderados:


Soma resd. quadrados
R-quadrado
F(9, 292)
Log da verossimilhana
Critrio de Schwarz

9,007095
0,091973
3,286261
101,8551
-146,6060

E.P. da regresso
R-quadrado ajustado
P-valor(F)
Critrio de Akaike
Critrio Hannan-Quinn

0,175631
0,063986
0,000785
-183,7103
-168,8644

Estatsticas baseadas nos dados originais:


Mdia var. dependente
Soma resd. quadrados

0,757781
9,007095

D.P. var. dependente


E.P. da regresso

0,181535
0,175631

Fazendo o teste para verificar se h multicolinearidade no modelo, verificou-se


que no h problema de multicolinearidade (VIF<10). Omitindo as variveis no
significativas a 10 % (ou = 0,1) e seguindo a receita de selecionar o modelo que
minimiza o AIC e BIC, obteve-se o seguinte resultado:
Modelo final MQP: WLS, usando as observaes 1-1012 (n = 302)
Observaes ausentes ou incompletas foram ignoradas: 710
Varivel dependente: es
Varivel usada como peso: insonia
Const
Idade
PRES_ART_SIST
IMC
PERCER_ALTURA

Coeficiente
1,36057
-0,00137685
-0,00186705
0,00754551
-2,39239

Erro Padro
0,138289
0,00068217
0,000959289
0,0031155
0,757858

razo-t
9,8387
-2,0183
-1,9463
2,4219
-3,1568

p-valor
<0,00001
0,04445
0,05256
0,01604
0,00176

***
**
*
**
***

Estatsticas baseadas nos dados ponderados:


Soma resd. quadrados
R-quadrado
F(4, 297)
Log da verossimilhana
Critrio de Schwarz

9,066378
0,085997
6,986015
100,8645
-173,1769

E.P. da regresso
R-quadrado ajustado
P-valor(F)
Critrio de Akaike
Critrio Hannan-Quinn

0,174718
0,073687
0,000022
-191,7291
-184,3061

Estatsticas baseadas nos dados originais:

Mdia var. dependente


Soma resd. quadrados

0,757781
9,066378

D.P. var. dependente


E.P. da regresso

0,181535
0,174718

Pode-se ainda omitir a varivel Pres_ART_SIST, porm muda muito pouco os


critrios, foi decido deixar essa varivel no modelo pois acredita-se que ela interfere no
na eficincia do sono restrito aos indivduos com insnia e com iaht<5.
Um porm dessa anlise que a varivel peso binria, ou seja quando insnia
= 1 o MQP se trona igual ao MQO, ou seja, todos os problemas de heterocedasticidade,
especificao sero vlidos novamente, o que torna essa anlise inapropriada para essa
varivel peso. O MQG mais adequado nesse caso tambm.

Mnimos Quadrados Generalizados:


Usando um modelo que corrige a heterocedasticidade tambm, obtemos o
modelo com todas as variveis:
Modelo Inicial MQG: Heteroscedasticidade-corrigida, usando as observaes 1-1012 (n = 302)
Observaes ausentes ou incompletas foram ignoradas: 710
Varivel dependente: es

const
idade
sexo
PRES_ART_SIST
IMC
cos_w
sin_w
PERCER_ALTURA
CINTURA_ALTURA
PC1

Coeficiente
1,29651
-0,0014478
-0,0103246
-0,000764157
0,0106062
0,00592858
0,00601441
-2,52818
-0,207037
-0,00314564

Erro Padro
0,14778
0,000797351
0,0270518
0,00093671
0,00384915
0,0135649
0,0121646
0,882032
0,279362
0,00296179

razo-t
8,7732
-1,8158
-0,3817
-0,8158
2,7555
0,4371
0,4944
-2,8663
-0,7411
-1,0621

p-valor
<0,00001
0,07043
0,70299
0,41529
0,00623
0,66240
0,62138
0,00445
0,45922
0,28908

***
*

***

***

Estatsticas baseadas nos dados ponderados:


Soma resd. Quadrados
R-quadrado
F(9, 292)

1140,910
0,088582
3,153323

E.P. da regresso
R-quadrado ajustado
P-valor(F)

1,976670
0,060490
0,001198

Log da verossimilhana
Critrio de Schwarz

-629,2217
1315,548

Critrio de Akaike
Critrio Hannan-Quinn

1278,443
1293,289

Estatsticas baseadas nos dados originais:


Mdia var. dependente
Soma resd. Quadrados

0,757781
9,062169

D.P. var. dependente


E.P. da regresso

0,181535
0,176167

Fazendo o teste de inflao da varincia para verificar se h multicolinearidade


no modelo, nenhuma varivel obteve um VIF maior que 10, portanto no h problemas
de multicolinearidade. Omitindo as variveis no significativas a 10 % (ou = 0,1). O
modelo que minimiza o AIC e BIC ser mostrado a seguir:

Modelo Final MQG: Heteroscedasticidade-corrigida, usando as observaes 1-1012 (n = 302)


Observaes ausentes ou incompletas foram ignoradas: 710
Varivel dependente: es

Const
Idade
IMC
cos_w
PERCER_ALTURA

Coeficiente
1,2097
-0,00160571
0,00790148
0,00930156
-2,72124

Erro Padro
0,116725
0,000739567
0,00248065
0,01359
0,74003

razo-t
10,3637
-2,1711
3,1852
0,6844
-3,6772

p-valor
<0,00001
0,03071
0,00160
0,49423
0,00028

***
**
***
***

Estatsticas baseadas nos dados ponderados:


Soma resd. quadrados
R-quadrado
F(4, 297)
Log da verossimilhana
Critrio de Schwarz

1097,289
0,068329
5,445534
-623,3352
1275,222

E.P. da regresso
R-quadrado ajustado
P-valor(F)
Critrio de Akaike
Critrio Hannan-Quinn

1,922128
0,055781
0,000304
1256,670
1264,093

Estatsticas baseadas nos dados originais:


Mdia var. dependente
Soma resd. quadrados

0,757781
9,189615

D.P. var. dependente


E.P. da regresso

0,181535
0,175902

Aps a omisso de algumas variveis, chegamos nesse modelo final, qualquer


uma das variveis acima que for omitida vai implicar num aumento de pelo menos um
dos critrios, normalmente o AIC.
Vale ressaltar que mesmo no sendo significativa a sazonalidade interfere na
eficincia do sono para indivduos insone com iaht < 5.