Você está na página 1de 25

8 USO DE VARIVEIS ESPECIAIS: DUMMY Em muitas situaes concretas, nos deparamos com fenmenos que no podem ser medidos,

, quantificados, mas apenas qualificados. voz corrente que em nosso pas, assim como em muitos outros, as mulheres mesmo tendo as mesmas qualificaes profissionais do que os homens tm rendimentos menores. De forma semelhante, pessoas negras tm menor remunerao do que as brancas obviamente, consideradas as mesmas qualificaes. Em vrios pases, seguro de vida de fumantes mais caro do que os de no fumantes todas as demais caractersticas constantes. Sabe-se tambm que em perodos de guerra o consumo agregado se eleva como conseqncia mesmo do que se convencionam chamar esforo de guerra. Note que nessa situao, o consumo familiar se reduz, mas aumenta o consumo para a guerra. Nesses casos, nosso modelo deve ser ajustado, pois, evidentemente no estamos lidando com uma varivel que preenche os requisitos do modelo. Para essas situaes, podemos atribuir o valor 1 presena do atributo e valor 0 sua ausncia. Assim, por exemplo, podemos criar uma varivel, digamos Z, para o atributo tabagismo. Nesse caso, z = 1 se o indivduo fumante e z = 0 se no fumante. De forma similar, para os casos anteriormente citados, podese ter: z = 0 se o indivduo do sexo feminino e z = 1 se do sexo masculino; z = 0 se o indivduo negro e z = 1 se for branco; z = 0 se o perodo de paz e z = 1 se o perodo for de guerra. Note que esse tipo de varivel poder assumir apenas dois valores: zero ou um. Por isso chamada de varivel binria. Nos manuais de econometria so tambm chamados de varivel DUMMY ou qualitativa. Repare que algumas questes surgem imediatamente quando nos defrontamos com situaes nas quais um atributo pode ter grande importncia na explicao do fenmeno estudado. O que acontece quando todas as variveis independentes de um modelo, so dummies? E quando algumas forem e outras no? o que veremos a seguir.

8.1 Regresso Com Todas as Variveis Independentes Dummies Suponha uma pesquisa sobre salrio oferecido a economistas que entram no mercado de trabalho. Suponha ainda que esses salrios so normalmente distribudos com mdia igual a 1 para economistas com doutorado e 0 para os no doutores, avulsos com varincia . O que podemos esperar sobre 0 e 1? razovel imaginar que 1>0>0. Nesse caso, nosso modelo economtrico pode ser expresso por: Y = 0 + 1X + Onde: Y = salrio dos economistas
129
2

X = varivel dummy:

X = 1 se doutor

X = 0 se no doutor = termo aleatrio

Observe que o salrio mdio de economistas sem doutorado : 0 = E (Y/X=0) = E ( 0 + 1.0 + ) = E ( 0) + E ( 1.0) + E () = 0 = 0 + 0 + 0 => 0 = 0 O salrio mdio de economistas com doutorado, por sua vez, ser dado por: 1 = E(Y/X=1) = E ( 0 + 1.1 + ) = E ( 0) + E ( 1) + E () = 1 = 0 + 1 + 0 => 1 = 0 + 1

O resultado obtido significa que 0 est medindo o salrio mdio de um economista que no tem doutorado e 1 mede a diferena entre o salrio mdio de um doutor e de um no doutor. Suponha agora que na pesquisa mencionada foi coletada no apenas a informao sobre doutorado, mas tambm sobre mestrado. Nesse caso, podemos estar interessados em saber a diferena de salrios para todos os nveis de instruo: graduados, mestres e doutores. Note que temos agora trs atributos e no dois como havamos tratado. Como representar esses trs atributos? Nesse caso, necessitamos de duas variveis dummies: Z1 e Z2, que sero construidas da seguinte forma: Z1 = 1 se mestre Z1 = 0 se no mestre Z2 = 1 se doutor Z2 = 0 se no doutor Podemos assim montar o seguinte quadro: Instruo Graduao Mestre doutor Nosso modelo ser ento: Y = 0 + 1 Z1 + 2 Z2 + Onde: Y = salrio dos economistas Z1 = dummy de (Z1 = 1 se mestre; Z1 = 0 se no mestre) Z2 = dummy de (Z2 = 1 se doutor; Z2 = 0 se no doutor)
130

Z1 0 1 0

Z2 0 0 1

Suponha que os salrios so normalmente distribuidos com mdia 0 se graduado, 1 se doutor e 2 se mestre e que as varincias sejam constantes . Nesse caso, os salrios mdios sero: 0 = E (Y/graduado) = E ( 0 + 1.0 + 2.0 + ) = 0 1 = E (Y/mestre) = E ( 0 + 1.1 + 2.0 + ) = 0 + 1 2 = E (Y/doutor) = E ( 0 + 1.0 + 2.1 + ) = 0 + 2 Observe que: 0 = 0 indicando que o intercepto mede o salrio mdio de um graduado; 1 = 0 + 1 => 1 = 1 - 0 mede a diferena entre o salrio mdio de um mestre e de um graduado; e 2 = 0 + 2 => 2 = 2 - 0 mede a diferena entre o salrio mdio de um doutor e de um graduado. Note ainda que: A diferena entre o salrio mdio de um mestre ( 1+ 0) e o de um graduado ( 0) : 1 + 0 - 0 = 1; A diferena entre o salrio mdio de um doutor ( 0+ 2) e o de um mestre ( 1+ 0) : 0 + 2 - 1 - 0 = 2 - 1.
2

Alguns dos senhores poderiam perguntar: seria incorreto usarmos uma varivel qualitativa com trs valores, digamos: R = 0 se graduado R = 1 se mestre R = 2 se doutor Nosso modelo seria: Y = 0 + 1. R + E (Y/graduado) = E (Y/R = 0) = 0 = 0 E (Y/mestre) = E (Y/R = 1) = 0 + 1 = 1 E (Y/doutor) = E (Y/R = 2) = 0 + 2 1= 2 Note que a diferena entre o salrio mdio de mestre e o de graduao ser: 1

- 0 = 0 + 1 - 0 = 1 (exatamente igual ao obtido no caso anterior), mas a diferena entre o


131

salrio mdio de um doutor (2 1 + 0) e o de um mestre ( 1 + 0) ser: 2 1 + 0 - 1 - 0 = 1 que diferente da encontrada no caso anterior. Na verdade, utilizando uma nica varivel representando as trs categorias estamos supondo que a diferena de salrios mdios entre as trs categorias a mesma: 1, o que pode no ser verdadeiro. Nota: observe que se soubermos que a diferena salarial entre n categorias constante, ento podemos usar apenas uma varivel dummy, assumindo n valores consecutivos. Ainda sobre esse tpico, alguns dos senhores poderiam perguntar se poderamos utilizar trs variveis binrias; posto que estamos tratando de trs categorias? Nessa hiptese, teramos: Z1 = 1 se doutor Z2 = 1 se mestre Z3 = 1 se graduado Z1 = 0 se no doutor Z2 = 0 se no mestre Z3 = 0 se no graduado

Nesse caso, a soluo seria indeterminada, posto que Z3 = 1 (Z1 + Z2).

8.2 Regresso Com Variveis Independentes Quantitativas e Qualitativas Em economia, modelos contendo apenas variveis independentes qualitativas so muito raros. Em geral, encontramos situaes em que a varivel dependente explicada por uma ou mais variveis independentes quantitativas e uma ou vrias variveis qualitativas (dummies). Como dito no incio, certos fenmenos podem ser adequadamente descritos com a incluso de variveis dummies. Assim, por exemplo, podemos afirmar que a renda de um indivduo depende de sua escolaridade (anos de estudo). Mas a incorporao de uma varivel binria indicativa do gnero, alm de refletir mais adequadamente a realidade, pode nos oferecer resultados estatisticamente mais slidos. Como esse, existem inmeros outros fenmenos que podem ser mais bem descritos com a incluso de variveis qualitativas. Presume-se, por exemplo, que o consumo agregado mdio de um pas dependa no apenas da renda, como da ocorrncia de perodos de paz ou de guerra. Tomemos um modelo dado por: C = 0 + 1X + 2Z + , onde: C = consumo agregado X = renda Z = dummy de caracterizao de perodo: Z = 1 se perodo de guerra Z = 0 se perodo de paz = termo aleatrio
132

Temos ento: E (Y/guerra) = E ( 0 + 1X + 2 . 1 + ) = ( 0 + 2) + 1X E (Y/paz) = E ( 0 + 1X + 2 . 0 + ) = 0 + 1X Note que, em tempos de guerra, o intercepto da funo consumo deslocada de 0 para 0 + 2. Isso quer dizer que a ocorrncia da guerra afeta o intercepto da funo consumo. Essa especificao que fizemos chamada forma aditiva e graficamente representada por: consumo guerra paz Note que as retas so paralelas, ocorrendo apenas o deslocamento do intercepto.

renda O efeito de uma guerra, porm, pode afetar o consumo agregado de forma diferente. Se considerarmos que as condies de guerra afetam a declividade (propenso marginal) e no o intercepto, podemos especificar o modelo por: C = 0 + 1X + 2 X.Z + Essa especificao denominada forma multiplicativa. Note que: E (C/guerra) = 0 + 1X + 2 X.1 = 0 + ( 1 + 2)X E (C/paz) = 0 + 1X + 2 X.0 = 0 + 1X Nesse caso, a alterao ocorre no coeficiente angular da funo, alternando a inclinao da reta. Graficamente, teremos:
Consumo guerra paz

Renda

O efeito da guerra pode influenciar o intercepto e a declividade simultaneamente. Nesse caso, teremos uma forma aditiva e multiplicativa. O modelo ento ser: C = 0 + 1X+ 2Z+ 3 X.Z
133

E teremos: E (C/guerra) = E ( 0 + 1X + 2.1 + 3 X.1) = 0 + 1X + 2 + 3X = ( 0 + 2) + ( 1 + 3)X E (C/paz) = E ( 0 + 1X + 2.0 + 3 X.0) = 0 + 1X Graficamente, teremos: Consumo guerra Nota: Os valores obtidos nessa regresso sero os mesmos caso fossem rodadas duas regresses: uma para o perodo de guerra e outra para o perodo de paz. No entanto, a paz estimao de 2 ser diferente, afetando os intervalos de confiana e os testes de hiptese. Portanto, afetando os testes ts e F. Renda

8.2.1 Regresso Com Vrias Variveis Dummies A regresso com uso de variveis dummies no se restringe a apenas uma varivel. A tcnica de variveis dummy pode ser estendida para manipular vrias delas. Considere a seguinte regresso: Yi = 0 + 1Xi + 2D1i + 3D2i + i Sendo: Yi = salrio de um professor universitrio Xi = anos de experincia de ensino D1i = 1 se homem 0 se mulher D2i = 1 se branco 0 no branco Observe que cada uma das variveis dummy tem apenas duas categorias (D1 = homem ou mulher e D2 = branco ou no branco). Note que a categoria omitida (D1 = 0 e D1 = 0) professora no branca.
15

15

No livro de Gujarati est incorretamente informado que se trata de professora negra.

134

Supondo, como feito at aqui, que E (i)=0, pode se obter a seguinte regresso: E (Yi / D1 = 0; D2 = 0; Xi) = 0 + 1Xi que corresponde ao salrio mdio de professora no branca

E (Yi / D1 = 0; D2 = 1; Xi) = 0 + 1Xi + 3 = ( 0 + 3) + 1Xi que corresponde ao salrio mdio de professora branca

E (Yi / D1 = 1; D2 = 0; Xi) = 0 + 1Xi + 2 = ( 0 + 2) + 1Xi que corresponde ao salrio mdio de professor no branco e, por fim:

E (Yi / D1 = 1; D2 = 1; Xi) = 0 + 1Xi + 2 + 3 = ( 0 + 2+ 3) + 1Xi que corresponde ao salrio mdio de professor branco. Supe-se aqui que as regresses se diferenciam somente quanto ao intercepto. Os resultados dessa regresso permitiro testar uma srie de hipteses quanto aos interceptos de cada categoria. Supondo-se que: (a) o salrio mdio mais reduzido seja dado pelo grupo de professoras no brancas; (b) seguindo, sucessivamente, por salrio mdio de professores no brancos, professoras brancas e professores brancos, ter-se-:

Yi

( ) Y = ( + )+ X Y = ( + )+ X
i 0 3 1 i 0 2 1

Yi = 0 + 2 + 3 + 1 X i (professor branco)
i

(professora branca) (professor no branco) (professora no branca)

Yi = 0 + 1 X i

Xi

Nesse caso, os coeficientes 0 , 2 e 3 sero estatisticamente significativos, sendo 0 , 2 e 3 > 0 e 3 > 2 .


Considere o seguinte conjunto de dados extrados da Pesquisa Nacional por Amostra de Domiclio 1999 (PNAD/1999) realizada pelo IBGE. So informaes sobre renda, escolaridade, gnero e cor do chefe do domiclio pesquisado pelo IBGE.

135

Renda 450 450 720 90 90 1350 720 270 450 720 1350 270 720 720 90 90 90 270 90 270 90 450 270 270 450 2700 2700 450 270 2700 1350 270 2700 270 450 2700 450 720 1350 450

Escolar 8 11 9 3 8 10 5 2 6 2 8 4 9 9 1 2 3 2 2 5 0 7 1 3 7 17 15 2 4 5 9 5 7 6 4 12 2 7 15 7

Gnero 0 1 1 0 1 1 1 1 1 1 1 1 1 0 1 0 0 1 0 1 0 1 1 0 0 1 1 1 0 1 1 0 1 0 0 1 1 1 1 1

Cor 1 0 1 0 0 1 0 0 1 1 1 0 0 1 0 1 0 1 0 1 0 0 1 1 1 1 1 1 0 1 0 0 1 1 1 1 0 1 0 0

136

Suponha que estejamos interessados em verificar: a) o efeito da escolaridade (medido em anos de estudo) na renda do chefe do domiclio; b) se h ou no diferena de rendimento mantidos as demais caractersticas constantes entre chefes homens e mulheres; e c) se h ou no diferena de rendimento mantidas as outras caractersticas constantes entre brancos e no brancos. Admita a hiptese de que se houver diferena entre homens e mulheres e entre brancos e no brancos essa ser somente de intercepto deslocamento paralelo pode-se construir o seguinte modelo de regresso: Yi = 0 + 1Xi + 2D1i + 3D2i + i Onde: Yi = rendimento do chefe do domiclio (em R$) Xi = anos de estudo do chefe do domiclio D1i = 1 se homem 0 se mulher D2i = 1 se branco 0 no branco Rodada a regresso, a reta estimada : Yi = - 445,39 + 109,25Xi + 415,01D1i + 467,46D2i Ora, se os coeficientes estimados forem estatisticamente significativos esse resultado poderia ser interpretado da seguinte forma: (a) cada ano de escolaridade acrescenta R$109,25 ao salrio do indivduo; (b) o fato do chefe do domiclio ser homem todas as demais caractersticas constantes representa um adicional de rendimento (sobre a mulher) de R$415,01; (c) o fato do chefe do domiclio ser branco toda as demais caractersticas constantes representa um acrscimo de rendimento (sobre os no brancos) de R$467,46.

Yi = - 445,39 + 109,25Xi + 415,01D1i + 467,46D2i


(202,51) (23,48) (200,07) (181,53)

R=0,57

137

Como fizemos anteriormente, poder-se-ia admitir a hiptese de que esses atributos expressos pelas variveis dummies (gnero e cor) afetariam no apenas o intercepto, mas tambm a declividade da reta. Nesse caso, nosso modelo seria expresso por: Yi = 0 + 1Xi + 2D1i + 3D2i + 4D1iXi + 5D2iXi + i E os coeficientes, estatisticamente significativos, indicariam as diferenas de intercepto e de declividade.

8.3 Teste de Estabilidade Estrutural dos Modelos Como mencionado anteriormente, em certos modelos, as diferenas no intercepto podem ter pouca ou nenhuma importncia ou significado. Vejamos um exemplo em que essa questo se aplica. Suponha o seguinte conjunto de dados referente a poupana e renda pessoal no Reino Unido no perodo 1946/1963.

Ano 1946 1947 1948 1949 1950 1951 1952 1953 1954

Poupana 0,36 0,21 0,08 0,20 0,10 0,12 0,41 0,50 0,43

Renda 8,8 9,4 10,0 10,6 11,0 11,9 12,7 13,5 14,3

Ano 1955 1956 1957 1958 1959 1960 1961 1962 1963

Poupana 0,59 0,90 0,95 0,82 1,04 1,53 1,94 1,75 1,99

Renda 15,5 16,7 17,7 18,6 19,7 21,1 22,8 23,9 25,2

O perodo 1946-1954, imediatamente ps-guerra conhecido como perodo de reconstruo britnica. O segundo perodo 1955-1963, segundo diversas opinies, no tem as caractersticas do perodo anterior e designado como perodo ps-reconstruo. Suponha que se queira verificar se a relao poupana-renda agregada mudou entre os dois perodos. Poderamos inicialmente imaginar algo assim: Perodo de reconstruo i = 1, 2, ..., n

Yi = 0 + 1Xi + i

Perodo ps-reconstruo: i = 1, 2, ..., n X = renda em milhes de

Yi = 0 + 1Xi + i

Sendo em ambos os casos: Y = poupana em milhes de libras libras


138

i e i = perturbaes aleatrias

Analisemos as duas regresses com mais vagar. De forma geral, os resultados comparativos das duas regresses apresentam as seguintes possibilidades: (1) 0 = 0 e 1 = 1 => as duas regresses so idnticas. (nesse caso, no h nenhuma diferena entre os dois perodos que, a rigor, deveriam ser tratados como um nico perodo); (2) 0 0 mas 1 = 1 => as duas retas de regresso so paralelas, deferindo apenas no intercepto. (nesse caso, no h qualquer mudana na relao funcional entre as duas variveis. como se houvesse um evento que deslocasse a curva para cima ou para baixo em um dado momento, mas no alterasse a relao); (3) 0 = 0 mas 1 1 => as duas retas de regresso tm o mesmo intercepto, mas suas declividades so diferentes. (nesse caso, a ocorrncia de um evento altera o impacto da varivel explicativa na varivel explicada. Essas regresses so chamadas regresses convergentes); (4) 0 0 e 1 1 => as duas retas de regresso diferem no intercepto e na declividade. (nesse caso a ocorrncia de um evento desloca a reta paralelamente e tambm altera o impacto da relao causal, aumentando ou diminuindo-lhe o valor. Essas regresses so chamadas dissimilares ou divergentes). Graficamente, podemos representar essas situaes por:

poupana 1 = 1

poupana

1 = 1 1 = 1

0 0 = 0 renda 0 renda

(a) Regresses Coincidentes

(b) Regresses Paralelas

poupana 1 1 0 = 0 renda

poupana

1 1

0 0 renda

(c) Regresses Convergentes

(d) Regresses Dissimilares

139

Os resultados das regresses esto apresentados abaixo, sendo a primeira para o perodo de reconstruo e a segunda, para o perodo ps-reconstruo.

Yi = -0,2662 + 0,0470Xi
Yi = -1,7502 + 0,1504 Xi Como j sabemos, poderamos ter construdo um modelo que contemplasse a possibilidade de deslocamentos de intercepto e de declividade. Nesse caso teramos: Yi = 0 + 1Xi + 2Di + 3DiXi + i Sendo: Y = poupana (em milhes de libras) X = renda (em milhes de libras) D= 1 se reconstruo 0 se ps-reconstruo = erros aleatrios Cujos resultados esperados seriam: E (Yi / D = 0; Xi) = 0 + 1 Xi E (Yi / D = 1; Xi) = 0 + 1X1 + 2 + 3Xi = ( 0 + 2) + ( 1 + 3) Xi Os resultados das trs regresses esto apresentados a seguir: Reconstruo

Yi = - 0,27 + 0,04Xi
(0,30) (0,02)

R=0,30

Ps-Reconstrao

Yi = - 1,75 + 0,15Xi
(0,36) (0,02)

R=0,91

Ambos perodos com Dummy

Yi = - 0,27 + 0,05Xi 1,48Di + 0,10DiXi


(0,33) (0,03) (0,47) (0,03)

R=0,95

140

8.4 O Uso de Variveis Dummy na Anlise Sazonal Como vimos anteriormente, muitas sries de dados econmicos mensais ou mesmo trimestrais apresentam padres sazonais. Muitas vezes, no estudo dessas sries deseja-se retirar o efeito da sazonalidade. Como tambm vimos, h diversos mtodos para dessazonalizar uma srie e aqui utilizaremos o mtodo das variveis dummies. Suponha que estejamos interessados em analisar o efeito das rendas (trimestrais) sobre o lucro das empresas no perodo 1965-1970 nos EUA. Admita que acreditemos que as rendas no so homogneas ao longo do ano e mais precisamente que cada trimestre tenha particular padro. Para captar esse efeito caso haja podemos definir o seguinte modelo: lucrost = 0 + 1vendast + 2D2t + 3D3t + 4D4t + t Onde: D2 = 1 se segundo trimestre 0 caso contrrio D3 = 1 se terceiro trimestre 0 caso contrrio D4 = 1 se quarto trimestre 0 caso contrrio Observe que: E (lucrost / D2=0; D3=0; D4=0; vendast) = 0 + 1 vendast que representa o lucro mdio do 1 trimestre de cada ano;
16

E (lucrost / D2=1; D3=0; D4=0; vendast) = 0 + 2 + 1 vendast que representa o lucro


mdio do 2 trimestre de cada ano;

E (lucrost / D2=0; D3=1; D4=0; vendast) = 0 + 3 + 1 vendast que representa o lucro


mdio do 3 trimestre de cada ano;

E (lucrost / D2=0; D3=0; D4=1; vendast) = 0 + 4 + 1 vendast que representa o lucro


mdio do 4 trimestre de cada ano.

Entre vrios mtodos existentes, os que mais se destacam so o mtodo da relao com a mdia mvel (vista anteriormente), o mtodo de ligao e mtodo da percentagem da mdia anual.
141

16

Caso haja algum padro sazonal, teremos 2 , 3 , 4 0 . Obviamente que podemos ter
os trs betas iguais a zero indicando , nesse caso, ausncia de padro sazonal ou apenas algum deles diferente de zero. Repare que havendo um padro sazonal estatisticamente significativo, podemos calcular

os Yt

deduzido o efeito sazonal do respectivo perodo. O resultado ser uma srie

dessazonalizada.

Tomemos o seguinte conjunto de dados: Ano e Trimestre 1965 I II III IV 1966 I II III IV 1967 I II III IV 1968 I II III IV 1969 I II III IV 1970 I II III IV Lucros (US$ milhes) 10.503 12.092 10.834 12.201 12.245 14.001 12.213 12.820 11.349 12.615 11.014 12.730 12.539 14.849 13.203 14.947 14.151 15.949 14.024 14.315 12.381 13.991 12.174 10.985 Vendas (US$ milhes) 114.862 123.968 121.454 131.917 129.911 140.976 137.828 145.565 136.989 145.126 141.536 151.776 148.862 158.913 155.727 168.409 162.781 176.057 172.419 183.327 170.415 181.313 176.712 180.370 D2 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 D3 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 D4 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1

A regresso estimada expressa por: Lucro = 6.688,3630 + 0,0382Vendas + 1322,9819D2 217,8054D3 + 183,8565D4 (3,9082) (3,3313) (2,0719) (-0,3445) (0,2810)
(*17)

Os resultados da regresso indicam que apenas o coeficiente da varivel vendas e o intercepto diferencial associado a D2 segundo trimestre so estatisticamente significativos ao nvel de 5%. Pode-se assim concluir que existe algum fator sazonal atuando no segundo trimestre

(*17)

Valores entre parnteses referem-se a estatsticas t.

142

de cada ano, fazendo com que o lucro se eleve no segundo trimestre, quando comparado ao trimestre base (1 trimestre) em aproximadamente 1.322 US$ milho. O coeficiente da varivel vendas nos indica que, levado em considerao os fatores sazonais; uma venda adicional de 1.000 US$, por exemplo, representar um acrscimo nos lucros de 38,2 US$. Analisados os resultados dessa regresso, podemos concluir que apenas o segundo trimestre parece ser diferente dos demais. Pode-se ento, rodar novamente a regresso utilizando-se apenas uma dummy para distinguir o segundo trimestre dos demais. Nesse caso, o resultado dessa nossa regresso ser dado por: Lucrot = 6.515,58 + 0,0393Vendast + 1.331,3523D2t (4,0143) (3,7173) (2,7004)

O uso de variveis dummies, como visto, muito til na anlise de regresso e pode servir a diversos propsitos. Alguns cuidados, no entanto, devem ser tomados. Nessa seo sero apresentados pontos especiais e cuidados que devem ser seguidos quando forem utilizadas essas variveis.

8.4.1 Interpretao da Dummy em Regresses Semi-Logaritmicas Suponha o seguinte modelo de regresso: LnYi = 0 + 1Xi + 2Di Onde: Y = salrio inicial de professores universitrios; X = anos de experincia de ensino; D= 1 se homem 0 se mulher

Seja o seguinte conjunto de dados a ser utilizado nessa regresso:

143

Salrio Inicial R$ Y 23,0 19,5 24,0 21,0 25,0 22,0 26,5 23,1 25,0 28,0 29,5 26,0 27,5 31,5 29,0

Anos de Experincia X 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8

Gnero D 1 0 1 0 1 0 1 0 0 1 1 0 0 1 0

Caso o modelo fosse linear, os resultados da regresso seriam:

Yi = 17,9693 + 1,3707Xi + 3,3336Di


(93,62) (38,45) (21,46) R= 0,9921

Todos os coeficientes estimados ( 0 , 1 e 2 ) com ts significativos e elevado poder de


determinao.

Observe que poderamos interpretar o coeficiente 1 como o valor da mudana (nesse


caso acrscimo) de salrio mdio para cada ano adicional de experincia, mantido o gnero

constante. No caso da varivel dummy, poderamos interpretar o valor de 2 como o acrscimo


de salrio mdio pelo fato de o professor universitrio ser homem, (D=1), mantida a experincia constante. Essa interpretao totalmente vlida e correta quando o modelo linear. Mas quando estivermos tratando de um modelo semilog, essa interpretao est equivocada. Comecemos por verificar o resultado da estimao da equao semilog:

Yi = 2,9298 + 0,0546Xi + 0,1341Di


(481,5228) (48,3356) (27,2249) R= 0,9954

Nesse caso, interpretamos o coeficiente 1 como a variao relativa no valor mdio de Y


decorrente da mudana/variao de uma unidade de X (anos de experincia). Assim, o acrscimo de um ano de experincia implica em uma variao de 0,0546 (ou 5,46%) no logaritmo da renda. Como ln Y , ele prprio uma taxa de variao, nossa interpretao deve ser a seguinte: o aumento de um ano de experincia de ensino eleva a taxa de variao de salrio em 5,46%.
144

Mas ser que podemos fazer a mesma interpretao para o coeficiente 2 ? Segundo
Halvorsen e Palmquist , pode-se aplicar essa interpretao no valor de qualquer regressor, desde que o regressor seja uma varivel contnua e no dicotmica, como no caso da varivel dummy (...) Nesse caso, usa-se o antilog (na base e) do coeficiente estimado da dummy e subtraia 1.
18

Ento, no nosso caso, devemos utilizar o valor estimado de 2 (0,1341) para calcular o
verdadeiro impacto do gnero na variao de salrios dos professores universitrios. Assim: antilog(0,1341) 1 = 1,14348 1 = 0,14348 Agora podemos interpretar que a taxa de variao do salrio mdio dos professores homens 14,348% superior taxa de variao do mdio dos professores mulheres.

8.4.2 Heterocedasticidade e Autocorrelao Quando utilizamos variveis dummies assumimos implicitamente que var(V1i) = var(V2i) = , ou seja, que a varincia do erro para qualquer dos dois valores da dummy seja constante. Se isso no acontecer, ou seja, se as varincias dos erros forem diferentes possvel que as estimativas no sejam estatisticamente significativas. Assim, quando usamos variveis dummies necessrio que faamos testes adicionais especficos que sero vistos nos tpicos de heterocedasticidade. O mesmo pode ocorrer no tocante a autocorrelao. Suponha o seguinte modelo: Yt = 0 + 1Dt + 2Xt + 3DtXt + t Em que Dt = 0 para um primeiro perodo 1 para um segundo perodo
2

Suponha que se tenha n1 observaes para o primeiro perodo e n2 observaes para o segundo. Suponha ainda que o termo do erro t gerado por um esquema auto-regressivo de primeira ordem expresso por: t = -1 + t t ~ N (0, )
2

Nesse caso, teremos problemas para estimar os coeficientes associados a D. Essa varivel utilizada apenas para classificar perodos, separando observaes do primeiro e do segundo perodos. Na presena de autocorrelao devemos corrigir os dados, o que ser visto no tpico sobre autocorrelao.

18

Halvorsen, Robert & Raymond Palmquist (1980). The Interpretation of Dummy Variables in Semilogarithmic Equations. American Economic Review, vol. 70, n 3, pp. 474-475
145

8.5 Sntese e Concluses Podemos agora fazer uma breve sntese ao tpico variveis dummies e, em seguida, apresentar algumas concluses: a) Em modelos nos quais variveis qualitativas tenham relevncia explicativa, podemos recorrer ao uso de variveis dummies; b) Essas variveis normalmente assumem os valores alternativos zero (0) e um (1). No entanto, se soubermos de antemo que os atributos que elas representam tm efeitos cumulativos constantes, podemos faz-los m-1 valores consecutivos correspondentes aos m atributos estudados; c) Em geral, no entanto, quando temos uma varivel qualitativa que representa m atributos diferentes, deve-se criar m 1 variveis dummies, cada uma delas podendo assumir apenas os valores 0 ou 1; d) Devemos lembrar sempre que variveis dummies so um expediente classificatrio de dados, uma vez que dividem a srie seguindo atributos; e) Se houver diferenas entre os sub-grupos que foram classificados pelas variveis dummies, elas dever-se-o refletir nos valores estimados dos interceptos ou nos coeficientes de declividade (ou em ambos) na regresso estimada; f) O uso de variveis dummies pode ser dirigido para diversas aplicaes: diferenas de intercepto, diferenas de declividade; dessazonalizao de sries temporais e anlise de estabilidade estrutural. Para cada caso deve ser construdo um modelo especfico, buscando captar as possveis diferenas. g) Embora seja uma ferramenta til e verstil, a tcnica da varivel dummy deve ser utilizada com cautela. Em primeiro lugar, se a regresso contiver um termo constante, o nmero de variveis dummies dever ser sempre menor do que os atributos possveis (m 1). Em segundo, o coeficiente associado s variveis dummies deve ser sempre interpretado em relao ao grupo-base (D = 0). Por fim, devemos ter em mente que o uso de variveis dummies consome graus de liberdade da regresso. Portanto, devese sempre avaliar a adoo de variveis dummies levando-se em conta o nmero total de observaes. h) O uso de variveis dummies muito fcil e nos auxilia na identificao e interpretao de efeitos de variveis qualitativas. Porm, sempre que a utilizarmos, devemos avaliar os possveis problemas e limitaes, sobretudo quando estivermos tratando de modelos semilog ou sries temporais.
146

Exerccios Propostos

1. Sabendo que um determinado fenmeno sofre alteraes de comportamento a cada cinco anos um pesquisador montou um modelo com duas equaes diferentes (a primeira vlida para os anos mltiplos de 5 e a segunda para os demais). O que voc pode afirmar a respeito desta medida? Foi um procedimento adequado? Justifique.

2. Um modelo de regresso foi rodado com os seguintes resultados: Yi = 1 + 2Xi + 3Di + 4DiXi + i
1 Valor estimado Desvio Padro 500 50 2 0,1 0,03 3 100 15 4 0,2 0,01

Onde: Y = Gasto anual destinado a vesturio (R$) X = Renda Familiar (R$ mil) D = 0 para homens e 1 para mulheres Teste a hiptese de que as mulheres, em geral, gastam mais do que os homens e que esta diferena maior nas classes econmicas mais elevadas.

3. Uma revista encomendou uma pesquisa com o objetivo de identificar o pblico de sua revista. Os leitores foram classificados segundo gnero (masculino e feminino) e opo sexual (hetero ou homossexual). Duas dummies (A e B) foram utilizadas para identificar o leitor, sendo A=1 para leitores femininos e B = 1 para homossexuais. Os resultados obtidos so apresentados a seguir. A proposta inicial da revista era atrair o pblico masculino homossexual. Voc acredita que isto corresponde ao que ocorreu na realidade? Em caso negativo, indique se a diretoria deveria mudar sua estratgia e qual grupo deveria ser focado.
Coeficiente Intercepto A B 0,09 0,21 0,12 Desvio Padro 0,03 0,002 0,001

4. Uma empresa de fast-food fez uma pesquisa para identificar os diabticos de uma certa regio, pois pretende inovar seu cardpio com comidas dietticas. Uma varivel dummy (D) foi utilizada, onde D = 0 se diabticos. Os resultados da pesquisa foram os seguintes:
147

Coeficiente Intercepto D 25,5 77,0

Desvio Padro 5,7 13,8

O que pode-se afirmar?

Nessa mesma pesquisa foi perguntado aos diabticos se eles consumiriam sanduches e sobremesas dietticas. Utilizou-se a varivel dummy C, sendo que C = 1 se os entrevistados concordavam. Os resultados obtidos foram os seguintes:
Coeficiente Intercepto C 6,0 19,5 Desvio Padro 2,18 2,57

O que a empresa deve fazer?

5. Em que caso 2 caractersticas poderiam sem representadas por apenas uma varivel dummy que pode assumir valores 0, 1 ou 2? Indique uma situao cotidiana que exemplifique este caso.

6. Para a situao a seguir, indique como uma dummy poderia ajudar a na modelagem estatstica do fenmeno em estudo:
180 160 140 120 100 80 60 40 20 0 0 5 10 15 20 25 30 35

7. Para cada uma das situaes a seguir, indique se voc acredita que, de alguma forma, o uso de variveis dummy pode ser necessrio. a) estudo do comportamento da inadimplncia do comrcio; b) identificao de diferenas na pluviosidade de uma regio; c) comportamento da cotaes das aes; d) diferenas de rendimento acadmico entre homens e mulheres;
148

e) determinao do consumo de gasolina de um carro; f) quantidade de consumo dirio mdio de derivados de leite;

g) metodologia de precificao de seguro de vida; h) metodologia de precificao de seguro sade i) j) determinao da demanda de televisores; previso do nmero de telespectadores de determinado programa.

8. A partir dos grficos a seguir, identifique se o uso de uma dummy deve fazer sentido.

a)
120 100 80 60 40 20 0 0 5 10 15 20 25 30 35

b)
120 100 80 60 40 20 0 0 5 10 15 20 25 30 35

c)

149

0 -10 0 -20 -30 -40 -50 -60 -70 -80 -90

10

15

20

25

30

35

d)
120 100 80 60 40 20 0 -20 0 -40 -60 -80 -100 5 10 15 20 25 30 35

e)
20 10 0 -10 0 -20 -30 -40 -50 -60 -70 -80 -90 5 10 15 20 25 30 35

*9. Um determinado grupo de estudantes acredita que a nota mdia obtida o exame TOEFL depende do ms em que realizada a prova. Eles suspeitam que, se a prova for realizada nos perodos de frias (julho, dezembro, janeiro e fevereiro), a nota tende a ser menor. Diante dos dados da amostra a seguir, voc acredita que a suspeita destes estudantes pertinente? Justifique. Caso voc rejeite a hiptese levantada, voc consegue identificar algum outro comportamento atpico da amostra apresentada? Faa uma anlise estatstica dos resultados encontrados.

150

Ms jan/98 fev/98 mar/98 abr/98 mai/98 jun/98 jul/98 ago/98 set/98 out/98 nov/98 dez/98 jan/99 fev/99 mar/99 abr/99 mai/99 jun/99 jul/99 ago/99 set/99 out/99 nov/99 dez/99

Pontuao 617 562 524 549 571 538 554 511 672 566 441 482 531 627 470 546 519 530 548 425 608 567 576 567

Ms jan/00 fev/00 mar/00 abr/00 mai/00 jun/00 jul/00 ago/00 set/00 out/00 nov/00 dez/00 jan/01 fev/01 mar/01 abr/01 mai/01 jun/01 jul/01 ago/01 set/01 out/01 nov/01 dez/01

Pontuao 559 575 549 504 577 535 636 591 423 550 518 591 567 577 551 490 546 589 559 438 569 500 486 499

*10. Os dados a seguir referem-se a vendas mensais do comrcio. Acredita-se que os meses de maio e dezembro apresentem um comportamento atpico devido ao dia das mes e ao Natal e que o ms de janeiro apresente vendas abaixo da mdia anual devido obrigatoriedade do pagamento de alguns impostos (IPTU e IPVA, por exemplo). Verifique se possvel testar estas hipteses com a utilizao de variveis dummy. Em caso afirmativo, quantas dummies sero necessrias para se determinar o modelo? Rode o modelo de regresso e comprove ou no as hipteses. Na prtica, o que os comercirios podem fazer com as informaes que voc obteve?

151

Vendas 7,884 8,079 8,245 8,159 8,425 8,526 8,432 8,761 8,866 8,756 8,933 9,581 9,116 9,272 9,362 9,494 9,510 9,684 9,897 9,783 10,157 9,916 10,071 10,689

Ms jan/95 fev/95 mar/95 abr/95 mai/95 jun/95 jul/95 ago/95 set/95 out/95 nov/95 dez/95 jan/96 fev/96 mar/96 abr/96 mai/96 jun/96 jul/96 ago/96 set/96 out/96 nov/96 dez/96

Vendas 10,056 10,694 10,411 10,544 10,759 11,036 11,121 11,222 11,002 11,485 11,386 12,101 11,386 11,513 11,787 11,907 11,906 11,945 12,166 12,101 12,367 12,363 12,435 13,399

Ms jan/97 fev/97 mar/97 abr/97 mai/97 jun/97 jul/97 ago/97 set/97 out/97 nov/97 dez/97 jan/98 fev/98 mar/98 abr/98 mai/98 jun/98 jul/98 ago/98 set/98 out/98 nov/98 dez/98

Vendas 12,695 12,759 12,938 13,101 13,001 13,478 13,299 13,672 13,466 13,884 13,746 14,377

Ms jan/99 fev/99 mar/99 abr/99 mai/99 jun/99 jul/99 ago/99 set/99 out/99 nov/99 dez/99

*11. O seguinte modelo de regresso linear mltipla foi obtido a partir de uma determinada amostra: RESUMO DOS RESULTADOS Estatstica de regresso R mltiplo 0,9998 2 R 0,9997 2 R ajustado 0,9996 Erro padro 3,5566 Observaes 30 ANOVA gl Regresso Resduo Total 5 24 29 SQ MQ F F signific 899.057 179.811 14.215,2 0,000 303,581 12,649 899.361

152

Interseo Dummy 1 Dummy 2 D1 * X D2 * X X

Coefs Erro Pad 16,109 3,117 (0,601) 2,919 2,415 2,784 15,119 0,167 0,040 0,155 2,845 0,175

Stat t 5,168 (0,206) 0,868 90,449 0,258 16,295

valor-P 95% Infs 95% Sups 0,000 9,675 22,542 0,839 (6,626) 5,424 0,394 (3,330) 8,161 0,000 14,774 15,464 0,799 (0,280) 0,360 0,000 2,485 3,206

Modelo1: Yi = 0 + 1 * D1i + 2 * D2i + 3 * D1i * Xi + 4 * D2i * Xi + 5 * Xi + i

A partir dele retirou-se duas variveis que pareciam estar em excesso:

RESUMO DOS RESULTADOS Estatstica de regresso R mltiplo 0,9998 2 R 0,9997 2 R ajustado 0,9996 Erro padro 3,4238 Observaes 30 ANOVA gl Regresso Resduo Total 3 26 29 Coefs 15,319 3,054 15,086 2,890 SQ MQ F 899.056,2 299.685 25.565,5 304,779 11,722 899.361 Erro Pad Stat t 1,561 9,816 1,273 2,398 0,071 211,174 0,087 33,180 valor-P 0,000 0,024 0,000 0,000 F signific 0,000

Interseo Dummy 2 D1 * X x

95% Infs 95% Sups 12,111 18,527 0,437 5,671 14,939 15,233 2,711 3,069

Modelo2: Yi = 0 + 1 * D2i + 2 * D1i * Xi + 3 * Xi + i

A partir destes modelos, identifique se o uso de variveis dummy melhora a especificao do modelo. Faa uma anlise estatstica dos dados e indique o que representa, neste caso especfico, o acrscimo de cada uma das variveis dummy.
153