Você está na página 1de 26

Variveis dummy: especificaes de modelos com

parmetros variveis

Fabrcio Missio1, Luciane Flores Jacobi2

1
Curso de Cincias Econmicas/Universidade Estadual de Mato Grosso do Sul
E-mail: fabriciomissio@gmail.com
2
Departamento de Estatstica - CCNE/UFSM
E-mail: lfjacobi@ccne.ufsm.br

Resumo
O presente trabalho busca estudar a regresso sobre variveis
dummy, mais especificamente, revisar a teoria e os casos em que elas po-
dem ser utilizadas, a fim de elaborar, de forma sucinta, um material simples
e abrangente sobre o assunto, capaz de auxiliar em pesquisas e trabalhos.
Aps a formalizao, apresentou-se os procedimentos operacionais para
execut-los, com ajuda de recursos computacionais, utilizando-se o software
Statistica verso 5.1.
Palavras-chave: Regresso, Varivel Dummy, Software Estatstico.

Abstract
The present work search to study the regression on variables
dummies. More specifically, to revise the theory and the cases where they
can be used, in order to elaborate, in a succinct form, a simple and including
material on the subject, capable to assist in research and works. After the
formalization, will present the operational procedures to execute them,
with aid of computational resources, using in such a way, the Statistica
software version 5.1.
Key-Words: Regression, Variable Dummy, Statistica Software.

Cincia e Natura, UFSM, 29 (1): 111 - 135, 2007 111


1. Introduo
Na anlise de regresso, a varivel dependente pode ser influenci-
ada por variveis quantitativas e qualitativas. As variveis quantitativas so
facilmente mensuradas em alguma escala o que no ocorre com as variveis
qualitativas, uma vez que essas indicam a presena ou a ausncia de uma
qualidade ou atributo.
Dessa forma, um mtodo para "quantificar" esses atributos cons-
truir variveis artificiais que assumam valores de 1 ou 0 ( indicando ausn-
cia de um atributo e indicando a sua presena) que so conhecidas pela
literatura existente de "variveis dummy". A rigor, no essencial que as
variveis dummy assumam os valores de 0 e 1. O par (0,1) pode ser
transformado em qualquer outro par por uma funo linear tal que
Z = a + bD (b 0) em que a e b so constantes e em que D = 1 ou 0. Quan-
do D = 1 , tem-se Z = a + b ; e quando D = 0 , tem-se Z = a . Assim, o
par (0,1) se torna (a, a + b). Observa-se que a atribuio de valores pura-
mente arbitrria, exigindo cuidado na hora de interpretar os resultados.
A introduo de variveis qualitativas (dummy) torna o modelo
de regresso linear uma ferramenta extremamente flexvel capaz de lidar
com muitos problemas encontrados, principalmente, em estudos empricos.
Os modelos que incluem como variveis explicativas somente variveis
qualitativas so chamados de modelos de anlise de varincia (ANOVA),
enquanto que os que incluem tambm variveis quantitativas so chamados
de modelos de anlise de covarincia (ANCOVA). Do ponto de vista eco-
nmico, as variveis dicotmicas dummy so introduzidas no modelo para
representar adequadamente os efeitos diferenciais produzidos pelo com-
portamento dos agentes (econmicos) devido, principalmente, a diferen-
tes causas, dentre as quais se destacam as de tipo temporal (estacionrias,
etc), de carter espacial (estado, pas, etc), de carter puramente qualitativo
(sexo, etc).
Quanto sua aplicao, este tipo de varivel pode ser usado em
modelos simples, em que a nica varivel explicativa a prpria dummy, e
em modelos mais complexos, em que uma varivel categrica desdobrada
em duas ou mais variveis dummies. Ateno especial requer a especificao
de modelos que combinam dummies para diferentes categorias e para mo-
delos que combinam dummies e variveis quantitativas. Neste ltimo caso,
duas anlises so possveis: incorporar mudanas no intercepto e/ou na
declividade de uma funo; possibilitar a identificao de mudanas estru-
turais.
A literatura especializada referente abordagem da anlise de re-
gresso sobre variveis dummy desenvolveu-se, principalmente, a partir das
dcadas de 70 e 80 do sculo passado, embora j tenha sido objeto de estu-

112 Cincia e Natura, UFSM, 29(1): 111 - 135, 2007


dos h muitos anos. Do ponto de vista de uma ordem cronolgica, tem-se
como referncia os estudos de SUITS (1957, 1984), CHOW (1960),
GUJARATI (1970 a, b) KOOYMAN (1976), ERLAT (1978, 1985),
DUFOUR (1980, 1981, 1982), KENNEDY (1986) e, mais recentemente,
STEWART (1991), MADDALA (1992), GREENE (1993), HARDY
(1993), dentre outros.
Observa-se que existe uma srie de textos relacionados utiliza-
o das variveis dummy na anlise de regresso. Entretanto, este tpico
ressente de um maior nmero de publicaes, no sentido de que as contri-
buies individuais (explorada em cada texto) passem a ser incorporadas
em uma teoria mais completa do que as apresentadas nos livros textos de
econometria principalmente, porque as demonstraes e anlises ficam a
posteriori prejudicadas pela inacessibilidade grande parte destes materiais.
O objetivo do presente trabalho desenvolver um estudo teri-
co-prtico sobre a utilizao de variveis dummy e suas principais aplica-
es. De forma sucinta, elaborar um material simples e abrangente a fim de
destacar os casos em que as variveis dummy so aplicadas e apresentar
alguns resultados dessas aplicaes usando o programa computacional
Statistica verso 5.1. A metodologia a ser utilizada para apresentao dos
resultados corresponde dos livros texto de econometria, tais como,
GUJARATI (2000), MADDALA (2003) e HILL (1999).
Este trabalho constar, alm desta introduo, de cinco sees onde
se apresenta: na segunda o mtodo de estimao sob variveis dummy em
modelos com variaes descontnuas nos parmetros; na terceira, a estima-
o em modelos com variaes contnuas; na quarta apresenta as regres-
ses com variveis dummy sob modelos de anlise de varincia (ANOVA)
e covarincia (ANCOVA); e na quinta, como exemplo, o desenvolvimento
destes modelos no programa computacional Statistica verso 5.1. As con-
sideraes finais estaro na ltima seo.

2. Utilizao de variveis dummy: o caso de variaes descontnuas nos


parmetros
Nesta sesso busca-se demonstrar, baseado em REBELO &
VALLE (2002), quando a utilizao de variveis dummy torna-se impor-
tante na anlise economtrica. Para tanto, considera-se como exemplo um
estudo (de carter espacial, temporal ou puramente qualitativo) em que,
num primeiro momento, se assume que a relao entre a varivel depen-
dente e a varivel explicativa estvel para todas as observaes de uma
amostra. Ou seja;

Cincia e Natura, UFSM, 29 (1): 111 - 135, 2007 113


Yi = + X i + ui ; i = 1, 2 , ... n; , ui ~ NID (0, 2 ) (2.1)

onde X i uma varivel quantitativa.


Supe-se que a estimao desta equao de regresso apresenta
um valor significativo para a estatstica t associada ao coeficiente da vari-
vel X e, simultaneamente, um valor para o coeficiente de determinao
(R 2 ) relativamente baixo e/ou um valor do Durbin Watson ( D.W . ) longe
de 2. A anlise destes resultados leva concluso de que, embora X cons-
titua uma varivel importante na determinao do comportamento da vari-
vel Y , existe uma parcela relativamente alta do comportamento desta va-
rivel que no explicada pelo modelo. Em outras palavras, o modelo des-
crito anteriormente pode encontrar-se mal especificado por incorreta omis-
so de variveis explicativas.
O grfico a seguir expressa a relao entre a varivel dependente e
o regressor ( X ) retratado pela Figura 1:

Yi
( Terceiro grupo)

( Segundo grupo)

( Primeiro grupo)

Xi

Figura 1: Formato das observaes do estudo economtrico.

Observa-se, pela Figura 1, que o comportamento das variveis est


relacionado positivamente. Entretanto, parece existir uma relao distinta
entre as duas variveis para as observaes que pertencem a cada um dos
grupos. Isso explicaria os resultados obtidos quando do ajustamento de
uma nica reta de regresso para o conjunto de dados, ou seja, o valor
relativamente baixo de R 2 . Neste caso, o ajustamento de nica reta tra-
duz-se em uma estimativa de valor elevado para a varincia da varivel resi-

114 Cincia e Natura, UFSM, 29(1): 111 - 135, 2007


dual o que pode produzir uma estatstica t associada ao coeficiente X no
significativa.
Alm disso, cabe explicitar que o ajuste do modelo utilizando ape-
nas a varivel X como independente significa a omisso de uma informa-
o conhecida, ou seja, a no utilizao de uma varivel que indica os dife-
rentes grupos onde foram tomadas as observaes. A incluso desta vari-
vel, neste caso, significa a incorporao de duas variveis dummy no modelo.
Para resolver este problema, considera-se, em separado, cada um
dos grupos de observaes e utiliza-os em trs modelos distintos, pois,
como mostra a Figura 1, as retas de regresso que melhor se ajustam aos
dados parecem diferir apenas no termo intercepto ( ) e no na inclinao
( ) . Em termos formais;
Yi = 1 + X i + ui para o primeiro grupo (2.2)

Yi = 2 + X i + ui para o segundo grupo (2.3)

Yi = 3 + X i + ui para o terceiro grupo (2.4)


Contudo, a estimao dos trs diferentes modelos certamente no
produzir o mesmo valor para o parmetro que, para efeito de anlise,
foi considerado comum a ambas as especificaes, pois se os trs grupos
reagem de forma similar a uma variao em X , deve-se reunir todas as
observaes para ajustar um modelo de regresso que produza trs termos
independentes, mas uma estimativa nica para o coeficiente de inclinao.
Dessa forma, a definio de regressores dummy apresenta-se como o pro-
cedimento adequado para este caso.

Em termos formais, a definio de variveis seria a seguinte:

1, se a observao verifica a caracterstica que define o


D2i = segundo grupo;
0, caso contrrio

1, se a observao verifica a caracterstica que define o


D3i = terceiro grupo;
0, caso contrrio;

onde a introduo da varivel dummy D2 tem por objetivo captar (e o


valor dela representa) a diferena entre os termos independentes das equa-
es de regresso relativas aos dois primeiros grupos. De forma anloga, a

Cincia e Natura, UFSM, 29 (1): 111 - 135, 2007 115


dummy D3 refere-se s diferenas existentes entre o terceiro e primeiro
grupo1 .
Logo, com a introduo de regressores dummy pode-se ajustar a
equao de regresso da seguinte forma;
Yi = 1 + ( 2 1 )D2i + ( 3 1 )D3i + X i + ui ; i = 1,2,...., n;

ui ~ NID (0, 2 ) (2.5)


ou, de forma equivalente;
(
Yi = 1 + 2 D2i + 3 D3i + X i + ui ; i = 1,2,...., n; ui ~ NID 0, 2 ) (2.6)

onde: 2 = ( 2 1 ) e 3 = ( 3 1 ) .
Pela equao anterior possvel se obter uma nica estimativa para
o parmetro e, simultaneamente, trs ordenadas, na origem, distintas.
A traduo geomtrica da estrutura estimada neste modelo pode ser repre-
sentada conforme a Figura 2:

Yi y i = (a1 + d3 ) + bX i

y i = (a1 + d2 ) + bX i
a1 + d3 y = a + bX
i 1 i
a1 + d2

a1
Xi
Fonte: REBELO & VALLE (2002)
Figura 2: Estrutura geomtrica do modelo (2.6).

Observa-se que na Figura 2 tem-se que 2 > 0, 3 > 0, 3 > 2 .


Neste caso, para cada grupo o modelo de regresso seria dado por:
Yi = 1 + X i + ui se D2i = D3i = 0 (primeiro grupo) (2.7)
Yi = (1 + 2 ) + X i + ui se D2i = 1 e D3i = 0 (segundo grupo) (2.8)

1
O grupo, categoria ou classificao designado pelo valor 0 freqentemente referido
como categoria-base. "base" no sentido de que as comparaes so feitas em relao
a esta categoria.
116 Cincia e Natura, UFSM, 29(1): 111 - 135, 2007
Yi = (1 + 3 ) + X i + ui se D2i = 0 e D3i = 1 (terceiro grupo) (2.9)

Admitiu-se que o coeficiente de inclinao semelhante a todos


os modelos. Neste caso, vale ressaltar que se considera como hiptese im-
plcita, que as variveis de intercepto sejam aditivas. O efeito de cada fator
qualitativo somado ao intercepto de regresso, e o efeito de qualquer
varivel binria independente de qualquer outro fator qualitativo. s ve-
zes, possvel que os efeitos de fatores qualitativos no sejam independen-
tes, isto , o modelo pode ser multiplicativo. Em outras palavras, pode ha-
ver interao entre as variveis qualitativas.
A situao oposta tambm pode ocorrer. As retas de regresso
podem ter o mesmo intercepto com coeficientes de inclinao distintos.
Dessa forma, as retas de regresso que representam essas especificaes,
para cada um dos diferentes grupos, devem ser especificadas novamente,
como a seguir:
Yi = + 1 X i + ui (para o primeiro grupo) (2.10)

Yi = + 2 X i + ui (para o segundo grupo) (2.11)

Yi = + 3 X i + ui (para o terceiro grupo) (2.12)

Segundo Hill et all. (2003) o produto de uma varivel dummy por


uma varivel contnua resulta no que se pode chamar de "varivel dummy
de inclinao e/ou varivel de interao", e recomendvel, a fim de que se
possa, em um nico modelo, produzir uma estimativa para o termo inde-
pendente e trs coeficientes de inclinao distintos. O modelo que deve ser
estimado :
Yi = + 1 X i + ( 2 1 )(D2i X i ) + ( 3 1 )(D3i X i ) + ui ;

i = 1, 2 ...,n (
ui ~ NID 0, 2 ) (2.13),
onde as variveis D2 e D3 so as variveis dummy definidas anteriormente
e medem, portanto, a diferena entre os declives de dois modelos de re-
gresso.
Ou, de forma equivalente, o modelo anterior pode ser representa-
do por:
Yi = + 1 X i + 2 (D2i X i ) + 3 (D3i X i ) + ui i = 1, 2,...,n;

ui ~ NID (0, 2 ) ; (2.14),

Cincia e Natura, UFSM, 29 (1): 111 - 135, 2007 117


onde: 2 = ( 2 1 ) e 3 = ( 3 1 ) .
Assim, a utilizao de variveis dummy permite determinar a equa-
o relativa a cada grupo2 ;
Yi = + 1 X i + ui se D2i = D3i = 0 (primeiro grupo) (2.15)

Yi = + 2 X i + ui se D2i = 1 e D3i = 0 (segundo grupo) (2.16)

Yi = + 3 X i + ui se D2i = 0 e D3i = 1 (terceiro grupo) (2.17)


A representao grfica desta situao mostrada pela Figura 3,
onde 2 > 0, 3 > 0, 3 > 2 :

Yi y i = a + ( b1 + g3 ) X i

y i = a + ( b1 + g2 ) X i

y i = a + b1 X i

a
Xi

Fonte: REBELO & VALLE (2002)


Figura 3: Estrutura geomtrica do modelo (2.14).

Observa-se que esta anlise pode ser combinada. Pode-se estimar


uma equao de regresso com diferentes interceptos e diferentes coefici-
entes de inclinao.

3. Utilizao de variveis dummy: o caso de variaes contnuas nos


parmetros
Nesta classe de modelos a variao no declive da reta de regresso
no descontnua, embora seja bastante acentuada. Por exemplo, preten-
de-se ajustar um modelo de regresso para os dados ilustrados na Figura 4;

2
Outra forma de se obter esses resultados calcular as derivadas parciais
(ver Maddala 2003).

118 Cincia e Natura, UFSM, 29(1): 111 - 135, 2007


Yi

Xi
c1 c2
Fonte: REBELO & VALLE (2002)
Figura 4: Estudo Economtrico Hipottico.

Efetivamente, pela simples ilustrao da Figura 4 possvel se


observar que a estimao do modelo do tipo Yi = + X i + ui no corre-
ta. A melhor forma de se obter uma estimativa que represente os dados
ajustar os seguintes modelos de regresso [esse mtodo apresentado em
alguns livros textos como regresso linear por partes (Gujarati, 2000)]:
Yi = 1 + 1 X i + ui para X i c1 (3.1)

Yi = 2 + 2 X i + ui para c1 X i c2 (3.2)

Yi = 3 + 3 X i + ui para X i c2 (3.3)

Desse modo podem ser definidas duas variveis dummy, a saber:


1, Se c1 Xi c2
D2i =
0, Caso contrrio

1, Se Xi c2 ;
D3i =
0, Caso contrrio;
Logo, a especificao do modelo correta seria semelhante a que se
segue, permitindo uma aproximao adequada do problema em questo:

Cincia e Natura, UFSM, 29 (1): 111 - 135, 2007 119


Yi = 1 + ( 2 1 )D2i + ( 3 1 )D3i + 1 X 1 +
( 2 1 )(D2i X i ) + ( 3 1 )(D3i X i ) + ui
i=1,2, ..., n; ui ~ NID (0, 2 ) (3.4)
Entretanto, o problema resultante da estimao deste modelo
que para E (Yi X i = c1 ) e E (Yi X i = c2 ) obtm-se dois valores diferentes.
Em sntese, isso significa que o modelo de regresso no contnuo, para
torn-lo contnuo, necessrio definir as seguintes restries lineares:
1 + 1c1 = 2 + 2 c1

2 + 2 c2 = 3 + 3 c2
que, por simples manipulaes algbricas, tornam-se:

2 1 = c1 ( 2 1 )

3 2 = c2 ( 3 2 )
Impondo-se essas restries ao modelo (3.4), ele se transforma em;
Yi = 1 + 1 X 1 + ( 2 1 )D2i (X i c1 ) +
(3.5)
( 3 1 )D3i (X i c2 ) + ui
ou, de forma equivalente;
Yi = 1 + 1 X 1 + 2 D2i (X i c1 ) + 3 D3i (X i c2 ) + ui (3.6)
Logo, para cada segmento da reta de regresso, tm-se as seguin-
tes combinaes de valores das variveis dummy, observando-se que para o
primeiro caso a reta de regresso vale para o intervalo X i c1 , a segunda
para o intervalo c1 X i c2 e a terceira para o intervalo X i c2 .

1 + 1 X 1 + ui

Yi = 1 c1 2 + (1 + 2 )X 1 + ui
(3.7)
c + ( + )X + u
1 2 3 1 3 i i

Observe que neste caso, o processo de estimao produzir um


coeficiente inclinao distinto para cada uma das categorias. A significncia
das mudanas estimadas nos declives pode ser testada por um teste F .
Na classe de modelos em que a variao no declive da reta de re-

120 Cincia e Natura, UFSM, 29(1): 111 - 135, 2007


gresso descontnua, e sendo esta bastante acentuada, a especificao de
um nico modelo, tal como proposto em (3.6), pode ser uma aproximao
inadequada para o problema em questo. Neste caso, a especificao de um
modelo como o apresentado em (3.4) solucionaria este problema, muito
embora a resultante fosse trs equaes de regresso totalmente distintas e
dois valores totalmente diferentes para E (Yi X i = c1 ) e E (Yi X i = c2 ) .
Observe, portanto, que a tcnica apresentada anteriormente, de impor res-
tries ao modelo de tal forma a torn-lo continuo, busca solucionar atra-
vs da especificao de um modelo aproximado o problema da obteno de
diferentes retas de regresso, uma vez que sua aplicao proporciona como
resultado retas de regresso em que apenas o coeficiente de inclinao dife-
re entre elas3.

4. Regresso com variveis dummy sob modelos de anlise de varincia


(ANOVA) e covarincia (ANCOVA)
Antes de serem analisados os modelos de varincia e covarincia
separadamente, admite-se que as retas de regresso para os distintos gru-
pos diferem apenas no termo de intercepto, mantendo-se os mesmos coe-
ficientes angulares, conforme pode ser observado na Figura 1 apresentado
anteriormente. Neste caso, a varivel dummy incorporada ao modelo de
regresso para captar o efeito do deslocamento do intercepto como resul-
tado de algum fator qualitativo.
Para exemplificar a primeira classe de modelos em que as variveis
explicativas so exclusivamente dummies, apresenta-se o seguinte modelo
de regresso (4.1) (Gujarati, 2000); onde atravs do uso de variveis dummy
busca-se identificar se existe diferena entre os salrios mdios recebidos
por professores e professoras universitrios. A hiptese implcita deste
modelo de que os professores universitrios receberiam um salrio maior.
Neste caso, mantidos constantes todos os demais fatores, caso a diferena
se confirme, pode-se especular sobre a possibilidade de haver discrimina-
o com relao ao salrio pago s professoras.

3
Observe, contudo, que se nos distintos pontos de mudana a descontinuidade da
reta for muita acentuada, a estimao atravs de um modelo aproximado pode gerar
uma estimativa incorreta. Neste caso, solucionar-se-iam os problemas com a
obteno de distintas retas de regresso, muito embora as estimativas obtidas no
representem fielmente os dados que esto sendo analisados.

Cincia e Natura, UFSM, 29 (1): 111 - 135, 2007 121


O modelo de regresso dado por;
yi = + Di + ui (4.1)

onde: y = salrio anual de um professor universitrio; Di = 1 se do sexo


masculino, 0 caso contrrio.
Admitindo-se que as perturbaes satisfaam as hipteses usuais
[ ( )
do modelo clssico de regresso linear ui ~ NID 0, 2 ; E (ui ) = 0 , tem- ]
se, de (4.1);
- Salrio-mdio de uma professora universitria: E (Yi Di = 0) =
- Salrio-mdio de um professor universitrio: E (Yi Di = 1) = +
onde o coeficiente de inclinao informa em quanto o salrio mdio de
um professor universitrio difere do salrio-mdio de uma professora.
Caso os resultados obtidos mostrem que estatisticamente
significativo, conclui-se que, o salrio de um professor, de fato, superior
ao de uma professora. Graficamente, este resultado pode ser apresentado
como na Figura 5.

^ ^ Professores
a+ b
^
=b
^
a
Professoras

Figura 5: Funes salrios (mdios).

4.1 Estimao e teste de parmetros do modelo

A estimao do modelo na forma matricial requer que os seguin-


tes clculos sejam efetuados4:

4
A matriz X representa a matriz dos coeficientes do modelo. Neste caso, X = D .
Observa-se que, especificando-se adequadamente a matriz X , os resultados
apresentados valem para todos os modelos abordados ao longo deste trabalho.

122 Cincia e Natura, UFSM, 29(1): 111 - 135, 2007


a) Calcular X ' X (onde X , = Matriz transposta de X, matriz original);
b) Obter (X X )
, 1
;
c) Calcular X ,Y ;
De posse desses clculos pode-se obter as estimativas dos
parmetros do modelo de regresso atravs da frmula:

= (X , X ) X ,Y
^ 1
B=

Contudo, falta avaliar se o valor estimado para o parmetro
estatisticamente significativo, isto , testar em nvel de significncia de % ,
a hiptese H 0 : = 0 contra a hiptese alternativa H1 : > 0 5. Para tanto,
calcula-se a anlise de varincia de regresso, apresentada genericamente na
Tabela 1;

Tabela 1: Anlise de Varincia.


CV GL SQ QM
^, _2 ^, _2

Regresso K 1 b X y nY
, b X , y nY
K 1
^, ^,
nK y, y b X , y y, y b X , y
Resduo
nK
_2
Total n 1 y, y nY

OBS: K o nmero de parmetros estimados. Para o caso do modelo (4.1) K = 2 .

A partir da anlise de varincia pode-se determinar o grau de ajus-


te do modelo, bem como realizar o teste de significncia dos parmetros.
Logo, o coeficiente de determinao (ou grau de ajuste do modelo) dado
SQE K 1
por R = SQT n 1 .
2

5
Observa-se que a hiptese alternativa pode ser especificada de forma diferente,
como por exemplo, H1 : 0 . Neste caso, ela foi definida como sendo maior que
zero dado a hiptese implcita de que poderia haver um diferencial positivo entre
os salrios mdios recebidos pelos professores universitrios em comparao aos
salrios recebidos pelas professoras universitrias.

Cincia e Natura, UFSM, 29 (1): 111 - 135, 2007 123


A realizao do teste de significncia dos parmetros exige que se
calcule a varincia do modelo e, posteriormente, a matriz de varincia-
covarincia de onde se obtm, para cada parmetro individualmente, a sua
respectiva varincia (diagonal principal).
O teste F de significncia global para os parmetros de regres-
^, _2
b X , y n y K 1
so pode ser calculado por: F = ^, . Entretanto, neste caso de-
y, y b X , y n K
vem-se especificar novamente as hipteses, ou seja, este teste utilizado
para testar a hiptese de que todos os coeficientes de inclinao so simul-
taneamente iguais a zero contra a hiptese alternativa que pelo menos um
dos coeficientes diferente de zero.
^ 2 SQR
Clculo da varincia: = . Logo, a matriz de varincia-
nK
^
covarincia para B pode ser mostrada como:
var( ) cov( , )
^ ^
( )
2
1
var cov b = X , X
=
cov( , ) var ( )
Sabe-se que os elementos da diagonal principal representam as
^ ^
varincias de e , respectivamente, e suas razes quadradas fornecem
os correspondentes erros padres. De posse destes dados pode-se, utilizar
o teste t para testar a significncia dos parmetros.
^
Para , tem-se que:
^

t=
^ (4.2)
ep

(
Logo, pela regra de deciso sabe-se que, tcal > tcrtico t / 2 ,(n K ) , )
rejeita-se a hiptese nula. Neste caso, se o valor observado da estatstica
calculada superar o seu valor crtico, no se pode afirmar que o coeficiente
^
estatisticamente igual a zero, ou seja, isso significa que os resultados
indicam que os salrios-mdios das duas categorias so diferentes.
Para a segunda classe de modelos, onde as variveis explicativas
so tanto de ordem qualitativas (dummy) como quantitativas, inicia-se o

124 Cincia e Natura, UFSM, 29(1): 111 - 135, 2007


estudo da regresso sobre uma varivel quantitativa e uma varivel qualita-
tiva com apenas duas classes6. Para exemplificar, apresenta-se o seguinte
modelo de regresso:
Yi = i + 2 D1 + X i + u1 (4.3)

onde: X i = anos de experincia de ensino e as demais variveis seguem


como antes definidas.
Admitindo-se que as perturbaes satisfaam as hipteses usuais
[E (ui ) = 0], tem-se que:
- Salrio mdio de uma professora universitria:
E (Yi X i , Di = 0 ) = 1 + X i
- Salrio mdio de um professor universitrio:
E (Yi X i , Di = 1) = (1 + 2 ) + X i
Isso significa que as funes salrios, em relao aos anos de ex-
perincia de ensino, tm a mesma inclinao ( ) , mas diferentes interceptos,
ou seja, o salrio dos professores difere do salrio das professoras, mas a
taxa de variao mdia anual, dada pelos anos de experincia, igual para
ambos os sexos. Graficamente, esses resultados podem ser representados
na Figura 6:

Salrio anual

^
a2
^
a1 Anos de experincia

Figura 6: Funes salrios em relao aos anos de experincia.

Logo, a partir do modelo (4.3) para estimar o salrio dos profes-


sores a relao fica;
Yi = (1 + 2 ) + X + ui

6
Varivel qualitativa com duas classes, a saber, homem e mulher.
Cincia e Natura, UFSM, 29 (1): 111 - 135, 2007 125
e para estimar o salrio das professoras;
Yi = 1 + X i + ui
Os clculos de "a" a "c", citados anteriormente, devem ser realiza-
dos. O vetor das estimativas dos parmetros neste caso dado por:

1
B = 2 ( )
^
= X ,X 1
X ,Y


^
Falta-se avaliar se o valor estimado para o parmetro estatis-
ticamente significativo, para tanto, calcula-se a anlise de varincia de re-
gresso como apresentado na Tabela 1. Os mesmos clculos podem ser
realizados para se obter o grau de ajuste do modelo e/ou para testar a
significncia global dos parmetros da regresso.
^
Assim, a matriz de varincia-covarincia para definida como:

var (1 ) cov(1 , 2 ) cov(1 , )


var cov b = (X , X ) =
^ ^
2
1
cov(1 , 2 ) var( 2 ) cov( 2 , )

cov(1 , ) cov( 2 , ) var( )

Pelos elementos da diagonal principal, que representam as


^ ^ ^
varincias de 1 , 2 e , respectivamente, pode-se obter seus corres-
pondentes erros padres. De posse destes dados utiliza-se o teste t , como
mostrado em (4.2), para testar a significncia dos parmetros. Ressalta-se a
necessidade de se fazer uma anlise dos resduos do modelo, a fim de que,
2
em conjunto com o valor de R , possa ser estabelecido a qualidade do
ajuste, em qualquer um dos casos estudados.

5. Aplicaes com sadas do software statistica, verso 5.1


Inicia-se com o exemplo do modelo (4.1) apresentado na sesso
anterior em que a varivel explicativa uma varivel dummy. Para a realiza-
o deste exemplo, considera-se os seguintes dados hipotticos represen-
tados na Tabela 2.

126 Cincia e Natura, UFSM, 29(1): 111 - 135, 2007


Tabela 2: Dados sobre os salrios mdio de professores (as) universitrios (as).
Coluna I II III IV V

Salrio Inicial Sexo Xi (anos de


Professor D2 D3
(Y) (D1) experincia)

1 22 1 2 1 0

2 19 0 2 0 1

3 18 0 3 0 1

4 21,7 1 4 1 0

5 18,5 0 3 0 1

6 21 1 2 1 0

7 20,5 1 4 1 0

8 17 0 1 0 1

9 17,5 0 3 0 1

10 21,2 1 2 1 0
Fonte: Adaptado de Gujarati (2000)
OBS: As variveis D2 e D3 so variveis dummy definidas como se segue: no primeiro
caso, a varivel dummy admite valor zero quando o elemento da amostra for uma professora
e 1 quando, professor. A varivel dummy D2 inverte esta relao.

Utilizando-se o programa Statistica 5.1 para realizar este exem-


plo, os seguintes passos devem ser efetuados:
(1) Ao se iniciar o programa, escolhe-se a opo Multiple
Regression e em seguida cliqua-se em Switch to Figura 7; em seguida, digita-
se os dados conforme mostra Figura 8;

Figura 7: Iniciando o programa.

Cincia e Natura, UFSM, 29 (1): 111 - 135, 2007 127


Figura 8: Da disposio dos dados.

(2) A seguir, clica-se com o boto esquerdo do mouse sobre a


barra de ferramentas em Analysis - Startup panel e uma janela como mos-
trado na Figura 9 abaixo aparecer; em seguida, clica-se em Variables e sele-
ciona-se a varivel dependente (neste caso a varivel 1) e a independente
(varivel 2) e depois clica-se em OK Figura 10.

Figura 9: Definio das variveis.

128 Cincia e Natura, UFSM, 29(1): 111 - 135, 2007


Figura 10: Varivel dependente e independente.

(3) A janela anteriormente apresentada na Figura 7 aparecer de


novo com a definio das variveis. Clica-se em OK. A janela a seguir
aparecer com os resultados da regresso Figura 11.

Figura 11: Caixa de seleo dos resultados da regresso.

(4) Clica-se em Regression Summary para obter um resumo das


estatsticas. A seguinte janela ser mostrada pelo programa.

Cincia e Natura, UFSM, 29 (1): 111 - 135, 2007 129


Figura 12: Tela com o resultado das estimativas para o modelo e suas significncias.

(5) Para voltar janela apresentada em (11) clica-se em Continue.


A seguir obtm-se a anlise de varincia clicando em Analysis of variance.
A seguinte janela aparecer;

Figura 13: Tela com o resultado da Anlise de varincia.

(6) Observa-se que o programa oferece uma srie de opes que


podem ser testadas a fim de melhorar a anlise. Clica-se em Continue e,
por exemplo, obtm-se a anlise dos resduos clicando em Residual Analysis.
Para o segundo exemplo, onde o modelo apresenta uma varivel
quantitativa e uma varivel qualitativa com duas classes (modelo 4.3), tem-
se que, pelo programa computacional os seguintes passos devem ser seguidos:
Repete-se os passos apresentados anteriormente observando, con-
tudo, que a disposio dos dados deve ser feita conforme a Figura 14, assim
como a definio das variveis independentes, tais como ilustrado na Figu-
ra 15.
(7) A janela anteriormente apresentada em (9) aparecer de novo
com a definio das variveis. Clica-se em OK. A janela a seguir aparecer
com os resultados da regresso.Todos os demais passos, para este caso,
podem ser repetidos como mostrado anteriormente

130 Cincia e Natura, UFSM, 29(1): 111 - 135, 2007


Figura 14: Da nova disposio dos dados.

Figura 15: Definio da varivel dependente e independente.

Cincia e Natura, UFSM, 29 (1): 111 - 135, 2007 131


Figura 16: Caixa de seleo dos resultados da regresso do novo modelo.

Observa-se, portanto, com base nos procedimentos


computacionais descritos acima, que o software estatstico Statistica ver-
so 5.1 uma ferramenta til na estimativa da equao de regresso com
variveis independentes classificadas como dummies, permitindo desta for-
ma, uma maior agilidade na estimao desta classe de modelos, a destacar-
se, principalmente, pela simplicidade de operacionalizao requerida pelo
programa.

132 Cincia e Natura, UFSM, 29(1): 111 - 135, 2007


6. Consideraes finais
A introduo das variveis dummy na anlise de regresso, como
mostrado no presente trabalho, constitui-se em importante instrumento
que amplia, de certa forma, o poder de anlise dos modelos. Isso se deve ao
fato de que este instrumental permite incorporar nos modelos variveis
importantes no contexto que se pretende analisar, e que no podem ser
medidas quantitativamente.
Nesse sentido, o presente trabalho teve por objetivo apresentar,
resumidamente, situaes em que as variveis dummy podem ser inseridas
na anlise, em especial, no caso em que estas so consideradas variveis
independentes. Observou-se, neste caso, que o software estatstico Statistica
verso 5.1 uma ferramenta computacional til nas estimativas de equa-
es que levam em considerao este tipo de variveis.
Ressalta-se, no entanto, que o trabalho limitou-se estudar a inclu-
so da varivel dummy na anlise de regresso como uma varivel indepen-
dente. Neste caso, como sugesto para trabalhos futuros, recomenda-se o
estudo de modelos de regresso que utilizem a varivel dummy como uma
varivel dependente, especificamente, o estudo dos modelos logit, probit,
tobit e/ou o modelo de probabilidade linear.
Observa-se, ainda, que o mesmo limitou-se tambm situao
em que o ajuste do modelo de regresso leva em considerao uma nica
varivel independente quantitativa e que o uso de variveis dummy pode
ser estendido, com as devidas adaptaes, para o caso da presena de duas
ou mais variveis independentes quantitativas no modelo.

Cincia e Natura, UFSM, 29 (1): 111 - 135, 2007 133


7. Referncias bibliogrficas

CHOW, G. C. "Tests of Equality Between sets of coefficients in two


Linear Regressions". Econometrica, V. 28, n. 3, pp. 591-605, 1960.
DUFOUR, J. M. Dummy Variables and Predictive Tests for Structural
Changes: A coordinate Free Approach. International Economic
Review, Vol. 23, pp. 565-575, 1980.
___. Dummy Variables and Predictive Tests for Structural Change.
Economic Letters, Vol. 6, pp. 241-247, 1981.
___. Generalized Chow Tests for Structural Change: A Coordinate- Free
Approach. International Economic Review, Vol. 23, n. 3, pp.565-575, 1982.
ERLAT, H. "On the Chow Test when the Degrees of Freedom are
Inadequate", METU Studies in Development, n. 21, pp. 17-48, 1978.
___. Testing for Structural Change at More than One Switch Point:
Inadequate Degrees of Freedom and Dummy Variables. Oxford Bulletin
of Economics and Statistics, Vol. 47, n. 3, pp 293-302, 1985.
GUJARATI, D. Use of Dummy Variables in Testing for Equality
between Sets of Coefficients in Two Linear Regressions: A Note. The
American Statistician, Vol. 24, n. 1, pp. 50-52, 1970a.
___.Use of Dummy Variables in Testing for Equality between Sets of
Coefficients in Two Linear Regressions: A Generalisation, The
American Statistician, Vol. 24, n. 5, pp 18-21, 1970b.
___. Econometria bsica. So Paulo: Makron Boooks, 2000.
GREENE, W. H. Econometric Analysis. New York: Macmillan
Publishing Company, 1993.
HARDY, M. A. Regression With Dummy Variables. Newbury Park:
Sage Publications, 1993.
HILL, C. et al. Econometria. So Paulo: Saraiva, 1999.
HOFFMAN, R. Estatstica para Economistas. So Paulo, Pioneira, 1998.
KENNEDY, P. Interpreting Dummy Variables. The Review of
Economics and Statistics, Vol. 68(1), pp. 174-175, 1986.
KOOYMAN, M. A. Dummy Variables in Econometrics. Netherlands:
Tilburg University Press, 1976.
MADDALA, G.S. Introduo Econometria. Rio de Janeiro, LTC,
2003.

134 Cincia e Natura, UFSM, 29(1): 111 - 135, 2007


REBELO, E; VALLE, P.O. O uso de regressores dummy na especificao
de modelos com parmetros Variveis. Revista de Estatstica, 3
quadrimestre de 2002, pp. 17-40..
___. Testes Estabilidade dos Parmetros de um Modelo de Regresso:
Uma Aplicao Especial dos Regressores Dummy. Revista de Estatstica.
3 quadrimestre de 2002, pp. 41-70.
___. Anlise de Varincia e Anlise de Regresso com variveis Dummy:
Mais Semelhanas do que Diferenas. Revista de Estatstica, Vol. I, pp.
49-86, 2002.
___. Dualidades entre Anlise de Covarincia e Anlise de Regresso com
variveis dummy. Revista de Estatstica. 2 quadrimestre de 2002, pp. 65-86.
STEWART, J. Econometrics. Cambridge: Philip Allan, 1991
SUITS, D. B.; Use of Dummy Variables in Regression Equations.
Journal of the American Statistical Association, Vol. 52(280), pp. 548-
551, 1957.
___. Dummy Variables: Mechanics V. Interpretation. The Review of
Economics & Statistics, Vol. 66, pp. 177-180, 1984.

Cincia e Natura, UFSM, 29 (1): 111 - 135, 2007 135

Você também pode gostar