Variáveis Dummy

Variveis dummy: especificaes de modelos com
parmetros variveis
Fabrcio Missio1, Luciane Flores Jacobi2

1
Curso de Cincias Econmicas/Universidade Estadual de Mato Grosso do Sul

E-mail: fabriciomissio@gmail.com
2
Departamento de Estatstica - CCNE/UFSM
E-mail: lfjacobi@ccne.ufsm.br
Resumo
O presente trabalho busca estudar a regresso sobre variveis

dummy, mais especificamente, revisar a teoria e os casos em que elas podem ser utilizadas, a fim de elaborar, de forma sucinta, um material simples
e abrangente sobre o assunto, capaz de auxiliar em pesquisas e trabalhos.
Aps a formalizao, apresentou-se os procedimentos operacionais para
execut-los, com ajuda de recursos computacionais, utilizando-se o software
Statistica verso 5.1.
Palavras-chave: Regresso, Varivel Dummy, Software Estatstico.
Abstract
The present work search to study the regression on variables

dummies. More specifically, to revise the theory and the cases where they
can be used, in order to elaborate, in a succinct form, a simple and including
material on the subject, capable to assist in research and works. After the
formalization, will present the operational procedures to execute them,
with aid of computational resources, using in such a way, the Statistica
software version 5.1.
Key-Words: Regression, Variable Dummy, Statistica Software.
Cincia e Natura, UFSM, 29 (1): 111 - 135, 2007
111
1. Introduo
Na anlise de regresso, a varivel dependente pode ser influenciada por variveis quantitativas e qualitativas. As variveis quantitativas so
facilmente mensuradas em alguma escala o que no ocorre com as variveis
qualitativas, uma vez que essas indicam a presena ou a ausncia de uma
qualidade ou atributo.
Dessa forma, um mtodo para "quantificar" esses atributos construir variveis artificiais que assumam valores de 1 ou 0 ( indicando ausncia de um atributo e indicando a sua presena) que so conhecidas pela
literatura existente de "variveis dummy". A rigor, no essencial que as
variveis dummy assumam os valores de 0 e 1. O par (0,1) pode ser
transformado em qualquer outro par por uma funo linear tal que
Z = a + bD (b 0) em que a e b so constantes e em que D = 1 ou 0. Quando D = 1 , tem-se Z = a + b ; e quando D = 0 , tem-se Z = a . Assim, o
par (0,1) se torna (a, a + b). Observa-se que a atribuio de valores puramente arbitrria, exigindo cuidado na hora de interpretar os resultados.
A introduo de variveis qualitativas (dummy) torna o modelo
de regresso linear uma ferramenta extremamente flexvel capaz de lidar
com muitos problemas encontrados, principalmente, em estudos empricos.
Os modelos que incluem como variveis explicativas somente variveis
qualitativas so chamados de modelos de anlise de varincia (ANOVA),
enquanto que os que incluem tambm variveis quantitativas so chamados
de modelos de anlise de covarincia (ANCOVA). Do ponto de vista econmico, as variveis dicotmicas dummy so introduzidas no modelo para
representar adequadamente os efeitos diferenciais produzidos pelo comportamento dos agentes (econmicos) devido, principalmente, a diferentes causas, dentre as quais se destacam as de tipo temporal (estacionrias,
etc), de carter espacial (estado, pas, etc), de carter puramente qualitativo
(sexo, etc).
Quanto sua aplicao, este tipo de varivel pode ser usado em
modelos simples, em que a nica varivel explicativa a prpria dummy, e
em modelos mais complexos, em que uma varivel categrica desdobrada
em duas ou mais variveis dummies. Ateno especial requer a especificao
de modelos que combinam dummies para diferentes categorias e para modelos que combinam dummies e variveis quantitativas. Neste ltimo caso,
duas anlises so possveis: incorporar mudanas no intercepto e/ou na
declividade de uma funo; possibilitar a identificao de mudanas estruturais.
A literatura especializada referente abordagem da anlise de regresso sobre variveis dummy desenvolveu-se, principalmente, a partir das
dcadas de 70 e 80 do sculo passado, embora j tenha sido objeto de estu112
Cincia e Natura, UFSM, 29(1): 111 - 135, 2007
dos h muitos anos. Do ponto de vista de uma ordem cronolgica, tem-se

como referncia os estudos de SUITS (1957, 1984), CHOW (1960),
GUJARATI (1970 a, b) KOOYMAN (1976), ERLAT (1978, 1985),
DUFOUR (1980, 1981, 1982), KENNEDY (1986) e, mais recentemente,
STEWART (1991), MADDALA (1992), GREENE (1993), HARDY
(1993), dentre outros.
Observa-se que existe uma srie de textos relacionados utilizao das variveis dummy na anlise de regresso. Entretanto, este tpico
ressente de um maior nmero de publicaes, no sentido de que as contribuies individuais (explorada em cada texto) passem a ser incorporadas
em uma teoria mais completa do que as apresentadas nos livros textos de
econometria principalmente, porque as demonstraes e anlises ficam a
posteriori prejudicadas pela inacessibilidade grande parte destes materiais.
O objetivo do presente trabalho desenvolver um estudo terico-prtico sobre a utilizao de variveis dummy e suas principais aplicaes. De forma sucinta, elaborar um material simples e abrangente a fim de
destacar os casos em que as variveis dummy so aplicadas e apresentar
alguns resultados dessas aplicaes usando o programa computacional
Statistica verso 5.1. A metodologia a ser utilizada para apresentao dos
resultados corresponde dos livros texto de econometria, tais como,
GUJARATI (2000), MADDALA (2003) e HILL (1999).
Este trabalho constar, alm desta introduo, de cinco sees onde
se apresenta: na segunda o mtodo de estimao sob variveis dummy em
modelos com variaes descontnuas nos parmetros; na terceira, a estimao em modelos com variaes contnuas; na quarta apresenta as regresses com variveis dummy sob modelos de anlise de varincia (ANOVA)
e covarincia (ANCOVA); e na quinta, como exemplo, o desenvolvimento
destes modelos no programa computacional Statistica verso 5.1. As consideraes finais estaro na ltima seo.
2. Utilizao de variveis dummy: o caso de variaes descontnuas nos
parmetros
Nesta sesso busca-se demonstrar, baseado em REBELO &
VALLE (2002), quando a utilizao de variveis dummy torna-se importante na anlise economtrica. Para tanto, considera-se como exemplo um
estudo (de carter espacial, temporal ou puramente qualitativo) em que,
num primeiro momento, se assume que a relao entre a varivel dependente e a varivel explicativa estvel para todas as observaes de uma
amostra. Ou seja;
113
Yi = + X i + ui ; i = 1, 2 , ... n; , ui ~ NID (0, 2 )
(2.1)
onde X i uma varivel quantitativa.

Supe-se que a estimao desta equao de regresso apresenta
um valor significativo para a estatstica t associada ao coeficiente da varivel X e, simultaneamente, um valor para o coeficiente de determinao
(R 2 ) relativamente baixo e/ou um valor do Durbin Watson ( D.W . ) longe
de 2. A anlise destes resultados leva concluso de que, embora X constitua uma varivel importante na determinao do comportamento da varivel Y , existe uma parcela relativamente alta do comportamento desta varivel que no explicada pelo modelo. Em outras palavras, o modelo descrito anteriormente pode encontrar-se mal especificado por incorreta omisso de variveis explicativas.
O grfico a seguir expressa a relao entre a varivel dependente e
o regressor ( X ) retratado pela Figura 1:
Yi
( Terceiro grupo)
( Segundo grupo)
( Primeiro grupo)
Xi
Figura 1: Formato das observaes do estudo economtrico.
Observa-se, pela Figura 1, que o comportamento das variveis est

relacionado positivamente. Entretanto, parece existir uma relao distinta
entre as duas variveis para as observaes que pertencem a cada um dos
grupos. Isso explicaria os resultados obtidos quando do ajustamento de
uma nica reta de regresso para o conjunto de dados, ou seja, o valor
relativamente baixo de R 2 . Neste caso, o ajustamento de nica reta traduz-se em uma estimativa de valor elevado para a varincia da varivel resi114
dual o que pode produzir uma estatstica t associada ao coeficiente X no

significativa.
Alm disso, cabe explicitar que o ajuste do modelo utilizando apenas a varivel X como independente significa a omisso de uma informao conhecida, ou seja, a no utilizao de uma varivel que indica os diferentes grupos onde foram tomadas as observaes. A incluso desta varivel, neste caso, significa a incorporao de duas variveis dummy no modelo.
Para resolver este problema, considera-se, em separado, cada um
dos grupos de observaes e utiliza-os em trs modelos distintos, pois,
como mostra a Figura 1, as retas de regresso que melhor se ajustam aos
dados parecem diferir apenas no termo intercepto ( ) e no na inclinao
( ) . Em termos formais;
Yi = 1 + X i + ui
para o primeiro grupo
(2.2)
Yi = 2 + X i + ui
para o segundo grupo
(2.3)
Yi = 3 + X i + ui
para o terceiro grupo
(2.4)
Contudo, a estimao dos trs diferentes modelos certamente no

produzir o mesmo valor para o parmetro que, para efeito de anlise,
foi considerado comum a ambas as especificaes, pois se os trs grupos
reagem de forma similar a uma variao em X , deve-se reunir todas as
observaes para ajustar um modelo de regresso que produza trs termos
independentes, mas uma estimativa nica para o coeficiente de inclinao.
Dessa forma, a definio de regressores dummy apresenta-se como o procedimento adequado para este caso.
Em termos formais, a definio de variveis seria a seguinte:
1, se a observao verifica a caracterstica que define o

D2i = segundo grupo;
0, caso contrrio
1, se a observao verifica a caracterstica que define o

D3i = terceiro grupo;
0, caso contrrio;
onde a introduo da varivel dummy D2 tem por objetivo captar (e o
valor dela representa) a diferena entre os termos independentes das equaes de regresso relativas aos dois primeiros grupos. De forma anloga, a
115
dummy D3 refere-se s diferenas existentes entre o terceiro e primeiro

grupo1 .
Logo, com a introduo de regressores dummy pode-se ajustar a
equao de regresso da seguinte forma;
Yi = 1 + ( 2 1 )D2i + ( 3 1 )D3i + X i + ui ; i = 1,2,...., n;
ui ~ NID (0, 2 )
(2.5)
ou, de forma equivalente;
Yi = 1 + 2 D2i + 3 D3i + X i + ui ; i = 1,2,...., n; ui ~ NID 0, 2
(2.6)
onde: 2 = ( 2 1 ) e 3 = ( 3 1 ) .
Pela equao anterior possvel se obter uma nica estimativa para
o parmetro e, simultaneamente, trs ordenadas, na origem, distintas.
A traduo geomtrica da estrutura estimada neste modelo pode ser representada conforme a Figura 2:
Yi
a1 + d3
a1 + d2
y i = (a1 + d3 ) + bX i
y i = (a1 + d2 ) + bX i
y = a + bX
i
a1
Fonte: REBELO & VALLE (2002)
Figura 2: Estrutura geomtrica do modelo (2.6).
Observa-se que na Figura 2 tem-se que 2 > 0, 3 > 0, 3 > 2 .

Neste caso, para cada grupo o modelo de regresso seria dado por:
Yi = 1 + X i + ui se D2i = D3i = 0 (primeiro grupo) (2.7)
Yi = (1 + 2 ) + X i + ui se D2i = 1 e D3i = 0 (segundo grupo) (2.8)

1
O grupo, categoria ou classificao designado pelo valor 0 freqentemente referido
como categoria-base. "base" no sentido de que as comparaes so feitas em relao
a esta categoria.
116
Xi
Yi = (1 + 3 ) + X i + ui se D2i = 0 e D3i = 1 (terceiro grupo) (2.9)

Admitiu-se que o coeficiente de inclinao semelhante a todos
os modelos. Neste caso, vale ressaltar que se considera como hiptese implcita, que as variveis de intercepto sejam aditivas. O efeito de cada fator
qualitativo somado ao intercepto de regresso, e o efeito de qualquer
varivel binria independente de qualquer outro fator qualitativo. s vezes, possvel que os efeitos de fatores qualitativos no sejam independentes, isto , o modelo pode ser multiplicativo. Em outras palavras, pode haver interao entre as variveis qualitativas.
A situao oposta tambm pode ocorrer. As retas de regresso
podem ter o mesmo intercepto com coeficientes de inclinao distintos.
Dessa forma, as retas de regresso que representam essas especificaes,
para cada um dos diferentes grupos, devem ser especificadas novamente,
como a seguir:
Yi = + 1 X i + ui
(para o primeiro grupo)
(2.10)
Yi = + 2 X i + ui
(para o segundo grupo)
(2.11)
Yi = + 3 X i + ui
(para o terceiro grupo)
(2.12)
Segundo Hill et all. (2003) o produto de uma varivel dummy por

uma varivel contnua resulta no que se pode chamar de "varivel dummy
de inclinao e/ou varivel de interao", e recomendvel, a fim de que se
possa, em um nico modelo, produzir uma estimativa para o termo independente e trs coeficientes de inclinao distintos. O modelo que deve ser
estimado :
Yi = + 1 X i + ( 2 1 )(D2i X i ) + ( 3 1 )(D3i X i ) + ui ;
i = 1, 2 ...,n
ui ~ NID 0, 2
(2.13),
onde as variveis D2 e D3 so as variveis dummy definidas anteriormente

e medem, portanto, a diferena entre os declives de dois modelos de regresso.
Ou, de forma equivalente, o modelo anterior pode ser representado por:
Yi = + 1 X i + 2 (D2i X i ) + 3 (D3i X i ) + ui
ui ~ NID (0, 2 ) ;
i = 1, 2,...,n;
(2.14),
117
onde: 2 = ( 2 1 ) e 3 = ( 3 1 ) .
Assim, a utilizao de variveis dummy permite determinar a equao relativa a cada grupo2 ;
Yi = + 1 X i + ui se D2i = D3i = 0
(primeiro grupo)
(2.15)
Yi = + 2 X i + ui se D2i = 1 e D3i = 0 (segundo grupo) (2.16)

Yi = + 3 X i + ui se D2i = 0 e D3i = 1 (terceiro grupo) (2.17)
A representao grfica desta situao mostrada pela Figura 3,
onde 2 > 0, 3 > 0, 3 > 2 :
Yi
y i = a + ( b1 + g3 ) X i
y i = a + ( b1 + g2 ) X i
y i = a + b1 X i
Xi
Figura 3: Estrutura geomtrica do modelo (2.14).
Observa-se que esta anlise pode ser combinada. Pode-se estimar

uma equao de regresso com diferentes interceptos e diferentes coeficientes de inclinao.
3. Utilizao de variveis dummy: o caso de variaes contnuas nos

parmetros
Nesta classe de modelos a variao no declive da reta de regresso
no descontnua, embora seja bastante acentuada. Por exemplo, pretende-se ajustar um modelo de regresso para os dados ilustrados na Figura 4;
Outra forma de se obter esses resultados calcular as derivadas parciais
(ver Maddala 2003).
2
118
Yi
c1
Xi
c2

Figura 4: Estudo Economtrico Hipottico.
Efetivamente, pela simples ilustrao da Figura 4 possvel se

observar que a estimao do modelo do tipo Yi = + X i + ui no correta. A melhor forma de se obter uma estimativa que represente os dados
ajustar os seguintes modelos de regresso [esse mtodo apresentado em
alguns livros textos como regresso linear por partes (Gujarati, 2000)]:
Yi = 1 + 1 X i + ui
para
X i c1
(3.1)
Yi = 2 + 2 X i + ui
para
c1 X i c2
(3.2)
Yi = 3 + 3 X i + ui
para
X i c2
(3.3)
Desse modo podem ser definidas duas variveis dummy, a saber:
1, Se c1 Xi c2
D2i =
0, Caso contrrio
1, Se Xi c2 ;
D3i =
0, Caso contrrio;
Logo, a especificao do modelo correta seria semelhante a que se
segue, permitindo uma aproximao adequada do problema em questo:
119
Yi = 1 + ( 2 1 )D2i + ( 3 1 )D3i + 1 X 1 +
( 2 1 )(D2i X i ) + ( 3 1 )(D3i X i ) + ui
i=1,2, ..., n; ui ~ NID (0, 2 )
(3.4)
Entretanto, o problema resultante da estimao deste modelo
que para E (Yi X i = c1 ) e E (Yi X i = c2 ) obtm-se dois valores diferentes.

Em sntese, isso significa que o modelo de regresso no contnuo, para
torn-lo contnuo, necessrio definir as seguintes restries lineares:
1 + 1c1 = 2 + 2 c1
2 + 2 c2 = 3 + 3 c2
que, por simples manipulaes algbricas, tornam-se:
2 1 = c1 ( 2 1 )
3 2 = c2 ( 3 2 )
Impondo-se essas restries ao modelo (3.4), ele se transforma em;
Yi = 1 + 1 X 1 + ( 2 1 )D2i (X i c1 ) +
( 3 1 )D3i (X i c2 ) + ui
(3.5)
ou, de forma equivalente;
Yi = 1 + 1 X 1 + 2 D2i (X i c1 ) + 3 D3i (X i c2 ) + ui
(3.6)
Logo, para cada segmento da reta de regresso, tm-se as seguintes combinaes de valores das variveis dummy, observando-se que para o
primeiro caso a reta de regresso vale para o intervalo X i c1 , a segunda
para o intervalo c1 X i c2 e a terceira para o intervalo X i c2 .
1 + 1 X 1 + ui
Yi = 1 c1 2 + (1 + 2 )X 1 + ui
c + ( + )X + u
1
3
i
i
1 2 3
(3.7)
Observe que neste caso, o processo de estimao produzir um

coeficiente inclinao distinto para cada uma das categorias. A significncia
das mudanas estimadas nos declives pode ser testada por um teste F .
Na classe de modelos em que a variao no declive da reta de re120
gresso descontnua, e sendo esta bastante acentuada, a especificao de

um nico modelo, tal como proposto em (3.6), pode ser uma aproximao
inadequada para o problema em questo. Neste caso, a especificao de um
modelo como o apresentado em (3.4) solucionaria este problema, muito
embora a resultante fosse trs equaes de regresso totalmente distintas e
dois valores totalmente diferentes para E (Yi X i = c1 ) e E (Yi X i = c2 ) .

Observe, portanto, que a tcnica apresentada anteriormente, de impor restries ao modelo de tal forma a torn-lo continuo, busca solucionar atravs da especificao de um modelo aproximado o problema da obteno de
diferentes retas de regresso, uma vez que sua aplicao proporciona como
resultado retas de regresso em que apenas o coeficiente de inclinao difere entre elas3.
4. Regresso com variveis dummy sob modelos de anlise de varincia

(ANOVA) e covarincia (ANCOVA)
Antes de serem analisados os modelos de varincia e covarincia
separadamente, admite-se que as retas de regresso para os distintos grupos diferem apenas no termo de intercepto, mantendo-se os mesmos coeficientes angulares, conforme pode ser observado na Figura 1 apresentado
anteriormente. Neste caso, a varivel dummy incorporada ao modelo de
regresso para captar o efeito do deslocamento do intercepto como resultado de algum fator qualitativo.
Para exemplificar a primeira classe de modelos em que as variveis
explicativas so exclusivamente dummies, apresenta-se o seguinte modelo
de regresso (4.1) (Gujarati, 2000); onde atravs do uso de variveis dummy
busca-se identificar se existe diferena entre os salrios mdios recebidos
por professores e professoras universitrios. A hiptese implcita deste
modelo de que os professores universitrios receberiam um salrio maior.
Neste caso, mantidos constantes todos os demais fatores, caso a diferena
se confirme, pode-se especular sobre a possibilidade de haver discriminao com relao ao salrio pago s professoras.
Observe, contudo, que se nos distintos pontos de mudana a descontinuidade da

reta for muita acentuada, a estimao atravs de um modelo aproximado pode gerar
uma estimativa incorreta. Neste caso, solucionar-se-iam os problemas com a
obteno de distintas retas de regresso, muito embora as estimativas obtidas no
representem fielmente os dados que esto sendo analisados.
121
O modelo de regresso dado por;
yi = + Di + ui
(4.1)
onde: y = salrio anual de um professor universitrio; Di = 1 se do sexo

masculino, 0 caso contrrio.
Admitindo-se que as perturbaes satisfaam as hipteses usuais
do modelo clssico de regresso linear ui ~ NID 0, 2 ; E (ui ) = 0 , temse, de (4.1);
- Salrio-mdio de uma professora universitria: E (Yi Di = 0) =

- Salrio-mdio de um professor universitrio: E (Yi Di = 1) = +
onde o coeficiente de inclinao informa em quanto o salrio mdio de

um professor universitrio difere do salrio-mdio de uma professora.
Caso os resultados obtidos mostrem que estatisticamente
significativo, conclui-se que, o salrio de um professor, de fato, superior
ao de uma professora. Graficamente, este resultado pode ser apresentado
como na Figura 5.
Professores
a+ b
^
=b
Professoras
Figura 5: Funes salrios (mdios).
4.1 Estimao e teste de parmetros do modelo

A estimao do modelo na forma matricial requer que os seguintes clculos sejam efetuados4:
A matriz X representa a matriz dos coeficientes do modelo. Neste caso, X = D .
Observa-se que, especificando-se adequadamente a matriz X , os resultados
apresentados valem para todos os modelos abordados ao longo deste trabalho.
4
122
a) Calcular X ' X (onde X , = Matriz transposta de X, matriz original);

b) Obter
(X X )
,
c) Calcular X ,Y ;
De posse desses clculos pode-se obter as estimativas dos
parmetros do modelo de regresso atravs da frmula:
^

1
B=
= (X , X ) X ,Y
Contudo, falta avaliar se o valor estimado para o parmetro

estatisticamente significativo, isto , testar em nvel de significncia de % ,
a hiptese H 0 : = 0 contra a hiptese alternativa H1 : > 0 5. Para tanto,
calcula-se a anlise de varincia de regresso, apresentada genericamente na
Tabela 1;
Tabela 1: Anlise de Varincia.
CV
Regresso
Resduo
Total
OBS:
GL
K 1
nK
n 1
SQ
^,
QM
_2
b X y nY
,
^,
y, y b X , y
_2
^,
b X , y nY
K 1
^,
y, y b X , y
nK
_2
y, y nY
o nmero de parmetros estimados. Para o caso do modelo (4.1) K = 2 .
A partir da anlise de varincia pode-se determinar o grau de ajuste do modelo, bem como realizar o teste de significncia dos parmetros.
Logo, o coeficiente de determinao (ou grau de ajuste do modelo) dado
SQE K 1
2
por R = SQT n 1 .
Observa-se que a hiptese alternativa pode ser especificada de forma diferente,
como por exemplo, H1 : 0 . Neste caso, ela foi definida como sendo maior que
zero dado a hiptese implcita de que poderia haver um diferencial positivo entre
os salrios mdios recebidos pelos professores universitrios em comparao aos
salrios recebidos pelas professoras universitrias.
5
123
A realizao do teste de significncia dos parmetros exige que se

calcule a varincia do modelo e, posteriormente, a matriz de varinciacovarincia de onde se obtm, para cada parmetro individualmente, a sua
respectiva varincia (diagonal principal).
O teste
de significncia global para os parmetros de regres-
_2
^,
so pode ser calculado por: F =
b X , y n y K 1
^,
y, y b X , y n K
. Entretanto, neste caso de-
vem-se especificar novamente as hipteses, ou seja, este teste utilizado

para testar a hiptese de que todos os coeficientes de inclinao so simultaneamente iguais a zero contra a hiptese alternativa que pelo menos um
dos coeficientes diferente de zero.
^ 2
Clculo da varincia: =
SQR
. Logo, a matriz de varincianK
covarincia para B pode ser mostrada como:

var( ) cov( , )
=
cov( , ) var ( )
Sabe-se que os elementos da diagonal principal
^ ^
var cov b = X , X

2
representam as
varincias de e , respectivamente, e suas razes quadradas fornecem

os correspondentes erros padres. De posse destes dados pode-se, utilizar
o teste t para testar a significncia dos parmetros.
^
Para , tem-se que:

^
t=
^
ep

(4.2)
Logo, pela regra de deciso sabe-se que, tcal > tcrtico t / 2 ,(n K ) ,
rejeita-se a hiptese nula. Neste caso, se o valor observado da estatstica
calculada superar o seu valor crtico, no se pode afirmar que o coeficiente
^
estatisticamente igual a zero, ou seja, isso significa que os resultados

indicam que os salrios-mdios das duas categorias so diferentes.
Para a segunda classe de modelos, onde as variveis explicativas
so tanto de ordem qualitativas (dummy) como quantitativas, inicia-se o
124
estudo da regresso sobre uma varivel quantitativa e uma varivel qualitativa com apenas duas classes6. Para exemplificar, apresenta-se o seguinte
modelo de regresso:
Yi = i + 2 D1 + X i + u1
(4.3)
onde: X i = anos de experincia de ensino e as demais variveis seguem

como antes definidas.
Admitindo-se que as perturbaes satisfaam as hipteses usuais
[E (ui ) = 0], tem-se que:
- Salrio mdio de uma professora universitria:
E (Yi X i , Di = 0 ) = 1 + X i
- Salrio mdio de um professor universitrio:
E (Yi X i , Di = 1) = (1 + 2 ) + X i
Isso significa que as funes salrios, em relao aos anos de ex-
perincia de ensino, tm a mesma inclinao ( ) , mas diferentes interceptos,

ou seja, o salrio dos professores difere do salrio das professoras, mas a
taxa de variao mdia anual, dada pelos anos de experincia, igual para
ambos os sexos. Graficamente, esses resultados podem ser representados
na Figura 6:
Salrio anual
a2
^
a1
Anos de experincia
Figura 6: Funes salrios em relao aos anos de experincia.
Logo, a partir do modelo (4.3) para estimar o salrio dos professores a relao fica;
Yi = (1 + 2 ) + X + ui
Varivel qualitativa com duas classes, a saber, homem e mulher.
125
e para estimar o salrio das professoras;
Yi = 1 + X i + ui
Os clculos de "a" a "c", citados anteriormente, devem ser realizados. O vetor das estimativas dos parmetros neste caso dado por:
1
B = 2
= X ,X
X ,Y
Falta-se avaliar se o valor estimado para o parmetro estatisticamente significativo, para tanto, calcula-se a anlise de varincia de regresso como apresentado na Tabela 1. Os mesmos clculos podem ser
realizados para se obter o grau de ajuste do modelo e/ou para testar a
significncia global dos parmetros da regresso.
^
Assim, a matriz de varincia-covarincia para definida como:
2
1
^ ^
var cov b = (X , X ) =
var (1 )
cov(1 , 2 )
cov(1 , )
cov(1 , 2 )
var( 2 )
cov( 2 , )
cov(1 , )
cov( 2 , )
var( )
Pelos elementos da diagonal principal, que representam as

^
varincias de 1 , 2 e , respectivamente, pode-se obter seus correspondentes erros padres. De posse destes dados utiliza-se o teste t , como
mostrado em (4.2), para testar a significncia dos parmetros. Ressalta-se a
necessidade de se fazer uma anlise dos resduos do modelo, a fim de que,
2
em conjunto com o valor de R , possa ser estabelecido a qualidade do

ajuste, em qualquer um dos casos estudados.
5. Aplicaes com sadas do software statistica, verso 5.1

Inicia-se com o exemplo do modelo (4.1) apresentado na sesso
anterior em que a varivel explicativa uma varivel dummy. Para a realizao deste exemplo, considera-se os seguintes dados hipotticos representados na Tabela 2.
126
Tabela 2: Dados sobre os salrios mdio de professores (as) universitrios (as).

Coluna
II
III
IV
Professor
Salrio Inicial
(Y)
Sexo
(D1)
Xi (anos de
experincia)
D2
D3
22
19
18
21,7
18,5
21
20,5
17
17,5
10
21,2
Fonte: Adaptado de Gujarati (2000)

OBS: As variveis D2 e D3 so variveis dummy definidas como se segue: no primeiro
caso, a varivel dummy admite valor zero quando o elemento da amostra for uma professora
e 1 quando, professor. A varivel dummy D2 inverte esta relao.
Utilizando-se o programa Statistica 5.1 para realizar este exemplo, os seguintes passos devem ser efetuados:
(1) Ao se iniciar o programa, escolhe-se a opo Multiple
Regression e em seguida cliqua-se em Switch to Figura 7; em seguida, digitase os dados conforme mostra Figura 8;
Figura 7: Iniciando o programa.

127
Figura 8: Da disposio dos dados.
(2) A seguir, clica-se com o boto esquerdo do mouse sobre a

barra de ferramentas em Analysis - Startup panel e uma janela como mostrado na Figura 9 abaixo aparecer; em seguida, clica-se em Variables e seleciona-se a varivel dependente (neste caso a varivel 1) e a independente
(varivel 2) e depois clica-se em OK Figura 10.
Figura 9: Definio das variveis.

128
Figura 10: Varivel dependente e independente.
(3) A janela anteriormente apresentada na Figura 7 aparecer de

novo com a definio das variveis. Clica-se em OK. A janela a seguir
aparecer com os resultados da regresso Figura 11.
Figura 11: Caixa de seleo dos resultados da regresso.
(4) Clica-se em Regression Summary para obter um resumo das

estatsticas. A seguinte janela ser mostrada pelo programa.
129
Figura 12: Tela com o resultado das estimativas para o modelo e suas significncias.
(5) Para voltar janela apresentada em (11) clica-se em Continue.

A seguir obtm-se a anlise de varincia clicando em Analysis of variance.
A seguinte janela aparecer;
Figura 13: Tela com o resultado da Anlise de varincia.
(6) Observa-se que o programa oferece uma srie de opes que

podem ser testadas a fim de melhorar a anlise. Clica-se em Continue e,
por exemplo, obtm-se a anlise dos resduos clicando em Residual Analysis.
Para o segundo exemplo, onde o modelo apresenta uma varivel
quantitativa e uma varivel qualitativa com duas classes (modelo 4.3), temse que, pelo programa computacional os seguintes passos devem ser seguidos:
Repete-se os passos apresentados anteriormente observando, contudo, que a disposio dos dados deve ser feita conforme a Figura 14, assim
como a definio das variveis independentes, tais como ilustrado na Figura 15.
(7) A janela anteriormente apresentada em (9) aparecer de novo
com a definio das variveis. Clica-se em OK. A janela a seguir aparecer
com os resultados da regresso.Todos os demais passos, para este caso,
podem ser repetidos como mostrado anteriormente
130
Figura 14: Da nova disposio dos dados.
Figura 15: Definio da varivel dependente e independente.
131
Figura 16: Caixa de seleo dos resultados da regresso do novo modelo.
Observa-se, portanto, com base nos procedimentos

computacionais descritos acima, que o software estatstico Statistica verso 5.1 uma ferramenta til na estimativa da equao de regresso com
variveis independentes classificadas como dummies, permitindo desta forma, uma maior agilidade na estimao desta classe de modelos, a destacarse, principalmente, pela simplicidade de operacionalizao requerida pelo
programa.
132
6. Consideraes finais
A introduo das variveis dummy na anlise de regresso, como
mostrado no presente trabalho, constitui-se em importante instrumento
que amplia, de certa forma, o poder de anlise dos modelos. Isso se deve ao
fato de que este instrumental permite incorporar nos modelos variveis
importantes no contexto que se pretende analisar, e que no podem ser
medidas quantitativamente.
Nesse sentido, o presente trabalho teve por objetivo apresentar,
resumidamente, situaes em que as variveis dummy podem ser inseridas
na anlise, em especial, no caso em que estas so consideradas variveis
independentes. Observou-se, neste caso, que o software estatstico Statistica
verso 5.1 uma ferramenta computacional til nas estimativas de equaes que levam em considerao este tipo de variveis.
Ressalta-se, no entanto, que o trabalho limitou-se estudar a incluso da varivel dummy na anlise de regresso como uma varivel independente. Neste caso, como sugesto para trabalhos futuros, recomenda-se o
estudo de modelos de regresso que utilizem a varivel dummy como uma
varivel dependente, especificamente, o estudo dos modelos logit, probit,
tobit e/ou o modelo de probabilidade linear.
Observa-se, ainda, que o mesmo limitou-se tambm situao
em que o ajuste do modelo de regresso leva em considerao uma nica
varivel independente quantitativa e que o uso de variveis dummy pode
ser estendido, com as devidas adaptaes, para o caso da presena de duas
ou mais variveis independentes quantitativas no modelo.
133
7. Referncias bibliogrficas
CHOW, G. C. "Tests of Equality Between sets of coefficients in two
Linear Regressions". Econometrica, V. 28, n. 3, pp. 591-605, 1960.
DUFOUR, J. M. Dummy Variables and Predictive Tests for Structural
Changes: A coordinate Free Approach. International Economic
Review, Vol. 23, pp. 565-575, 1980.
___. Dummy Variables and Predictive Tests for Structural Change.
Economic Letters, Vol. 6, pp. 241-247, 1981.
___. Generalized Chow Tests for Structural Change: A Coordinate- Free
Approach. International Economic Review, Vol. 23, n. 3, pp.565-575, 1982.
ERLAT, H. "On the Chow Test when the Degrees of Freedom are
Inadequate", METU Studies in Development, n. 21, pp. 17-48, 1978.
___. Testing for Structural Change at More than One Switch Point:
Inadequate Degrees of Freedom and Dummy Variables. Oxford Bulletin
of Economics and Statistics, Vol. 47, n. 3, pp 293-302, 1985.
GUJARATI, D. Use of Dummy Variables in Testing for Equality
between Sets of Coefficients in Two Linear Regressions: A Note. The
American Statistician, Vol. 24, n. 1, pp. 50-52, 1970a.
___.Use of Dummy Variables in Testing for Equality between Sets of
Coefficients in Two Linear Regressions: A Generalisation, The
American Statistician, Vol. 24, n. 5, pp 18-21, 1970b.
___. Econometria bsica. So Paulo: Makron Boooks, 2000.
GREENE, W. H. Econometric Analysis. New York: Macmillan
Publishing Company, 1993.
HARDY, M. A. Regression With Dummy Variables. Newbury Park:
Sage Publications, 1993.
HILL, C. et al. Econometria. So Paulo: Saraiva, 1999.
HOFFMAN, R. Estatstica para Economistas. So Paulo, Pioneira, 1998.
KENNEDY, P. Interpreting Dummy Variables. The Review of
Economics and Statistics, Vol. 68(1), pp. 174-175, 1986.
KOOYMAN, M. A. Dummy Variables in Econometrics. Netherlands:
Tilburg University Press, 1976.
MADDALA, G.S. Introduo Econometria. Rio de Janeiro, LTC,
2003.
134
REBELO, E; VALLE, P.O. O uso de regressores dummy na especificao

de modelos com parmetros Variveis. Revista de Estatstica, 3
quadrimestre de 2002, pp. 17-40..
___. Testes Estabilidade dos Parmetros de um Modelo de Regresso:
Uma Aplicao Especial dos Regressores Dummy. Revista de Estatstica.
3 quadrimestre de 2002, pp. 41-70.
___. Anlise de Varincia e Anlise de Regresso com variveis Dummy:
Mais Semelhanas do que Diferenas. Revista de Estatstica, Vol. I, pp.
49-86, 2002.
___. Dualidades entre Anlise de Covarincia e Anlise de Regresso com
variveis dummy. Revista de Estatstica. 2 quadrimestre de 2002, pp. 65-86.
STEWART, J. Econometrics. Cambridge: Philip Allan, 1991
SUITS, D. B.; Use of Dummy Variables in Regression Equations.
Journal of the American Statistical Association, Vol. 52(280), pp. 548551, 1957.
___. Dummy Variables: Mechanics V. Interpretation. The Review of
Economics & Statistics, Vol. 66, pp. 177-180, 1984.
135

Variáveis Dummy

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Variáveis Dummy

Enviado por

Direitos autorais:

Formatos disponíveis

Variveis dummy: especificaes de modelos com

Fabrcio Missio1, Luciane Flores Jacobi2

Curso de Cincias Econmicas/Universidade Estadual de Mato Grosso do Sul

O presente trabalho busca estudar a regresso sobre variveis

The present work search to study the regression on variables

Cincia e Natura, UFSM, 29 (1): 111 - 135, 2007

Cincia e Natura, UFSM, 29(1): 111 - 135, 2007

dos h muitos anos. Do ponto de vista de uma ordem cronolgica, tem-se

Cincia e Natura, UFSM, 29 (1): 111 - 135, 2007

Yi = + X i + ui ; i = 1, 2 , ... n; , ui ~ NID (0, 2 )

onde X i uma varivel quantitativa.

Observa-se, pela Figura 1, que o comportamento das variveis est

Cincia e Natura, UFSM, 29(1): 111 - 135, 2007

dual o que pode produzir uma estatstica t associada ao coeficiente X no

para o primeiro grupo

para o segundo grupo

para o terceiro grupo

Contudo, a estimao dos trs diferentes modelos certamente no

1, se a observao verifica a caracterstica que define o

1, se a observao verifica a caracterstica que define o

dummy D3 refere-se s diferenas existentes entre o terceiro e primeiro

ou, de forma equivalente;

Yi = 1 + 2 D2i + 3 D3i + X i + ui ; i = 1,2,...., n; ui ~ NID 0, 2

Observa-se que na Figura 2 tem-se que 2 > 0, 3 > 0, 3 > 2 .

Yi = 1 + X i + ui se D2i = D3i = 0 (primeiro grupo) (2.7)

Yi = (1 + 2 ) + X i + ui se D2i = 1 e D3i = 0 (segundo grupo) (2.8)

Cincia e Natura, UFSM, 29(1): 111 - 135, 2007

Yi = (1 + 3 ) + X i + ui se D2i = 0 e D3i = 1 (terceiro grupo) (2.9)

(para o primeiro grupo)

(para o segundo grupo)

(para o terceiro grupo)

Segundo Hill et all. (2003) o produto de uma varivel dummy por

onde as variveis D2 e D3 so as variveis dummy definidas anteriormente

Cincia e Natura, UFSM, 29 (1): 111 - 135, 2007

Yi = + 2 X i + ui se D2i = 1 e D3i = 0 (segundo grupo) (2.16)

Observa-se que esta anlise pode ser combinada. Pode-se estimar

3. Utilizao de variveis dummy: o caso de variaes contnuas nos

Cincia e Natura, UFSM, 29(1): 111 - 135, 2007

Fonte: REBELO & VALLE (2002)

Efetivamente, pela simples ilustrao da Figura 4 possvel se

Desse modo podem ser definidas duas variveis dummy, a saber:

i=1,2, ..., n; ui ~ NID (0, 2 )

Entretanto, o problema resultante da estimao deste modelo

que para E (Yi X i = c1 ) e E (Yi X i = c2 ) obtm-se dois valores diferentes.

ou, de forma equivalente;

Observe que neste caso, o processo de estimao produzir um

Cincia e Natura, UFSM, 29(1): 111 - 135, 2007

gresso descontnua, e sendo esta bastante acentuada, a especificao de

dois valores totalmente diferentes para E (Yi X i = c1 ) e E (Yi X i = c2 ) .

4. Regresso com variveis dummy sob modelos de anlise de varincia

Observe, contudo, que se nos distintos pontos de mudana a descontinuidade da

Cincia e Natura, UFSM, 29 (1): 111 - 135, 2007

O modelo de regresso dado por;

onde: y = salrio anual de um professor universitrio; Di = 1 se do sexo

do modelo clssico de regresso linear ui ~ NID 0, 2 ; E (ui ) = 0 , temse, de (4.1);

- Salrio-mdio de uma professora universitria: E (Yi Di = 0) =

onde o coeficiente de inclinao informa em quanto o salrio mdio de

4.1 Estimao e teste de parmetros do modelo

Cincia e Natura, UFSM, 29(1): 111 - 135, 2007

a) Calcular X ' X (onde X , = Matriz transposta de X, matriz original);

Contudo, falta avaliar se o valor estimado para o parmetro

o nmero de parmetros estimados. Para o caso do modelo (4.1) K = 2 .

Cincia e Natura, UFSM, 29 (1): 111 - 135, 2007

A realizao do teste de significncia dos parmetros exige que se