Arvore de Decisao 1 PDF

Rev. Bras. Biom., So Paulo, v.27, n.1, p.
93-114, 2009 93
EXTENSES DO ALGORTMO DE RVORES DE CLASSIFICAO
PARA A ANLISE DE DADOS CATEGORIZADOS MULTIVARIADOS
UTILIZANDO COEFICIENTES DE DISSIMILARIDADE E ENTROPIA
Cesar Augusto TACONELI
1

Silvio Sandoval ZOCCHI
2

Carlos Tadeu dos Santos DIAS
2

RESUMO: A anlise estatstica de grandes bancos de dados requer a utilizao de metodologias
flexveis, capazes de produzir resultados esclarecedores e facilmente compreensveis frente a
dificuldades como a presena de nmeros elevados de variveis, diferentes graus de associaes
entre as mesmas e dados ausentes. A utilizao de rvores de classificao e regresso
proporciona a modelagem de uma varivel resposta, categorizada ou numrica, com base em um
conjunto de covariveis, sem esbarrar nas dificuldades mencionadas. A extenso multivariada de
tcnicas de classificao e regresso por rvores tem sido estudada de maneira mais acentuada
para situaes em que se tm mltiplas variveis resposta numricas. Prope-se neste trabalho
metodologias fundamentadas em rvores de classificao multivariadas aplicadas anlise de
mltiplas variveis resposta categorizadas, com base em coeficientes de dissimilaridade e
entropia. Por meio de um estudo de simulao, verificou-se que os resultados produzidos pelos
mtodos propostos so melhores quanto maiores as entropias e correlaes das variveis sob
estudo. A anlise de dados de consumo de lcool e fumo dos habitantes do municpio de
Botucatu-SP complementa o presente estudo, indicando, dentre outras coisas, o grau de
escolaridade, a ocupao profissional e a possibilidade de compartilhar problemas com amigos
como fatores que influenciam o perfil de consumo de lcool e fumo dos habitantes.
PALAVRAS CHAVE: rvores de classificao; dissimilaridade; entropia; lcool e fumo;
simulao multivariada.
1 Introduo
Levantamentos e experimentos so responsveis, muitas vezes, pela produo de
dados complexos, com grande nmero de variveis e elementos, tornando necessria a
aplicao de anlises estatsticas sofisticadas e originando, por vezes, resultados de difcil
interpretao at mesmo para profissionais da rea estatstica. A proposta de mtodos
capazes de produzir resultados de fcil compreenso em tais ocasies torna-se, ento,
fundamental. Nesse contexto, tcnicas de classificao e regresso por rvores
(Classification And Regression Trees CART - Breiman et al., 1984; DeAth e Fabricius,

1
Departamento de Estatstica, Universidade Federal do Paran UFPR, CEP 81531-990, Curitiba, PR, Brasil.
E-mail: taconeli@ufpr.br
2
Departamento de Cincias Exatas, Escola Superior de Agricultura Luiz de Queiroz ESALQ, Universidade de
So Paulo USP, CEP 13418-900, Piracicaba, SP, Brasil. E-mail: sszocchi@esalq.usp.br / ctsdias@esalq.usp.br
Rev. Bras. Biom., So Paulo, v.26, n.4, p.93-114, 2009 94
2000) surgem como uma alternativa preditiva/exploratria de grande valia, dadas a
simplicidade e a versatilidade associadas.
A construo de modelos de classificao e regresso por rvores possibilita a
explicao de uma varivel resposta numrica (regresso) ou categorizada (classificao)
por meio de um conjunto de covariveis e de suas eventuais interaes. O mtodo CART
baseia-se na execuo de parties binrias sucessivas de uma amostra, com base nos
resultados amostrados das covariveis, buscando a constituio de subamostras
internamente homogneas. A classificao dessas subamostras realizada conforme
alguma medida descritiva e a predio de novos elementos, executada por meio da
estrutura de classificao constituda.
Tcnicas de regresso e classificao por rvores podem ser empregadas como
alternativa ou complemento a procedimentos estatsticos de regresso, agrupamentos e
classificao. A versatilidade de tais tcnicas notria, comprovada por suas aplicaes
com finalidades similares regresso linear mltipla, regresso logstica, anlise de
sobrevivncia, anlise discriminante, correlao cannica e anlise de agrupamentos,
dentre outros mtodos estatsticos. Alm disso, o CART destaca-se por sua flexibilidade,
sem quaisquer restries quanto natureza e distribuio das variveis, e por sua
simplicidade, tanto em relao construo do modelo quanto interpretao dos
resultados.
A extenso do CART anlise de dados multivariados vem sendo estudada e
difundida com intensidade nos ltimos anos. O mrito da modelagem conjunta de
mltiplas variveis resposta consiste na obteno de um nico modelo para a anlise de
mltiplas variveis, permitindo tambm incorporar as possveis correlaes. A construo
de rvores de classificao e regresso multivariadas requer, no entanto, critrios
adequados quanto segmentao das amostras e avaliao da qualidade do modelo.
Extenses multivariadas do CART permitem analisar dados longitudinais (Segal, 1992),
respostas binrias mltiplas (Zhang, 1998) e respostas quantitativas mltiplas (DeAth,
2002; Miller e Franklin, 2002; Larsen e Speckman, 2004). Um procedimento de
classificao e regresso por rvores capaz de acomodar diferentes tipos de variveis
usando GEE (generalized estimation equations) proposto em Lee (2005).
Propem-se aqui extenses do algoritmo de classificao por rvores para a anlise
de mltiplas variveis resposta, baseadas em coeficientes de dissimilaridade e entropia.
Essas tcnicas visam permitir o estudo de mltiplas variveis categorizadas por meio da
construo de um nico modelo, conservando a estrutura de correlao dos dados e
tornando mais compacta a anlise. Os procedimentos propostos so avaliados por meio de
um estudo de simulao. Um exemplo com dados de consumo alcolico, cigarro e
maconha, produzidos por questionrios aplicados a uma amostra de habitantes do
municpio de Botucatu (SP) complementa a anlise.
2 rvores de classificao univariadas
A construo de uma rvore de classificao iniciada com a execuo de parties
de uma amostra e das subamostras constitudas, sempre originando duas novas
subamostras. Denomina-se n inicial amostra original, ns intermedirios s
subamostras que do origem a novas subamostras e ns finais s subamostras no
partidas. Denota-se por t um n qualquer. As referidas parties baseiam-se nos
resultados amostrados das covariveis. Seja
{ } , ,..., 2 , 1 , , n j Y
j j
= X
uma amostra de
tamanho n de uma varivel resposta categorizada Y e de um vetor de covariveis
( )
j p j j
X X X , ... , ,
2 1
= X
de dimenso p . Considere
l
X uma varivel ordenvel e um dos
resultados amostrados para
l
X . Nesse caso, pode-se partir a amostra em duas, alocando
os elementos a ns distintos conforme resposta positiva ou negativa questo
?" "
lj
X
.
Caso a varivel
l
X no seja ordenvel, considere A uma categoria (ou subconjunto de
categorias) de
l
X . Alocam-se elementos a ns distintos conforme resposta (positiva ou
negativa) questo
?" " A X
lj

.
Seguindo os procedimentos descritos para segmentao de amostras, devem-se
considerar todas as possveis parties proporcionadas pelas p covariveis sob estudo,
respeitando, no entanto, restries quanto ao nmero mnimo de elementos nos ns a
serem partidos ou constitudos, a fim de no comprometer a acurcea do modelo. As
parties candidatas devem ento ser comparadas, executando-se aquela responsvel pela
formao de subamostras com menores taxas de heterogeneidade. Com o objetivo de
quantificar a heterogeneidade das subamostras obtidas, Breiman et al. (1984) definem
diferentes coeficientes denominados medidas de impureza. Para rvores de classificao
propem, por exemplo, a medida de entropia, apresentada em Zar (1999) como medida de
diversidade de Shannon.
Seja Y uma varivel categorizada e { }
1 2
, , ... ,
m
Y Y Y seu conjunto de resultados
possveis. Define-se a entropia de um n t como
( ) ( ) ( )
2
1
( ) log
m
t k t k
k
t p y p y
=
=
, sendo
( )
k t
y p a proporo de elementos alocados ao n t pertencentes classe k. Quando
( ) 0
t k
p y = , considera-se
( ) ( ) ( )
2
log 0
t k t k
p y p y = . Assim, tem-se que
( ) ( ) 0 Mn t =
,
quando ( ) 1 =
k t
y p e ( ) k k y p
k t
=
, 0 , situao em que todos os elementos

pertencem a uma mesma categoria (heterogeneidade mnima). Alm disso, tem-se que
( )
2
( ) log Mx t k =
, quando ( ) { } m k k y p
k t
, ... , 2 , 1 , / 1 = , ou seja, quando os
elementos se dividem com iguais freqncias entre as categorias da varivel em questo
(heterogeneidade mxima).
Suponha que um n t seja dividido em dois novos ns (
L
t e
R
t ), segundo uma
partio s . Define-se a variao de heterogeneidade ocasionada por s como
( ) ( ) ( ) ( ) ,
L R
L R
n n
s t t t t
n n
=

(1)
devendo ser selecionada e executada a partio s responsvel por maximizar
( ) , s t
. As
subamostras originadas devem ser partidas de maneira semelhante descrita para o n
inicial, com base no critrio de partio estabelecido. O procedimento repetido
sucessivamente para os ns originados at a constituio de uma rvore com reduzido
nmero de elementos em cada n final.
Numa segunda etapa, inicia-se a busca por um modelo parcimonioso, ou seja,
uma rvore que proporcione boa reduo na heterogeneidade do n inicial mediante
constituio de um nmero moderado de ns. Com essa finalidade, deve-se executar o
processo de poda, que consiste na obteno de uma seqncia de rvores de tamanhos
decrescentes, a partir da rvore inicialmente produzida, com base em uma funo do tipo
custo-complexidade (Breiman et al., 1984). Sejam
MAX
T
a maior rvore, gerada pela
execuo de sucessivas parties binrias dos ns originados, e
T
~
o conjunto de ns
finais para uma subrvore
T
qualquer de
MAX
T
. Sejam, ainda,
T
~
o nmero de ns finais
de
T
e
0
uma constante real denominada parmetro de complexidade. Breiman et al.
(1984) define a seguinte medida de custo-complexidade:
( ) ( ) T T R T R
~
+ =

(2)
sendo
( ) ( )
t T
R T t
=

o custo de m-classificao da rvore T e ( ) t alguma medida de
heterogeneidade calculada em um n t , como, por exemplo, a medida de entropia.
Aumentando o valor de a partir de zero, obtm-se uma seqncia aninhada de rvores
de tamanho decrescente, cada uma delas tima para seu tamanho (Breiman et al., 1984).
A comparao das rvores, dentro da seqncia aninhada, pode ser realizada por
meio dos custos de m-classificao das mesmas, estimados por validao cruzada ou por
meio de uma amostra teste. A produo de um grfico de
( )
R T
versus T
permite avaliar
a qualidade dos modelos conforme aumenta sua complexidade e a comparao dos
resultados serve como subsdio para a seleo da melhor rvore. Breiman et al. (1984)
propem a regra do desvio padro (1-SE Rule), que consiste na seleo da menor rvore
responsvel por um custo de m-classificao estimado que esteja a menos de um desvio
padro do menor custo de m-classificao avaliado dentre as rvores da seqncia
aninhada. Uma vez escolhida a rvore, a caracterizao dos ns finais se d pela classe
que aparece com maior freqncia dentre os elementos que constituem cada um deles.
3 Coeficientes de similaridade e dissimilaridade
Coeficientes de similaridade ( S ) so freqentemente utilizados com o objetivo de
quantificar a parecena de elementos com respeito a um conjunto de atributos
categorizados. Associado a eles pode-se estabelecer coeficientes de dissimilaridade,
visando quantificar a disparidade entre elementos em relao ao mesmo conjunto de
atributos. Grande parte dos coeficientes de similaridade assume valores no intervalo
[ ] 0,1 , sendo que valores prximos a zero indicam similaridade baixa, enquanto valores
prximos a um sugerem similaridade elevada. Nesses casos, pode-se definir um
coeficiente de dissimilaridade como 1 D S = , assumindo resultados no mesmo intervalo,
mas com interpretao inversa de S .
H uma grande variedade de coeficientes de dissimilaridade para a situao em que
os atributos em questo so todos binrios. Cox e Cox (2001) apresentam vrios desses
coeficientes, destacando suas caractersticas e aplicaes. Poucas so, entretanto, as
alternativas disponveis para variveis com mais de duas categorias. Os coeficientes de
dissimilaridade mais comuns para dados categorizados baseiam-se na converso das
variveis avaliadas em vetores de variveis binrias. Esse tipo de procedimento, no
entanto, pouco recomendvel, medida que a transformao das variveis originais em
vetores de zeros e uns pode omitir determinadas caractersticas das variveis originais.
Alm disso, as correlaes entre variveis no so consideradas.
Aplica-se, no presente trabalho, o coeficiente de dissimilaridade baseado em
distribuies condicionais de probabilidades, proposto em Quang e Bao (2005). A
utilizao de distribuies condicionais no clculo do coeficiente no requer a construo
de vetores binrios e automaticamente incorpora associaes existentes entre variveis. A
obteno do coeficiente realizada em duas etapas. Inicialmente, estima-se a
dissimilaridade entre dois resultados k e ' k de uma varivel
i
Y , ( ) , '
i
Y
D k k , como sendo
a soma das dissimilaridades das distribuies de probabilidades das demais variveis
condicionadas nos dois resultados observados, ou seja,
( ) ( ) ( ) ( )
, ' | , | '
i
Y i i i i
i i
D k k f Y Y k f Y Y k

= = =
,

sendo
( ) | f a funo de distribuio de probabilidades condicionais e ( ) , uma
medida de dessemelhana entre duas distribuies de probabilidades. Quang e Bao (2005)
consideram, para tal finalidade, o mtodo de divergncia de Kullback-Leibler (Kullback e
Leibler, 1951). Suponha ( ) y p e ( ) y p duas funes de probabilidades quaisquer. A
medida de divergncia de Kullback-Leibler calculada da seguinte forma:
( ) ( )
( )
( )
( )
( )
( )
|
|
.
|
\
|
+ =
x
y p
y p
y p
y p
y p
y p p p KL
'
log '
'
log ' ,
2 2
,

Finalmente, a dissimilaridade entre dois vetores de observaes ( )
q j
y y y ,..., ,
2 1
= y
e
( )
j 1 2
, ,...,
q
y y y
= y , denotada por
jj
D

estimada pela soma das dissimilaridades
individuais, calculadas para cada varivel:
( )
1
,
i
q
jj Y ij ij
i
D D y y

=
=
.

4 Coeficiente de entropia para mltiplas variveis
Como discutido anteriormente, medidas de entropia podem ser utilizadas para
quantificar a heterogeneidade ou impureza dos ns em rvores de classificao
univariadas (Breiman et al., 1984). O uso da entropia em sua verso multivariada
freqente, por exemplo, como medida de impureza dos grupos produzidos por anlises de
agrupamentos (Darcy e Aigner, 1980). Prope-se aqui considerar a medida de entropia
como alternativa para a construo e seleo de rvores de classificao multivariadas.
Seja
( ) 1 2
, ,... ,
q
Y Y Y = Y
um vetor de variveis aleatrias qualitativas, cada uma com
i
r
possveis resultados ( 1, 2 ,..., i q = ). Desta forma, o nmero total de categorias da
distribuio conjunta de Y
1
.
q
i
i
r r
=
=
A entropia do vetor aleatrio Y definida da

seguinte maneira:
( ) ( ) ( )
2
1
log
r
k k
k
H P P
=
( ( = = =

Y Y y Y y

(3)
sendo que as probabilidades ( )
k
P = Y y , na prtica, so estimadas pelas respectivas
propores amostrais
k
p . Ressalte-se que medida que mais variveis respostas so
consideradas, o coeficiente de entropia calculado com base na distribuio conjunta pode
se mostrar invivel, dado o elevado nmero de resultados produzido pelas combinaes
das categorias de cada varivel, gerando valores reduzidos para a distribuio de
freqncias conjuntas.
Embora menos compatvel com o contexto multivariado do estudo, a soma das
entropias avaliadas individualmente para cada varivel resposta tambm fornece um
indicativo da heterogeneidade amostral, evitando o problema apontado quanto utilizao
das entropias baseadas na distribuio conjunta. Nesse caso, a entropia do vetor aleatrio
( ) 1 2
, ,...,
q
Y Y Y = Y
definida como
( )
1
q
i
i
H Y
=
, sendo
( ) ( ) ( )
2
1
log
i
r
i i k i k
k
H Y P Y y P Y y
=
( ( = = =

. O valor
de ( )
i
Y H est atrelado a
i
r , o nmero de atributos da i-sima varivel, podendo assumir
resultados no intervalo [ ]
i
r
2
log , 0 . A fim de evitar distores ocasionadas pelas
diferentes amplitudes dos coeficientes de entropia, padroniza-se
( )
i
Y H
da seguinte
maneira:
( )
( )
( ) ( ) [ ]
= = = =

=
i
r
k
k i k i
i i
i
i
y Y P y Y P
r r
Y H
Y H
1
2
2 2
log
log
1
log
,

garantindo valores de ( )
i
Y H
no intervalo [ ] 1 , 0 , para qualquer valor de

i
r . As
probabilidades ( )
i k
P Y y = , 1, 2 ,..., ; 1, 2 ,...,
i
i q k r = = , necessrias ao clculo de
H
, devem ser estimadas por

ik
p , as respectivas propores amostrais de resultados k
da i -sima varivel.
5 Extenses do CART para a anlise de dados categorizados multivariados
com base em coeficientes de dissimilaridade e entropia
Seja
j j
D

o valor de algum coeficiente de dissimilaridade calculado a partir de dois
elementos j e j , com relao a um conjunto de q atributos categorizados. Sugere-se
como medida de heterogeneidade para
t
n elementos que constituem um n t a
dissimilaridade mdia entre tais elementos, ou seja
( )
1
1
( 1)
2
t
n
t t
Dis jj
j j j
n n
t D
= <
(
=
(

(4)
A utilizao da dissimilaridade mdia como critrio de partio dos ns no
caracteriza o mtodo proposto como uma rvore de classificao segundo a definio de
Breiman et al. (1984), uma vez que a condio de subaditividade, intrnseca definio
do CART, no respeitada. A condio de subaditividade de uma medida de impureza
( ) garante que se um n t for partido em dois ns
L
t e
R
t , ento necessariamente
( ) ( ) ( )
L R
t t t + . Isso no vlido para ( )
Dis
. Registra-se aqui, no entanto, que
outras medidas de impureza fundamentadas em dissimilaridades respeitantes condio
de subaditividade, como a soma das dissimilaridades intra-ns, foram consideradas, mas
descartadas devido produo de resultados inconsistentes.
Prope-se a construo da rvore tomando-se como medida de impureza a
dissimilaridade mdia, conforme definido em (4), por meio da execuo das parties que
proporcionem maior reduo na impureza dos ns, maximizando (1). A poda realizada
com base na funo de custo-complexidade apresentada em (2). A estimao do custo de
m-classificao da rvore via validao cruzada requer a definio de uma medida de
m-classificao, aplicada a elementos independentes dos utilizados na construo do
modelo. Seja T uma rvore qualquer. Suponha que uma nova observao
y ,
independente daquelas utilizadas na construo de T , seja alocada ao n t atravs de T .
Seja
j
d a dissimilaridade de
y em relao a uma observao t j . Considera-se

como medida de qualidade da predio a dissimilaridade mdia desta nova observao em
relao s observaes contidas em t , ou seja,
( )
/
Dis j t
j t
y d n

(5)
A estimao de
( ) T R
via validao cruzada feita dividindo a amostra original ( )
em V subamostras de tamanhos (aproximadamente) iguais:
V
,..., ,
2 1
. Seja
v
v
=
) (
a subamostra composta pelos elementos da amostra original, exceto por
aqueles pertencentes a
v
, e
) (v
T a rvore de classificao construda a partir de
) (v
,
para 1 , 2 ,..., v V = . O custo de m-classificao da rvore, estimado por validao
cruzada, descrito como:
( )
( )
( )
v
CV
Dis
v
R T
R T
V
=

(6)
sendo
( )
( ) ( )
/
j v
v
Dis j v
y
R T y n
e
v
n o nmero de elementos em
v
. A seleo da
melhor rvore realizada por meio da construo do grfico de complexidade e da
aplicao da regra do desvio padro, conforme descrito em Breiman et al. (1984). O
desvio padro da estimativa do custo de m-classificao estimado com base nos
resultados obtidos em dez validaes cruzadas distintas.
Considerando o coeficiente de entropia para mltiplas variveis, para um n t
qualquer, prope-se como medidas de heterogeneidade:
( ) ( )
2
1
1
q
Ent t i
i
t H Y
q

=
=

,
sendo ( )
t i
H Y
a entropia padronizada de
i
Y em t , definida em (3). A diviso por q
garante valores de ( )
2
Ent
t no intervalo [ ] 1 , 0 .
A construo da rvore e sua poda baseiam-se, novamente, na variao da impureza
causada pela partio (1) e na funo de custo-complexidade (2). A seleo do modelo
executada por validao cruzada, de forma semelhante ao descrito para rvores
construdas com base em coeficientes de dissimilaridades (5,6). Embora se utilize neste
trabalho, com tal finalidade, o coeficiente de dissimilaridade simples, que consiste
basicamente na proporo de resultados no coincidentes dentre as q variveis sob
estudo, qualquer outro coeficiente pode ser utilizado nesta etapa da anlise.
A classificao dos ns finais da rvore selecionada realizada segundo as
distribuies de freqncias verificadas em cada n. Seja ( )
t
p y a distribuio de
freqncias em um n t . A classificao de um n final t pode ser realizada segundo a
distribuio conjunta, classificando-o por
( ) 1 2
, ,...,
q
y y y = y , tal que ( )
t
p y mximo,
ou segundo as distribuies marginais, classificando t por
( ) 1 2
, ,...,
q
y y y = y tal que
( )
t i
p y mximo, 1, 2,..., i q = . A classificao segundo a distribuio conjunta
invivel, novamente, devido ao elevado nmero de resultados produzidos pela
combinao das categorias das variveis respostas, dissipando a distribuio de
freqncias e tornando instveis as classificaes resultantes. Baseado neste fato optou-se
por utilizar as distribuies marginais como regra de classificao neste trabalho.
6 Delineamento do estudo por simulao aplicado anlise dos mtodos
multivariados de rvores de classificao
Para o estudo por simulao, foram gerados
500 n =
vetores, compostos por trs
variveis respostas multinomiais, cada uma delas com quatro categorias, e cinco
covariveis, com distribuies de probabilidades contnuas (normal e qui-quadrado) e
discretas (Poison e multinomiais). A obteno de valores amostrais para as oito variveis
foi executada, inicialmente, gerando resultados amostrais para um vetor aleatrio
( )
1 2 8
, ,..., Z Z Z = Z
, normalmente distribudo, com vetor de mdias 0 e matriz de
covarincias
, sendo os elementos da diagonal de
iguais a 1. Assim, para qualquer

par de variveis, o valor da covarincia equivale ao coeficiente de correlao linear de
Pearson (Zar,1999). A definio de
est ligada estrutura de dependncias desejada

para as variveis a serem geradas. Considere
i
F
a funo de probabilidades acumuladas
de
i
Z
. Num segundo passo, calculou-se
( ) ( ) ( ) ( )
1 1 1 2 2 2 8 8 8
, , ... , U F Z U F Z U F Z = = = = U .
Dessa forma, o vetor U composto por variveis aleatrias uniformemente distribudas
no intervalo
[ ] 0,1 (Ross, 1997). Para distribuies bivariadas, segundo Barnett (1980),
essa forma de obteno de distribuies uniformes conserva a dependncia originalmente
inserida. Finalmente, para se obter variveis aleatrias com as distribuies de
probabilidades desejadas, aplica-se s variveis uniformes geradas, algoritmos adequados
(como, por exemplo, o mtodo da distribuio inversa Ross, 1997). No presente estudo,
quatro matrizes foram consideradas, conforme a magnitude requerida para as
covarincias e correlaes: (i) i i
i i
=
, 0 : covarincias (e correlaes) nulas; (ii)

i i
i i

, 5 , 0
: covarincias (e correlaes) baixas; (iii)
[ ] i i
i i

, 1 , 0
:
covarincias (e correlaes) variadas e (iv)
i i
i i

, 5 , 0
: covarincias (e correlaes)
altas.
Outra caracterstica controlada no estudo por simulao foi a entropia das variveis
dependentes
1 2 3
( , , ) Y Y Y . Foram consideradas variveis com entropias baixas, geradas
com vetor de probabilidades ( ) 0, 895; 0, 090; 0, 013; 0, 002 = p , variveis com entropias
moderadas, considerando
( ) 0, 623; 0, 025; 0, 077; 0, 275 = p e variveis com entropias
altas, tomando ( ) 0, 384; 0, 371; 0,124; 0,121 = p . Os vetores de probabilidades
correspondentes a cada um dos trs graus de entropia foram determinados por meio da
distribuio emprica do coeficiente, estimada via simulao, e trs combinaes de
variveis foram consideradas:
1 2
, Y Y e
3
Y geradas com entropias baixas;
1 2
, Y Y e
3
Y
geradas, respectivamente, com entropias baixa, moderada e alta e
1 2
, Y Y e
3
Y geradas
com entropias altas.
Sob cada uma das 12 configuraes resultantes das combinaes de correlaes e
entropias, os dados gerados foram analisados mediante construo de modelos de
classificao por rvores baseados em coeficientes de dissimilaridade e entropia. Como
critrios adicionais para construo dos modelos, optou-se, com base na quantidade de
elementos amostrados, por no partir ns com menos de 20 elementos e no constituir ns
com menos de 10. O software estatstico R (R DEVELOPMENT CORE TEAM, 2008) foi
utilizado em todas as etapas deste trabalho, desde a implementao dos algoritmos,
execuo do estudo por simulao e anlise dos dados sobre consumo alcolico dos
habitantes do municpio de Botucatu.
7 Aplicao dos mtodos de classificao por rvores fundamentados em
coeficientes de dissimilaridades e entropia na anlise de dados simulados
Os mtodos propostos de classificao por rvores para dados categorizados
multivariados foram avaliados quanto entropia e dissimilaridade mdia dos modelos
produzidos. A Figura 1 apresenta as curvas de custocomplexidade para as entropias e
dissimilaridades mdias relativas aos modelos construdos com o coeficiente de
dissimilaridade baseado em distribuies de probabilidades condicionais.
0
.
2
0
.
4
0
.
6
0
.
8
Entropias baixas
E
n
t
r
o
p
i
a
Entropias variadas Entropias altas
0 5 10 15 20 25
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
Tamanho da rvore (ns)
D
i
s
s
i
m
i
l
a
r
i
d
a
d
e

m
d
i
a
0 5 10 15 20 25
0 5 10 15 20 25
Altas Variadas Baixas Nulas Correlaes:

Figura 1 - Curvas de custo-complexidade para as entropias e dissimilaridades mdias de modelos
de classificao por rvores construdos com o coeficiente de dissimilaridade baseado
em distribuies condicionais de probabilidades, para dados gerados com diferentes
graus de correlao e entropia.

A influncia das correlaes entre variveis respostas pode ser avaliada
comparando as curvas de um mesmo grfico, enquanto a influncia das entropias de tais
variveis avaliada comparando grficos dispostos lado a lado em uma mesma figura. A
Figura 2, por sua vez, apresenta as curvas de custo-complexidade para as 12 rvores
construdas utilizando o coeficiente de entropia.
Os grficos de custo-complexidade produzidos mediante aplicao de ambos os
coeficientes evidenciam que a entropia e a dissimilaridade mdia proporcionada pelos
modelos de classificao por rvores diminuem mais acentuadamente quanto maiores as
correlaes entre variveis. Alm disso, quanto maiores as entropias das variveis
respostas, maiores as redues das medidas de heterogeneidade consideradas. Os
resultados indicam, portanto, maior viabilidade da aplicao das tcnicas propostas
quando se dispem de variveis com correlaes e entropias altas. Na Figura 1, a curva de
custo-complexidade referente dissimilaridade mdia, obtida a partir de dados gerados
com entropias variadas e correlaes altas, apresenta um comportamento diferenciado em
relao s demais curvas, dada a maior dissimilaridade em relao s demais
configuraes simuladas. A construo de rvores baseadas no mesmo coeficiente de
dissimilaridades, para dados gerados sob condies idnticas, no reproduziu tal
comportamento.

0
.
2
0
.
4
0
.
6
0
.
8
Entropias baixas
E
n
t
r
o
p
i
a
Entropias variadas Entropias altas
0 5 10 15 20 25
0
.
1
0
.
3
0
.
5
0
.
7
D
i
s
s
i
m
i
l
a
r
i
d
a
d
e

m
d
i
a
0 5 10 15 20 25
0 5 10 15 20 25
Altas Variadas Baixas Nulas Correlaes:

Figura 2 - Curvas de custo-complexidade para as entropias e dissimilaridades mdias de modelos
de classificao por rvores construdos com base no coeficiente de entropia, para dados
gerados com diferentes graus de correlao e entropia.
8 Anlise do perfil do consumo de lcool e fumo dentre os habitantes do
municpio de Botucatu (SP).
As metodologias propostas de classificao multivariadas por rvores foram tambm
aplicadas na anlise de dados produzidos por um levantamento realizado no municpio de
Botucatu (SP) como parte de estudo realizado em oito pases em desenvolvimento,
compondo um projeto multinacional denominado GENACIS (Gender, Alchool and
Culture: an International Study). O GENACIS foi criado pela Organizao Mundial de
Sade (World Health Organization WHO), juntamente com outras agncias
governamentais espalhadas pelo mundo, tendo como principais objetivos a avaliao de
diferenas quanto ao padro de consumo alcolico entre homens e mulheres, bem como a
deteco de fatores pessoais, familiares e sociais associados ao consumo de lcool e as
implicaes do alcoolismo na sade e no comportamento social da populao. Os
resultados do estudo podem ser consultados em WHO (2005).
A coleta dos dados foi realizada mediante aplicao de questionrios, conduzida
pelo Departamento de Sade Pblica da Universidade Estadual Paulista (UNESP), em
que, no total, foram amostrados 740 indivduos ao longo do binio 2001-2002. No
presente estudo, foram consideradas como variveis respostas: freqncia de consumo
alcolico nos ltimos 12 meses (no bebeu, poucas vezes (em menos de 12 ocasies) ou
muitas vezes (ao menos uma vez por ms)); intensidade com que consumiu lcool num
nico dia, quando mais bebeu nos ltimos 12 meses (nada, moderada (menos de cinco
drinques) ou abusiva (cinco drinques ou mais)); bebida alcolica preferida (nenhuma,
cerveja, vinho ou destilado); consumo de cigarro (sim ou no) e consumo de maconha
(sim ou no). A intensidade de consumo alcolico quantificada ponderando as
quantidades e os tipos de bebidas citados pelo entrevistado. A Tabela 1 apresenta as 14
covariveis consideradas, abordando caractersticas pessoais, sociais e econmicas dos
entrevistados. Do total de 740 indivduos entrevistados, 482 foram mantidos para a
anlise, por terem respondido a todas as perguntas do questionrio.
8.1 Modelo de classificao por rvore obtido com o coeficiente de dissimilaridade
baseado em distribuies condicionais de probabilidades.
A Figura 3 apresenta a curva de custo-complexidade para a seqncia de rvores
aninhadas produzida mediante aplicao do coeficiente de dissimilaridades baseado em
distribuies condicionais de probabilidades, indicando a seleo da rvore com 9 ns
finais, de acordo com a regra do desvio padro (Breiman et al, 1984). A Figura 4, por sua
vez, representa a rvore selecionada. As variveis ocupao profissional, nvel
educacional e nmero de pessoas com quem o entrevistado compartilha os problemas
so responsveis por duas parties cada, indicando a importncia das mesmas na
determinao do perfil dos entrevistados quanto ao consumo de lcool e fumo.

Tabela 1 - Variveis referentes a caractersticas pessoais, componentes (ou obtidas a
partir de) questionrio aplicado a uma amostra de habitantes do municpio de
Botucatu (SP) (continua)
Varivel Descrio Tipo
GENDER Sexo
M - Masculino
F - Feminino
DATE Ano de nascimento Numrica
IMC ndice de massa corporal Numrica
SEDU
Grau mximo de
escolaridade
1 Analfabeto
2 Alfabetizado, mas no freqentou escola
3 1 grau incompleto
4 1 grau completo
5 2 grau incompleto
6 2 grau completo
7 Ensino superior incompleto
8 Ensino superior completo
SETH Grupo tnico
1 Branco
2 Negro
3 Mestio
4 Oriental
5 Indgena
6 Nenhuma das anteriores
SMST Situao conjugal
1 Casado
2 Vive com parceiro
3 Vivo
4 Divorciado
5 Casado, mas separado
6 Nunca foi casado

Tabela 1 - Variveis referentes a caractersticas pessoais, componentes (ou obtidas a
partir de) questionrio aplicado a uma amostra de habitantes do municpio de
Botucatu (SP) (continuao).
Varivel Descrio Tipo
SNPH
Nmero de pessoas que
residem com o entrevistado
Numrica
WPOS Ocupao profissional atual
2 Dona de casa
4 Afastado por motivos de doena
5 Aposentado
6 Estudante
7 Desempregado
8 Empregado
WHHI Renda familiar aproximada
1 7 salrios mnimos
2 6 salrios mnimos
3 5 salrios mnimos
4 4 salrios mnimos
5 3 salrios mnimos
6 2 salrios mnimos
NLMC
Nmero de contatos (e-
mails, cartas, telefonemas)
informais com amigos.
1 Nenhuma vez nos ltimos 30 dias
2 1 a 3 vezes nos ltimos 30 dias
3 1 a 2 vezes por semana
4 Vrias vezes por semana
5 Diariamente ou quase todos os dias
NNPI
Sem contar o parceiro
conjugal, quantas pessoas
tm para compartilhar seus
problemas.
1 Nenhuma
2 Uma
3 2-3
4 4-5
5 6 ou mais
NRPR Religio
1 Nenhuma
2 Catlica
3 Evanglica/Protestante
4 Esprita
5 Judeu
6 Afro-brasileira
7 Budista
8 Nenhuma das anteriores
HPHH
Como o entrevistado avalia
sua sade fsica nos ltimos
12 meses
1 Ruim
2 Boa
HPHH
Como o entrevistado avalia
sua sade emocional/mental
nos ltimos 12 meses
1 Ruim
2 Boa
0
.
1
5
0
0
.
1
5
5
0
.
1
6
0
0
.
1
6
5
0
.
1
7
0
D
i
s
s
im
il
a
r
i
d
a
d
e

m
d
i
a
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Figura 3 - Grfico de custo-complexidade para a rvore construda para os dados de consumo de
lcool e fumo, com base no coeficiente de dissimilaridade calculado a partir de
distribuies condicionais de probabilidades. O ponto representado por () indica a
rvore com menor dissimilaridade mdia, o ponto representado por () indica a rvore
selecionada pela regra do desvio padro e a linha horizontal tracejada (---) o limite
superior da dissimilaridade mdia associado regra do desvio padro.

Figura 4 - Modelo de classificao por rvore obtido com o coeficiente de dissimilaridades
baseado em distribuies de probabilidades condicionais. Os cdigos utilizados para as
variveis que compem o modelo so apresentados na Tabela 1. No interior de cada n
so representadas as parties executadas. Os ns com preenchimento so ns finais,
apresentando, em seu interior, o nmero de elementos que os compem.

N 1

N 2
WPOS 2

N 3
WPOS = 2

N 4
SEDUI < 5

N 5
SEDU 5

N 6
SEDU < 7

N 7
SEDU 7
n=15
N 12
IMC < 25,22
n=111
N 13
IMC 25,22
n=61
N 8
NNPI < 2
n=45
N 9
NNPI 2
n=16
N 10
NNPI < 3

N 11
NNPI 3
n=161
N 14
WPOS 5 e 6

N 15
WPOS = 5 ou 6
n=17
N 16
SMST 5 e 6
n=21
N 17
SMST = 5 ou 6
n=35
A interpretao do modelo obtido requer a avaliao dos ns finais quanto s
distribuies de seus componentes em relao s distribuies de freqncias de tais
variveis em cada n final, possibilitando analisar o perfil dos ns constitudos quanto aos
indivduos que os compem. Conclui-se, com base na rvore apresentada na Figura 4 e
nos grficos de colunas apresentados na Figura 5, que os ns 8, 11 e 15 apresentam as
maiores porcentagens de indivduos que afirmaram ter bebido muitas vezes ao longo do
ltimo ano (73%, 73% e 81%, respectivamente), e de indivduos que afirmaram ter
consumido bebidas alcolicas de maneira abusiva (55%, 54% e 52%). O n 8 apresenta
ainda os maiores percentuais de fumantes (52%) e usurios de maconha (4%) dentre
todos. Os indivduos que compem o n 8 no so donas de casa, tm baixa escolaridade
(no mximo completaram o primeiro grau) e afirmaram no ter com quem compartilhar
seus problemas. Os indivduos dos ns 11 e 15 tm maior escolaridade (no mnimo,
segundo grau incompleto), sendo que aqueles alocados ao n 15 so estudantes ou
aposentados com no mximo uma pessoa com quem podem compartilhar seus problemas,
enquanto os alocados ao n 11 tm mais de uma pessoa para dividir as angstias.

7 8 9 11 12 13 15 16 17
Freqncia
N final
F
r
e
q
n
c
ia

r
e
la
t
iv
a
0
.0
0
.2
0
.4
0
.6
0
.8
1
.0
Nunca
Poucas vezes
Muitas vezes
7 8 9 11 12 13 15 16 17
Intensidade
N final
F
r
e
q
n
c
ia

r
e
la
t
iv
a
0
.0
0
.2
0
.4
0
.6
0
.8
1
.0
Nada
Moderado
Abusivo
7 8 9 11 12 13 15 16 17
Preferncia
N final
F
r
e
q
n
c
ia

r
e
la
t
iv
a
0
.0
0
.2
0
.4
0
.6
0
.8
1
.0
Nenhuma
Cerveja
Vinho
Destilado
7 8 9 11 12 13 15 16 17
Cigarro
N final
F
r
e
q
n
c
ia

r
e
la
t
iv
a
0
.0
0
.2
0
.4
0
.6
0
.8
1
.0
No Sim
7 8 9 11 12 13 15 16 17
Maconha
N final
F
r
e
q
n
c
ia

r
e
la
t
iv
a
0
.0
0
.2
0
.4
0
.6
0
.8
1
.0
No Sim
14 71 144 129 14 35 21 44 10

Figura 5 - Composio dos ns finais da rvore baseada no coeficiente de dissimilaridade
calculado a partir de distribuies condicionais de probabilidades quanto freqncia e
intensidade de consumo alcolico no ltimo ano, bebida preferida e aos consumos de
cigarro e maconha. Os valores no interior das colunas do grfico relativo ao consumo de
maconha indicam os tamanhos dos ns.
O n 12 se destaca pela maior porcentagem de indivduos que afirmaram no ter
bebido no ltimo ano (93%), enquanto para o n 13 esse percentual de 45%. Os
indivduos desses dois ns so donas de casa sem curso superior (completo ou no),
diferindo, no entanto, quanto ao ndice de massa corporal (inferior a 25,22 para aquelas
que integram o n 12 e superior a 25,22 para as que fazem parte do n 13). O n 13
apresenta o maior percentual de pessoas que tm o vinho como bebida preferida (23%).
Os indivduos alocados aos ns 16 e 17 no so donas de casa, estudantes ou
aposentados, no tem mais de uma pessoa com quem dividir os problemas e, no mnimo,
deram incio ao segundo grau. Diferem, no entanto, quanto situao conjugal: aqueles
que compem o n 17 so solteiros ou separados, enquanto os que compem o n 16 no
so nem solteiros nem separados. Comparando os dois ns, tem-se que indivduos do n
17 bebem com mais freqncia (54% afirmaram ter bebido muitas vezes ao longo do
ltimo ano, contra 30% do n 16), fumam mais (30% de fumantes, contra 20% do n 17),
e bebem com mais intensidade (50% afirmaram ter abusado ao menos uma vez, contra
10% dos indivduos do n 17).
A Figura 6 apresenta o grfico produzido por uma anlise de correspondncia
mltipla (GREENACRE, 2007) compreendendo as cinco variveis dependentes e uma
varivel indicadora dos ns aos quais os indivduos foram alocados. Proximidades entre as
representaes de categorias de diferentes variveis, no grfico de anlise de
correspondncia, indicam maior freqncia observada para a combinao de tais
categorias do que o esperado na situao de independncia. A proximidade dos ns 12 e
13 s categorias associadas ao no consumo de lcool, a representao do n 8 no mesmo
quadrante do consumo freqente e abusivo de lcool e fumo, e a maior proximidade do n
16 s categorias de consumo alcolico do que o n 17 confirmam as evidncias levantadas
anteriormente.
-0.01 0.00 0.01 0.02
-
0
.
0
2
-
0
.
0
1
0
.
0
0
0
.
0
1
0
.
0
2
0
.
0
3
0
.
0
4
Dimenso 1
D
i
m
e
n
s
o

2
7
8
9
11
12
13
15
16
17
Freq.Nunca
Freq.P.V.
Freq.M.V.
Cig.No
Cig.Sim
Mac.No
Mac.Sim
Int.Nada
Int.Mod.
Int.Abus.
Pref.Cerveja
Pref.Dest.
Pref.Nenhuma
Pref.Vinho

Figura 6 - Grfico da anlise de correspondncia mltipla para as variveis Freqncia com que
bebeu no ltimo ano Freq. (sendo M.V. = muitas vezes e P.V. = poucas vezes),
Intensidade com que bebeu quando mais consumiu lcool Int. (sendo Mod. =
Moderado e Abus. = abusivamente), Consumo de cigarro Cig., Consumo de
maconha Mac. e Bebida preferida Pref. (sendo Dest. = destilado). Os nmeros
representados no interior do grfico indicam os ns finais.

8.2 rvore de classificao multivariada obtida com o coeficiente multivariado de
entropia.
A curva de custo-complexidade produzida pela seqncia de rvores aninhadas
obtidas com a aplicao do coeficiente de entropia encontra-se na Figura 7, indicando,
segundo a regra do desvio padro, a seleo da rvore com 11 ns finais. A rvore
selecionada representada na Figura 8. A Figura 9, por sua vez, apresenta os resultados
da anlise de correspondncia mltipla, aplicada ao conjunto de variveis respostas,
acrescido da varivel indicadora dos ns finais aos quais as observaes foram alocadas.
0
.
4
3
5
0
.
4
4
0
0
.
4
4
5
0
.
4
5
0
0
.
4
5
5
0
.
4
6
0
D
i
s
s
i
m
i
l
a
r
i
d
a
d
e

m
d
i
a
1 3 5 7 9 11 13 15 17

Figura 7 - Grfico de custo-complexidade para a rvore de classificao multivariada construda
para os dados de consumo de lcool e fumo, com base na medida de entropia. O ponto
representado por () indica a rvore com menor dissimilaridade mdia, o ponto
representado por () indica a rvore selecionada pela regra do desvio padro e a linha
horizontal tracejada (---) o limite superior da dissimilaridade mdia associado regra do
desvio padro.
Uma primeira concluso extrada do grfico da anlise de correspondncia
apresentado na Figura 9 refere-se ao fato de o consumo de cigarro, maconha e consumo
freqente e abusivo de lcool terem suas representaes no mesmo, indicando associao
entre tais categorias. Alm disso, os ns 18, 19 e 20 tambm esto representados neste
quadrante, o que evidencia associao entre estes trs ns e as categorias mencionadas. O
n 18 composto por indivduos que no so aposentados ou donas de casa, no tm com
quem compartilhar os problemas, no tm curso superior, residem com mais de quatro
pessoas e tm IMC inferior a 21,6. Os indivduos que compem o n 19 tm perfil
idntico, mas IMC superior a 21,6. J os indivduos que compem o n 20 tambm no
so donas de casa ou aposentados, tm duas pessoas ou mais com quem dividir os
problemas, so vivos, divorciados ou separados e tem IMC inferior a 22,98.
As categorias referentes ao consumo alcolico moderado e pouco freqente, alm da
preferncia por cerveja, tm suas representaes num mesmo quadrante, juntamente com
os ns 7, 21 e 16, indicando que os elementos que compem os referidos ns bebem
poucas vezes e com moderao. Os indivduos que compem o n 7 so donas de casa e
aposentados com curso superior. J aqueles que compem o n 21 tm caractersticas
semelhantes s mencionadas para o n 20, mas com IMC superior a 22,98. Quanto ao n
16, pode-se caracterizar seus componentes por no serem aposentados ou donas de casa,
terem duas pessoas ou mais com quem dividir seus problemas e serem casados, viverem
com parceiro ou nunca terem se casado.
O n 13 est associado ao no consumo de bebidas alcolicas, o que pode ser
verificado pela proximidade de sua representao, no grfico de anlise de
correspondncia, em relao s categorias relativas ao no consumo de bebida alcolica.
De forma um pouco menos acentuada indivduos do n 12 tambm so avessos ao
consumo de lcool, cigarro e maconha. O n 13 composto por donas de casa sem curso
superior, enquanto o n 12 formado por aposentados sem curso superior. Os grficos de
distribuio de freqncias que compem a Figura 10 apresentam as composies de cada
n quanto s variveis de consumo alcolico e fumo e do suporte para as concluses
citadas anteriormente, baseadas nos resultados da anlise de correspondncia.

Figura 8 - rvore de classificao multivariada obtida com o coeficiente de entropia. Os cdigos
utilizados para as variveis que compem o modelo so apresentados na Tabela 1. No
interior de cada n so representadas as parties executadas. Os ns com
preenchimento so ns finais, apresentando, em seu interior, o nmero de elementos que
os compem.
N 1

N 2
WPOS2 ou 5

N 3
WPOS = 2 e 5

N 4
NNPI < 2

N 5
NNPI 2

N 6
SEDU < 7

N 7
SEDU 7
n=15
N 8
SEDU < 6

N 9
SEDU 6
n=16
N 12
WPOS = 5
n=111
N 13
WPOS = 2
n=61
N 10
NNPI < 3
n=73
N 11
NNPI 3

N 14
SNPH < 4
n=11
N 15
SNPH 4

N 16
SMST3,4 e 5
n=138
N 17
SMST=3,4 ou 5

N 18
IMC < 21,6
n=10
N 19
IMC 21,6
n=24
N 20
IMC < 22,98
n=11
N 21
IMC 22,98
n=12
-0.02 -0.01 0.00 0.01 0.02
-
0
.
0
2
0
.
0
0
0
.
0
2
0
.
0
4
Dimenso 1
D
i
m
e
n
s
o

2
7
9 10
12
13
14
16
18
19
20
21
Freq.Nunca
Freq.P.V.
Freq.M.V.
Cig.No
Cig.Sim
Mac.No
Mac.Sim
Int.Nada
Int.Mod.
Int.Abus.
Pref.Cerveja
Pref.Dest.
Pref.Nenhuma
Pref.Vinho

Figura 9 - Grfico da anlise de correspondncia mltipla para as variveis Freqncia com que
bebeu no ltimo ano Freq (sendo MV = muitas vezes e PV = poucas vezes),
Intensidade com que bebeu quando mais consumiu lcool Int (sendo Mod =
Moderado e Abus = abusivamente), Consumo de cigarro Cig, Consumo de
maconha Mac e Bebida preferida Pref (sendo Dest = destilado). Os nmeros
representados no interior do grfico indicam os ns finais.

7 9 10 12 13 14 16 18 19 20 21
Freqncia
N final
F
r
e
q
n
c
ia

r
e
la
t
iv
a
0
.0
0
.2
0
.4
0
.6
0
.8
1
.0
Nunca
Poucas vezes
Muitas vezes
7 9 10 12 13 14 16 18 19 20 21
Intensidade
N final
F
r
e
q
n
c
ia

r
e
la
t
iv
a
0
.0
0
.2
0
.4
0
.6
0
.8
1
.0
Nada
Moderado
Abusivo
7 9 10 12 13 14 16 18 19 20 21
Preferncia
N final
F
r
e
q
n
c
ia

r
e
la
t
iv
a
0
.0
0
.2
0
.4
0
.6
0
.8
1
.0
Nenhuma
Cerveja
Vinho
Destilado
7 9 10 12 13 14 16 18 19 20 21
Cigarro
N final
F
r
e
q
n
c
ia

r
e
la
tiv
a
0
.0
0
.2
0
.4
0
.6
0
.8
1
.0
No Sim
7 9 10 12 13 14 16 18 19 20 21
Maconha
N final
F
r
e
q
n
c
ia

r
e
la
tiv
a
0
.0
0
.2
0
.4
0
.6
0
.8
1
.0
No Sim
15 16 73 111 61 11 138 10 24 11 12

Figura 10 - Composio dos ns finais da rvore de classificao multivariada baseada na medida de
entropia, quanto freqncia e intensidade de consumo alcolico no ltimo ano,
bebida preferida e aos consumos de cigarro e maconha. Os valores no interior das
colunas do grfico relativo ao consumo de maconha indicam os tamanhos dos ns.
Concluses
Pretendeu-se, por meio deste trabalho, conceber novas tcnicas de modelagem
adequadas anlise de dados multivariados categorizados, por meio da proposio de
procedimentos multivariados baseados em rvores de classificao. Tais procedimentos,
fundamentados em coeficientes de dissimilaridade e entropia, foram apresentados e
tiveram seus desempenhos avaliados com base em um estudo por simulao e em suas
aplicaes na anlise de dados de consumo alcolico e fumo dentre habitantes do
municpio de Botucatu (SP).
Pde-se verificar, por meio dos resultados apresentados, que os mtodos propostos
so capazes de explicar a variao original dos dados, sobretudo quando so analisadas
variveis com correlaes e entropias moderadas ou altas. A anlise dos dados de
consumo de lcool e fumo permitiu detectar perfis diferentes de indivduos que se
associam a padres distintos de consumo de lcool e fumo. Para os dois modelos
construdos, um baseado em coeficiente de dissimilaridade e outro de entropia, variveis
como ocupao profissional atual, grau mximo de escolaridade e nmero de pessoas
com quem pode compartilhar os problemas mostram-se importantes na explicao do
conjunto de variveis relacionadas aos consumos de lcool e fumo. Tais covariveis so
responsveis, cada uma delas, por duas parties em ambos os modelos. As concluses
extradas dos dois modelos so compatveis.
Agradecimentos
Prof. Florence Kerr-Correa por disponibilizar os dados para anlise; ao Conselho
Nacional de Desenvolvimento Cientfico e Tecnolgico (CNPq) pelo apoio financeiro em
forma de bolsa de estudos.

TACONELI, C. A.; ZOCCHI, S. S.; DIAS, C. T. S. Extensions of the algorithm of
classification trees for data analysis categorized using multivariate coefficients of
dissimilarity and entropy. Rev. Bras. Biom., So Paulo, v.27, n.1, p.91-114, 2009.

ABSTRACT: The statistical analysis of large datasets requires the use of flexible methodologies,
that can provide insight and understanding even in the presence of difficulties such as large
numbers of variables having variable levels of association between themselves, and missing data.
The construction of classification and regression trees allows for modeling of a categorical or
numerical response variable as a function a set of covariates, while bypassing many of the cited
difficulties. Multivariate trees extend classification and regression techniques to allow for joint
analysis of two or more response variables. In recent studies, application of multivariate
classification and regression techniques has been most common in situations involving numerical
response variables. In this work we propose alternatives for constructing multivariate
classification trees for multiple categorized response variables. Such alternatives are based on
dissimilarity and entropy measures. A simulation study was used to examine the effect of variable
correlations and entropies on the performance of the proposed methodology (results are better
for high correlations and entropies). Analysis of data on alcohol consumption and smoking
among inhabitants from Botucatu (SP) complements the analysis by showing that factors as the
education level, daily occupation and possibility of sharing problems with friends have an
influence on the alcohol consumption and smoking.
KEYWORDS: Classification trees; Dissimilarity; Entropy; Alcohol and smoking; Multivariate
simulation
Referncias
BARNETT, V. Some bivariate uniform distributions. Commun. Stat. Part A Theory
Methods, New York, v.9, n.4, 453-461, 1980.
BREIMAN, L.; FRIEDMAN, J. H.; OLSHEN, R. A.; STONE, C. J. Classification and
regression trees. California: Wadsworth International Group, 1984. 358p.
COX, F.; COX, A. A. Multidimensional scaling. 2. ed. Boca Raton: Chapman & Hall,
2001. 318p.
DARCY, R. AIGNER, H. The uses of entropy in the multivariate analysis of categorical
variables. Am. J. Polit. Sci., Austin, v.24, n.1, p.155-174, 1980.
DEATH, G. Multivariate regression trees: a new technique for modeling species-
environment relationships. Ecology, Brooklin, v.83, n.4, p.11051117, 2002.
DEATH, G.; FABRICIUS, K. E. Classification and regression trees: a powerful yet
simple technique for ecological data analysis. Ecology, Brooklin, v.81, n.11, p.3178
3192, 2000.
GREENACRE, M. J. Correspondence Analysis in pratice. 2. ed. London: Academic
Press, 2007. 280p.
KULLBACK, S.; LEIBLER, R.A. On Information and Sufficiency. Ann. Math. Stat.,
Beachwood, v.22, n.1, p.79-86, 1951.
LARSEN D. R., SPECKMAN P. L. Multivariate regression trees for analysis of
abundance data. Biometrics, Washington, v.60, n.2, p.543549, 2004.
LEE, S. K. On generalized multivariate decision tree by using GEE. Comput. Stat. & Data
Anal., Amsterdan, v.49, n.4, p.1105-1119, 2005.
MILLER, J.; FRANKLIN, J. Modeling the distribution of four vegetation alliances using
generalized linear models and classification trees with spatial dependence. Ecol. Modell.
Amsterdan, v.157, n.2-3, p.227-247, 2002.
QUANG, L. S.; BAO, H. T. An association-based dissimilarity measure for categorical
data. Pattern Recog. Lett., Amsterdam, v.26, p.2549-2557, 2005.
R DEVELOPMENT CORE TEAM. R: A LANGUAGE AND ENVIRONMENT FOR
STATISTICAL COMPUTING, Vienna, Austria, 2008. Disponvel em: http://www.R-
project.org, 2008.
ROSS, S. M. Introduction to probability models. 6. ed. San Diego: Academic Press, 1997.
669p.
SEGAL, M.R. Tree-structured methods for longitudinal data. J. Am. Stat. Assoc., Boston,
v.87, p.407418, 1992.
WHO. Alcohol, gender and drinking problems: perspectives from low and middle income
countries. Genebra: Isidore S. Obot & Robin Room, 2005, 227p.

ZAR, J. H. Biostatistical analysis. 4. ed. New Jersey: Prentice Hall, 1999. 663p.
ZHANG, H.P. Classification trees for multiple binary responses, J. Am. Stat. Assoc.,
Boston, v.93, p.180-193, 1998.
Recebido em 17.02.2009.
Aprovado aps reviso 30.05.2009.

Arvore de Decisao 1 PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Arvore de Decisao 1 PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Rev. Bras. Biom., So Paulo, v.27, n.1, p.

, 0 , situao em que todos os elementos

A entropia do vetor aleatrio Y definida da

no intervalo [ ] 1 , 0 , para qualquer valor de

, devem ser estimadas por

y em relao a uma observao t j . Considera-se

, sendo os elementos da diagonal de

iguais a 1. Assim, para qualquer

est ligada estrutura de dependncias desejada

, 0 : covarincias (e correlaes) nulas; (ii)

Você também pode gostar