Escolar Documentos
Profissional Documentos
Cultura Documentos
40
05
Resultados dos dados originais com associao dos mtodos
obtidos a partir da qui-quadrado .........................................................
41
06
Matriz de Mahalanobis obtida via reamostragem bootstrap aps
com 10000 iteraes ...........................................................................
42
07
Porcentagem de grupos coincidentes entre mtodos de
agrupamento, com base na matriz de Mahalanobis via bootstrap,
(nvel de significncia do teste de independncia do ), a partir da
tabela de contingncia e do grau de associao ................................
2
46
08
Resultados dos dados de reamostragem bootstrap com 10000
interaes com associao dos mtodos obtidos a partir da qui-
quadrado .............................................................................................
46
09
Correlaes cofentica entre as matrizes cofentica e a de
dissimilaridade obtidas conforme mtodo de agrupamento utilizado .
47
10
Grau de distoro (%) entre as distncias original e bootstrap e a
obtida por meio dos dendrogramas obtidos conforme mtodo de
agrupamento utilizado .........................................................................
47
Estabilidade em Anlise de Agrupamento
Autor: Ms. Albuquerque, Macio Augusto
Orientador: Dr. Rinaldo Luiz Caraciolo Ferreira
RESUMO
Objetivou-se propor uma sistemtica para o estudo e a interpretao da
estabilidade dos mtodos em anlise de agrupamento, atravs de vrios algoritmos
de agrupamento em dados de vegetao. Utilizou-se dados provenientes de um
levantamento na Mata da Silvicultura, da Universidade Federal de Viosa-MG. Para
anlise de agrupamento foram estimadas as matrizes de distncia de Mahalanobis
com base nos dados originais e via reamostragem bootstrap e aplicados os
mtodos da ligao simples, ligao completa, mdias das distncias, do centride,
da mediana e do Ward. Para a deteco de associao entre os mtodos foi
aplicado o teste qui-quadrado. Para os diversos mtodos de agrupamento foi obtida
a correlao cofentica. Os resultados de associao dos mtodos foram
semelhantes, indicando em princpio que qualquer algoritmo de agrupamento
estudado est estabilizado e existem, de fato, grupos entre os indivduos
observados. No entanto, observou-se que os mtodos so coincidentes, exceto os
mtodos do centride e Ward e os mtodos do centride e mediana quando
comparados com o de Ward, respectivamente, com base nas matrizes de
Mahalanobis a partir dos dados originais e bootstrap. A sistemtica proposta
promissora para o estudo e a interpretao da estabilidade dos mtodos de anlise
de agrupamento em dados de vegetao.
viii
STABILITY IN CLUSTER ANALYSIS
Autohr: Ms. Albuquerque, Mcio Augusto
Advisor: Dr. Rionaldo Luiz Caraciolo Ferreira
ABSTRACT
The main objective of this research was to propose a systematic to the study
and interpretation of the stability of methods in cluster analysis through many cluster
algorithms in vegetation data. The data set used came from a survey in the
Silviculture Forest at Federal University of Viosa MG. To perform the cluster
analysis the matrices of Mahalanobis distance were estimated based on the original
data and by bootstrap resampling. Also the methods of single linkageage, complete
linkageage, the average of the distances, the centroid, the medium and the Ward
were used. For the detection of the association among the methods it was applied
the chi-square test. For the various methods of clustering it was obtained a
cofenetical correlation. The results of the associations of methods were very similar,
indicating, in principle, that any algorithm of cluster studied is stabilized and exist, in
fact, groups among the individuals analyzed. However, it was concluded that the
methods coincide with themselves, except the methods of centroid and Ward. Also
the centroid methods and average when compared to the Ward, respectively, based
on the matrices of Mahalanobis starting from the original data set and bootstrap.
The methodology proposed is promising to the study and interpretation of the stability
of methods concerning the cluster analysis in vegetation data.
ix
1- INTRODUO
As tcnicas de anlise multivariada possibilitam avaliar um conjunto de
caractersticas, levando em considerao as correlaes existentes, que permitem
que inferncias sobre o conjunto de variveis sejam feitas em um nvel de
significncia conhecido.
Nas diversas reas do conhecimento uma das tcnicas multivariadas mais
utilizadas a anlise de agrupamento. O seu emprego em reas tais como
engenharia florestal, experimentos agronmicos, medicina, sociologia,
administrao, entre outras, vem aumentando muito nos ltimos anos.
A anlise de agrupamento tem por finalidade reunir, por algum critrio de
classificao as unidades amostrais em grupos, de tal forma que exista
homogeneidade dentro do grupo e heterogeneidade entre grupos (Johnson &
Wichern, 1992; Cruz & Regazzi, 1994).
O processo de agrupamento envolve basicamente duas etapas. A primeira se
refere estimao de uma medida de dissimilaridade entre os indivduos e a
segunda, refere-se adoo de uma tcnica de formao de grupos.
Um grande nmero de medidas de similaridade ou de dissimilaridade tem sido
proposto e utilizado em anlise de agrupamento, sendo a escolha entre elas
baseada na preferncia e/ou na convenincia do pesquisador (Bussab et al., 1990).
Com a definio da medida de dissimilaridade a ser utilizada, a etapa
seguinte a adoo de uma tcnica de agrupamento para formao dos grupos.
Para realizao desta tarefa, existe um grande nmero de mtodos disponveis, dos
quais o pesquisador tem de decidir qual o mais adequado ao seu propsito, uma vez
que as diferentes tcnicas podem levar a diferentes solues (Souza et al., 1997).
As tcnicas de anlise de agrupamento exigem de seus usurios a tomada de
uma srie de decises independentes, que requerem o conhecimento das
propriedades dos diversos algoritmos disposio e que podem representar
diferentes agrupamentos. Alm disso, o resultado dos agrupamentos pode ser
influenciado pela escolha da medida de dissimilaridade, bem como pela definio do
nmero de grupos (Gower & Legendre, 1986; Jackson et al., 1989; Duarte et al.,
1999).
O incremento na capacidade computacional promoveu grandes avanos na
anlise multivariada, reduzindo simultaneamente o esforo e os custos. Uma dessas
1
possibilidades de otimizao o procedimento de reamostragem bootstrap". Esses
procedimentos tm sido utilizados para avaliar a estabilidade dos agrupamentos
obtidos a partir de matrizes de dissimilaridade (Weir, 1990; Meyer, 1995; Hillis et al.,
1996; Manly, 1997). Logo, aplicao do procedimento de reamostragem bootstrap
pode fornecer um ponto de equilbrio que permite uma estimativa precisa dos
grupos.
Assim, objetivou-se propor uma sistemtica para o estudo e a interpretao
da estabilidade dos mtodos em anlise de agrupamento, atravs de vrios
algoritmos de agrupamento em dados de vegetao.
2
2 - REVISO DE LITERATURA
Em quase todas as reas de pesquisa vrias variveis so mensuradas e, em
geral, essas devem ser analisadas conjuntamente. A anlise multivariada a rea
da estatstica que trata desse tipo de estudo e existem vrias tcnicas que podem
ser aplicadas, sendo que, a utilizao dessas depende do tipo de dado que se
deseja analisar e dos objetivos do estudo.
Segundo Anderson (1984), existem, basicamente, duas formas de classificar
as anlises multivariadas: as que permitem extrair informaes a respeito da
independncia entre as variveis que caracterizam cada elemento, tais como anlise
fatorial, anlise de agrupamento, anlise cannica, anlise de ordenamento
multidimensional e anlise de componentes principais; e as que permitem extrair
informaes a respeito da dependncia entre uma ou mais variveis ou uma com
relao outra, tais como anlise de regresso multivariada, anlise de contingncia
mltipla, anlise discriminante e anlise de varincia multivariada.
2.1 A Anlise de Agrupamento
A anlise de agrupamento uma tcnica multivariada que tem por objetivo
proporcionar uma ou vrias parties na massa de dados, em grupos, por algum
critrio de classificao, de tal forma que exista homogeneidade dentro e
heterogeneidade entre grupos (Sneath & Sokal, 1973; Mardia et al., 1997).
Essa tcnica sumariza dados para interpretao e utiliza mtodos que
procuram grupos excludentes, ascendentes, reduzindo as informaes de um
conjunto de n indivduos para informaes de um novo conjunto de g grupos, onde g
significativamente menor que n, resultando um dendrograma de excluso (Mardia
et al., 1997).
Conforme Reis (1997), de modo sinttico, a tcnica pode ser descrita como
se segue: dado um conjunto de n indivduos para os quais existe informao sobre a
forma p variveis, o mtodo de anlise de agrupamento procede ao agrupamento
dos indivduos em funo da informao existente, de tal modo que os indivduos
pertencentes a um mesmo grupo sejam to semelhantes quanto possvel e sempre
mais semelhante aos elementos do mesmo grupo do que aos elementos dos grupos
restantes. Essa tcnica tambm chamada de tcnica de partio, classificao ou
taxonomia, embora o termo partio seja mais utilizado para uma das tcnicas
3
especificas da anlise: aquela em que os indivduos so divididos por um nmero
preestabelecido de grupos.
Segundo Aaker et al. (2001), a premissa mais importante da anlise de
agrupamento a de que a medida de similaridade ou dissimilaridade na qual o
processo de agrupamento se baseia uma medida vlida de similaridade ou
dissimilaridade entre os indivduos. A segunda premissa mais importante a de que
existe uma justificativa terica para estruturar os indivduos em grupos. Como em
outras tcnicas multivariadas, tambm h teoria e lgica guiando e dando base
anlise de agrupamento.
Geralmente, difcil avaliar a qualidade do processo de agrupamento. No
existem testes estatsticos padres para garantir que o resultado seja puramente
aleatrio. O valor do critrio medida, legitimidade do resultado, aparncia de uma
hierarquia natural (quando for empregado um mtodo no hierrquico) e
confiabilidade de testes de diviso de amostra, oferecem informaes teis (Bussab
et al., 1990). Entretanto, difcil saber, exatamente, quais os grupos so muito
parecidos e quais objetos so difceis de serem inseridos. Geralmente, no fcil
selecionar um critrio e programa de agrupamento por meio de outra referncia que
no a disponibilidade.
Na anlise de agrupamento, fundamental ter particular cuidado na seleo
das variveis de partida que vo caracterizar cada indivduo, e determinar, em ltima
instncia, qual o grupo em que deve ser inscrito. Nesta anlise no existe qualquer
tipo de dependncia entre as variveis, isto , os grupos se configuram por si
mesmo sem necessidade de ser definida uma relao causal entre as variveis
utilizadas. Essa anlise no faz uso de modelos aleatrios, mas til por fornecer
um sumrio bem justificado de um conjunto de dados. As tcnicas so exploratrias
e a idia , sobretudo gerar hipteses, mais do que test-las, sendo necessria a
validao posterior dos resultados encontrados atravs da aplicao de outros
mtodos estatsticos (Reis, 1997).
Genericamente, a anlise de agrupamento compreende cinco etapas (Aaker
et al., 2001):
1. A seleo de indivduos ou de uma amostra de indivduos a serem
agrupados;
2. A definio de um conjunto de variveis a partir das quais sero obtidas
informaes necessrias ao agrupamento dos indivduos;
4
3. A definio de uma medida de semelhana ou distncia entre os
indivduos;
4. A escolha de um algoritmo de partio/classificao;
5. Por ltimo, a validao dos resultados encontrados.
2.2 As tcnicas de anlise de agrupamentos
A anlise de agrupamento envolve algumas decises subjetivas, como qual a
tcnica a mais conveniente, conforme as circunstncias.
Vrios so os tipos de tcnicas de agrupamento encontradas na literatura
(Johnson & Wichern, 1992; Cruz & Regazzi, 1994; Mardia el al., 1997; Aaker et al.,
2001; Barroso & Artes, 2003), tendo o pesquisador que tomar a deciso de qual a
mais adequada ao seu propsito, uma vez que, as diferentes tcnicas podem levar a
diferentes solues.
De maneira geral, ao empregar quaisquer procedimentos de anlise de
agrupamento, o pesquisador deve tomar cuidado com os seguintes aspectos
(Aldenderfer & Brashield, 1984):
- A maioria dos mtodos de anlise de agrupamento procedimento
relativamente simples que, geralmente, no tem um embasamento terico estatstico
abrangente.
- Os mtodos de anlise de agrupamento foram desenvolvidos com base em
diversas disciplinas, e os vieses herdados de cada uma delas podem diferir muito
entre si.
- Mtodos de agrupamentos diferentes geram solues diferentes para o
mesmo conjunto de dados.
- A estratgia da anlise de agrupamentos busca uma estrutura, enquanto
sua operao necessita de uma estrutura preestabelecida.
As prprias tcnicas de agrupar podem ser classificadas em grupos, e
diferentes autores produzem diferentes classificaes. Cormack (1971), prope a
seguinte:
1) A tcnica hierrquica de agrupamento consiste em uma srie de sucessivos
agrupamentos ou sucessivas divises de elementos, em que os elementos so
agregados ou desagregados. As tcnicas hierrquicas so subdivididas em
aglomerativas e divisivas.
5
Os grupos, na tcnica hierrquica, so geralmente representados por um
diagrama bi-dimensional chamado de dendrograma ou diagrama de rvore. Nesse
diagrama, cada ramo representa um elemento, enquanto a raiz representa o
agrupamento de todos os elementos.
2) As tcnicas no-hierrquicas, ou por particionamento, foram desenvolvidos para
agrupar elementos em K grupos, em que K a quantidade de grupos definida
previamente.
Nem todos valores de K apresentam grupos satisfatrios, sendo assim,
aplica-se o mtodo vrias vezes para diferentes valores de K, escolhendo os
resultados que apresentem melhor interpretao dos grupos ou uma melhor
representao grfica (Bussab et al., 1990).
A idia central da maioria dos mtodos por particionamento escolher uma
partio inicial dos elementos e, em seguida, alterar os membros dos grupos para
obter-se a melhor partio (Anderberg, 1973).
Quando comparado com a tcnica hierrquica, a tcnica no-hierrquica ou
por particionamento mais rpido porque no necessrio calcular e armazenar,
durante o processamento, a matriz de similaridade ou dissimilaridade (Johnson &
Wichern, 1992).
Em geral, os mtodos por particionamento diferem entre si pela maneira que
constituem a melhor partio. Como qualquer classificao, existiro tipos que sero
difceis de classificar, ou que podero caber em mais de um grupo.
2.2.1 Tcnicas hierarquizao
Segundo Reis (1997), as tcnicas de hierarquizao conduzem a uma
hierarquia de parties P
1
P
2
,...,P
n
do conjunto total dos n objetos em 1, 2....n
grupos. A denominao de hierrquicos advm do fato de, que, para cada par de
parties P
i
e P
i + 1
, cada grupo da partio P
i + 1
est sempre includo num grupo da
partio P
i.
Esse tipo de tcnica se baseia na construo de uma matriz de
dissimilaridade ou distncias em que cada elemento da matriz descreve o grau de
diferena entre cada dois casos com base nas variveis escolhidas. Segundo Souza
et al. (1997), os mtodos hierrquicos se dividem em aglomerativos e divisivos.
Entre os mtodos aglomerativos, citam-se o do vizinho mais prximo, do vizinho
mais distante, da mediana, do centride, da mdia das distncia e o proposto
6
por Ward (1963). Entre os mtodos divisivos, o mais conhecido o de Edwards e
Cavalli-Sforza (1965). Nos primeiros, parte-se de n grupos de apenas um indivduo,
que vo sendo agrupados, sucessivamente, at que se encontre apenas um grupo
que incluir a totalidade dos n indivduos. O processo inverso utilizado pelos
mtodos divisivos: parte-se de um grupo que inclui todos os indivduos em estudo e
por um processo sistemtico de divises sucessivas. Os mtodos de anlise de
agrupamentos mais utilizados pelos pesquisadores so os hierrquicos
aglomerativos.
O ponto de partida comum a todos os mtodos hierrquicos a construo de
uma matriz de similaridade ou de distncia, sendo este o terceiro problema a
resolver em qualquer anlise de agrupamento.
2.2.2 Definio do nmero de grupos
Determinar o nmero de grupos para uma base de dados uma das tarefas
mais difceis no processamento de agrupamento.
Para Barroso & Artes (2003), o nmero de grupos pode ser definido a priori,
atravs de algum conhecimento que se tenha sobre os dados, pela convenincia do
pesquisador, por simplicidade, ou ainda pode ser definido a posteriori com base nos
resultados da anlise.
De acordo com Aaker et al., (2001), para determinar o nmero apropriado de
grupos, existem diversas abordagens possveis: em primeiro lugar, o pesquisador
pode especificar antecipadamente o nmero de agrupamentos. Talvez, por motivos
tericos e lgicos, esse nmero seja conhecido. O pesquisador pode tambm, ter
razes prticas para estabelecer o nmero de agrupamentos, com base no uso que
pretende fazer dele. Em segundo lugar, o pesquisador pode especificar o nvel de
agrupamento de acordo com um critrio. Se o critrio de agrupamento for de fcil
interpretao, tal com a mdia de similaridade interna do agrupamento, possvel
estabelecer certo nvel que ditaria o nmero de agrupamentos. Uma terceira
abordagem determinar o nmero de agrupamentos com base no padro gerado
pelo programa. As distncias entre os agrupamentos em etapas sucessivas podem
servir de guia, e o pesquisador pode escolher interromper o processo quando as
distncias excederem um valor estabelecido. Uma quarta abordagem representar,
graficamente, a razo entre a varincia total interna dos grupos e a varincia entre
os grupos, em relao ao nmero de agrupamentos. O ponto em que surgir uma
7
curva acentuada, um ponto de inflexo, seria a indicao do nmero adequado de
agrupamentos. Aumentar esse nmero alm desse ponto seria intil, e diminu-lo
seria correr o risco de misturar objetos diferentes.
Qualquer que seja a abordagem empregada, geralmente aconselhvel
observar o padro total de agrupamentos. Isto pode proporcionar uma medida da
qualidade do processo de agrupamento e do nmero de agrupamentos que emerge
nos vrios nveis do critrio de agrupamento. Geralmente mais de um nvel de
agrupamento relevante (Aaker et al., 2001).
No caso de no existir o conhecimento do nmero de grupos em que a
populao em estudo dever ser dividida, um dos mtodos usados quando se usam
tcnicas hierrquicas, consiste na comparao grfica do nmero de agrupamento
com o respectivo coeficiente de fuso, isto , o valor numrico (distncia ou
semelhana) para o qual vrios casos se unem para formar um grupo (Reis, 1997).
Assim, quando a diviso de um novo grupo no introduz alteraes significativas no
coeficiente de fuso, poder se tomar essa partio como sendo tima. Outro
procedimento utilizado o da comparao dos resultados obtidos por vrios
mtodos diferentes de agrupamento. Poder-se- aferir o grau de convergncia entre
os vrios mtodos de agrupamento atravs de uma tabela de contingncia,
indicando o nmero de observaes que se agrupam no mesmo agrupamento, para
o mesmo nmero de agrupamento. Desta forma possvel verificar a maior ou
menor estabilidade das solues encontradas, de maneira a concluir acerca da
qualidade do agrupamento efetuado.
2.2.3 Dendrograma
Dendrograma uma representao matemtica e ilustrativa de todo o
procedimento de agrupamento atravs de uma estrutura de rvore (Everitt et al.
2001).
Os ns do dendrograma representam agrupamentos, E ns so compostos
pelos grupos e ou objetos (grupos formados apenas por ele mesmo) ligados a ele
(n). Se cortarmos o dendrograma em um nvel de distncia desejado, obteremos
uma classificao dos nmeros de grupos existentes nesse nvel e dos indivduos
que os formam. O nmero de grupo dos indivduos obtido pelo corte do
dendrograma em um nvel desejado e ento cada componente conectado forma um
grupo.
8
2.3 Medidas de distncia
Para agrupar indivduos, necessrio a definio de uma medida de
similaridade ou dissimilaridade. Com base nessa medida os indivduos similares so
agrupados e os demais so colocados em grupos separados (Aaker et al., 2001):
As medidas de dissimilaridade tm papel central nos algoritmos de
agrupamentos. Atravs delas so definidos critrios para avaliar se dois pontos
esto prximos, e, portanto, podem fazer parte de um mesmo grupo, ou no.
Segundo Barroso & Artes (2003), h dois tipos de medidas de parecena:
medidas de similaridade (quanto maior o valor, maior a semelhana entre os objetos)
e medidas de dissimilaridade (quanto maior o valor, menor a semelhana entre os
objetos).
De um modo geral, as medidas de similaridade e de dissimilaridade so
interrelacionadas e, facilmente, transformveis entre si (Bussab et al., 1990). H um
grande nmero de coeficientes de similaridade e/ou de dissimilaridade para
caracteres binrios disponveis na literatura. Segundo Clifford & Stephenson (1975),
tais coeficientes podem ser, facilmente, convertidos para coeficientes de
dissimilaridade: se a similaridade for denominada s, a medida de dissimilaridade
ser o seu complementar (1 s).
A maioria dos mtodos de anlise de agrupamento requer uma medida de
similaridade ou dissimilaridade entre os elementos a serem agrupados, normalmente
expressa como uma funo distncia ou mtrica (Doni, 2004).
Seja M um conjunto, uma mtrica em M uma funo d: MxM , tal que
para quaisquer i, j, z M, tenhamos:
=
=
p
1 v
2
)
jv
X
iv
(X
ij
d
em que
X
iv
representa a caracterstica do indivduo i,
X
jv
representa a caracterstica do individuo j,
p o nmero de parcelas na amostra,
v o nmero indivduo na amostra.
2. Distncia Euclidiana quadrada: a distncia entre dois casos (i e j)
definida como o somatrio dos quadrados das diferenas entre os valores de i e j
para todas as variveis (v = 1, 2.....p).
=
=
p
1 v
2
)
jv
X
iv
(X
2
ij
d
em que:
X
iv
representa a caracterstica do indivduo i,
X
jv
representa a caracterstica do individuo j,
p o nmero de parcelas na amostra,
v o nmero indivduo na amostra.
3. Distncia euclidiana ponderada.
Para Bussab et al., (1990), na realidade, este coeficiente de similaridade e
dissimilaridade est associado a uma questo freqente em anlise de
agrupamento, que o da ponderao das variveis, ou seja, o de dar mais peso
para variveis que o pesquisador julgar mais importante para definir semelhana.
)
j
X -
i
(X S
'
)
j
X -
i
(X d =
10
S uma matriz diagonal, tendo i-simo componente a varincia s
2
i
, isto , S
= diag. ( ento: )
2
p
s ....., ,
2
2
s ,
2
1
s
'
)
j
X
i
(X matriz transposta;
)
j
X
i
X ( uma matriz ;
X
i
o vetor de mdias do isimo indivduo;
X
j
o vetor de mdias do jsimo indivduo.
Os casos particulares mais importantes, sendo a distncia ponderada por S,
so:
i ) S = 1, a ponderao a matriz identidade, tem-se ento a distncia
euclidiana usual.
ii ) S = [ diag. ] )
2
p
s ....., ,
2
2
s ,
2
1
s (
-1
, e tem-se a distncia das variveis
padronizadas.
iii ) S = V
1
, onde V matriz de covarincias, tem-se ento a distncia de
Mahalanobis.
Esta ltima distncia, alm de ponderar pela variabilidade de cada uma das
componentes, leva em conta tambm o grau de correlao entre elas. Este fato
torna muito difcil a interpretao de resultados baseados neste coeficiente de
similaridade dissimilaridade.
4. Distncia de Mahalanobis tambm chamada distncia generalizada, Esta
medida, ao contrrio das apresentadas anteriormente, considera a matriz de
covarincia para o clculo das distncias: Esta a distncia escolhida para o
nosso trabalho pois ela leva em considerao a estrutura de correlao existente
nos dados.
= + =
= + =
= + =
=
1
1 1
2
) (
1
1 1
2
) (
1
1 1
) ( ) (
n
i
n
i j
d
ij
d
n
i
n
i j
c
ij
c
n
i
n
i j
d
ij
d c
ij
c
cof
r , em que;
c
i j
= valor de dissimilaridade entre os indivduos i e j, obtidos a partir da matriz
cofentica;
d
i
j
= valor de dissimilaridade entre os indivduos i e j, obtidos a partir da matriz de
dissimilaridade;
= + =
=
1
1 1
) 1 (
2
n
i
n
i j
ij
c
n n
c ,
22
= + =
=
1
1 1
) 1 (
2
n
i
n
i j
ij
d
n n
d .
Nota-se que essa correlao equivale correlao de Pearson entre a matriz
de dissimilaridade original e aquela obtida aps a construo do dendrograma.
Assim quanto mais prximo de 1, menor ser a distoro provocada pelo
agrupamento dos indivduos com os mtodos.
Para Bussab et al., (1990), problema responder se o valor observado alto
ou baixo?. Responder a isto to difcil como responder, na maioria das situaes, o
que um alto coeficiente de correlao entre duas variveis. Depende da rea de
estudo e de padres que vo se desenvolvendo com a prtica. Pode-se adiantar que
em anlise de agrupamento, algo em torno de 0,8 j pode ser considerado bom
ajuste.
23
3. MATERIAL E MTODOS
3.1 Dados
Neste trabalho foram utilizados dados de um levantamento da vegetao da
mata da Silvicultura (Tabela 1), da Universidade Federal de Viosa-MG, retirado de
Souza et al. (1997).
Tabela 1 Densidade de 17 espcies da mata da silvicultura, em parcelas de 20 X
50 m, Universidade Federal de Viosa MG
Espcies Parcelas
1 2 3 4 5 6 7 8 9 10 11
Casearia decandra Jacq. 8 1 27 0 1 9 2 3 22 15 7
Anadenanthera peregrina Spreg. 0 0 0 0 0 0 12 1 17 1 9
Apuleia leiocarpa (Vog.) Macbr. 3 9 4 6 22 9 5 2 7 4 4
Mabea fistulifera Mart. 6 3 3 4 29 12 0 4 4 4 4
Anadenanthera macrocarpa(Benth.) Brenan. 0 12 0 1 0 0 1 0 2 0 0
Platypodium elegans Vog. 0 0 1 1 9 1 0 0 5 11 1
Machaerium floridum (Benth.) Ducke 0 0 10 1 9 2 1 0 0 11 5
Copaifera langsdorffii Desf. 1 1 0 2 1 13 0 0 0 3 1
Ocotea pretiosa Mez. 2 0 2 2 2 6 0 5 0 2 2
Cabralea cangerana Saldanha 1 0 0 2 0 0 1 6 2 3 1
Piptadenia gonoacantha Macbr. 0 0 0 0 0 0 6 0 1 0 5
Dalbergia nigra Allem. Ex Benth. 5 0 7 0 5 0 0 0 0 1 0
Luehea divaricata Mart. 7 0 0 0 0 1 0 1 0 0 0
Melanoxylon brauna Schott. 0 0 0 0 0 0 0 0 0 2 1
Cedrela fissilis Vell. 0 0 0 0 0 0 1 0 0 0 0
Croton floribundus Spreng. 0 0 1 0 0 0 0 0 0 0 0
Fonte: Souza et al. (1997)
Considerando que a densidade da espcie uma varivel quantitativa
discreta, os dados originais da matriz foram transformados por meio de raiz
quadrada, para tornar a sua distribuio mais apropriada a uma anlise de
agrupamento.
24
3.2 Mtodos Estatsticos
Com proposta de metodologia estatstica para anlise de agrupamento se
considerou a seguinte ordem: processo reamostragem bootstrap na matriz de
dados originais, clculo da matriz de distncia, considerando-se a distncia de
Mahalanobis, utilizao dos algoritmos ligao simples, ligao completa, do
centrides, da mediana, das distncias mdias e de Ward, dendrogramas, tabelas
de contingncias, e teste para comparao dos mtodos.
2
3.2.1 Estabilidade via mtodo bootstrap
Para se estabilizar os mtodos em anlise de agrupamentos via bootstrap,
foram seguidos os seguintes passos:
1. Considerou-se a seguinte matriz X, denominada de matriz de dados ou
matriz original (primaria).
=
(nxp)
X
(
(
(
(
(
(
(
x x x
x x x
x x x
pn p p
n
n
... ..........
. . .
. . .
.. ..........
.. ..........
2 1
2 22 21
1 12 11
Em que i = 1, 2 ,....., p espcie na amostra e j = 1, 2,....,n parcelas.
2. Com a matriz primria, encontrou-se a matriz de distncia Mahalanobis, para
aplicao dos algoritmos de agrupamento.
3. De posse da matriz de Mahalanobis, aplicou-se bootstrap e calculou-se uma
nova matriz de distncia Mahalanobis para aplicao dos algoritmos de
agrupamento e comparao com a aplicao do item 2.
25
4. Construo de Tabelas de contingncia 2x2 para comparao entre
algoritmos de agrupamentos (nmero de observaes que se agrupam no
mesmo grupo para o mesmo nmero de grupo).
100%
grupos de Nmero
s observae de Nmero
m Porcentage =
5. Conforme Jairo & Gilberto (1996) foi utilizado o indicador do grau de
associao entre dois mtodos analisandos dados por:
N calculado
2
calculado
2
C
+
=
Esses coeficiente podem variar entre [0 , 1], estando mais associados os
mtodos quanto maior o valor de C.
3.2.2 Medida de distncia
Como medida de dissimilaridade foi utilizada a distncia de Mahalanobis (D
2
)
calculada conforme a seguinte expresso:
D
2
= ( X
~
i
- X
~
j
) .
-1
. ( X
~
i
- X
~
j
),
em que D
2
= d ( X
~
i
- X
~
j
);
-1
a inversa da matriz de covarincia residual de X, e
D
2
tem a caracterstica de ser invariante para qualquer transformao linear no-
singular. Ao contrrio da distncia Euclidiana, D
2
pode ser utilizada quando existe
correlao entre as variveis. Sendo os coeficientes de correlao nulos, o valor de
D
2
equivale distncia Euclidiana para variveis padronizadas.
3.2.3 Algoritmos de agrupamento
Foram utilizados os seguintes algoritmos de agrupamento, por serem os mais
usados na prtica pela facilidade de serem encontrados nos mais diversos
programas computacionais, tais como:
26
a) Mtodo da Ligao Simples ou do Vizinho mais Prximo (Single Linkage)
De posse da matriz primria de dados X (n x p), o mtodo de ligao simples
foi resolvido na seguinte seqncia de clculos:
1. Com base na matriz de Mahalanobis original ou estabilizada via bootstrap
foram determinados os valores da funo de agrupamento d
ij
, que foram
representados na forma matricial (D
1
);
2. Localizou-se o valor mnimo de d
ij
> 0. Os elementos E
i
e E
j
,
correspondentes a este valor, foram reunidos em um mesmo grupo, ficando
(n-1) agrupamentos remanescentes;
3. Com base na matriz de distncia inicial (D
1
), determinou-se a distncia
entre o novo agrupamento e os demais elementos, por meio da relao:
d
(i,j) l
= min (d
i1
, d
i2
), l = 1, (n-2)
l i j
e construiu-se nova matriz de distncia (D
2
).
4. Localizou-se em D
2
, o menor valor de d
ij
> 0 e, em seguida, agrupou-se os
elementos que deram origem a esta nova distncia, formando-se novo
agrupamento. Neste passo, tm-se (n-2) agrupamentos.
5. Comps-se nova matriz de distncias, baseando-se na matriz de distncia.
Para isto, calculou-se a distncia entre agrupamento formado na etapa
anterior e os demais, considerando-se um elemento isolado de E como um
agrupamento. Retornou-se a seguir a etapa 4.
Os processos foram repetidos at que todos os 11 elementos de E fossem
alocados a um s agrupamento.
b) Mtodo da Ligao Completa ou do Vizinho mais Longe (complete linkage)
Dados n elementos e se admitindo conhecidos os n(n-1)/2 valores de uma
funo de agrupamentos, d
ij
, i = j = 1, 2.... n, apresentados na forma de uma D, este
mtodo pode ser sintetizado, segundo Gama (1980) e Mardia et al, (1997), nas
seguintes etapas:
1.Determinou-se, com base na matriz de Mahalanobis, o conjunto de valores
de uma funo de agrupamento. Estes valores constituem medida de
distncia estatstica (D) que formam a matriz D
1
;
27
2. Decidiu-se o valor mnimo de d
ij
, sendo, os elementos E
i
e E
j
reunidos num
primeiro grupo. Ento se pressupe que os (n-2) elementos restantes
constitussem, cada um, um agrupamento distinto;
3. Com base na matriz D
1
, determina-se a distncia entre cada um dos (n-2)
elementos e o novo agrupamento formado pelos elementos (E
i
, E
j
). Esta
distncia calculada pela relao:
d
(i, j) l
= mx (d
i1
, d
jl
), l = 1, (n-2).
l i j
Sendo estas distncias reunidas numa matriz D
2
4. Determina-se, com base na matriz D
2
, o maior valor d
ij
, agrupando-se os
elementos correspondentes, dando origem a um novo agrupamento, e, ento
obtendo-se (n-2) agrupamentos;
5. Construiu-se um novo conjunto de valores de distncias com base na
matriz D
2
(interao anterior), entre o novo agrupamento e os demais.
c) Mtodo do Centride.
Seja X (n x p) a matriz de dados bsicos em que cada linha representa o
conjunto de valores observados para cada espcie, e cada coluna representa uma
parcela de rea fixa ou varivel.
Este algoritmo pode ser desenvolvido nas seguintes etapas:
1. Com base na matriz de dados e em uma funo de agrupamentos, calcula-
se as distncias (d
ij
) entre as parcelas (i, j), i = 1, 2...., n. Esses dados so
reunidos numa matriz de distncias (D).
2. A primeira operao em D, consiste em procurar pelo menor valor de d
ij
,
excluindo os valores de d
ij
em que i = j, ou seja, excluir-se os elementos da
diagonal principal. Os elementos X
i
e X
j
cuja similaridade maior, so
reunidos num mesmo agrupamento.
3. Em seguida, calcula-se uma nova matriz de distncia e identificou-se os
elementos do agrupamento mais prximo, e se constri um novo
agrupamento, Segundo Lance e Williams (1967) as distncias podem ser
obtidas atravs da seguinte expresso:
28
( )
ij
d
j
n
i
n
j
n
i
n
kj
d
j
n
i
n
j
n
ki
d
j
n
i
n
i
n
ij k
d
(
(
+
|
|
.
|
\
|
+
+
|
|
.
|
\
|
+
=
2
.
) (
em que:
d
k(ij)
, d
ki
, d
kj
e d
ij
= distncias Mahalanobis entre os elementos k e
agrupamento ij, k e i, k e j, e i e j, respectivamente.
n
i
, n
j
e n
k
= nmero de elementos nos grupamentos i, j e k, respectivamente.
4. Verifica-se se o nmero de agrupamentos determinados igual ao valor
fixado, g n, se fosse verdade, termina-se o processo, caso contrrio,
retorna-se ao item 2.
d) Mtodo da Mediana
Esse algoritmo foi desenvolvido nas seguintes etapas:
1. Com base na matriz de dados e em uma funo de agrupamentos, calcula-
se as distncias (d
ij
) entre as parcelas (i, j), i = 1, 2,...., n, Estes dados so
reunidos numa matriz de distncias (D).
2. A primeira operao em D, consistiu em procurar menor valor de d
ij
,
excluindo os valores de d
ij
onde i = j, ou seja, excluir os elementos da diagonal
principal, Os elementos (parcelas) X
i
e X
j
cuja dissimilaridade menor so
reunidos num mesmo agrupamento.
3. Em seguida calculada uma nova matriz de distncia e identificou-se os
elementos do agrupamento mais prximo, constroem-se um novo
agrupamento. Segundo Lance e Williams (1967), as distncias podem ser
obtidas atravs da seguinte expresso:
ij kj ki ij k
d d d d
(
|
.
|
\
|
+
|
.
|
\
|
=
4
1
2
1
2
1
) (
em que:
d
k (ij)
, d
ki
, d
kj
e d
ij
= distncias Mahalanobis entre os elementos k e
agrupamento ij, k e i, k e j, e i e j, respectivamente.
29
n
i
, n
j
e n
k
= nmero de elementos nos grupamentos i, j e k, respectivamente.
4 Verifica -se se o nmero de agrupamentos determinados era igual ao valor
fixado, g n, Se for verdade, termina-se o processo, caso contrrio, retorna-
se ao item 2.
e) Mtodo das Mdias das distncias (da Mdia de agrupamento)
O mtodo pode ser resumido nos seguintes passos:
1. Determina-se a matriz de distncias inicial.
2. Localiza-se os dois elementos que apresentam a menor distncia,
reunindo em um nico grupo.
3. Calcula-se a distncia entre os diversos pares de grupos como sendo a
mdia das distncias entre todos os pares de seus elementos, sendo um
elemento de cada um dos grupos.
4. Os dois grupos que apresentam menor distncias so reunidos em um
nico grupo.
5. Se o nmero de grupos obtidos igual a um nmero g n, o processo
termina caso contrario, retorna-se ao passo 3.
Esta frmula fornece das Mdias das distncias.
kj
d
n i
n
j
n
ki
d
j
n
i
n
i
n
j i
k
j
(
(
+
+
(
(
+
=
) , (
d
em que:
*
k(ij),
d
d
ki
e d
kj
= distncias entre os elementos k e agrupamento ij, k e i, k
e j, e i e j, respectivamente.
n
i
e n
j
= nmero de elementos nos grupamentos i e j, respectivamente.
30
f) Mtodo de Ward
Segundo Orlci (1978), o algoritmo de Ward pode ser resumido nas seguintes
etapas:
1. Determina-se a matriz de distncias e localiza-se os dois agrupamentos
para os quais d
ij
mnimo;
2. Rene-se estes agrupamentos, formando um novo agrupamento, e se
verifica, se o nmero de agrupamentos (g) j foi alcanado, seno, segue-se
etapa 3, caso contrrio, termina-se a anlise;
3. Calcula-se o valor do aumento a ser obtido na soma dos quadrados pela
reunio de qualquer dos agrupamentos: I = (1/2), d
pq
.
4. Determina-se os dois agrupamentos que apresentam um menor incremento
na matriz D, isto , Min (I
ij
) e volta-se etapa 2.
Este mtodo tem como funo de agrupamentos a distncia Mahalanobis e o
critrio de agrupamento dado pelo valor do incremento, que se obtm na
soma de quadrados do erro.
Observao:
,
2
)
k
X -
p
(X
2
pk
d = a distncia entre as mdias dos elementos de G
p
e G
k
sendo G
p
e G
k
, respectivamente, os grupos p e k,
,
pk
k p
k p
pk
d
N N
N N
I
+
=
em que as reunies dos agrupamentos G
p
e G
k
ser feita
se I
pk
= mnimo.
Admita-se que para o agrupamento G
p
G
k
= G
r
, o incremento na soma das
mdias do erro dado por:
,
tr
r t
r t
tr
d
n n
n n
I
+
=
onde
2
) (
2
r
X
t
X
tr
= d
Podendo ser escrita por:
31
pk
r
k p
tk
r
k
tp
r
p
tr
d
n
n n
d
n
n
d
n
n
d
+ =
2 ,
Substituindo-se cada distncia, em funo do nmero de elementos, do
agrupamento, obteve-se:
| |
pk
I
r
n
tk
I
k
n
t
n
tp
I
p
n
t
n
r
n
t
n
tr
I + + +
+
= ) ( ) (
1
Ou ainda, considerando d , tem-se:
tp tp
I . 2 =
| |
pk
d
t
n
k t
d
k
n
t
n
tp
d
p
n
t
n
r
n
t
n
tr
d + + +
+
= . ) ( ). (
1
3.2.4 Dendrogramas
A seqncia de fuso dos agrupamentos representada graficamente nos
dendrogramas, que foram divididas com a estatstica descritiva usando o percentil,
com um corte de 50% da distncia Mahalanobis, para determinar o nmero de
grupos. Os dendrogramas so construdos usando o programa computacional
Minitab. Os diferentes dendrogramas obtidos so ento comparados para
possibilitar a anlise da associao entre mtodos.
3.2.5 Correlao Cofentica
Para os diversos mtodos de agrupamento utilizados foram obtidas as
respectivas matrizes cofenticas resultantes da simplificao proporcionada pelo
mtodo. A matriz cofentica foi obtida aps a construo do dendrograma. Com
base nas matrizes de dissimilaridade original e cofentica, foi obtida a correlao
cofentica conforme a expresso (Bussab et al., 1990):
32
= + =
= + =
= + =
=
1
1 1
2
) (
1
1 1
2
) (
1
1 1
) ( ) (
n
i
n
i j
d
ij
d
n
i
n
i j
c
ij
c
n
i
n
i j
d
ij
d c
ij
c
cof
r , em que;
c
i j
: valor de dissimilaridade entre os indivduos i e j, obtidos a partir da matriz
cofentica;
d
i
j
: valor de dissimilaridade entre os indivduos i e j, obtidos a partir da matriz
de dissimilaridade;
= + =
=
1
1 1
) 1 (
2
n
i
n
i j
ij
c
n n
c ,
= + =
=
1
1 1
) 1 (
2
n
i
n
i j
ij
d
n n
d .
Nota-se que essa correlao equivale correlao de Pearson entre a matriz
de dissimilaridade original e aquela obtida aps a construo do dendrograma.
Assim quanto mais prximo de 1, menor ser a distoro provocada pelo
agrupamento dos indivduos com os mtodos.
3.2.6 Distoro entre a matriz de dissimilaridade e matriz cofentica
O grau da distoro (1 ) foi calculado conforme Kruskal (1964):
= + =
= + =
=
1
1 1
1
1 1
n
i
n
i j
ij
d
n
i
n
i j
ij
c
,
em que:
ij
c : valor de dissimilaridade entre os indivduos i e j, obtidos a partir da matriz
cofentica;
ij
d : valor de dissimilaridade entre os indivduos i e j, obtidos a partir da matriz
de dissimilaridade.
33
Esse parmetro mede a distoro entre a matriz original e bootstrap e aquela
obtida aps a construo do dendrograma.
3.2.7 Tabelas de contingncia
Foram construdas tabelas de contingncia bi-dimensional (Tabela 2), na qual
uma amostra de N observaes foi classificada com relao os dois mtodos de
agrupamentos aplicados. Desta forma pde-se cruzar as diversas caractersticas
relevantes aos mtodos pesquisados com diversas variveis, tomadas duas a duas.
Cada uma das clulas (n
11
, n
12
, n
ij
, etc.) representou a associao ou a contagem de
grupos em cada um dos mtodos aplicado.
Tabela 2. Forma geral de uma tabela de contingncia de duas dimenses
Mtodo I Mtodo J Total
1 2 j ... J
1 n
11
n
12
n
1j
... n
1J
n
1
2 n
21
n
22
n
2j
... n
2J
n
2
... ... ... ... ... ... ...
i n
i1
n
i2
n
ij
... n
iJ
n
i
... ... ... ... ... ... ...
I n
I1
n
I2
n
Ij
... n
IJ
n
I
Total n
.1
n
.2
n
.j
... n
.J
N
Fonte: modificado de Everitt (1992)
3.2.7.1 Independncia e associao entre mtodos
Para a deteco de associao entre os mtodos, ou seja, saber se as
diferenas observadas entre mtodos so significativas o suficiente para serem
atribudas a outros fatores que no aleatrios, foi aplicado o teste qui-quadrado
( ) por meio da expresso:
2
=
esperada freqncia
esperada) frequncia - observada a (frequnci
2
34
onde:
N
C L
esperada freqncia
=
em que:
L = nmero de categorias da varivel disposta na linha da tabela de contingncia;
C = nmero de categorias da varivel disposta na coluna da tabela de contingncia.
O mtodo usado para decidir se o teste independente ou se no esto
associado (ou seja se possvel ou no rejeitar a hiptese de nulidade, H
2
0
), foi
baseado na distribuio de probabilidade para sob a pressuposio de que a
hiptese nula verdadeira. Dessa forma, quando a estatstica calculada foi maior
do que o valor tabulado para um determinado nvel de significncia, H
2
0
foi rejeitada.
Caso contrrio, a hiptese nula no foi rejeitada.
O nmero de graus de liberdade (GL), para decidir quando o valor de
obtido de alguma tabela de contingncia leva a uma rejeio ou no da hiptese
nula, foi assim definido:
2
GL = (L 1) (C 1)
Todas os grficos e as anlises, ao longo deste trabalho foram
implementados atravs dos programas computacionais EXCEL, STATISTICA,
MINITAB e a construo de um programa na linguagem C.
35
4. RESULTADOS E DISCUSSO
4.1 Anlise de agrupamento a partir da matriz de Mahalanobis original
Com base na matriz de dissimilaridade de Mahalanobis obtida a partir dos
dados originais (Tabela 3) foram aplicados os mtodos da ligao simples, da
ligao completa, do centride, da mediana, da mdia das distncias e de Ward e
obtidos os respectivos dendrogramas (Figuras de 2 a 7).
Tabela 3. Matriz de distncia Mahalanobis dos dados originais para as 11 parcelas
da Mata da Silvicultura, da Universidade Federal de Viosa - MG
Parcela 1 2 3 4 5 6 7 8 9 10 11
1 00,00 16,81 20,01 15,93 20,35 14,40 19,50 13,37 20,11 18,53 17,66
2 00,00 18,50 7,721 18,51 13,81 18,80 18,59 15,59 20,89 19,03
3 00,00 17,68 20,80 18,21 22,27 20,08 18,48 20,55 19,10
4 00,00 12,57 10,32 16,73 7,092 14,54 15,04 13,84
5 00,00 17,65 22,86 20,99 19,20 20,37 17,55
6 00,00 19,90 16,21 16,89 18,27 13,12
7 00,00 20,02 17,36 22,69 16,47
8 00,00 15,11 18,29 14,05
9 00,00 14,87 13,20
10 00,00 11,90
11 00,00
Embora a estrutura geral dos agrupamentos seja bastante similar, pode-se
observar que h pequenas alteraes nos nveis em que os indivduos so
agrupados, ou seja, os indivduos que esto dentro de um mesmo grupo podem ser
agrupados em outra ordem, quando se mudam os mtodos.
Pode-se observar que h divergncias entre os mtodos, corroborando com a
afirmativa de Johnson & Wichern (1992), de que dificilmente os dendrogramas
obtidos por mtodos de agrupamentos diferentes sejam semelhantes. No entanto,
segundo Bussab et al. (1990), a grande vantagem do dendrograma permitir
observar graficamente o quanto necessrio relaxar o nvel de dissimilaridade
para considerar grupos prximos.
36
7 9
1
1
1
0 5 6 8 4 2 1 3
Ligao simples
Distncia
50%
Figura 2 Dendrograma representando as seqncias das fuses das parcelas,
obtidas pelo emprego do mtodo da ligao simples, com base na distncia
Mahanalobis dos dados originais.
1
1
1
0 9 5 3 6 2 7 8 4 1
Ligao completa
Distncia
50%
Figura 3 Dendrograma representando as seqncias das fuses das parcelas,
obtida pelo emprego do mtodo ligao completa, com base na distncia
Mahalanobis dos dados originais.
37
7 5
1
0 9
1
1 6 8 4 2 1 3
Centride
Distncia
50%
Figura 4 Dendrograma representando as seqncias das fuses das parcelas,
obtida pelo emprego do mtodo da centride, com base na distncia Mahalanobis
dados originais.
7 5
1
0 9
1
1 6 8 4 2 1 3
Mediana
Distncia
50%
Figura 5 Dendrograma representando as seqncias das fuses das parcelas,
obtido pelo emprego do mtodo mediana, com base na distncia Mahalanobis dos
dados originais.
38
7 5
1
1
1
0 9 6 8 4 2 1 3
Mdias das distncias
Distncia
50%
Figura 6 Dendrograma representando as seqncias das fuses das parcelas,
obtida pelo emprego do mtodo das mdias da distncia, com base na distncia
Mahalanobis dos dados originais.
1
1
1
0 9 7 5 3 8 4 6 2 1
Ward
Distncia
50%
Figura 7 Dendrograma representando as seqncias das fuses das parcelas,
obtidas pelo emprego do mtodo do Ward, com base na distncia Mahalanobis dos
dados originais.
39
De forma geral os dendrograma apresentaram estruturas de agrupamentos de
objetos homogneos, embora no exista um critrio objetivo para determinar um
ponto de corte no dendrograma, ou seja, para determinar quais os grupos foram
formados.
Para os dendrogramas obtidos a partir dos mtodos ligao simples (Figura
2), ligao completa (Figura 3), centride (Figura 4), mediana (Figura 5), mdias das
distncias ((Figura 6) e Ward ((Figura 7), observa-se que eles foram cortados
utilizando-se a medida do percentil, com um corte de 50% da distncia Mahalanobis,
observando-se que nos mtodos ligao simples e Ward, ligao completa, mediana
e mdias das distncias, e centride foram obtidos nove, dez e onze grupos,
respectivamente.
Para dados originais no grupo I, verificou-se que os mtodos (mdias das
distncias e mediana, mdias das distncias e ligao completa, mediana e ligao
completa), formaram dez agrupamentos, com semelhana de 100%, e os mtodos
do grupo II (Medias das distncias e centride, centride e mediana, centride e
ligao completa, mdias das distncias e ligao simples, mdias das distncias e
Ward, mediana e ligao simples, mediana e Ward, ligao simples e ligao
completa, ligao completa e Ward), com 86% e 84% de semelhana e o III grupo
com os mtodos (centride e ligao simples, centride e Ward, ligao simples e
Ward) com 80%, 70% e 67% de semelhana respectivamente (Tabela 4).
Tabela 4.- Porcentagem de grupos coincidentes entre mtodos de agrupamento,
com base na matriz de Mahalanobis dos dados originais, (nvel de significncia do
teste de independncia do ), a partir da tabela de contingncia e do grau de
associao
2
Mtodos Mdias das
distncias
Centride Mediana Ligao
simples
Ligao
completa
Centride 86%
(0,58)
Mediana 100%
(0,71)
86%
(0,58)
Ligao
simples
84%
(0,57)
80%
(0,52)
84%
(0,59)
Ligao
Completa
100%
(0,71)
86%
(0,58)
100%
(0,71)
84%
(0,57)
Ward
84%
(0,57)
70%
(0,38)
84%
(0,57)
67%
(0,61)
84%
(0,57)
Entre parentes - nvel de significncia do teste de independncia do .
2
40
Observa-se ainda que os resultados de associao dos mtodos foram
semelhantes e o nvel de significncia relativamente alto, sendo possvel concluir
que, em principio qualquer algoritmo de agrupamento estudado est estabilizado e
existem, de fato, grupos entre os indivduos observados e que existe estabilidade
entre os mtodos.
Quanto aos resultados da qui-quadrado (Tabela 5) para um nvel de
significncia de 1% e 5% e de um grau de liberdade igual 3,84 e 6,64
respectivamente, que no deixa dvida que se pode rejeitar H
0
, isto , concluindo-se
com risco de 1% e 5% que os mtodos so dependentes, ou esto associados,
excluindo-se os mtodos do centride e Ward.
Tabela 5 - Resultados dos dados originais com associao dos mtodos obtidos a
partir da qui-quadrado
Mtodo Mdias das
distncias
Centride Mediana Ligao
simples
Ligao
completa
Centride 10,84
Mediana 20,00 10,82
Ligao simples 8,99 7,60 10,42
Ligao Completa 20,00 10,82 20,00 9,00
Ward 9,00 3,43 9,00 11,00 9,00
4.2. Anlise de agrupamento a partir da matriz de Mahalanobis via bootstrap
Com base na matriz de dissimilaridade de Mahalanobis obtida via bootstrap
(Tabela 6) foram aplicados os mtodos da ligao simples, da ligao completa, do
centride, da mediana, da mdia das distncias e de Ward e obtidos os respectivos
dendrogramas (Figuras de 8 a 13).
Com base na anlise dos dendrogramas formado pelos mtodos, verificou-se
que, com um corte de 50% nas matrizes de distncia, foram formados trs grupos
tantos para os dados originais como para os dados da reamostragem bootstrap.
41
Tabela 6. Matriz de Mahalanobis obtida via reamostragem bootstrap aps com
10000 iteraes
Parcelas 1 2 3 4 5 6 7 8 9 10 11
1 00,00 20,01 14,40 20,11 16,81 17,66 20,35 17,66 19,50 16,81 20,11
2 00,00 18,51 18,50 18,80 15,59 18,59 15,59 19,03 20,89 18,51
3 00,00 20,80 18,21 20,80 19,10 19,10 20,08 22,27 19,10
4 00,00 12,57 14,54 10,32 16,73 16,73 13,84 7,092
5 00,00 17,55 20,99 19,20 19,20 20,99 17,65
6 00,00 16,21 19,90 19,90 16,21 16,21
7 00,00 22,69 22,69 16,47 16,47
8 00,00 14,05 14,05 18,29
9 00,00 13,20 14,87
10 00,00 11,90
11 00,00
Embora no exista um critrio objetivo para determinar um ponto de corte no
dendrograma, ou seja, para determinar quais os grupos foram formados, os
dendrogramas obtidos a partir dos mtodos com a reamostragem bootstrap com
10000 interaes, foram cortados utilizando-se a medida percentil, com um corte de
50% na matriz de distncia, observando-se que as Figuras 10 e 11, obtiveram onze
grupos, e as Figuras 8, 9 e 12, obtiveram dez grupos e a Figura 13, obteve a
formao de nove grupos.
Para os dados de reamostragem bootstrap, no grupo I, verificou-se que os
mtodos mdias das distncias e ligao simples, mdias das distncias e ligao
completa, com dez grupos, centride e mediana com onze grupos, com 100%
semelhana, grupo II com os mtodos mdias das distncias e centrides, mdias
das distncias e mediana, centride e ligao simples, centride e ligao completa,
mediana e ligao simples, mediana e ligao completa com 86% de semelhana e
os mtodos mdias das distncias e Ward, ligao simples e Ward, ligao completa
e Ward, com 84% de semelhana e o III grupo com os mtodos ligao simples e
ligao completa com 80% de semelhana e centride e Ward, mediana e Ward com
70% de semelhana (Tabela 7). Estes resultados demonstraram que existe boa
possibilidade de estabilidades entre os mtodos
42
6 8 9 5
1
0 7
1
1 4 2 3 1
Ligao simples
Diatncia
50%
Figura 8 Dendrograma representando as seqncias das fuses das parcelas,
obtida pelo emprego do mtodo ligao simples, com base na matriz de distncia de
Mahalanobis via bootstrap.
1
0 9 8 7
1
1 4 6 2 5 3 1
Ligao completa
Distncia
50%
Figura 9 Dendrograma representando as seqncias de fuso das parcelas, obtida
pelo emprego do mtodo ligao completa, com base na matriz de distncia de
Mahalanobis via bootstrap.
43
5 8 9 6 7
1
0
1
1 4 2 1 3
Centride
Distncia
50%
Figura 10 Dendrograma representando as seqncias de fuso das parcelas,
obtido pelo emprego do mtodo do centride, com base na matriz de distncia de
Mahalanobis via bootstrap.
5 7 6 8 9
1
0
1
1 4 2 1 3
Mediana
50%
Distncia
Figura 11 Dendrograma representando as seqncias de fuses das parcelas,
obtido pelo emprego do mtodo da mediana, com base na matriz de distncia de
Mahalanobis via bootstrap.
44
9 8 7
1
0
1
1 4 6 2 5 3 1
Mdias das distncias
Distncia
50%
Figura 12 Dendrograma representando as seqncias das parcelas, obtido pelo
emprego do mtodo das mdias das distncias, com base na matriz de distncia de
Mahalanobis via bootstrap.
1
0 9 8 7
1
1 4 6 2 5 3 1
Ward
Distncia
50%
Figura 13 Dendrograma representando as seqncias das parcelas, obtido pelo
emprego do mtodo do Ward, com base na matriz de distncia de Mahalanobis via
bootstrap.
45
Tabela 7 - Porcentagem de grupos coincidentes entre mtodos de agrupamento,
com base na matriz de Mahalanobis via bootstrap, (nvel de significncia do teste de
independncia do ), a partir da tabela de contingncia e do grau de associao
2
Mtodos Mdias das
distncias
Centride Mediana Ligao
simples
Ligao
completa
Centride
86%
(0,58)
Mediana
86%
( 0,58)
100%
(0,71)
Ligao simples 100%
(0,71)
86%
(0,58)
86%
(0,58)
Ligao Completa 100%
(0,71)
86%
(0,58)
86%
(0,58)
80%
(0,51)
Ward 84%
(0,57)
70%
(0,38)
70%
(0,38)
67%
(0,57)
84%
(0,57)
Entre parentes - nvel de significncia do teste de independncia do .
2
Verificando que os resultados da qui-quadrado (Tabela 8) para um nvel de
significncia de 1% e 5% e de um grau de liberdade igual 3,84 e 6,64
respectivamente, que no deixa dvida que se pode rejeita-se H
0
, isto , concluindo-
se com risco de 1% e 5% que os mtodos so dependentes, ou esto associados,
excluindo-se os mtodos do ( centride e Ward) e (mediana Ward).
Tabela 8 - Resultados dos dados de reamostragem bootstrap com 10000 interaes
com associao dos mtodos obtidos a partir da qui-quadrado
Mtodos Mdias das
distncias
Centride Mediana Ligao
simples
Ligao
completa
Centride 10,82
Mediana 10,82 22,00
Ligao simples 20,00 10,82 10,82
Ligao Completa 20,00 10,82 10,82 7,20
Ward 9,00 3,48 3,46 9,00 9,00
importante destacar que o fato desse tipo de anlise no apresentar um
critrio objetivo para identificao dos grupos dificulta muito a interpretao dos
resultados.
46
4.3 Correlao cofentica
Os valores das correlaes cofentica (Tabela 9) foram todas de magnitude
elevada, para os dados originais e bootstrap. Isso mostra que h boa representao
das matrizes de dissimilaridade na forma de dendrogramas e que isso independe do
mtodo usado.
Tabela 9 - Correlaes cofentica entre as matrizes cofentica e a de dissimilaridade
obtidas conforme mtodo de agrupamento utilizado
Mtodos de Agrupamento Matriz
Original Bootstrap
Ligao simples 0,99 0,99
Ligao completa 0,98 0,99
Centride 0,99 0,99
Mediana 0,99 0,99
Mdia das distncias 0,99 0,99
Ward 0,99 0,99
4.4 Distoro entre a matriz de dissimilaridade e a matriz cofentica
Tanto para os dados originais como os obtidos via bootstrap (Tabela 10), o
mtodos mdia das distncias apresentou distoro nula e Ward bootstrap
apresentou a maior distoro, corroborando com o observado na anlise da
correlao cofentica, ou seja, de que h uma boa representao das matrizes de
dissimilaridade na forma de dendrograma e que isso independe do mtodo usado e
dos dados.
Tabela 10 - Grau de distoro (%) entre as distncias original e bootstrap e a obtida
por meio dos dendrogramas obtidos conforme mtodo de agrupamento utilizado
Mtodos de Agrupamento Matriz
Original Bootstrap
Ligao simples 0,18 0,16
Ligao completa 0,21 0,16
Centride 0,35 0,36
Mediana 0,26 0,33
Mdia das distncias 0,00 0,00
Ward 0,31 0,40
Apesar do presente trabalho no ter como objetivo comparar os mtodos de
anlise, algumas consideraes podem ser feitas. Com base em tudo que foi
47
apresentado, que, de forma geral no se deve utilizar vrios mtodos de
agrupamento e a comparao posterior dos resultados obtidos, pois este
procedimento muito vulgarizado (Reis, 1997).
interessante notar que os mtodos dentro de cada categoria possuem
princpios comuns e podem apresentar resultados muito parecidos.
Como j foi dito, existem diferentes distncias, tcnicas e mtodos para
agrupar indivduos. O importante conhecer suas propriedades, qualidade e
deficincias, pois ir ajudar escolha daquele que melhor responde ao objetivo do
trabalho.
A principal dificuldade para interpretar os resultados da anlise de
agrupamento com construo de dendrogramas se deve ao fato de no haver um
critrio objetivo para identificar os grupos formados. Em diversos trabalhos os
pesquisadores tm os seus prprios critrios.
Algoritmos que produzem rvores (dendrograma) so difceis de analisar na
presena de muitos objetos (Bussab et al., 1990), pois os mesmo dificultam sua
visualizao.
Apesar da versatilidade do modelo bootstrap, mais pesquisas devem ser
conduzidas visando o pleno entendimento desse fenmeno, to intrigante nos
programas de anlise de agrupamento, que a interao dos dados. Um dos pontos
que merecem estudos mais detalhados a definio dos nveis de estabilidade e
dos intervalos de confiana.
Finalmente, preciso mencionar que a tcnica bootstrap proposta, exige
esforo computacional. Entretanto, pode ser vantajosa sua utilizao quando se
deseja alta qualidade na informao sobre a estabilidade dos dados em estudo.
48
5. CONCLUSES
A sistemtica proposta promissora para o estudo e a interpretao da
estabilidade dos mtodos em anlise de agrupamento, atravs de vrios algoritmos
de agrupamento em dados de vegetao.
Houve correlao entre os mtodos de estimao da distncia Mahalanobis
baseado na associao da tabela de contingncia. Prem, independente do mtodo
utilizado, mostrou que h significativa estabilidade entre os mtodos.
Consideremos que esses resultados preliminares podem orientar pesquisas
futuras no sentido de investigar correlaes que podem justificar ou explicar os
diferentes agrupamentos encontrados. Podem, ainda, subsidiar estudos posteriores
sobre fatores crticos na anlise de agrupamento.
49
6. REFERNCIAS BIBLIOGRFICAS
AAKER, D. A.; KUMAR, V.; DAY, G. S. Pesquisa de marketing, So Paulo: Atlas,
2001. 745p.
ALDENDERFER, M. S.; BLASHFELD, R.K. Cluster analysis. Beverly Hills; Sage,
1984, 547p.
ANDERSON, T. W. An introduction to multivariate statistical analysis, New York:
John Wiley & Sons, 1984, 675 p.
ANDERBERG, M. R. Cluster analysis for applications. New York: Acafenic press,
1973, 359p.
ARAJO, R. C. C. Aplicao das tcnicas de DEA e Bootstrap para avaliar a
eficincia do metr do Recife. Recife: UFRPE, 2003. 56f. Dissertao (Mestrado
em Biometria) Universidade Federal Rural de Pernambuco, 2003.
BARROSO, L. P., ARTES, R. Anlise de Multivariada. Lavras: UFLA, 2003. 157p.
BICKEL, P.; FREEDMAN, D. Some asymptotic theory the bootstrap. Annals of
Statistics, v, 1, n, 9, p.1196-1197, 1981.
BOUROCHE, J. M. SAPORTA, G. Anlise de dados, Rio de Janeiro: Zahar, 1972.
116p.
BUSSAB, W. DE O; MIAZAKI, E. S; ANDRADE, D. Introduo anlise de
agrupamentos. So Paulo: Associao Brasileira de Estatstica, 1990. 105p.
CARLINI-GARCIA, L. A. Estudo da estrutura gentica populacional atravs de
marcadores moleculares. Piracicaba: ESALQ, 1998. 118f. Monografia (Ps-
graduao) Escola Superior de Agricultura Luiz de Queiroz, Universidade de So
Paulo.
CLIFFORD, H. T.; STEPHENSON, W. An introduction to numerical taxonomy.
London: Academic Press, 1975. 229p.
CORMACK, R. A review of classification. Journal of the Royal Statistical Society
(Series A), v.134, p.321-367, 1971.
CRUZ, C. D.; REGAZZI, A. J. Divergncia gentica. In: CRUZ, C. D.; REGAZZI, A. J.
Mtodos biomtricos aplicados ao melhoramento gentico. Viosa, UFV:
Impressa Universitria. 1994, cap. 6, p. 287-323.
DICICCIO, T. J.; EFRON, B. Bootstrap confidence interval. Statistical Science, v,
11, n. 11, p.189-228, 1996.
50
DONI, M. V. Anlise de Cluster: mtodos hierrquicos e de partio, So Paulo:
Mackenzie: 2004. 93f. Monografia (Ps-graduao) Universidade Presbiteriana
Mackenzie, 2004.
DUARTE, M. C.; SANTOS, J. B.; MELO, L. C. Comparison of similarity coefficients
based on RAPD markers in the common bean. Genetics and Molecular Biology,
v.22, n.3, p.427-432, 1999.
EDWARDS, A.W.F; CAVALLI-SFORZA, L.L. A method for cluster analysis.
Biometrics, v.21, n.2, p.362375, 1965.
EFRON, B. Bootstrap methods: another look at jackknife. Annals of Statistics, v. 7,
n.1, p.1-26, 1979,
EFRON, B.; TIBSHIRANI, R. J. An introduction to the bootstrap. London:
Champman & Hall, 1993. 579p.
EVERITT, B. Cluster analysis, London: Heinemann Educational Books, 1974. 136p.
EVERITT, B.S. The analysis of contingency tables. 2. ed. London: Chapman &
Hall, 1992. 164p.
EVERITT, B. S, LANDAU, S., LEESE, M. Cluster analysis. 4 ed. London: Arnold.
2001. 207p.
GAMA M. de P. Bases da anlise de agrupamentos (Cluster Analysis).
Braslia: UnB, 1980. 229f. Dissertao (Mestrado em Estatstica e Mtodos
Quantitativos) - Universidade de Braslia, 1980,
GOWER, J. C.; LEGENDRE, P. Metric and euclidean properties of dissimilarity
coefficients, Journal of Classification, v. 3, p. 5-48, 1986.
GOWER, J. C. A comparison of some methods of cluster analysis. Biometrics, v.23,
p.623-637, 1967.
HILLIS. D. M.; MORITZ. C.; MABLE. B. K. Molecular systematics. Massachusetts:
Sinauer Associates, 1996. 655p.
JACKSON, A. A.; SOMERS, K. M.; HARVERY, H. H. Similarity coefficients:
measures for co-occurrence and association or simply measures of occurrence?
American Naturalist, v.133, p. 436-453, 1989.
JAIRO, S. F.; GILBERTO A. M. Curso de Estatstica. So Paulo: Atlas. 1996, 320p.
JOHNSON, R. A.; WICHERN, D. W. Applied multivariate statistical analysis. 3 ed.
New Jersey: Prantice Hall, 1992. 642p.
KAUFMANN, L., ROUSSEEUW, P. J., Finding groups in data: an introduction to
cluster analysis. New York: Jonh Wiley, 1990. 342p.
51
KRUSKAL, J. B. Multidimensional scaling by optimizing goodness of fit to a
nommetric hypothesis. Psychometrika, v. 29, p. 1-27, 1964.
LANCE, G.N., WILLIAMS, W. T. A general theory of classificatory sorting stategies,
Computer Journal, v. 9, p. 373-380, 1967.
LAVARANTI, O. J. Estabilidade e adatabilidade fenotipica da reamostragem
bootstrap no modelo AMMI. Piracicaba: ESALQ, 2003. 166f. Tese (Doutorado
em Agronomia) - Escola Superior de Agricultura Luiz de Queiroz, 2003.
MANLY, B. F. J.; Randomization and Monte Carlo methods in biology.
Cambridge: Cambridge University Press, 1997. 215p.
MARDIA, A. K. V.; KENT. J. T.; BIBBY, J.M. Multivariate analysis. London:
Academic Press, 1997, 518p.
MEYER, A. S.; Comparao de coeficientes de similaridade usados em anlise
de agrupamento com dados de marcadores moleculares dominantes.
Piracicaba: ESALQ, 2002. 106f. Dissertao (Mestrado em Agronomia) - Escola
Superior de Agricultura Luiz de Queiroz, 2002.
MEYER, D. rvores evolutivas humanas: uma discusso sobre inferncia
filogentica. Ribeiro Preto: Sociedade Brasileira de Gentica, 1995. 136p. (Srie
Monografias, 3)
ORLCI, L.; Multivariate analysis in vegetational research. 2. ed. The Hague: Dr.
W. Junk B. V. Publishers, 1978. 451p.
RAO, C. R. Advanced statistical methods in biometric research. New York: John
Wiley & Sons.1952. 390p.
REIS, E.; Estatstica multivariada aplicada. Lisboa: Edies Silabo, 1997. 342p.
RIBOLDI, J. Anlise de agrupamento Cluster Analysis, Piracicaba: ESALQ/USP,
1986.49p. (Monografia).
ROMESBURG, C. H. Cluster analysis for researchers. Belmont: Lifetime Learning
Publications, 1984. 334p.
SNEATH, P. H. A; SOKAL, R. R. Numeric taxonomy: the principles and practice of
numerical classification. San Francisco: W. H. Freeman, 1973. 573p.
SOKAL, R. R.; MICHENER, C.D. A statistical method for evaluating systematic
relationships. Bulletin of the Society University of Kansas, n.38, p.109-1438,
1958.
SOUZA, A. L.; FERREIRA, R. L. C.; XAVIER, A. Anlise de agrupamento aplicada
cincia florestal. Viosa: SIF, 1997. 109 f. (Documento SIF, 16).
52
WARD, J. H.; Hierarchical grouping to optimize an objective function. Journal of.
American Statistical Association, v. 58, p. 236-244, 1963.
WEIR, B. W.; Genetic data analysis: Methods for discrete population genetic data.
Sunderland: Sinauer, 1990. 445p.
53