Você está na página 1de 64

MCIO AUGUSTO DE ALBUQUERQUE

ESTABILIDADE EM ANLISE DE AGRUPAMENTO


(CLUSTER ANALYSIS)






Dissertao apresentada a Universidade Federal Rural
de Pernambuco, para obteno do titulo de Mestre em
Biometria, rea de concentrao: Modelagem e
planejamento de experimentao.




Orientador: Prof. Rinaldo Luiz Caraciolo Ferreira, Dr.
Co-orientadores: Prof. Jos Antnio Aleixo da Silva, PhD.
Prof. Borko D. Stosic, PhD.



RECIFE
Estado de Pernambuco Brasil
Fevereiro 2005


1












Ficha catalogrfica

Setor de Processos Tcnicos da Biblioteca Central UFRPE

A345e Albuquerque, Mcio Augusto de
Estabilidade em anlise de agrupamento (cluster
analysis) / Mcio Augusto de Albuquerque. 2005.
62 f. : il., tabs.

Orientador: Rinaldo Luiz Caraciolo Ferreira
Dissertao (Mestrado em Biometria) Universida-
de Federal Rural de Pernambuco. Departamento de
Fsica e Matemtica.
Refrencias.


CDD 574.018 2

1. Tabela de contingncia
2. Anlise de agrupamento
3. Algoritmo de agrupamento
4. Mahalanobis
5. Tcnica de hierarquizao aglomerativa
I. Ferreira, Rinaldo Luiz Caraciolo
II. Ttulo














Universidade Federal Rural de Pernambuco
Departamento Fsica e Matemtica
Mestrado em Biometria



ESTABILIDADE EM ANLISE DE AGRUPAMENTO
(CLUSTER ANALYSIS)


MCIO AUGUSTO DE ALBUQUERQUE


Dissertao foi julgada adequada para obteno do titulo de mestre em Biometria,
defendida e aprovada por unanimidade em 23/02/2005 pela Banca Examinadora:

Orientador:
__________________________________________________
Prof. Dr. Rinaldo Luiz Caraciolo Ferreira UFRPE

Examinadores:

__________________________________________________
Prof. PhD. Jos Antnio Aleixo da Silva UFRPE

___________________________________________________
Prof. Dr. Eufrzio de Souza Santos - UFRPE

___________________________________________________
Prof. PhD. Mrio de Andrade Lira Jnior - UFRPE


RECIFE PE
Fevereiro/2005


























A minha famlia, em especial minha esposa Edna e aos
meus filhos Tarsyla e Trcio e a minha me Luzia, por
sempre me incentivarem, apoiarem e darem fora para
seguir em busca dos meus ideais.




DEDICO





AGRADECIMENTOS


Agradecimento o sentimento de principal importncia dentro da realizao
deste trabalho. Acredito que seria impossvel a evoluo do ser sem que houvesse,
direta e indiretamente a participao de outros. E que essa interao influenciou
significativamente a minha vida, permitindo-me crescer no sentido mais amplo da
palavra. Por isso, tentarei agradecer a todos envolvidos na elaborao deste
trabalho.
A Deus pela fora para realizao desse trabalho.
Ao meu orientador professor doutor Rinaldo Luiz Caraciolo Ferreira, pela
dedicao, praticidade, honestidade e orientao na execuo deste trabalho; pela
amizade e apoio durante todo o curso e principalmente pela confiana em mim
depositada.
Ao coordenador do curso de Biometria professor doutor Eufrzio de Souza
Santos, pela orientao, pela dedicao e esforo pelo curso. Meu respeito e
gratido.
Especialmente ao professor Borko Stosic, pelas sugestes na elaborao da
dissertao.
Aos professores, Gauss Moutinho Cordeiro, Paulo de Paula Mendes e Maria
Adlia Oliveira Monteiro da Cruz, pela dedicao, apoio e pela transmisso do
conhecimento no decorrer do curso.
Ao meu amigo e cunhado Jos Jernimo de Arajo, pelo incentivo e ajuda
nas pesquisas pela internet, dedicando todo o seu carinho e ateno e
principalmente por poder ter contado sempre com seu conselho amigo.
E a Cilene Augusta da Nbrega Veloso, pelo incentivo e ajuda no portugus,
dedico todo carinho e ateno.
Ao colega amigo Antonio Lopes Pessoa, pelas caronas, por todo apoio nas
horas difceis e tambm pelos timos momentos vivenciados juntos.
Aos amigos Paulo Duarte, Adalberto Gomes, Marcela Vernica, Luiz de
Frana, Cleto Bezerra, Nedson Pereira, Arundo Nunes, Ady Marinho, Heliovnio
Torres, Ilzes Celi, Carlos Andr, Srgio de S, Dmocles Aurlio, Antnio Jos de
Oliveira, pela tima convivncia durante o curso.



Ao amigo Bruno Cunha Coutinho, aluno do curso de Computao da UFPB,
que contribuiu com os seus conhecimentos em programao C.
As secretrias, Josemar, Mary e ao secretrio Marcos pelo carinho, respeito e
amizade.
A Universidade Federal Rural de Pernambuco, pela oportunidade de
realizao do meu mestrado.
coordenadoria de Aperfeioamento de Pessoal de Nvel Superior CAPES,
pela bolsa concedida.
A todos que de alguma forma contriburam para o crescimento de cada
momento para realizao deste trabalho.




























SUMRIO

Pgina
LISTA DE TABELAS vi
LISTA DE FIGURAS vii
RESUMO viii
ABSTRACT ix
1. INTRODUO .. 01
2. REVISO DE LITERATURA .. 03
2.1 A Anlise de Agrupamento ... 03
2.2 As tcnicas de anlise de agrupamentos .. 05
2.2.1 Tcnicas hierarquizao 06
2.2.2 Definio do nmero de grupos ... 07
2.2.3 Dendrograma .. 08
2.3 Medidas de distncia . 09
2.4 Algoritmos de agrupamento . 13
2.4.1 Mtodo da Ligao Simples .. 13
2.4.2 Mtodo da Ligao Completa ... 14
2.4.3 Mtodo do Centride .. 15
2.4.4 Mtodo da Mediana 16
2.4.5 Mtodo das Mdias das Distncias (da Mdia de agrupamento) .. 17
2.4.6 Mtodo de Ward . 17
2.5 Inferncia estatstica . 19
2.6 Bootstrap . 19
2. 7 Correlao Cofentica . 22
3. MATERIAL E MTODOS 24
3.1 Dados .. 24
3.2 Mtodos Estatsticos . 25
3.2.1 Estabilidade via mtodo bootstrap 25
3.2.2 Medida de distncia 26
3.2.3 Algoritmos de agrupamento .. 26
3.2.4 Dendrogramas 32
3.2.5 Correlao Cofentica ... 32
3.2.6 Distoro entre a matriz de dissimilaridade e matriz cofentica . 33
3.2.7 Tabelas de contingncia 34
3.2.7.1 Independncia e associao entre mtodos .. 34
4. RESULTADOS E DISCUSSO . 36
4.1 Anlise de agrupamento a partir da matriz de Mahalanobis original 36

4.2. Anlise de agrupamento a partir da matriz de Mahalanobis via
bootstrap .. 41
4.3 Correlao cofentica 47
4.4 Distoro entre a matriz de dissimilaridade e a matriz cofentica . 47
5. CONCLUSES . 49
6. REFERNCIAS BIBLIOGRFICAS .. 50




LISTA DE FIGURAS

Figura Pgina
01
Diagrama esquemtico ilustrando a construo da distribuio
bootstrap ............................................................................................
21
02
Dendrograma representando as seqncias das fuses das
parcelas, obtidas pelo emprego do mtodo da ligao simples, com
base na distncia Mahanalobis dos dados originais ...........................
37
03
Dendrograma representando as seqncias das fuses das
parcelas, obtida pelo emprego do mtodo ligao completa, com
base na distncia Mahalanobis dos dados originais ...........................
37
04
Dendrograma representando as seqncias das fuses das
parcelas, obtida pelo emprego do mtodo da centride, com base na
distncia Mahalanobis dados originais ................................................
38
05
Dendrograma representando as seqncias das fuses das
parcelas, obtido pelo emprego do mtodo mediana, com base na
distncia Mahalanobis dos dados originais .........................................
38
06
Dendrograma representando as seqncias das fuses das
parcelas, obtida pelo emprego do mtodo das mdias da distncia,
com base na distncia Mahalanobis dos dados originais ....................
39
07
Dendrograma representando as seqncias das fuses das
parcelas, obtidas pelo emprego do mtodo do Ward, com base na
distncia Mahalanobis dos dados originais .........................................
39
08
Dendrograma representando as seqncias das fuses das
parcelas, obtida pelo emprego do mtodo ligao simples, com base
na matriz de distncia de Mahalanobis via bootstrap .........................
43
09
Dendrograma representando as seqncias das fuses das
parcelas, obtida pelo emprego do mtodo ligao completa, com
base na distncia Mahalanobis via bootstrap......................................
43
10
Dendrograma representando as seqncias das fuses das
parcelas, obtida pelo emprego do mtodo da centride, com base na
distncia Mahalanobis via bootstrap ....................................................
44
11
Dendrograma representando as seqncias das fuses das
parcelas, obtido pelo emprego do mtodo mediana, com base na
distncia Mahalanobis via bootstrap ....................................................
44
12
Dendrograma representando as seqncias das fuses das
parcelas, obtida pelo emprego do mtodo das mdias da distncia,
com base na distncia Mahalanobis via bootstrap ..............................
45
13
Dendrograma representando as seqncias das fuses das
parcelas, obtidas pelo emprego do mtodo do Ward, com base na
distncia Mahalanobis via bootstrap ....................................................
45





LISTA DE TABELAS

Tabela Pgina
01
Densidade de 17 espcies da mata da silvicultura, em parcelas de
20 X 50 m, Universidade Federal de Viosa MG ............................
24
02 Forma geral de uma tabela de contingncia de duas dimenses
34
03
Matriz de distncia Mahalanobis dos dados originais para as 11
parcelas da Mata da Silvicultura, da Universidade Federal de Viosa
MG ...................................................................................................
36
04
Porcentagem de grupos coincidentes entre mtodos de
agrupamento, com base na matriz de Mahalanobis dos dados
originais, (nvel de significncia do teste de independncia do ), a
partir da tabela de contingncia e do grau de associao ..................
2

40
05
Resultados dos dados originais com associao dos mtodos
obtidos a partir da qui-quadrado .........................................................
41
06
Matriz de Mahalanobis obtida via reamostragem bootstrap aps
com 10000 iteraes ...........................................................................
42
07
Porcentagem de grupos coincidentes entre mtodos de
agrupamento, com base na matriz de Mahalanobis via bootstrap,
(nvel de significncia do teste de independncia do ), a partir da
tabela de contingncia e do grau de associao ................................
2

46
08
Resultados dos dados de reamostragem bootstrap com 10000
interaes com associao dos mtodos obtidos a partir da qui-
quadrado .............................................................................................
46
09
Correlaes cofentica entre as matrizes cofentica e a de
dissimilaridade obtidas conforme mtodo de agrupamento utilizado .
47
10
Grau de distoro (%) entre as distncias original e bootstrap e a
obtida por meio dos dendrogramas obtidos conforme mtodo de
agrupamento utilizado .........................................................................
47




Estabilidade em Anlise de Agrupamento



Autor: Ms. Albuquerque, Macio Augusto
Orientador: Dr. Rinaldo Luiz Caraciolo Ferreira



RESUMO

Objetivou-se propor uma sistemtica para o estudo e a interpretao da
estabilidade dos mtodos em anlise de agrupamento, atravs de vrios algoritmos
de agrupamento em dados de vegetao. Utilizou-se dados provenientes de um
levantamento na Mata da Silvicultura, da Universidade Federal de Viosa-MG. Para
anlise de agrupamento foram estimadas as matrizes de distncia de Mahalanobis
com base nos dados originais e via reamostragem bootstrap e aplicados os
mtodos da ligao simples, ligao completa, mdias das distncias, do centride,
da mediana e do Ward. Para a deteco de associao entre os mtodos foi
aplicado o teste qui-quadrado. Para os diversos mtodos de agrupamento foi obtida
a correlao cofentica. Os resultados de associao dos mtodos foram
semelhantes, indicando em princpio que qualquer algoritmo de agrupamento
estudado est estabilizado e existem, de fato, grupos entre os indivduos
observados. No entanto, observou-se que os mtodos so coincidentes, exceto os
mtodos do centride e Ward e os mtodos do centride e mediana quando
comparados com o de Ward, respectivamente, com base nas matrizes de
Mahalanobis a partir dos dados originais e bootstrap. A sistemtica proposta
promissora para o estudo e a interpretao da estabilidade dos mtodos de anlise
de agrupamento em dados de vegetao.




viii


STABILITY IN CLUSTER ANALYSIS



Autohr: Ms. Albuquerque, Mcio Augusto
Advisor: Dr. Rionaldo Luiz Caraciolo Ferreira



ABSTRACT

The main objective of this research was to propose a systematic to the study
and interpretation of the stability of methods in cluster analysis through many cluster
algorithms in vegetation data. The data set used came from a survey in the
Silviculture Forest at Federal University of Viosa MG. To perform the cluster
analysis the matrices of Mahalanobis distance were estimated based on the original
data and by bootstrap resampling. Also the methods of single linkageage, complete
linkageage, the average of the distances, the centroid, the medium and the Ward
were used. For the detection of the association among the methods it was applied
the chi-square test. For the various methods of clustering it was obtained a
cofenetical correlation. The results of the associations of methods were very similar,
indicating, in principle, that any algorithm of cluster studied is stabilized and exist, in
fact, groups among the individuals analyzed. However, it was concluded that the
methods coincide with themselves, except the methods of centroid and Ward. Also
the centroid methods and average when compared to the Ward, respectively, based
on the matrices of Mahalanobis starting from the original data set and bootstrap.
The methodology proposed is promising to the study and interpretation of the stability
of methods concerning the cluster analysis in vegetation data.







ix


1- INTRODUO

As tcnicas de anlise multivariada possibilitam avaliar um conjunto de
caractersticas, levando em considerao as correlaes existentes, que permitem
que inferncias sobre o conjunto de variveis sejam feitas em um nvel de
significncia conhecido.
Nas diversas reas do conhecimento uma das tcnicas multivariadas mais
utilizadas a anlise de agrupamento. O seu emprego em reas tais como
engenharia florestal, experimentos agronmicos, medicina, sociologia,
administrao, entre outras, vem aumentando muito nos ltimos anos.
A anlise de agrupamento tem por finalidade reunir, por algum critrio de
classificao as unidades amostrais em grupos, de tal forma que exista
homogeneidade dentro do grupo e heterogeneidade entre grupos (Johnson &
Wichern, 1992; Cruz & Regazzi, 1994).
O processo de agrupamento envolve basicamente duas etapas. A primeira se
refere estimao de uma medida de dissimilaridade entre os indivduos e a
segunda, refere-se adoo de uma tcnica de formao de grupos.
Um grande nmero de medidas de similaridade ou de dissimilaridade tem sido
proposto e utilizado em anlise de agrupamento, sendo a escolha entre elas
baseada na preferncia e/ou na convenincia do pesquisador (Bussab et al., 1990).
Com a definio da medida de dissimilaridade a ser utilizada, a etapa
seguinte a adoo de uma tcnica de agrupamento para formao dos grupos.
Para realizao desta tarefa, existe um grande nmero de mtodos disponveis, dos
quais o pesquisador tem de decidir qual o mais adequado ao seu propsito, uma vez
que as diferentes tcnicas podem levar a diferentes solues (Souza et al., 1997).
As tcnicas de anlise de agrupamento exigem de seus usurios a tomada de
uma srie de decises independentes, que requerem o conhecimento das
propriedades dos diversos algoritmos disposio e que podem representar
diferentes agrupamentos. Alm disso, o resultado dos agrupamentos pode ser
influenciado pela escolha da medida de dissimilaridade, bem como pela definio do
nmero de grupos (Gower & Legendre, 1986; Jackson et al., 1989; Duarte et al.,
1999).
O incremento na capacidade computacional promoveu grandes avanos na
anlise multivariada, reduzindo simultaneamente o esforo e os custos. Uma dessas
1

possibilidades de otimizao o procedimento de reamostragem bootstrap". Esses
procedimentos tm sido utilizados para avaliar a estabilidade dos agrupamentos
obtidos a partir de matrizes de dissimilaridade (Weir, 1990; Meyer, 1995; Hillis et al.,
1996; Manly, 1997). Logo, aplicao do procedimento de reamostragem bootstrap
pode fornecer um ponto de equilbrio que permite uma estimativa precisa dos
grupos.
Assim, objetivou-se propor uma sistemtica para o estudo e a interpretao
da estabilidade dos mtodos em anlise de agrupamento, atravs de vrios
algoritmos de agrupamento em dados de vegetao.
2

2 - REVISO DE LITERATURA

Em quase todas as reas de pesquisa vrias variveis so mensuradas e, em
geral, essas devem ser analisadas conjuntamente. A anlise multivariada a rea
da estatstica que trata desse tipo de estudo e existem vrias tcnicas que podem
ser aplicadas, sendo que, a utilizao dessas depende do tipo de dado que se
deseja analisar e dos objetivos do estudo.
Segundo Anderson (1984), existem, basicamente, duas formas de classificar
as anlises multivariadas: as que permitem extrair informaes a respeito da
independncia entre as variveis que caracterizam cada elemento, tais como anlise
fatorial, anlise de agrupamento, anlise cannica, anlise de ordenamento
multidimensional e anlise de componentes principais; e as que permitem extrair
informaes a respeito da dependncia entre uma ou mais variveis ou uma com
relao outra, tais como anlise de regresso multivariada, anlise de contingncia
mltipla, anlise discriminante e anlise de varincia multivariada.

2.1 A Anlise de Agrupamento

A anlise de agrupamento uma tcnica multivariada que tem por objetivo
proporcionar uma ou vrias parties na massa de dados, em grupos, por algum
critrio de classificao, de tal forma que exista homogeneidade dentro e
heterogeneidade entre grupos (Sneath & Sokal, 1973; Mardia et al., 1997).
Essa tcnica sumariza dados para interpretao e utiliza mtodos que
procuram grupos excludentes, ascendentes, reduzindo as informaes de um
conjunto de n indivduos para informaes de um novo conjunto de g grupos, onde g
significativamente menor que n, resultando um dendrograma de excluso (Mardia
et al., 1997).
Conforme Reis (1997), de modo sinttico, a tcnica pode ser descrita como
se segue: dado um conjunto de n indivduos para os quais existe informao sobre a
forma p variveis, o mtodo de anlise de agrupamento procede ao agrupamento
dos indivduos em funo da informao existente, de tal modo que os indivduos
pertencentes a um mesmo grupo sejam to semelhantes quanto possvel e sempre
mais semelhante aos elementos do mesmo grupo do que aos elementos dos grupos
restantes. Essa tcnica tambm chamada de tcnica de partio, classificao ou
taxonomia, embora o termo partio seja mais utilizado para uma das tcnicas
3

especificas da anlise: aquela em que os indivduos so divididos por um nmero
preestabelecido de grupos.
Segundo Aaker et al. (2001), a premissa mais importante da anlise de
agrupamento a de que a medida de similaridade ou dissimilaridade na qual o
processo de agrupamento se baseia uma medida vlida de similaridade ou
dissimilaridade entre os indivduos. A segunda premissa mais importante a de que
existe uma justificativa terica para estruturar os indivduos em grupos. Como em
outras tcnicas multivariadas, tambm h teoria e lgica guiando e dando base
anlise de agrupamento.
Geralmente, difcil avaliar a qualidade do processo de agrupamento. No
existem testes estatsticos padres para garantir que o resultado seja puramente
aleatrio. O valor do critrio medida, legitimidade do resultado, aparncia de uma
hierarquia natural (quando for empregado um mtodo no hierrquico) e
confiabilidade de testes de diviso de amostra, oferecem informaes teis (Bussab
et al., 1990). Entretanto, difcil saber, exatamente, quais os grupos so muito
parecidos e quais objetos so difceis de serem inseridos. Geralmente, no fcil
selecionar um critrio e programa de agrupamento por meio de outra referncia que
no a disponibilidade.
Na anlise de agrupamento, fundamental ter particular cuidado na seleo
das variveis de partida que vo caracterizar cada indivduo, e determinar, em ltima
instncia, qual o grupo em que deve ser inscrito. Nesta anlise no existe qualquer
tipo de dependncia entre as variveis, isto , os grupos se configuram por si
mesmo sem necessidade de ser definida uma relao causal entre as variveis
utilizadas. Essa anlise no faz uso de modelos aleatrios, mas til por fornecer
um sumrio bem justificado de um conjunto de dados. As tcnicas so exploratrias
e a idia , sobretudo gerar hipteses, mais do que test-las, sendo necessria a
validao posterior dos resultados encontrados atravs da aplicao de outros
mtodos estatsticos (Reis, 1997).
Genericamente, a anlise de agrupamento compreende cinco etapas (Aaker
et al., 2001):
1. A seleo de indivduos ou de uma amostra de indivduos a serem
agrupados;
2. A definio de um conjunto de variveis a partir das quais sero obtidas
informaes necessrias ao agrupamento dos indivduos;
4

3. A definio de uma medida de semelhana ou distncia entre os
indivduos;
4. A escolha de um algoritmo de partio/classificao;
5. Por ltimo, a validao dos resultados encontrados.

2.2 As tcnicas de anlise de agrupamentos

A anlise de agrupamento envolve algumas decises subjetivas, como qual a
tcnica a mais conveniente, conforme as circunstncias.
Vrios so os tipos de tcnicas de agrupamento encontradas na literatura
(Johnson & Wichern, 1992; Cruz & Regazzi, 1994; Mardia el al., 1997; Aaker et al.,
2001; Barroso & Artes, 2003), tendo o pesquisador que tomar a deciso de qual a
mais adequada ao seu propsito, uma vez que, as diferentes tcnicas podem levar a
diferentes solues.
De maneira geral, ao empregar quaisquer procedimentos de anlise de
agrupamento, o pesquisador deve tomar cuidado com os seguintes aspectos
(Aldenderfer & Brashield, 1984):
- A maioria dos mtodos de anlise de agrupamento procedimento
relativamente simples que, geralmente, no tem um embasamento terico estatstico
abrangente.
- Os mtodos de anlise de agrupamento foram desenvolvidos com base em
diversas disciplinas, e os vieses herdados de cada uma delas podem diferir muito
entre si.
- Mtodos de agrupamentos diferentes geram solues diferentes para o
mesmo conjunto de dados.
- A estratgia da anlise de agrupamentos busca uma estrutura, enquanto
sua operao necessita de uma estrutura preestabelecida.
As prprias tcnicas de agrupar podem ser classificadas em grupos, e
diferentes autores produzem diferentes classificaes. Cormack (1971), prope a
seguinte:
1) A tcnica hierrquica de agrupamento consiste em uma srie de sucessivos
agrupamentos ou sucessivas divises de elementos, em que os elementos so
agregados ou desagregados. As tcnicas hierrquicas so subdivididas em
aglomerativas e divisivas.
5

Os grupos, na tcnica hierrquica, so geralmente representados por um
diagrama bi-dimensional chamado de dendrograma ou diagrama de rvore. Nesse
diagrama, cada ramo representa um elemento, enquanto a raiz representa o
agrupamento de todos os elementos.
2) As tcnicas no-hierrquicas, ou por particionamento, foram desenvolvidos para
agrupar elementos em K grupos, em que K a quantidade de grupos definida
previamente.
Nem todos valores de K apresentam grupos satisfatrios, sendo assim,
aplica-se o mtodo vrias vezes para diferentes valores de K, escolhendo os
resultados que apresentem melhor interpretao dos grupos ou uma melhor
representao grfica (Bussab et al., 1990).
A idia central da maioria dos mtodos por particionamento escolher uma
partio inicial dos elementos e, em seguida, alterar os membros dos grupos para
obter-se a melhor partio (Anderberg, 1973).
Quando comparado com a tcnica hierrquica, a tcnica no-hierrquica ou
por particionamento mais rpido porque no necessrio calcular e armazenar,
durante o processamento, a matriz de similaridade ou dissimilaridade (Johnson &
Wichern, 1992).
Em geral, os mtodos por particionamento diferem entre si pela maneira que
constituem a melhor partio. Como qualquer classificao, existiro tipos que sero
difceis de classificar, ou que podero caber em mais de um grupo.

2.2.1 Tcnicas hierarquizao

Segundo Reis (1997), as tcnicas de hierarquizao conduzem a uma
hierarquia de parties P
1
P
2
,...,P
n
do conjunto total dos n objetos em 1, 2....n
grupos. A denominao de hierrquicos advm do fato de, que, para cada par de
parties P
i
e P
i + 1
, cada grupo da partio P
i + 1
est sempre includo num grupo da
partio P
i.

Esse tipo de tcnica se baseia na construo de uma matriz de
dissimilaridade ou distncias em que cada elemento da matriz descreve o grau de
diferena entre cada dois casos com base nas variveis escolhidas. Segundo Souza
et al. (1997), os mtodos hierrquicos se dividem em aglomerativos e divisivos.
Entre os mtodos aglomerativos, citam-se o do vizinho mais prximo, do vizinho
mais distante, da mediana, do centride, da mdia das distncia e o proposto
6

por Ward (1963). Entre os mtodos divisivos, o mais conhecido o de Edwards e
Cavalli-Sforza (1965). Nos primeiros, parte-se de n grupos de apenas um indivduo,
que vo sendo agrupados, sucessivamente, at que se encontre apenas um grupo
que incluir a totalidade dos n indivduos. O processo inverso utilizado pelos
mtodos divisivos: parte-se de um grupo que inclui todos os indivduos em estudo e
por um processo sistemtico de divises sucessivas. Os mtodos de anlise de
agrupamentos mais utilizados pelos pesquisadores so os hierrquicos
aglomerativos.
O ponto de partida comum a todos os mtodos hierrquicos a construo de
uma matriz de similaridade ou de distncia, sendo este o terceiro problema a
resolver em qualquer anlise de agrupamento.

2.2.2 Definio do nmero de grupos

Determinar o nmero de grupos para uma base de dados uma das tarefas
mais difceis no processamento de agrupamento.
Para Barroso & Artes (2003), o nmero de grupos pode ser definido a priori,
atravs de algum conhecimento que se tenha sobre os dados, pela convenincia do
pesquisador, por simplicidade, ou ainda pode ser definido a posteriori com base nos
resultados da anlise.
De acordo com Aaker et al., (2001), para determinar o nmero apropriado de
grupos, existem diversas abordagens possveis: em primeiro lugar, o pesquisador
pode especificar antecipadamente o nmero de agrupamentos. Talvez, por motivos
tericos e lgicos, esse nmero seja conhecido. O pesquisador pode tambm, ter
razes prticas para estabelecer o nmero de agrupamentos, com base no uso que
pretende fazer dele. Em segundo lugar, o pesquisador pode especificar o nvel de
agrupamento de acordo com um critrio. Se o critrio de agrupamento for de fcil
interpretao, tal com a mdia de similaridade interna do agrupamento, possvel
estabelecer certo nvel que ditaria o nmero de agrupamentos. Uma terceira
abordagem determinar o nmero de agrupamentos com base no padro gerado
pelo programa. As distncias entre os agrupamentos em etapas sucessivas podem
servir de guia, e o pesquisador pode escolher interromper o processo quando as
distncias excederem um valor estabelecido. Uma quarta abordagem representar,
graficamente, a razo entre a varincia total interna dos grupos e a varincia entre
os grupos, em relao ao nmero de agrupamentos. O ponto em que surgir uma
7

curva acentuada, um ponto de inflexo, seria a indicao do nmero adequado de
agrupamentos. Aumentar esse nmero alm desse ponto seria intil, e diminu-lo
seria correr o risco de misturar objetos diferentes.
Qualquer que seja a abordagem empregada, geralmente aconselhvel
observar o padro total de agrupamentos. Isto pode proporcionar uma medida da
qualidade do processo de agrupamento e do nmero de agrupamentos que emerge
nos vrios nveis do critrio de agrupamento. Geralmente mais de um nvel de
agrupamento relevante (Aaker et al., 2001).
No caso de no existir o conhecimento do nmero de grupos em que a
populao em estudo dever ser dividida, um dos mtodos usados quando se usam
tcnicas hierrquicas, consiste na comparao grfica do nmero de agrupamento
com o respectivo coeficiente de fuso, isto , o valor numrico (distncia ou
semelhana) para o qual vrios casos se unem para formar um grupo (Reis, 1997).
Assim, quando a diviso de um novo grupo no introduz alteraes significativas no
coeficiente de fuso, poder se tomar essa partio como sendo tima. Outro
procedimento utilizado o da comparao dos resultados obtidos por vrios
mtodos diferentes de agrupamento. Poder-se- aferir o grau de convergncia entre
os vrios mtodos de agrupamento atravs de uma tabela de contingncia,
indicando o nmero de observaes que se agrupam no mesmo agrupamento, para
o mesmo nmero de agrupamento. Desta forma possvel verificar a maior ou
menor estabilidade das solues encontradas, de maneira a concluir acerca da
qualidade do agrupamento efetuado.

2.2.3 Dendrograma

Dendrograma uma representao matemtica e ilustrativa de todo o
procedimento de agrupamento atravs de uma estrutura de rvore (Everitt et al.
2001).
Os ns do dendrograma representam agrupamentos, E ns so compostos
pelos grupos e ou objetos (grupos formados apenas por ele mesmo) ligados a ele
(n). Se cortarmos o dendrograma em um nvel de distncia desejado, obteremos
uma classificao dos nmeros de grupos existentes nesse nvel e dos indivduos
que os formam. O nmero de grupo dos indivduos obtido pelo corte do
dendrograma em um nvel desejado e ento cada componente conectado forma um
grupo.
8

2.3 Medidas de distncia

Para agrupar indivduos, necessrio a definio de uma medida de
similaridade ou dissimilaridade. Com base nessa medida os indivduos similares so
agrupados e os demais so colocados em grupos separados (Aaker et al., 2001):
As medidas de dissimilaridade tm papel central nos algoritmos de
agrupamentos. Atravs delas so definidos critrios para avaliar se dois pontos
esto prximos, e, portanto, podem fazer parte de um mesmo grupo, ou no.
Segundo Barroso & Artes (2003), h dois tipos de medidas de parecena:
medidas de similaridade (quanto maior o valor, maior a semelhana entre os objetos)
e medidas de dissimilaridade (quanto maior o valor, menor a semelhana entre os
objetos).
De um modo geral, as medidas de similaridade e de dissimilaridade so
interrelacionadas e, facilmente, transformveis entre si (Bussab et al., 1990). H um
grande nmero de coeficientes de similaridade e/ou de dissimilaridade para
caracteres binrios disponveis na literatura. Segundo Clifford & Stephenson (1975),
tais coeficientes podem ser, facilmente, convertidos para coeficientes de
dissimilaridade: se a similaridade for denominada s, a medida de dissimilaridade
ser o seu complementar (1 s).
A maioria dos mtodos de anlise de agrupamento requer uma medida de
similaridade ou dissimilaridade entre os elementos a serem agrupados, normalmente
expressa como uma funo distncia ou mtrica (Doni, 2004).
Seja M um conjunto, uma mtrica em M uma funo d: MxM , tal que
para quaisquer i, j, z M, tenhamos:

1. d (i, j) = d (j, i) (simtrica);


2. d (i, j) > 0, se i j;
3. d (i, j) = 0, se e somente se, i = j; e
4. d (i, j) d (i, z) + d (z, j) (desigualdade triangular).
Alm disso, esperado que d (i, j) aumente quando a dissimilaridade entre i e
j aumentar.
Existem vrias medidas que podem ser utilizadas como medidas de
distncias ou dissimilaridade entre elementos de uma matriz de dados, (Cormack,
1971) descreve uma srie de medidas possveis: distncias euclidiana, euclidiana
quadrada e euclidiana padronizada, distncia corda, distncia de Nei, distncia
9

absoluta ou City Block Metric, distncia de Minkowski, distncia Mahalanobis,
distncia de Chebychev.
Segundo Cormack (1971) as distncias mais utilizadas em anlise de
agrupamento so:
1. Distncia Euclidiana: a distncia entre dois casos (i e j) a raiz
quadrada do somatrio dos quadrados das diferenas entre valores de i e j para
todas as variveis (v = 1, 2, ,,,,, p).

=
=
p
1 v
2
)
jv
X
iv
(X
ij
d
em que
X
iv
representa a caracterstica do indivduo i,
X
jv
representa a caracterstica do individuo j,
p o nmero de parcelas na amostra,
v o nmero indivduo na amostra.
2. Distncia Euclidiana quadrada: a distncia entre dois casos (i e j)
definida como o somatrio dos quadrados das diferenas entre os valores de i e j
para todas as variveis (v = 1, 2.....p).

=
=
p
1 v
2
)
jv
X
iv
(X
2
ij
d
em que:
X
iv
representa a caracterstica do indivduo i,
X
jv
representa a caracterstica do individuo j,
p o nmero de parcelas na amostra,
v o nmero indivduo na amostra.

3. Distncia euclidiana ponderada.

Para Bussab et al., (1990), na realidade, este coeficiente de similaridade e
dissimilaridade est associado a uma questo freqente em anlise de
agrupamento, que o da ponderao das variveis, ou seja, o de dar mais peso
para variveis que o pesquisador julgar mais importante para definir semelhana.
)
j
X -
i
(X S
'
)
j
X -
i
(X d =

10

S uma matriz diagonal, tendo i-simo componente a varincia s
2
i
, isto , S
= diag. ( ento: )
2
p
s ....., ,
2
2
s ,
2
1
s
'
)
j
X
i
(X matriz transposta;
)
j
X
i
X ( uma matriz ;
X
i
o vetor de mdias do isimo indivduo;
X
j
o vetor de mdias do jsimo indivduo.

Os casos particulares mais importantes, sendo a distncia ponderada por S,
so:
i ) S = 1, a ponderao a matriz identidade, tem-se ento a distncia
euclidiana usual.
ii ) S = [ diag. ] )
2
p
s ....., ,
2
2
s ,
2
1
s (
-1
, e tem-se a distncia das variveis
padronizadas.
iii ) S = V
1
, onde V matriz de covarincias, tem-se ento a distncia de
Mahalanobis.

Esta ltima distncia, alm de ponderar pela variabilidade de cada uma das
componentes, leva em conta tambm o grau de correlao entre elas. Este fato
torna muito difcil a interpretao de resultados baseados neste coeficiente de
similaridade dissimilaridade.

4. Distncia de Mahalanobis tambm chamada distncia generalizada, Esta
medida, ao contrrio das apresentadas anteriormente, considera a matriz de
covarincia para o clculo das distncias: Esta a distncia escolhida para o
nosso trabalho pois ela leva em considerao a estrutura de correlao existente
nos dados.

Para Reis (1997), a distncia generalizada D


2
de Mahalanobis tambm pode
ser usada como tcnica de comparao quando na separao entre diversos
grupos, permitindo avaliar a extenso e a direo dos afastamentos entre os valores
mdios das variveis usadas na discriminao. As diferenas entre cada par de
grupos que esto sendo comparados so, assim, examinados simultaneamente por
meio das diversas variveis, que podem ser correlacionadas, de modo que, a
11

informao fornecida por uma delas pode no ser independente da fornecida pelas
demais.
O valor numrico da maior separao possvel entre dois grupos quaisquer
chamado distncia generalizada entre os grupos e mede, em escala independente
da originalmente utilizada para as vrias variveis, a clareza das disjunes entre
elas.
Assim, o valor da distncia generalizada D
2
, ligando dois grupos, um
nmero puro, com propriedades da distncia comum, e mede a extenso com que
diferem entre si em tamanho e forma.
A distncia Generalizada de Mahalanobis entre os grupos i e j usualmente
estimada segundo (Rao, 1952) por:

2
ij
D


= ( X
~
i
-
~
X
j
).
-1
.

( X
~
i
- X
~
j
)
em que:
~
i
X

o vetor de mdias do isimo grupo;
~
j
X

o vetor de mdias do jsimo grupo;
a estimativa combinada da matriz da Covarincia/varincia dentro dos
grupos.
Para o clculo de D
2
, supe-se a existncia de distribuio multinormal p-
dimensional e a homogeneidade da matriz de covarincia residual das unidades
amostrais, restringindo-se, portanto, o seu uso. Entretanto, considervel robustez
para violao dessas hipteses j foi demonstradas, que faz da distncia de
Mahalanobis uma opo de grande utilidade, principalmente pelo fato de D
2
ter
analogia com outras tcnicas multivariadas (Cruz e Regazzi, 1994). Alm disso, a
distncia de Mahalanobis considera a variabilidade dentro de cada unidade
amostral, e no somente a medida de tendncia central, sendo, portanto, uma
medida mais aceitvel, quando as unidades amostrais constituem um conjunto de
indivduos e, principalmente, quando as variveis so correlacionadas (Riboldi,
1986).
Este mtodo de representao de diferenas entre grupos leva em
considerao qualquer correlao que exista as variveis utilizadas, e tambm
independente das unidades de medida com que as variveis esto expressas.
12


2.4 Algoritmos de agrupamento

Nos algoritmos de agrupamentos hierrquicos, conhecidos como SAHN
(Seqencial, Agglomerative, Hierarquic, Nonoverlapping Clustering Methods), em
cada passo do agrupamento h a necessidade de recalcular o coeficiente de
dissimilaridade entre os grupos estabelecidos e os possveis candidatos a futuras
admisses de novos membros nos grupos j estabelecidos (Sneath & Sokal, 1973).
Os vrios mtodos de agregao das espcies diferem no modo como
estimam distncia entre grupo j formado e outros grupos ou indivduos por agrupar.
O processo de agrupamento de indivduos j agrupados depende da similaridade e
dissimilaridade entre os grupos. Portanto, diferentes definies destas distncias
podero resultar em diferentes solues finais (Bussab et al., 1990).
A seguir, so apresentados diversos mtodos de agrupamentos que fazem
parte dos mtodos SAHN. Vale salientar que, no existe o que se possa chamar de
melhor critrio na anlise de agrupamentos, mas alguns so mais indicados para
determinadas situaes do que outros (Kaufmann & Rosseeuw, 1990). prtica
comum utilizar vrios critrios e fazer a comparao dos resultados, se tais
resultados forem semelhantes, possvel concluir que eles possuem um elevado
grau de estabilidade e, portanto, so confiveis.
Os mtodos mais comuns de agrupamento para determinar a distncia entre
agrupamentos so: ligao simples, ligao completa, dos centrides, da mediana,
das mdias das distncias e da soma de erros quadrticos ou varincia (mtodo
Ward) (Anderberg, 1973).

2.4.1 Mtodo da Ligao Simples

Este algoritmo, tambm denominado de mtodo do elemento mais prximo
(Neighbourhoods) um dos mais simples, sendo de uso geral e de rpida aplicao.
O mtodo da ligao simples, segundo Orlci (1978); Gama (1980); e Mardia
et al. (1997), uma tcnica de hierarquizao aglomerativa, e tem como uma de
suas caractersticas no exigir que o nmero de agrupamentos seja fixado a priori,
assim, temos:
Seja E = {E
1
, E
2
, ,,, , E
p
} um conjunto de elementos em que cada um
representado por um vetor X
~
i
, para i = 1, 2, ,,,, p pontos do espao p-dimensional
13

(I
p
), no caso de anlise de vegetao, cada dimenso do espao corresponde a uma
espcie diferente, ento, qualquer medida de distncia estatstica ou de similaridade
pode ser empregada neste algoritmo.
Suponha que tenham sido determinados todos os n(n-1)/2 diferentes valores
de d
ij
ou S
ij
(i = j = 1, 2..... n), representados na forma de uma matriz de distncia
(D
1
) ou de similaridade (S
1
).
No mtodo da ligao simples, os agrupamentos entre objetos e grupos ou
entre grupos so feitos por ligaes simples entre pares de objetos, ou seja, a
distncia entre os grupos definida como sendo aquela entre os objetos mais
parecidos entre esses grupos. Este mtodo leva a grupos longos se comparados aos
grupos formados por outros mtodos de agrupamentos SAHN (Meyer, 2002). Os
dendrogramas, resultantes deste procedimento, so, geralmente, pouco
informativos, devido informao dos indivduos intermedirios que no so
evidentes (Carlini-Garcia, 1998). De acordo com Sneath & Sokal (1973),
agrupamentos pelo mtodo de ligao simples podem ser obtidos tanto pelo
procedimento aglomerativo quanto divisivo.
Anderberg (1973) cita as seguintes caractersticas desse mtodo:
Em geral, grupos muito prximos podem no ser identificados;
Permite detectar grupos de formas no-elipticas;
Apresenta pouca tolerncia a rudo, pois tem tendncia a incorporar os
rudos em um grupo j existente;
Apresenta bons resultados tanto para distncia Mahalanobis quanto para
outras distncias;
Tendncia a formar longas cadeias (encadeamento).

Encadeamento um termo que descreve a situao em que h um primeiro
grupo de um ou mais elementos que passa a incorporar, a cada interao, um grupo
de apenas um elemento. Assim, formada uma longa cadeia, onde se torna difcil
definir um nvel de corte para classificar os elementos em grupos (Romesburg, 1984).

2.4.2 Mtodo da Ligao Completa

Este mtodo tambm denominado de mtodo do elemento mais distante,
sendo uma das tcnicas de hierarquizao aglomerativa de maior aplicao na
14

anlise de agrupamento (Gama, 1980). Como no mtodo de ligao simples, aqui
tambm no exigida a fixao, a priori, do nmero de agrupamentos.
Conforme Bussab et al. (1990), no mtodo da ligao completa, tambm
denominado vizinho mais distante, a dissimilaridade entre dois grupos definida
como sendo aquela apresentada pelos indivduos de cada grupo que mais se
parecem, ou seja, formam-se todos os pares com um membro de cada grupo, e a
dissimilaridade entre os grupos definida pelo par que mais se parece. Este mtodo,
geralmente, leva a grupos compactos e discretos, tendo os seus valores de
dissimilaridade relativamente grande.

Kaufmann & Rosseeuw (1990) cita as seguintes caractersticas desse mtodo:
Apresenta bons resultados tanto para a distncias Mahalanobis quanto para
outras distancias;
Tendncia a formar grupos compactos;
Os rudos demoram para serem incorporados ao grupo.

2.4.3 Mtodo do Centride

O mtodo do centride foi proposto por Sokal & Michener (1958) e teve como
origem, a caracterizao da matriz de dados como pontos do espao Mahalanobis
(I
p
). Cada agrupamento considerado um simples ponto, representado pelo seu
centro de massa, chamado centride. O presente mtodo utiliza uma funo de
agrupamento para medir a distncia entre os centros de massa dos dados. Esta
tcnica de hierarquizao aglomerativa.

Este algoritmo se caracteriza pela redefinio, a cada passo, da matriz de
dados, em que cada agrupamento representado pelo vetor mdio das p variveis
envolvidas. Na realidade, uma nova matriz de distncias determinada a cada
interao.
No mtodo do centride, a distncia entre dois grupos definida como a
distncia entre os seus centrides, pontos definidos pelas mdias das variveis
caracterizadoras dos indivduos de cada grupo, isto , o mtodo do centride calcula
a distncia entre dois grupos como a diferena entre as suas mdias, para todas as
variveis. Uma desvantagem desse mtodo que se os dois grupos forem muito
diferentes em termos de dimenso, o centride do novo agrupamento estar, mas
15

prximo daquele que for maior e as caractersticas do grupo menor tendero a se
perde. De fato, com esse mtodo, o centride do novo grupo uma combinao
ponderada dos centrides dos dois grupos separados, sendo as ponderaes
proporcionais ao tamanho destes grupos (Reis, 1997).
Uma caracterstica importante desse algoritmo a de que a distncia entre
agrupamentos determinada pela distncia entre os pontos representativos dos
seus respectivos centros de massa (centride).
Kaufmann & Rosseeuw (1990) cita as seguintes caractersticas desse mtodo:
Robustez presena de rudos;
Fenmeno da reverso.
O fenmeno da reverso ocorre quando a distncia entre centrides menor
que distncia entre grupos j formados, isso far com que os novos grupos sejam
formados em um nvel inferior aos grupos j existentes, tornando o dendrogama
confuso (Romesburg, 1984).

2.4.4 Mtodo da Mediana

Com base na metodologia proposta por Orlci (1978) e Gama (1980), este
algoritmo um caso particular do mtodo do centride. A determinao da distncia
entre dois agrupamentos por meio do clculo do centro de massa no considera o
nmero de elementos em cada um dos agrupamentos. Assim, o vetor mdio que
representa o novo agrupamento, pode eventualmente, ficar situado entre os
elementos do agrupamento com maior nmero de elementos. Para contornar este
problema, Gower (1967) desenvolveu um procedimento de clculo que pondera a
medida de distncia pelo nmero de elementos de cada agrupamento.
A rigor, os dois mtodos so um s, no havendo razes para classific-los
como mtodos distintos.
Para Barroso & Artes (2003), o mtodo da mediana uma modificao do
mtodo do centride para a independncia da distncia do tamanho dos grupos. Se
agregarem os grupos, com centrides a e b, para formar um novo grupo, a distncia
desse novo grupo a outro grupo, de centride c, a mediana.
Kaufmann & Rosseeuw (1990) cita as seguintes caractersticas desse mtodo:
Apresenta resultado satisfatrio quando os grupos possuem tamanhos
diferentes;
16

Pode apresentar resultado diferente quando permutados os elementos na
matriz de dissimilaridade;
Robustez presena de outliers;
Fenmeno da reverso.

2.4.5 Mtodo das Mdias das Distncias (da Mdia de agrupamento)

Este mtodo define a distncia entre dois grupos como sendo a mdia das
distncias entre todos os pares de elementos, sendo um em cada grupo. Este
procedimento pode ser utilizado tanto para medidas de similaridade como de
distncia, contanto que o conceito de uma medida mdia seja aceitvel (Everitt,
1974).
Os grupos so reunidos em um novo grupo quando a mdia das distncias
entre seus elementos mnima.
No mtodo das mdias das distncias se define a distncia entre dois grupos,
i e j, como sendo a mdia das distncias entre todos os pares de objetos
constitudos por elementos dos dois grupos. A estratgia e o valor mdio tem a
vantagem de evitar valores extremos e de tomar em considerao toda a informao
dos grupos. Um grupo passa a ser definido como um conjunto de indivduos no qual
cada um tem mais semelhanas, em mdia, com todos os membros do mesmo
grupo do que com todos os elementos de qualquer outro grupo (Reis, 1997).
Kaufmann & Rosseeuw (1990) destaca as seguintes caractersticas desse
mtodo:
Menor sensibilidade a rudos que os mtodos de ligao simples e completa;
Apresenta bons resultados tanto para a distncia Mahalanobis quanto para
outras distncias;
Tendncia a formar grupos com nmero de elementos similares.

2.4.6 Mtodo de Ward

Ward (1963) prope um processo geral de classificao em que n elementos
so progressivamente reunidos dentro de grupos atravs da minimizao de uma
funo objetiva para cada (n -2) passos de fuso.
Inicialmente, este algoritmo admite que cada um dos elementos se constitua
em um nico agrupamento. Considerando a primeira reunio de elementos em um
17

novo agrupamento, a soma dos desvios dos pontos representativos de seus
elementos, em relao mdia do agrupamento, calculada, e d uma indicao de
homogeneidade do agrupamento formado. Esta medida fornece a perda de
informao que se produz ao reunir os elementos de E em um agrupamento (Gama,
1980).
Conforme a proposta de Bouroche & Saporta (1972), quando os indivduos
so pontos de um espao Mahalanobis (I
p
), a qualidade de uma partio definida
por sua inrcia intraclasse ou por sua inrcia interclasse. Quando se parte de K+1
classes para K classes, ou seja, agrupando duas classes numa s, a inrcia
interclasse s pode diminuir. A inrcia interclasse a mdia da soma dos quadrados
das distncias entre os centros de gravidade de cada classe e o centro de gravidade
total.
Gama props (1980), que a reunio de elementos em grupos feita pela
anlise dos valores da funo de agrupamento, reunindo-se os elementos mais
prximos, isto , aqueles que apresentassem Min (d
ij
).
Conforme Reis (1997), o mtodo de Ward se baseia na perda de informao
resultante do agrupamento das espcies e medida atravs da soma dos quadrados
dos desvios das observaes individuais relativamente s mdias dos grupos em
que so classificadas.
Cada grupo se caracteriza por uma soma dos quadrados dos desvios de cada
observaes do centride do mesmo ( uma soma dos numeradores dos
estimadores das varincias de cada varivel dentro do grupo, tambm a soma de
distncia Mahalanobis do quadrado de cada observao do centride). A distncia
entre dois grupos se define como o aumento que se pronunciaria nesta soma de
quadrados, se ambos os grupos se agregassem para a formao de um nico grupo.
O mtodo de Ward atraente por se basear numa medida com forte apelo
estatstico e por gerar grupos que, assim como os do mtodo vizinho mais longe,
possuem uma alta homogeneidade interna (Barroso & Artes, 2003).
Romesburg (1984) cita as seguintes caractersticas desse mtodo:
Apresenta bons resultados tanto para distncias Mahalanobis quanto para
outras distncias;
Pode apresentar resultados insatisfatrios quando o nmero de elementos em
cada grupo praticamente igual;
Tem tendncia a combinar grupos com poucos elementos;
Sensvel presena de outliers.
18


2.5 Inferncia estatstica

Apesar das tentativas de construo de vrios testes para a confiabilidade
estatstica dos agrupamentos, nenhum procedimento totalmente comprovado est
ainda disponvel. A ausncia de testes adequados provm da dificuldade de
especificao de hipteses nulas realsticas.
No que se refere aos, enormes problemas associados inferncia estatstica
na anlise de agrupamentos, os pesquisadores podem lanar mo de alguns
procedimentos prticos para conferir, de maneira superficial, os resultados dessas
anlises. Por exemplo, eles podem aplicar duas ou mais rotinas diferentes de
agrupamento ao mesmo conjunto de dados ou realizar a anlise de agrupamentos
com os mesmos dados, empregando diferentes medidas de distncia e comparando
os resultados por meio de algoritmos e medidas de distncia. Pode-se, tambm,
repartir os dados aleatoriamente em duas metades, realizar agrupamentos
diferentes, e ento examinar os perfis mdios de valores de cada agrupamento
mediante subamostras. Outra alternativa deletar diversas colunas (variveis) nos
dados originais de perfis, calcular as medidas de dissimilaridade entre as colunas
remanescentes, e comparar esses resultados com os agrupamentos encontrados
por meio do uso do conjunto total de colunas (variveis). Outra abordagem de
validao seria a utilizao de procedimentos de simulao que empreguem
geradores de nmeros aleatrios para criar um conjunto de dados com propriedades
que combinem com aquelas dos dados originais, mas no contenham nenhum
agrupamento. Em seguida, aplicam-se os mtodos de agrupamento nos dados reais
e nos artificiais, e comparam-se as solues resultantes (Aaker et al., 2001).

2.6 Bootstrap

O bootstrap uma tcnica estatstica computacionalmente intensiva que
permite a avaliao da variabilidade de estatstica, com base nos dados de uma
nica amostra existente. Essa tcnica foi introduzida por Efron (1979), e, desde
ento, tem merecido profundo estudo por parte dos estatsticos que trabalha com
anlise multivariada, no s na parte terica, como tambm na aplicada.
Na estatstica, as situaes difceis podem ser vistas como os problemas de
solues analticas complexas, e as variadas solues possveis seriam a utilizao
19

de uma metodologia com grande quantidade de clculos, para analisar um pequeno
conjunto de dados. A soluo para esses casos, com o uso de mtodos
computacionalmente intensivos, obtida substituindo-se o poder analtico das
expresses tericas pelo poder de processamento dos computadores.
A idia chave do mtodo a amostra bootstrap, que retirada da amostra
original com reposio. Dessa forma, todo resultado bootstrap depende
diretamente da amostra original observada, isto , os resultados bootstrap so
robustos para a amostra original. Algumas consideraes de regularidade sob as
quais esse mtodo consistente foram discutidas por Bickel & Freedman (1981). Os
conceitos bsicos, propriedades tericas e aplicaes podem ser encontrados em
Efron & Tibishirani (1993).
O bootstrap pode ser implementado tanto na estatstica no paramtrica
quanto na paramtrica, dependendo apenas do conhecimento do problema. No caso
no-paramtrico, o mtodo bootstrap reamostra os dados com reposio, de
acordo com uma distribuio subjacente aos dados. No caso paramtrico, quando se
tem informao suficiente sobre a forma da distribuio dos dados, a amostra
bootstrap formada realizando-se a amostragem diretamente nessa distribuio
com os parmetros desconhecidos substitudos por estimativas paramtricas. A
distribuio da estatstica de interesse aplicada aos valores da amostra bootstrap,
condicional aos dados observados, definida como a distribuio bootstrap dessa
estatstica.
Operacionalmente, o procedimento bootstrap consiste na reamostragem de
mesmo tamanho e com reposio dos dados da amostra original (Figura 1), e
clculo da estatstica de interesse para cada reamostra bootstrap (pseudo-dados).
20



Conjunto de dados (amostra original)


Descrio das espcies (Matriz Mahalanobis)


Anlise de agrupamento (Mtodos)


Analisam-se os resultados

Repete-se o processo B vezes
(calculo da Estatstica bootstrap)


Analisam-se os resultado

Figura 1 - Diagrama esquemtico ilustrando a construo da distribuio bootstrap.

Na prtica constri-se a distribuio bootstap por Monte-Carlo com
um nmero de repeties B, suficientemente grande. Um indicador do tamanho
adequado de B, independente do custo computacional, a qualidade da
convergncia da estimativa bootstrap do parmetro para estimativa natural do
parmetro (Lavaranti, 2003).
O mtodo mais simples para estimar intervalos de confiana por bootstrap
o mtodo percentil. Esse mtodo consiste em encontrar a distribuio F bootstrap e
calcular os percentis da distribuio que correspondem aos limites inferiores

e
superiores, respectivamente, do intervalo de confiana (Efron & Tibshirani, 1993).
Uma verso melhorada desse mtodo chamada Bca, que uma abreviao de
(bias corrected and accelerated). O intervalo Bca um intervalo rigorosamente
exato naquelas situaes em que a estatstica terica tem uma resposta exata
adaptada de Arajo (2003), dando uma preciso na estimao dos intervalos
21

confiana em todas as situaes para dados obtidos da distribuio bootstrap
(Diciccio & Efron, 1996).
Finalmente, a grande vantagem dos procedimentos estatsticos bootstrap
a estimao da preciso de qualquer estatstica (multivariada na anlise de
agrupamento) com a comparao dos mtodos. Esses mtodos comearam a se
tornar ferramentas bastante teis e poderosas na construo de procedimentos
estatsticos, evitando obteno de frmulas via argumentos analticos.

2. 7 Correlao Cofentica

A correlao cofentica uma medida de validao utilizada, principalmente,
nos mtodos de agrupamento hierrquicos. A idia bsica realizar uma
comparao entre as distncias efetivamente observadas entre os objetos e
distncias previstas a partir do processo de agrupamento (Barroso & Artes, 2003).
A correlao cofentica mede o grau de ajuste entre a matriz de
dissimilaridade original (matriz D) e a matriz resultante da simplificao
proporcionada pelo mtodo de agrupamento (matriz C). No caso, C aquela obtida
aps a construo do dendrograma. Tal correlao foi calculada conforme Bussab et
al., (1990):


= + =

= + =

= + =

=
1
1 1
2
) (
1
1 1
2
) (
1
1 1
) ( ) (
n
i
n
i j
d
ij
d
n
i
n
i j
c
ij
c
n
i
n
i j
d
ij
d c
ij
c
cof
r , em que;


c
i j
= valor de dissimilaridade entre os indivduos i e j, obtidos a partir da matriz
cofentica;
d
i

j
= valor de dissimilaridade entre os indivduos i e j, obtidos a partir da matriz de
dissimilaridade;

= + =

=
1
1 1
) 1 (
2
n
i
n
i j
ij
c
n n
c ,

22

= + =

=
1
1 1
) 1 (
2
n
i
n
i j
ij
d
n n
d .

Nota-se que essa correlao equivale correlao de Pearson entre a matriz
de dissimilaridade original e aquela obtida aps a construo do dendrograma.
Assim quanto mais prximo de 1, menor ser a distoro provocada pelo
agrupamento dos indivduos com os mtodos.
Para Bussab et al., (1990), problema responder se o valor observado alto
ou baixo?. Responder a isto to difcil como responder, na maioria das situaes, o
que um alto coeficiente de correlao entre duas variveis. Depende da rea de
estudo e de padres que vo se desenvolvendo com a prtica. Pode-se adiantar que
em anlise de agrupamento, algo em torno de 0,8 j pode ser considerado bom
ajuste.

23


3. MATERIAL E MTODOS

3.1 Dados

Neste trabalho foram utilizados dados de um levantamento da vegetao da
mata da Silvicultura (Tabela 1), da Universidade Federal de Viosa-MG, retirado de
Souza et al. (1997).

Tabela 1 Densidade de 17 espcies da mata da silvicultura, em parcelas de 20 X
50 m, Universidade Federal de Viosa MG

Espcies Parcelas
1 2 3 4 5 6 7 8 9 10 11
Casearia decandra Jacq. 8 1 27 0 1 9 2 3 22 15 7
Anadenanthera peregrina Spreg. 0 0 0 0 0 0 12 1 17 1 9
Apuleia leiocarpa (Vog.) Macbr. 3 9 4 6 22 9 5 2 7 4 4
Mabea fistulifera Mart. 6 3 3 4 29 12 0 4 4 4 4
Anadenanthera macrocarpa(Benth.) Brenan. 0 12 0 1 0 0 1 0 2 0 0
Platypodium elegans Vog. 0 0 1 1 9 1 0 0 5 11 1
Machaerium floridum (Benth.) Ducke 0 0 10 1 9 2 1 0 0 11 5
Copaifera langsdorffii Desf. 1 1 0 2 1 13 0 0 0 3 1
Ocotea pretiosa Mez. 2 0 2 2 2 6 0 5 0 2 2
Cabralea cangerana Saldanha 1 0 0 2 0 0 1 6 2 3 1
Piptadenia gonoacantha Macbr. 0 0 0 0 0 0 6 0 1 0 5
Dalbergia nigra Allem. Ex Benth. 5 0 7 0 5 0 0 0 0 1 0
Luehea divaricata Mart. 7 0 0 0 0 1 0 1 0 0 0
Melanoxylon brauna Schott. 0 0 0 0 0 0 0 0 0 2 1
Cedrela fissilis Vell. 0 0 0 0 0 0 1 0 0 0 0
Croton floribundus Spreng. 0 0 1 0 0 0 0 0 0 0 0
Fonte: Souza et al. (1997)

Considerando que a densidade da espcie uma varivel quantitativa
discreta, os dados originais da matriz foram transformados por meio de raiz
quadrada, para tornar a sua distribuio mais apropriada a uma anlise de
agrupamento.



24

3.2 Mtodos Estatsticos

Com proposta de metodologia estatstica para anlise de agrupamento se
considerou a seguinte ordem: processo reamostragem bootstrap na matriz de
dados originais, clculo da matriz de distncia, considerando-se a distncia de
Mahalanobis, utilizao dos algoritmos ligao simples, ligao completa, do
centrides, da mediana, das distncias mdias e de Ward, dendrogramas, tabelas
de contingncias, e teste para comparao dos mtodos.
2

3.2.1 Estabilidade via mtodo bootstrap

Para se estabilizar os mtodos em anlise de agrupamentos via bootstrap,
foram seguidos os seguintes passos:

1. Considerou-se a seguinte matriz X, denominada de matriz de dados ou
matriz original (primaria).


=
(nxp)
X
(
(
(
(
(
(
(

x x x
x x x
x x x
pn p p
n
n
... ..........
. . .
. . .
.. ..........
.. ..........
2 1
2 22 21
1 12 11


Em que i = 1, 2 ,....., p espcie na amostra e j = 1, 2,....,n parcelas.

2. Com a matriz primria, encontrou-se a matriz de distncia Mahalanobis, para
aplicao dos algoritmos de agrupamento.

3. De posse da matriz de Mahalanobis, aplicou-se bootstrap e calculou-se uma
nova matriz de distncia Mahalanobis para aplicao dos algoritmos de
agrupamento e comparao com a aplicao do item 2.
25


4. Construo de Tabelas de contingncia 2x2 para comparao entre
algoritmos de agrupamentos (nmero de observaes que se agrupam no
mesmo grupo para o mesmo nmero de grupo).

100%
grupos de Nmero
s observae de Nmero
m Porcentage =


5. Conforme Jairo & Gilberto (1996) foi utilizado o indicador do grau de
associao entre dois mtodos analisandos dados por:


N calculado
2

calculado
2

C
+
=


Esses coeficiente podem variar entre [0 , 1], estando mais associados os
mtodos quanto maior o valor de C.

3.2.2 Medida de distncia

Como medida de dissimilaridade foi utilizada a distncia de Mahalanobis (D
2
)
calculada conforme a seguinte expresso:
D
2
= ( X
~
i
- X
~
j
) .
-1
. ( X
~
i
- X
~
j
),
em que D
2
= d ( X
~
i
- X
~
j
);
-1
a inversa da matriz de covarincia residual de X, e
D
2
tem a caracterstica de ser invariante para qualquer transformao linear no-
singular. Ao contrrio da distncia Euclidiana, D
2
pode ser utilizada quando existe
correlao entre as variveis. Sendo os coeficientes de correlao nulos, o valor de
D
2
equivale distncia Euclidiana para variveis padronizadas.

3.2.3 Algoritmos de agrupamento

Foram utilizados os seguintes algoritmos de agrupamento, por serem os mais
usados na prtica pela facilidade de serem encontrados nos mais diversos
programas computacionais, tais como:
26


a) Mtodo da Ligao Simples ou do Vizinho mais Prximo (Single Linkage)

De posse da matriz primria de dados X (n x p), o mtodo de ligao simples
foi resolvido na seguinte seqncia de clculos:
1. Com base na matriz de Mahalanobis original ou estabilizada via bootstrap
foram determinados os valores da funo de agrupamento d
ij
, que foram
representados na forma matricial (D
1
);
2. Localizou-se o valor mnimo de d
ij
> 0. Os elementos E
i
e E
j
,
correspondentes a este valor, foram reunidos em um mesmo grupo, ficando
(n-1) agrupamentos remanescentes;
3. Com base na matriz de distncia inicial (D
1
), determinou-se a distncia
entre o novo agrupamento e os demais elementos, por meio da relao:
d
(i,j) l
= min (d
i1
, d
i2
), l = 1, (n-2)
l i j
e construiu-se nova matriz de distncia (D
2
).
4. Localizou-se em D
2
, o menor valor de d
ij
> 0 e, em seguida, agrupou-se os
elementos que deram origem a esta nova distncia, formando-se novo
agrupamento. Neste passo, tm-se (n-2) agrupamentos.
5. Comps-se nova matriz de distncias, baseando-se na matriz de distncia.
Para isto, calculou-se a distncia entre agrupamento formado na etapa
anterior e os demais, considerando-se um elemento isolado de E como um
agrupamento. Retornou-se a seguir a etapa 4.
Os processos foram repetidos at que todos os 11 elementos de E fossem
alocados a um s agrupamento.

b) Mtodo da Ligao Completa ou do Vizinho mais Longe (complete linkage)

Dados n elementos e se admitindo conhecidos os n(n-1)/2 valores de uma
funo de agrupamentos, d
ij
, i = j = 1, 2.... n, apresentados na forma de uma D, este
mtodo pode ser sintetizado, segundo Gama (1980) e Mardia et al, (1997), nas
seguintes etapas:
1.Determinou-se, com base na matriz de Mahalanobis, o conjunto de valores
de uma funo de agrupamento. Estes valores constituem medida de
distncia estatstica (D) que formam a matriz D
1
;
27

2. Decidiu-se o valor mnimo de d
ij
, sendo, os elementos E
i
e E
j
reunidos num
primeiro grupo. Ento se pressupe que os (n-2) elementos restantes
constitussem, cada um, um agrupamento distinto;
3. Com base na matriz D
1
, determina-se a distncia entre cada um dos (n-2)
elementos e o novo agrupamento formado pelos elementos (E
i
, E
j
). Esta
distncia calculada pela relao:
d
(i, j) l
= mx (d
i1
, d
jl
), l = 1, (n-2).
l i j
Sendo estas distncias reunidas numa matriz D
2

4. Determina-se, com base na matriz D
2
, o maior valor d
ij
, agrupando-se os
elementos correspondentes, dando origem a um novo agrupamento, e, ento
obtendo-se (n-2) agrupamentos;
5. Construiu-se um novo conjunto de valores de distncias com base na
matriz D
2
(interao anterior), entre o novo agrupamento e os demais.

c) Mtodo do Centride.

Seja X (n x p) a matriz de dados bsicos em que cada linha representa o
conjunto de valores observados para cada espcie, e cada coluna representa uma
parcela de rea fixa ou varivel.
Este algoritmo pode ser desenvolvido nas seguintes etapas:
1. Com base na matriz de dados e em uma funo de agrupamentos, calcula-
se as distncias (d
ij
) entre as parcelas (i, j), i = 1, 2...., n. Esses dados so
reunidos numa matriz de distncias (D).
2. A primeira operao em D, consiste em procurar pelo menor valor de d
ij
,
excluindo os valores de d
ij
em que i = j, ou seja, excluir-se os elementos da
diagonal principal. Os elementos X
i
e X
j
cuja similaridade maior, so
reunidos num mesmo agrupamento.
3. Em seguida, calcula-se uma nova matriz de distncia e identificou-se os
elementos do agrupamento mais prximo, e se constri um novo
agrupamento, Segundo Lance e Williams (1967) as distncias podem ser
obtidas atravs da seguinte expresso:

28

( )
ij
d
j
n
i
n
j
n
i
n
kj
d
j
n
i
n
j
n
ki
d
j
n
i
n
i
n
ij k
d
(
(

+

|
|
.
|

\
|
+
+
|
|
.
|

\
|
+
=
2
.
) (

em que:
d
k(ij)
, d
ki
, d
kj
e d
ij
= distncias Mahalanobis entre os elementos k e
agrupamento ij, k e i, k e j, e i e j, respectivamente.
n
i
, n
j
e n
k
= nmero de elementos nos grupamentos i, j e k, respectivamente.
4. Verifica-se se o nmero de agrupamentos determinados igual ao valor
fixado, g n, se fosse verdade, termina-se o processo, caso contrrio,
retorna-se ao item 2.

d) Mtodo da Mediana

Esse algoritmo foi desenvolvido nas seguintes etapas:

1. Com base na matriz de dados e em uma funo de agrupamentos, calcula-
se as distncias (d
ij
) entre as parcelas (i, j), i = 1, 2,...., n, Estes dados so
reunidos numa matriz de distncias (D).
2. A primeira operao em D, consistiu em procurar menor valor de d
ij
,
excluindo os valores de d
ij
onde i = j, ou seja, excluir os elementos da diagonal
principal, Os elementos (parcelas) X
i
e X
j
cuja dissimilaridade menor so
reunidos num mesmo agrupamento.
3. Em seguida calculada uma nova matriz de distncia e identificou-se os
elementos do agrupamento mais prximo, constroem-se um novo
agrupamento. Segundo Lance e Williams (1967), as distncias podem ser
obtidas atravs da seguinte expresso:

ij kj ki ij k
d d d d
(


|
.
|

\
|
+
|
.
|

\
|
=
4
1
2
1
2
1
) (

em que:
d
k (ij)
, d
ki
, d
kj
e d
ij
= distncias Mahalanobis entre os elementos k e
agrupamento ij, k e i, k e j, e i e j, respectivamente.
29

n
i
, n
j
e n
k
= nmero de elementos nos grupamentos i, j e k, respectivamente.
4 Verifica -se se o nmero de agrupamentos determinados era igual ao valor
fixado, g n, Se for verdade, termina-se o processo, caso contrrio, retorna-
se ao item 2.

e) Mtodo das Mdias das distncias (da Mdia de agrupamento)

O mtodo pode ser resumido nos seguintes passos:

1. Determina-se a matriz de distncias inicial.
2. Localiza-se os dois elementos que apresentam a menor distncia,
reunindo em um nico grupo.
3. Calcula-se a distncia entre os diversos pares de grupos como sendo a
mdia das distncias entre todos os pares de seus elementos, sendo um
elemento de cada um dos grupos.
4. Os dois grupos que apresentam menor distncias so reunidos em um
nico grupo.
5. Se o nmero de grupos obtidos igual a um nmero g n, o processo
termina caso contrario, retorna-se ao passo 3.

Esta frmula fornece das Mdias das distncias.


kj
d
n i
n
j
n
ki
d
j
n
i
n
i
n
j i
k
j

(
(

+
+

(
(

+
=

) , (
d

em que:
*
k(ij),
d
d
ki
e d
kj
= distncias entre os elementos k e agrupamento ij, k e i, k
e j, e i e j, respectivamente.
n
i
e n
j
= nmero de elementos nos grupamentos i e j, respectivamente.





30

f) Mtodo de Ward

Segundo Orlci (1978), o algoritmo de Ward pode ser resumido nas seguintes
etapas:
1. Determina-se a matriz de distncias e localiza-se os dois agrupamentos
para os quais d
ij
mnimo;
2. Rene-se estes agrupamentos, formando um novo agrupamento, e se
verifica, se o nmero de agrupamentos (g) j foi alcanado, seno, segue-se
etapa 3, caso contrrio, termina-se a anlise;
3. Calcula-se o valor do aumento a ser obtido na soma dos quadrados pela
reunio de qualquer dos agrupamentos: I = (1/2), d
pq
.
4. Determina-se os dois agrupamentos que apresentam um menor incremento
na matriz D, isto , Min (I
ij
) e volta-se etapa 2.
Este mtodo tem como funo de agrupamentos a distncia Mahalanobis e o
critrio de agrupamento dado pelo valor do incremento, que se obtm na
soma de quadrados do erro.
Observao:

,
2
)
k
X -
p
(X
2
pk
d = a distncia entre as mdias dos elementos de G
p
e G
k

sendo G
p
e G
k
, respectivamente, os grupos p e k,

,
pk
k p
k p
pk
d
N N
N N
I
+

=
em que as reunies dos agrupamentos G
p
e G
k
ser feita
se I
pk
= mnimo.

Admita-se que para o agrupamento G
p
G
k
= G
r
, o incremento na soma das
mdias do erro dado por:

,
tr
r t
r t
tr
d
n n
n n
I
+

=
onde
2
) (
2
r
X
t
X
tr
= d
Podendo ser escrita por:

31

pk
r
k p
tk
r
k
tp
r
p
tr
d
n
n n
d
n
n
d
n
n
d

+ =
2 ,

Substituindo-se cada distncia, em funo do nmero de elementos, do
agrupamento, obteve-se:

| |
pk
I
r
n
tk
I
k
n
t
n
tp
I
p
n
t
n
r
n
t
n
tr
I + + +
+
= ) ( ) (
1


Ou ainda, considerando d , tem-se:
tp tp
I . 2 =

| |
pk
d
t
n
k t
d
k
n
t
n
tp
d
p
n
t
n
r
n
t
n
tr
d + + +
+
= . ) ( ). (
1


3.2.4 Dendrogramas

A seqncia de fuso dos agrupamentos representada graficamente nos
dendrogramas, que foram divididas com a estatstica descritiva usando o percentil,
com um corte de 50% da distncia Mahalanobis, para determinar o nmero de
grupos. Os dendrogramas so construdos usando o programa computacional
Minitab. Os diferentes dendrogramas obtidos so ento comparados para
possibilitar a anlise da associao entre mtodos.

3.2.5 Correlao Cofentica

Para os diversos mtodos de agrupamento utilizados foram obtidas as
respectivas matrizes cofenticas resultantes da simplificao proporcionada pelo
mtodo. A matriz cofentica foi obtida aps a construo do dendrograma. Com
base nas matrizes de dissimilaridade original e cofentica, foi obtida a correlao
cofentica conforme a expresso (Bussab et al., 1990):

32


= + =

= + =

= + =

=
1
1 1
2
) (
1
1 1
2
) (
1
1 1
) ( ) (
n
i
n
i j
d
ij
d
n
i
n
i j
c
ij
c
n
i
n
i j
d
ij
d c
ij
c
cof
r , em que;

c
i j
: valor de dissimilaridade entre os indivduos i e j, obtidos a partir da matriz
cofentica;
d
i

j
: valor de dissimilaridade entre os indivduos i e j, obtidos a partir da matriz
de dissimilaridade;

= + =

=
1
1 1
) 1 (
2
n
i
n
i j
ij
c
n n
c ,

= + =

=
1
1 1
) 1 (
2
n
i
n
i j
ij
d
n n
d .

Nota-se que essa correlao equivale correlao de Pearson entre a matriz
de dissimilaridade original e aquela obtida aps a construo do dendrograma.
Assim quanto mais prximo de 1, menor ser a distoro provocada pelo
agrupamento dos indivduos com os mtodos.

3.2.6 Distoro entre a matriz de dissimilaridade e matriz cofentica

O grau da distoro (1 ) foi calculado conforme Kruskal (1964):



= + =

= + =
=
1
1 1
1
1 1
n
i
n
i j
ij
d
n
i
n
i j
ij
c
,
em que:
ij
c : valor de dissimilaridade entre os indivduos i e j, obtidos a partir da matriz
cofentica;
ij
d : valor de dissimilaridade entre os indivduos i e j, obtidos a partir da matriz
de dissimilaridade.
33

Esse parmetro mede a distoro entre a matriz original e bootstrap e aquela
obtida aps a construo do dendrograma.

3.2.7 Tabelas de contingncia

Foram construdas tabelas de contingncia bi-dimensional (Tabela 2), na qual
uma amostra de N observaes foi classificada com relao os dois mtodos de
agrupamentos aplicados. Desta forma pde-se cruzar as diversas caractersticas
relevantes aos mtodos pesquisados com diversas variveis, tomadas duas a duas.
Cada uma das clulas (n
11
, n
12
, n
ij
, etc.) representou a associao ou a contagem de
grupos em cada um dos mtodos aplicado.

Tabela 2. Forma geral de uma tabela de contingncia de duas dimenses

Mtodo I Mtodo J Total
1 2 j ... J
1 n
11
n
12
n
1j
... n
1J
n
1

2 n
21
n
22
n
2j
... n
2J
n
2

... ... ... ... ... ... ...
i n
i1
n
i2
n
ij
... n
iJ
n
i

... ... ... ... ... ... ...
I n
I1
n
I2
n
Ij
... n
IJ
n
I

Total n
.1
n
.2
n
.j
... n
.J
N
Fonte: modificado de Everitt (1992)

3.2.7.1 Independncia e associao entre mtodos

Para a deteco de associao entre os mtodos, ou seja, saber se as
diferenas observadas entre mtodos so significativas o suficiente para serem
atribudas a outros fatores que no aleatrios, foi aplicado o teste qui-quadrado
( ) por meio da expresso:
2

=
esperada freqncia
esperada) frequncia - observada a (frequnci
2



34

onde:

N
C L
esperada freqncia

=

em que:

L = nmero de categorias da varivel disposta na linha da tabela de contingncia;
C = nmero de categorias da varivel disposta na coluna da tabela de contingncia.

O mtodo usado para decidir se o teste independente ou se no esto
associado (ou seja se possvel ou no rejeitar a hiptese de nulidade, H
2

0
), foi
baseado na distribuio de probabilidade para sob a pressuposio de que a
hiptese nula verdadeira. Dessa forma, quando a estatstica calculada foi maior
do que o valor tabulado para um determinado nvel de significncia, H
2

0
foi rejeitada.
Caso contrrio, a hiptese nula no foi rejeitada.
O nmero de graus de liberdade (GL), para decidir quando o valor de
obtido de alguma tabela de contingncia leva a uma rejeio ou no da hiptese
nula, foi assim definido:
2


GL = (L 1) (C 1)

Todas os grficos e as anlises, ao longo deste trabalho foram
implementados atravs dos programas computacionais EXCEL, STATISTICA,
MINITAB e a construo de um programa na linguagem C.
35

4. RESULTADOS E DISCUSSO

4.1 Anlise de agrupamento a partir da matriz de Mahalanobis original

Com base na matriz de dissimilaridade de Mahalanobis obtida a partir dos
dados originais (Tabela 3) foram aplicados os mtodos da ligao simples, da
ligao completa, do centride, da mediana, da mdia das distncias e de Ward e
obtidos os respectivos dendrogramas (Figuras de 2 a 7).

Tabela 3. Matriz de distncia Mahalanobis dos dados originais para as 11 parcelas
da Mata da Silvicultura, da Universidade Federal de Viosa - MG
Parcela 1 2 3 4 5 6 7 8 9 10 11
1 00,00 16,81 20,01 15,93 20,35 14,40 19,50 13,37 20,11 18,53 17,66
2 00,00 18,50 7,721 18,51 13,81 18,80 18,59 15,59 20,89 19,03
3 00,00 17,68 20,80 18,21 22,27 20,08 18,48 20,55 19,10
4 00,00 12,57 10,32 16,73 7,092 14,54 15,04 13,84
5 00,00 17,65 22,86 20,99 19,20 20,37 17,55
6 00,00 19,90 16,21 16,89 18,27 13,12
7 00,00 20,02 17,36 22,69 16,47
8 00,00 15,11 18,29 14,05
9 00,00 14,87 13,20
10 00,00 11,90
11 00,00

Embora a estrutura geral dos agrupamentos seja bastante similar, pode-se
observar que h pequenas alteraes nos nveis em que os indivduos so
agrupados, ou seja, os indivduos que esto dentro de um mesmo grupo podem ser
agrupados em outra ordem, quando se mudam os mtodos.
Pode-se observar que h divergncias entre os mtodos, corroborando com a
afirmativa de Johnson & Wichern (1992), de que dificilmente os dendrogramas
obtidos por mtodos de agrupamentos diferentes sejam semelhantes. No entanto,
segundo Bussab et al. (1990), a grande vantagem do dendrograma permitir
observar graficamente o quanto necessrio relaxar o nvel de dissimilaridade
para considerar grupos prximos.
36

7 9
1
1
1
0 5 6 8 4 2 1 3
Ligao simples
Distncia
50%
Figura 2 Dendrograma representando as seqncias das fuses das parcelas,
obtidas pelo emprego do mtodo da ligao simples, com base na distncia
Mahanalobis dos dados originais.


1
1
1
0 9 5 3 6 2 7 8 4 1
Ligao completa
Distncia
50%
Figura 3 Dendrograma representando as seqncias das fuses das parcelas,
obtida pelo emprego do mtodo ligao completa, com base na distncia
Mahalanobis dos dados originais.
37

7 5
1
0 9
1
1 6 8 4 2 1 3
Centride
Distncia
50%

Figura 4 Dendrograma representando as seqncias das fuses das parcelas,
obtida pelo emprego do mtodo da centride, com base na distncia Mahalanobis
dados originais.


7 5
1
0 9
1
1 6 8 4 2 1 3
Mediana
Distncia
50%
Figura 5 Dendrograma representando as seqncias das fuses das parcelas,
obtido pelo emprego do mtodo mediana, com base na distncia Mahalanobis dos
dados originais.
38

7 5
1
1
1
0 9 6 8 4 2 1 3
Mdias das distncias
Distncia
50%
Figura 6 Dendrograma representando as seqncias das fuses das parcelas,
obtida pelo emprego do mtodo das mdias da distncia, com base na distncia
Mahalanobis dos dados originais.

1
1
1
0 9 7 5 3 8 4 6 2 1
Ward
Distncia
50%
Figura 7 Dendrograma representando as seqncias das fuses das parcelas,
obtidas pelo emprego do mtodo do Ward, com base na distncia Mahalanobis dos
dados originais.

39

De forma geral os dendrograma apresentaram estruturas de agrupamentos de
objetos homogneos, embora no exista um critrio objetivo para determinar um
ponto de corte no dendrograma, ou seja, para determinar quais os grupos foram
formados.
Para os dendrogramas obtidos a partir dos mtodos ligao simples (Figura
2), ligao completa (Figura 3), centride (Figura 4), mediana (Figura 5), mdias das
distncias ((Figura 6) e Ward ((Figura 7), observa-se que eles foram cortados
utilizando-se a medida do percentil, com um corte de 50% da distncia Mahalanobis,
observando-se que nos mtodos ligao simples e Ward, ligao completa, mediana
e mdias das distncias, e centride foram obtidos nove, dez e onze grupos,
respectivamente.
Para dados originais no grupo I, verificou-se que os mtodos (mdias das
distncias e mediana, mdias das distncias e ligao completa, mediana e ligao
completa), formaram dez agrupamentos, com semelhana de 100%, e os mtodos
do grupo II (Medias das distncias e centride, centride e mediana, centride e
ligao completa, mdias das distncias e ligao simples, mdias das distncias e
Ward, mediana e ligao simples, mediana e Ward, ligao simples e ligao
completa, ligao completa e Ward), com 86% e 84% de semelhana e o III grupo
com os mtodos (centride e ligao simples, centride e Ward, ligao simples e
Ward) com 80%, 70% e 67% de semelhana respectivamente (Tabela 4).

Tabela 4.- Porcentagem de grupos coincidentes entre mtodos de agrupamento,
com base na matriz de Mahalanobis dos dados originais, (nvel de significncia do
teste de independncia do ), a partir da tabela de contingncia e do grau de
associao
2


Mtodos Mdias das
distncias
Centride Mediana Ligao
simples
Ligao
completa
Centride 86%
(0,58)

Mediana 100%
(0,71)
86%
(0,58)

Ligao
simples
84%
(0,57)
80%
(0,52)
84%
(0,59)

Ligao
Completa
100%
(0,71)
86%
(0,58)
100%
(0,71)
84%
(0,57)

Ward

84%
(0,57)
70%
(0,38)
84%
(0,57)
67%
(0,61)
84%
(0,57)
Entre parentes - nvel de significncia do teste de independncia do .
2




40

Observa-se ainda que os resultados de associao dos mtodos foram
semelhantes e o nvel de significncia relativamente alto, sendo possvel concluir
que, em principio qualquer algoritmo de agrupamento estudado est estabilizado e
existem, de fato, grupos entre os indivduos observados e que existe estabilidade
entre os mtodos.
Quanto aos resultados da qui-quadrado (Tabela 5) para um nvel de
significncia de 1% e 5% e de um grau de liberdade igual 3,84 e 6,64
respectivamente, que no deixa dvida que se pode rejeitar H
0
, isto , concluindo-se
com risco de 1% e 5% que os mtodos so dependentes, ou esto associados,
excluindo-se os mtodos do centride e Ward.

Tabela 5 - Resultados dos dados originais com associao dos mtodos obtidos a
partir da qui-quadrado
Mtodo Mdias das
distncias
Centride Mediana Ligao
simples
Ligao
completa
Centride 10,84
Mediana 20,00 10,82
Ligao simples 8,99 7,60 10,42
Ligao Completa 20,00 10,82 20,00 9,00
Ward 9,00 3,43 9,00 11,00 9,00


4.2. Anlise de agrupamento a partir da matriz de Mahalanobis via bootstrap

Com base na matriz de dissimilaridade de Mahalanobis obtida via bootstrap
(Tabela 6) foram aplicados os mtodos da ligao simples, da ligao completa, do
centride, da mediana, da mdia das distncias e de Ward e obtidos os respectivos
dendrogramas (Figuras de 8 a 13).
Com base na anlise dos dendrogramas formado pelos mtodos, verificou-se
que, com um corte de 50% nas matrizes de distncia, foram formados trs grupos
tantos para os dados originais como para os dados da reamostragem bootstrap.
41

Tabela 6. Matriz de Mahalanobis obtida via reamostragem bootstrap aps com
10000 iteraes
Parcelas 1 2 3 4 5 6 7 8 9 10 11
1 00,00 20,01 14,40 20,11 16,81 17,66 20,35 17,66 19,50 16,81 20,11
2 00,00 18,51 18,50 18,80 15,59 18,59 15,59 19,03 20,89 18,51
3 00,00 20,80 18,21 20,80 19,10 19,10 20,08 22,27 19,10
4 00,00 12,57 14,54 10,32 16,73 16,73 13,84 7,092
5 00,00 17,55 20,99 19,20 19,20 20,99 17,65
6 00,00 16,21 19,90 19,90 16,21 16,21
7 00,00 22,69 22,69 16,47 16,47
8 00,00 14,05 14,05 18,29
9 00,00 13,20 14,87
10 00,00 11,90
11 00,00

Embora no exista um critrio objetivo para determinar um ponto de corte no
dendrograma, ou seja, para determinar quais os grupos foram formados, os
dendrogramas obtidos a partir dos mtodos com a reamostragem bootstrap com
10000 interaes, foram cortados utilizando-se a medida percentil, com um corte de
50% na matriz de distncia, observando-se que as Figuras 10 e 11, obtiveram onze
grupos, e as Figuras 8, 9 e 12, obtiveram dez grupos e a Figura 13, obteve a
formao de nove grupos.
Para os dados de reamostragem bootstrap, no grupo I, verificou-se que os
mtodos mdias das distncias e ligao simples, mdias das distncias e ligao
completa, com dez grupos, centride e mediana com onze grupos, com 100%
semelhana, grupo II com os mtodos mdias das distncias e centrides, mdias
das distncias e mediana, centride e ligao simples, centride e ligao completa,
mediana e ligao simples, mediana e ligao completa com 86% de semelhana e
os mtodos mdias das distncias e Ward, ligao simples e Ward, ligao completa
e Ward, com 84% de semelhana e o III grupo com os mtodos ligao simples e
ligao completa com 80% de semelhana e centride e Ward, mediana e Ward com
70% de semelhana (Tabela 7). Estes resultados demonstraram que existe boa
possibilidade de estabilidades entre os mtodos
42

6 8 9 5
1
0 7
1
1 4 2 3 1
Ligao simples
Diatncia
50%

Figura 8 Dendrograma representando as seqncias das fuses das parcelas,
obtida pelo emprego do mtodo ligao simples, com base na matriz de distncia de
Mahalanobis via bootstrap.


1
0 9 8 7
1
1 4 6 2 5 3 1
Ligao completa
Distncia
50%

Figura 9 Dendrograma representando as seqncias de fuso das parcelas, obtida
pelo emprego do mtodo ligao completa, com base na matriz de distncia de
Mahalanobis via bootstrap.
43

5 8 9 6 7
1
0
1
1 4 2 1 3
Centride
Distncia
50%

Figura 10 Dendrograma representando as seqncias de fuso das parcelas,
obtido pelo emprego do mtodo do centride, com base na matriz de distncia de
Mahalanobis via bootstrap.


5 7 6 8 9
1
0
1
1 4 2 1 3
Mediana
50%
Distncia

Figura 11 Dendrograma representando as seqncias de fuses das parcelas,
obtido pelo emprego do mtodo da mediana, com base na matriz de distncia de
Mahalanobis via bootstrap.
44

9 8 7
1
0
1
1 4 6 2 5 3 1
Mdias das distncias
Distncia
50%

Figura 12 Dendrograma representando as seqncias das parcelas, obtido pelo
emprego do mtodo das mdias das distncias, com base na matriz de distncia de
Mahalanobis via bootstrap.


1
0 9 8 7
1
1 4 6 2 5 3 1
Ward
Distncia
50%

Figura 13 Dendrograma representando as seqncias das parcelas, obtido pelo
emprego do mtodo do Ward, com base na matriz de distncia de Mahalanobis via
bootstrap.
45


Tabela 7 - Porcentagem de grupos coincidentes entre mtodos de agrupamento,
com base na matriz de Mahalanobis via bootstrap, (nvel de significncia do teste de
independncia do ), a partir da tabela de contingncia e do grau de associao
2


Mtodos Mdias das
distncias
Centride Mediana Ligao
simples
Ligao
completa
Centride

86%
(0,58)

Mediana

86%
( 0,58)
100%
(0,71)

Ligao simples 100%
(0,71)
86%
(0,58)
86%
(0,58)

Ligao Completa 100%
(0,71)
86%
(0,58)
86%
(0,58)
80%
(0,51)

Ward 84%
(0,57)
70%
(0,38)
70%
(0,38)
67%
(0,57)
84%
(0,57)
Entre parentes - nvel de significncia do teste de independncia do .
2



Verificando que os resultados da qui-quadrado (Tabela 8) para um nvel de
significncia de 1% e 5% e de um grau de liberdade igual 3,84 e 6,64
respectivamente, que no deixa dvida que se pode rejeita-se H
0
, isto , concluindo-
se com risco de 1% e 5% que os mtodos so dependentes, ou esto associados,
excluindo-se os mtodos do ( centride e Ward) e (mediana Ward).

Tabela 8 - Resultados dos dados de reamostragem bootstrap com 10000 interaes
com associao dos mtodos obtidos a partir da qui-quadrado

Mtodos Mdias das
distncias
Centride Mediana Ligao
simples
Ligao
completa
Centride 10,82
Mediana 10,82 22,00
Ligao simples 20,00 10,82 10,82
Ligao Completa 20,00 10,82 10,82 7,20
Ward 9,00 3,48 3,46 9,00 9,00

importante destacar que o fato desse tipo de anlise no apresentar um
critrio objetivo para identificao dos grupos dificulta muito a interpretao dos
resultados.



46

4.3 Correlao cofentica

Os valores das correlaes cofentica (Tabela 9) foram todas de magnitude
elevada, para os dados originais e bootstrap. Isso mostra que h boa representao
das matrizes de dissimilaridade na forma de dendrogramas e que isso independe do
mtodo usado.

Tabela 9 - Correlaes cofentica entre as matrizes cofentica e a de dissimilaridade
obtidas conforme mtodo de agrupamento utilizado

Mtodos de Agrupamento Matriz
Original Bootstrap
Ligao simples 0,99 0,99
Ligao completa 0,98 0,99
Centride 0,99 0,99
Mediana 0,99 0,99
Mdia das distncias 0,99 0,99
Ward 0,99 0,99


4.4 Distoro entre a matriz de dissimilaridade e a matriz cofentica

Tanto para os dados originais como os obtidos via bootstrap (Tabela 10), o
mtodos mdia das distncias apresentou distoro nula e Ward bootstrap
apresentou a maior distoro, corroborando com o observado na anlise da
correlao cofentica, ou seja, de que h uma boa representao das matrizes de
dissimilaridade na forma de dendrograma e que isso independe do mtodo usado e
dos dados.

Tabela 10 - Grau de distoro (%) entre as distncias original e bootstrap e a obtida
por meio dos dendrogramas obtidos conforme mtodo de agrupamento utilizado

Mtodos de Agrupamento Matriz
Original Bootstrap
Ligao simples 0,18 0,16
Ligao completa 0,21 0,16
Centride 0,35 0,36
Mediana 0,26 0,33
Mdia das distncias 0,00 0,00
Ward 0,31 0,40

Apesar do presente trabalho no ter como objetivo comparar os mtodos de
anlise, algumas consideraes podem ser feitas. Com base em tudo que foi
47

apresentado, que, de forma geral no se deve utilizar vrios mtodos de
agrupamento e a comparao posterior dos resultados obtidos, pois este
procedimento muito vulgarizado (Reis, 1997).
interessante notar que os mtodos dentro de cada categoria possuem
princpios comuns e podem apresentar resultados muito parecidos.
Como j foi dito, existem diferentes distncias, tcnicas e mtodos para
agrupar indivduos. O importante conhecer suas propriedades, qualidade e
deficincias, pois ir ajudar escolha daquele que melhor responde ao objetivo do
trabalho.
A principal dificuldade para interpretar os resultados da anlise de
agrupamento com construo de dendrogramas se deve ao fato de no haver um
critrio objetivo para identificar os grupos formados. Em diversos trabalhos os
pesquisadores tm os seus prprios critrios.
Algoritmos que produzem rvores (dendrograma) so difceis de analisar na
presena de muitos objetos (Bussab et al., 1990), pois os mesmo dificultam sua
visualizao.
Apesar da versatilidade do modelo bootstrap, mais pesquisas devem ser
conduzidas visando o pleno entendimento desse fenmeno, to intrigante nos
programas de anlise de agrupamento, que a interao dos dados. Um dos pontos
que merecem estudos mais detalhados a definio dos nveis de estabilidade e
dos intervalos de confiana.
Finalmente, preciso mencionar que a tcnica bootstrap proposta, exige
esforo computacional. Entretanto, pode ser vantajosa sua utilizao quando se
deseja alta qualidade na informao sobre a estabilidade dos dados em estudo.
48

5. CONCLUSES

A sistemtica proposta promissora para o estudo e a interpretao da
estabilidade dos mtodos em anlise de agrupamento, atravs de vrios algoritmos
de agrupamento em dados de vegetao.
Houve correlao entre os mtodos de estimao da distncia Mahalanobis
baseado na associao da tabela de contingncia. Prem, independente do mtodo
utilizado, mostrou que h significativa estabilidade entre os mtodos.
Consideremos que esses resultados preliminares podem orientar pesquisas
futuras no sentido de investigar correlaes que podem justificar ou explicar os
diferentes agrupamentos encontrados. Podem, ainda, subsidiar estudos posteriores
sobre fatores crticos na anlise de agrupamento.

49

6. REFERNCIAS BIBLIOGRFICAS

AAKER, D. A.; KUMAR, V.; DAY, G. S. Pesquisa de marketing, So Paulo: Atlas,
2001. 745p.
ALDENDERFER, M. S.; BLASHFELD, R.K. Cluster analysis. Beverly Hills; Sage,
1984, 547p.
ANDERSON, T. W. An introduction to multivariate statistical analysis, New York:
John Wiley & Sons, 1984, 675 p.
ANDERBERG, M. R. Cluster analysis for applications. New York: Acafenic press,
1973, 359p.
ARAJO, R. C. C. Aplicao das tcnicas de DEA e Bootstrap para avaliar a
eficincia do metr do Recife. Recife: UFRPE, 2003. 56f. Dissertao (Mestrado
em Biometria) Universidade Federal Rural de Pernambuco, 2003.
BARROSO, L. P., ARTES, R. Anlise de Multivariada. Lavras: UFLA, 2003. 157p.
BICKEL, P.; FREEDMAN, D. Some asymptotic theory the bootstrap. Annals of
Statistics, v, 1, n, 9, p.1196-1197, 1981.
BOUROCHE, J. M. SAPORTA, G. Anlise de dados, Rio de Janeiro: Zahar, 1972.
116p.
BUSSAB, W. DE O; MIAZAKI, E. S; ANDRADE, D. Introduo anlise de
agrupamentos. So Paulo: Associao Brasileira de Estatstica, 1990. 105p.
CARLINI-GARCIA, L. A. Estudo da estrutura gentica populacional atravs de
marcadores moleculares. Piracicaba: ESALQ, 1998. 118f. Monografia (Ps-
graduao) Escola Superior de Agricultura Luiz de Queiroz, Universidade de So
Paulo.
CLIFFORD, H. T.; STEPHENSON, W. An introduction to numerical taxonomy.
London: Academic Press, 1975. 229p.
CORMACK, R. A review of classification. Journal of the Royal Statistical Society
(Series A), v.134, p.321-367, 1971.
CRUZ, C. D.; REGAZZI, A. J. Divergncia gentica. In: CRUZ, C. D.; REGAZZI, A. J.
Mtodos biomtricos aplicados ao melhoramento gentico. Viosa, UFV:
Impressa Universitria. 1994, cap. 6, p. 287-323.
DICICCIO, T. J.; EFRON, B. Bootstrap confidence interval. Statistical Science, v,
11, n. 11, p.189-228, 1996.
50

DONI, M. V. Anlise de Cluster: mtodos hierrquicos e de partio, So Paulo:
Mackenzie: 2004. 93f. Monografia (Ps-graduao) Universidade Presbiteriana
Mackenzie, 2004.
DUARTE, M. C.; SANTOS, J. B.; MELO, L. C. Comparison of similarity coefficients
based on RAPD markers in the common bean. Genetics and Molecular Biology,
v.22, n.3, p.427-432, 1999.
EDWARDS, A.W.F; CAVALLI-SFORZA, L.L. A method for cluster analysis.
Biometrics, v.21, n.2, p.362375, 1965.
EFRON, B. Bootstrap methods: another look at jackknife. Annals of Statistics, v. 7,
n.1, p.1-26, 1979,
EFRON, B.; TIBSHIRANI, R. J. An introduction to the bootstrap. London:
Champman & Hall, 1993. 579p.
EVERITT, B. Cluster analysis, London: Heinemann Educational Books, 1974. 136p.
EVERITT, B.S. The analysis of contingency tables. 2. ed. London: Chapman &
Hall, 1992. 164p.
EVERITT, B. S, LANDAU, S., LEESE, M. Cluster analysis. 4 ed. London: Arnold.
2001. 207p.
GAMA M. de P. Bases da anlise de agrupamentos (Cluster Analysis).
Braslia: UnB, 1980. 229f. Dissertao (Mestrado em Estatstica e Mtodos
Quantitativos) - Universidade de Braslia, 1980,
GOWER, J. C.; LEGENDRE, P. Metric and euclidean properties of dissimilarity
coefficients, Journal of Classification, v. 3, p. 5-48, 1986.
GOWER, J. C. A comparison of some methods of cluster analysis. Biometrics, v.23,
p.623-637, 1967.
HILLIS. D. M.; MORITZ. C.; MABLE. B. K. Molecular systematics. Massachusetts:
Sinauer Associates, 1996. 655p.
JACKSON, A. A.; SOMERS, K. M.; HARVERY, H. H. Similarity coefficients:
measures for co-occurrence and association or simply measures of occurrence?
American Naturalist, v.133, p. 436-453, 1989.
JAIRO, S. F.; GILBERTO A. M. Curso de Estatstica. So Paulo: Atlas. 1996, 320p.
JOHNSON, R. A.; WICHERN, D. W. Applied multivariate statistical analysis. 3 ed.
New Jersey: Prantice Hall, 1992. 642p.
KAUFMANN, L., ROUSSEEUW, P. J., Finding groups in data: an introduction to
cluster analysis. New York: Jonh Wiley, 1990. 342p.
51

KRUSKAL, J. B. Multidimensional scaling by optimizing goodness of fit to a
nommetric hypothesis. Psychometrika, v. 29, p. 1-27, 1964.
LANCE, G.N., WILLIAMS, W. T. A general theory of classificatory sorting stategies,
Computer Journal, v. 9, p. 373-380, 1967.
LAVARANTI, O. J. Estabilidade e adatabilidade fenotipica da reamostragem
bootstrap no modelo AMMI. Piracicaba: ESALQ, 2003. 166f. Tese (Doutorado
em Agronomia) - Escola Superior de Agricultura Luiz de Queiroz, 2003.
MANLY, B. F. J.; Randomization and Monte Carlo methods in biology.
Cambridge: Cambridge University Press, 1997. 215p.
MARDIA, A. K. V.; KENT. J. T.; BIBBY, J.M. Multivariate analysis. London:
Academic Press, 1997, 518p.
MEYER, A. S.; Comparao de coeficientes de similaridade usados em anlise
de agrupamento com dados de marcadores moleculares dominantes.
Piracicaba: ESALQ, 2002. 106f. Dissertao (Mestrado em Agronomia) - Escola
Superior de Agricultura Luiz de Queiroz, 2002.
MEYER, D. rvores evolutivas humanas: uma discusso sobre inferncia
filogentica. Ribeiro Preto: Sociedade Brasileira de Gentica, 1995. 136p. (Srie
Monografias, 3)
ORLCI, L.; Multivariate analysis in vegetational research. 2. ed. The Hague: Dr.
W. Junk B. V. Publishers, 1978. 451p.
RAO, C. R. Advanced statistical methods in biometric research. New York: John
Wiley & Sons.1952. 390p.
REIS, E.; Estatstica multivariada aplicada. Lisboa: Edies Silabo, 1997. 342p.
RIBOLDI, J. Anlise de agrupamento Cluster Analysis, Piracicaba: ESALQ/USP,
1986.49p. (Monografia).
ROMESBURG, C. H. Cluster analysis for researchers. Belmont: Lifetime Learning
Publications, 1984. 334p.
SNEATH, P. H. A; SOKAL, R. R. Numeric taxonomy: the principles and practice of
numerical classification. San Francisco: W. H. Freeman, 1973. 573p.
SOKAL, R. R.; MICHENER, C.D. A statistical method for evaluating systematic
relationships. Bulletin of the Society University of Kansas, n.38, p.109-1438,
1958.
SOUZA, A. L.; FERREIRA, R. L. C.; XAVIER, A. Anlise de agrupamento aplicada
cincia florestal. Viosa: SIF, 1997. 109 f. (Documento SIF, 16).
52

WARD, J. H.; Hierarchical grouping to optimize an objective function. Journal of.
American Statistical Association, v. 58, p. 236-244, 1963.
WEIR, B. W.; Genetic data analysis: Methods for discrete population genetic data.
Sunderland: Sinauer, 1990. 445p.
53