Dissertação

UNIVERSIDADE ESTADUAL DO CEARÁ – UECE
Centro de Ciências e Tecnologia – CCT
CENTRO FEDERAL DE EDUCAÇÃO TECNOLÓGICA

DO CEARÁ - CEFETCE
Diretoria de Pesquisa e Pós-Graduação – DIPPG
MESTRADO INTEGRADO PROFISSIONAL EM COMPUTAÇÃO

APLICADA – UECE/CEFETCE
João Frederico Roldan Viana
ANÁLISE MULTIVARIADA DE AGRUPAMENTOS DE

DADOS UTILIZANDO TÉCNICAS RÍGIDAS E DIFUSAS
Fortaleza – Ceará
Junho de 2008

DO CEARÁ - CEFETCE

João Frederico Roldan Viana
ANÁLISE MULTIVARIADA DE AGRUPAMENTOS DE

DADOS UTILIZANDO TÉCNICAS RÍGIDAS E DIFUSAS
Dissertação apresentada ao Curso de Mestrado

Profissional em Computação Aplicada da
Universidade Estadual do Ceará e do Centro
Federal de Educação Tecnológica do Ceará,
como requisito parcial para obtenção do grau de
Mestre em Computação Aplicada, área de
concentração: Sistemas de Apoio a Decisão.
Orientador: Prof. Dr. Airton Fontenele Sampaio
Xavier.
Co-orientador: Prof. Dr. Marcos José Negreiros
Gomes.
Fortaleza – Ceará
Junho de 2008

DO CEARÁ - CEFETCE

Título do Trabalho: Análise multivariada de agrupamentos de dados

utilizando técnicas rígidas e difusas
Autor: João Frederico Roldan Viana
Defesa em ____ / ____ / ________ Conceito obtido: ________
Banca Examinadora
_________________________________
Airton Fontenele Sampaio Xavier, LDc. (UECE)
Orientador
_________________________________
Carlos Humes Junior, DSc. (USP)
1º Membro Externo
_________________________________
Guilherme Lincoln Ellery, DSc. (UECE)
1º Membro Interno
_________________________________
Gustavo Augusto Lima Campos, DSc. (UECE)
2º Membro Interno
“Um dia eu tive um sonho . . .
Sonhei que estava andando na praia com o Senhor e
através do céu passavam cenas da minha vida.
Para cada cena que passava, percebi que eram deixados
dois pares de pegadas na areia: um era meu e o outro era
do Senhor.
Quando a última cena passou diante de nós, olhei para
trás, para as pegadas na areia e notei que muitas vezes, no
caminho da minha vida, havia apenas um par de pegadas
na areia.
Notei também que isso aconteceu nos momentos mais
difíceis e angustiantes do meu viver. Isso me aborreceu
deveras e perguntei então ao Senhor:
- Senhor, Tu me disseste que, uma vez que resolvi te seguir,
Tu andarias sempre comigo, em todo caminho. Contudo,
notei que durante as maiores atribulações do meu viver,
havia apenas um par de pegadas na areia. Não
compreendo por que nas horas em que eu mais necessitava
de Ti, Tu me deixaste sozinho?
O senhor me respondeu:
- Meu querido filho. Jamais te deixaria nas horas de
provas e de sofrimento. Quando viste, na areia, apenas um
par de pegadas, eram as minhas. Foi exatamente aí que eu
te carreguei nos braços.
Poema Pegadas na Areia - Autor desconhecido.

AGRADECIMENTOS
A Deus por guiar meus caminhos.

Aos meus pais Viana e Maria Teresa que me deram o dom da vida,
construíram o alicerce do meu caráter e confiaram acima de tudo na minha
capacidade de aprendizado e superação.
À minha esposa Juraci que como um anjo apareceu em minha vida
trazendo amor, tranqüilidade e a paz de espírito necessária para dar
continuidade aos meus ideais.
Aos meus irmãos André e Fabio que incentivaram a minha carreira
profissional como se fossem as suas próprias.
Às minhas irmãs Ana Valéria e Flávia que apoiaram a minha
formação acadêmica e extracurricular.
Às minhas sobrinhas Débora, Juliana, Thaís Helena, Ana Beatriz e
Mariana e ao meu sobrinho João Guilherme que trouxeram mais alegria para
minha vida.
Ao professor e orientador Airton Xavier que com paciência e
dedicação foi o meu condutor nesta estrada chamada dissertação.
Ao professor, co-orientador e grande amigo Marcos Negreiros que
foi duro nos meus momentos de desleixo e compreensivo quando necessário.
E a todos que de alguma forma contribuíram para que eu desse
mais este passo na minha vida.
RESUMO
O problema de agrupamento pode ser definido como a tarefa de

encontrar uma partição em k grupos, a partir de um conjunto de n indivíduos X
= { x1, x2, . . ., xn }, onde cada indivíduo está descrito através de p variáveis, de
tal sorte que se alcance a máxima similaridade entre os elementos de cada
grupo e a máxima dissimilaridade entre os elementos de grupos distintos.
Esse problema tem sido bastante estudado na literatura científica e

pode ser aplicado em diversas áreas como na medicina, biologia, educação,
administração, matemática e muitas outras.
O presente trabalho insere-se dentro desse contexto e, nele, faz-se

uma explanação sobre as técnicas de agrupamento hierárquicas e não-
hierárquicas envolvendo suas versões rígidas e difusas, além do método de
identificação de “grupos naturais” e, enfim, complementando-se pela análise de
componentes principais, cuja finalidade é permitir uma redução da
dimensionalidade do problema.
O seu principal objetivo é implementar ou adequar algoritmos de

agrupamento nos softwares de análise multivariada de dados FastClass
(ALMEIDA, 2005) e SCluster (VIANA, 2003) e aplicá-los em exemplos
propostos e da literatura.
ABSTRACT
The clustering problem can be defined as the task of finding a

partition in k groups, of a set of n individuals X = { x1, x2, . . ., xn }, where each
individual is described through p variables, in order to reach the maximum
similarity among the elements of each group and the maximum dissimilarity
among the elements of distinct groups.
This problem has been sufficiently studied in scientific literature and

can be applied in several areas such as medicine, biology, education,
administration, mathematics and many others.
The present work is inserted inside this context and, in it, an

explanation is made about the hierarchic and not-hierarchic grouping
techniques involving its rigid and diffuse versions, besides the method of
identification of "natural groups" e, at last, complementing for the analysis of
main components, whose purpose is to allow a reduction of the dimensionality
of the problem.
Its main objective is to implement or to adjust grouping algorithms in

the tools of multivaried analysis of data FastClass (ALMEIDA, 2005) and
SCluster (VIANA, 2003) and to apply them in proposed and literature examples.
SUMÁRIO
p.
LISTA DE FIGURAS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . x
LISTA DE TABELAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xii
INTRODUÇÃO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1 – MÉTODOS DE AGRUPAMENTO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1 Métodos de agrupamentos não-hierárquicos. . . . . . . . . . . . . . . . . 4
1.1.1 Algoritmos de Médias (“means”). . . . . . . . . . . . . . . . . . . . . . 5
1.1.1.1 Versão de Forgy. . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.1.2 Versão JMeans. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1.2 Nuvens Dinâmicas de Diday. . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2 Métodos de agrupamentos hierárquicos . . . . . . . . . . . . . . . . . . . . 13
1.2.1 Árvore Geradora. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2.2 Algoritmo de Kruskal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2.3 Algoritmo Hierárquico Não Supervisionado (IGN) . . . . . . . . 18
2 – AGRUPAMENTOS DIFUSOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1 Algoritmo Difuso de Forgy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2 Algoritmo Difuso de Diday . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3 – ANÁLISE DE COMPONENTES PRINCIPAIS . . . . . . . . . . . . . . . . . . . . 34
4 – ANÁLISE COMPARATIVA ENTRE OS MÉTODOS DE
AGRUPAMENTOS RÍGIDOS E DIFUSOS . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.1 Flor de Íris. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.1.1 Resultados da ACP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.1.2 Resultados do algoritmo de Forgy rígido . . . . . . . . . . . . . . . 39
4.1.3 Resultados do algoritmo de Forgy difuso. . . . . . . . . . . . . . . 40
4.1.4 Resultados do algoritmo de Diday rígido . . . . . . . . . . . . . . . 41
4.1.5 Resultados do algoritmo de Diday difuso. . . . . . . . . . . . . . . 42
4.1.6 Resultados do algoritmo IGN . . . . . . . . . . . . . . . . . . . . . . . . 43
4.1.7 Análise dos resultados obtidos. . . . . . . . . . . . . . . . . . . . . . . 44
4.2 Exemplo de Devillez – 3 grupos. . . . . . . . . . . . . . . . . . . . . . . . . . . 45
viii

4.3 Exemplo de Devillez – 4 grupos. . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.4 Breast Cancer Wisconsin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.5 Diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.6 Exemplo proposto – Trevo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
ix

4.7 Exemplo Proposto de 375 indivíduos. . . . . . . . . . . . . . . . . . . . . . . 68
4.8 Exemplo proposto em 3D – 2 arcos entrelaçados . . . . . . . . . . . . . 76
4.9 Exemplo proposto em 3D – 1 cubo com 12 arcos . . . . . . . . . . . . . 80
CONCLUSÃO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
REFERÊNCIAS BIBLIOGRAFICAS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I
APÊNDICE A – SCLUSTER E FASTCLASS. . . . . . . . . . . . V
A.1 SCluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . V
A.1.1 Diagrama de Classes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII
A.1.2 Interface para duas dimensões . . . . . . . . . . . . . . . . . . . . . . VIII
A.1.3 Interface para três dimensões . . . . . . . . . . . . . . . . . . . . . . . VIII
A.1.4 Interface para N dimensões. . . . . . . . . . . . . . . . . . . . . . . . . X
A.2 FastClass. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . X
x
A.2.1 Diagrama de Classes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XI

A. 2.2 Interface para duas e três dimensões. . . . . . . . . . . . . . . . . XIII
LISTA DE FIGURAS
p.
Figura 1 – Formação inicial de 50 indivíduos. . . . . . . . . . . . . . . . . . . . 7

Figura 2 – Grupos que se esperaria obter . . . . . . . . . . . . . . . . . . . . . . 8
Figura 3 – Etapas iterativas do método de Forgy. . . . . . . . . . . . . . . . . 9
Figura 4 – Etapas iterativas do método JMeans . . . . . . . . . . . . . . . . . 10
Figura 5 – Etapas iterativas do método das nuvens dinâmicas de
Diday. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Figura 6 – Etapas iterativas de um agrupamento hierárquico
aglomerativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Figura 7 – Dendograma do agrupamento hierárquico aglomerativo . . 16
Figura 8 – Etapas iterativas do método de Kruskal . . . . . . . . . . . . . . . 18
Figura 9 – Etapas iterativas do método IGN. . . . . . . . . . . . . . . . . . . . . 20
Figura 10 – Gráfico: Custo x No de árvores . . . . . . . . . . . . . . . . . . . . . . 21
Figura 11 – Etapas iterativas do algoritmo difuso de Forgy. . . . . . . . . . 27
Figura 12 – Etapas iterativas do algoritmo difuso de Forgy com o
processo de desfuzzificação. . . . . . . . . . . . . . . . . . . . . . . . 31
Figura 13 – Etapas iterativas da versão difusa das nuvens dinâmicas
de Diday . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Figura 14 – Gráfico com resultado da análise de componentes
principais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Figura 15 – Agrupamento do Diday rígido para o exemplo da Flor de
Íris . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Figura 16 – Agrupamento do IGN para o exemplo da Flor de Íris . . . . . 45
Figura 17 – Formação inicial do exemplo de Devillez – 3 grupos. . . . . 45
Figura 18 – Agrupamento do Diday rígido para o exemplo de Devillez
– 3 grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Figura 19 – Agrupamento do IGN para o exemplo de Devillez – 3
grupos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Figura 20 – Formação inicial do exemplo de Devillez – 4 grupos. . . . . 50
Figura 21 – Agrupamento do Diday rígido para o exemplo de Devillez
– 4 grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
xii
Figura 22 – Agrupamento do IGN para o exemplo de Devillez – 4

grupos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Figura 23 – Agrupamento do Forgy rígido para o exemplo Breast
Cancer Wisconsin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Figura 24 – Agrupamento do Forgy rígido para o exemplo Diabetes. . . 63
Figura 25 – Formação inicial do exemplo proposto – Trevo. . . . . . . . . . 64
Figura 26 – Agrupamento do IGN para o exemplo proposto – Trevo. . . 67
Figura 27 – Agrupamento do Forgy rígido para o exemplo proposto –
Trevo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
Figura 28 – Agrupamento do Diday rígido para o exemplo proposto –
Trevo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
Figura 29 – Formação inicial do exemplo proposto de 375 indivíduos. . 69
Figura 30 – Agrupamento do Forgy difuso para o exemplo proposto
de 375 indivíduos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Figura 31 – Agrupamento do IGN para o exemplo proposto de 375
indivíduos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Figura 32 – Formação inicial do exemplo proposto em 3D – 2 arcos . . 76
Figura 33 – Agrupamento do Forgy rígido para o exemplo proposto
em 3D – 2 arcos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
Figura 34 – Agrupamento do IGN para o exemplo proposto em 3D – 2
arcos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
Figura 35 – Formação inicial do exemplo proposto em 3D – 1 cubo
com 12 arcos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
Figura 36 – Agrupamento do Forgy rígido para o exemplo proposto
em 3D – 1 cubo com 12 arcos. . . . . . . . . . . . . . . . . . . . . . . 87
Figura 37 – Agrupamento do IGN para o exemplo proposto em 3D – 1
cubo com 12 arcos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
Figura 38 – Tela principal do software SCluster. . . . . . . . . . . . . . . . . . . VI
Figura 39 – Diagrama das principais classes do software SCluster. . . . VII
Figura 40 – Interface em 3D do software SCluster. . . . . . . . . . . . . . . . . IX
Figura 41 – Visualizador de grupos em 3D . . . . . . . . . . . . . . . . . . . . . . IX
Figura 42 – Interface em nD do software SCluster. . . . . . . . . . . . . . . . . X
Figura 43 – Tela principal do software FastClass. . . . . . . . . . . . . . . . . . XI
Figura 44 – Diagrama das principais classes do software FastClass . . XII
Figura 45 – Interface em 3D do software FastClass . . . . . . . . . . . . . . . XIII
LISTA DE TABELAS
p.
Tabela 1 – Graus de Pertinência após execução do algoritmo difuso

de Forgy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Tabela 2 – Graus de Pertinência após processo de desfuzzificação . . 29
Tabela 3 – Distribuição dos indivíduos nos grupos após
desfuzzificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Tabela 4 – Resultados da ACP para o exemplo da flor de íris . . . . . . . 39
Tabela 5 – Resultados do Forgy rígido para o exemplo da flor de íris,
observando todas as variáveis . . . . . . . . . . . . . . . . . . . . . . 39
Tabela 6 – Resultados do Forgy rígido para o exemplo da flor de íris,
observando as duas principais componentes. . . . . . . . . . . 40
Tabela 7 – Resultados do Forgy difuso para o exemplo da flor de íris,
Tabela 8 – Resultados do Forgy difuso para o exemplo da flor de íris,
Tabela 9 – Resultados do Diday rígido para o exemplo da flor de íris,
Tabela 10 – Resultados do Diday rígido para o exemplo da flor de íris,
Tabela 11 – Resultados do Diday difuso para o exemplo da flor de íris,
Tabela 12 – Resultados do Diday difuso para o exemplo da flor de íris,
Tabela 13 – Resultados do IGN para o exemplo da flor de íris,
Tabela 14 – Resultados do IGN para o exemplo da flor de íris,
Tabela 15 – Resultado da ACP para o exemplo de Devillez. . . . . . . . . . 46
Tabela 16 – Resultados do Forgy rígido para o exemplo de Devillez –
3 grupos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Tabela 17 – Resultados do Forgy difuso para o exemplo de Devillez –
3 grupos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
xiv
Tabela 18 – Resultados do Diday rígido para o exemplo de Devillez –

3 grupos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Tabela 19 – Resultados do Diday difuso para o exemplo de Devillez –
3 grupos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Tabela 20 – Resultados do IGN para o exemplo de Devillez – 3 grupos. 48
Tabela 21 – Resultado da ACP para o exemplo de Devillez – 4 grupos. 50
Tabela 22 – Resultados do Forgy rígido para o exemplo de Devillez –
4 grupos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Tabela 23 – Resultados do Forgy difuso para o exemplo de Devillez –
4 grupos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Tabela 24 – Resultados do Diday rígido para o exemplo de Devillez –
4 grupos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
Tabela 25 – Resultados do Diday difuso para o exemplo de Devillez –
4 grupos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Tabela 26 – Resultados do IGN para o exemplo de Devillez – 4 grupos. 53
Tabela 27 – Resultado da ACP para o exemplo Breast Câncer
Wisconsin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Tabela 28 – Resultado do Forgy rígido para o exemplo Breast Cancer
Wisconsin, observando todas as variáveis . . . . . . . . . . . . . 56
Wisconsin, observando as sete principais componentes . . 56
Tabela 30 – Resultado do Diday rígido para o exemplo Breast Cancer
Tabela 31 – Resultado do Diday rígido para o exemplo Breast Câncer
Tabela 32 – Resultado do IGN para o exemplo Breast Cancer
Tabela 33 – Resultado do IGN para o exemplo Breast Cancer
Tabela 34 – Resultado da ACP para o exemplo Diabetes . . . . . . . . . . . 60
Tabela 35 – Resultado do Forgy rígido para o exemplo Diabetes,
Tabela 36 – Resultado do Forgy rígido para o exemplo Diabetes,
Tabela 37 – Resultado do Diday rígido para o exemplo Diabetes,
Tabela 38 – Resultado do Diday rígido para o exemplo Diabetes,
xv
Tabela 39 – Resultado do IGN para o exemplo Diabetes, observando

todas as variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Tabela 40 – Resultado do IGN para o Diabetes, observando as duas
principais componentes. . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Tabela 41 – Resultado da ACP para o exemplo proposto – Trevo. . . . . 65
Tabela 42 – Resultado do Forgy rígido para o exemplo proposto –
Trevo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Tabela 43 – Resultado do Forgy difuso para o exemplo proposto –
Trevo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
Tabela 44 – Resultado do Diday rígido para o exemplo proposto –
Trevo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
Tabela 45 – Resultado do Diday difuso para o exemplo proposto –
Trevo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Tabela 46 – Resultado da ACP para o exemplo proposto de 375
indivíduos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
Tabela 47 – Resultado do Forgy rígido para o exemplo proposto de
375 indivíduos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
Tabela 48 – Resultado do Forgy difuso para o exemplo proposto de
375 indivíduos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
Tabela 49 – Resultado do Diday rígido para o exemplo proposto de
375 indivíduos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
Tabela 50 – Resultado do Diday difuso para o exemplo proposto de
375 indivíduos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
Tabela 51 – Resultado do IGN para o exemplo proposto de 375
indivíduos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
Tabela 52 – Resultado da ACP para o exemplo proposto em 3D – 2
arcos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
Tabela 53 – Resultado do Forgy rígido para o exemplo proposto em
3D – 2 arcos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
Tabela 54 – Resultado do Forgy difuso para o exemplo proposto em
3D – 2 arcos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
Tabela 55 – Resultado do Diday rígido para o exemplo proposto em
3D – 2 arcos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
Tabela 56 – Resultado do Diday difuso para o exemplo proposto em
3D – 2 arcos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
Tabela 57 – Resultado do IGN para o exemplo proposto em 3D – 2
arcos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
Tabela 58 – Resultado da ACP para o exemplo proposto em 3D – 1
cubo com 12 arcos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
xvi
Tabela 59 – Resultado do Forgy rígido para o exemplo proposto em

3D – 1 cubo com 12 arcos. . . . . . . . . . . . . . . . . . . . . . . . . . 82
Tabela 60 – Resultado do Forgy difuso para o exemplo proposto em
3D – 1 cubo com 12 arcos. . . . . . . . . . . . . . . . . . . . . . . . . . 83
Tabela 61 – Resultado do Diday rígido para o exemplo proposto em
3D – 1 cubo com 12 arcos. . . . . . . . . . . . . . . . . . . . . . . . . . 84
Tabela 62 – Resultado do Diday difuso para o exemplo proposto em 1
cubo com 12 arcos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Tabela 63 – Resultado do IGN para o exemplo proposto em 3D – 1
cubo com 12 arcos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
INTRODUÇÃO
A análise multivariada de agrupamentos é uma técnica de Estatística

utilizada para gerar uma estrutura categorizada de dados a partir de um
conjunto observado. Os grupos de elementos que são formados devem ter um
grau elevado de associação entre membros do mesmo grupo e um grau baixo
entre membros de grupos diferentes (ANDERBERG, 1973).
O problema de agrupamento de dados pode ser visto como um

procedimento de otimização no qual se procura maximizar as diferenças das
características dos indivíduos de grupos distintos (dissimilaridades inter-
grupos) e ao mesmo tempo minimizar as diferenças das características dos
indivíduos de um mesmo grupo (semelhanças intra-grupos) (NOVAIS, 2002).
Muitas são as aplicações de domínio científico, tecnológico ou

econômico, onde é necessário extrair conhecimento a partir de um conjunto de
dados. Neste contexto, a análise multivariada de agrupamentos de dados é
extremamente importante na análise desta informação, pois estuda um
conjunto de relações interdependentes entre variáveis. Seus métodos têm sido
amplamente aplicados em numerosas áreas cientificas, como reconhecimento
de padrões, identificação de perfis de comportamento, recuperação de
informação, análise comportamental, análise microbiológica, detecção de
enfermidades, marketing, tratamento de imagens, entre outras.
Os métodos de agrupamento de dados, portanto, são desenvolvidos

para identificar um conjunto finito de grupos relativos a uma base de dados.
Desta forma eles são úteis para reduzir o universo estudado, o que facilita a
compreensão do todo, montar uma estrutura de classificação e sugerir
hipóteses sobre o comportamento destes dados. Contudo, o objetivo principal
de tais métodos é que cada grupo identificado seja uma representação
aproximada de seus indivíduos e com isso seja possível substituir as
2
características de cada indivíduo pelas características do grupo a que pertence

(FRAKES e YATES, 1992).
Os métodos de agrupamento, de acordo com o tipo de estrutura de

grupos que produzem, podem ser classificados em: hierárquicos e não-
hierárquicos (DIAS E SILVA, 1986). Os hierárquicos envolvem uma série de
agrupamentos ou divisões, em que os indivíduos são sucessivamente
agregados ou desagregados. Já os métodos não-hierárquicos dividem o
conjunto de indivíduos numa quantidade determinada de grupos.
Quanto à rigidez, os métodos de agrupamento podem ser

classificados em: rígidos e difusos (DIAS E SILVA, 1986). Nos rígidos a
classificação é dita binária, pois o indivíduo apenas pode pertencer ou não a
um grupo. Nos métodos de agrupamentos difusos ou “fuzzy” o indivíduo pode
apresentar quaisquer pertinências totais ou parciais aos vários grupos.
A utilização da análise multivariada de agrupamentos de dados

exige o conhecimento das propriedades dos diversos algoritmos à disposição
para a seleção do mais adequado ao propósito especificado, uma vez que os
diferentes métodos podem levar a diferentes soluções. Este trabalho insere-se
dentro deste contexto, detalhando os principais métodos, comparando e
analisando os resultados das implementações de alguns de seus algoritmos.
Esta dissertação está estruturada em cinco capítulos. O primeiro

capítulo descreve os métodos de agrupamento hierárquicos e não-hierárquicos
bem como alguns de seus respectivos algoritmos. O segundo explica os
métodos de agrupamento difusos, com ênfase nos procedimentos, de Forgy e
Diday. No terceiro, discorre-se a respeito da análise de componentes
principais. No quarto capítulo é realizada uma análise comparativa entre os
resultados obtidos com aplicação desses métodos em exemplos extraídos da
literatura. No apêndice A os softwares utilizados nesta dissertação, SCluster
(VIANA, 2003) e FastClass (ALMEIDA, 2005), são apresentados, dando-se
ênfase aos seus recursos e relevâncias como sistemas de apoio à decisão em
análise de agrupamentos.
1 – MÉTODOS DE AGRUPAMENTO
O processo de agrupar objetos reais ou abstratos em classes

similares é uma importante atividade humana que se desenvolve naturalmente
desde a infância. Todo ser humano possui seus esquemas de agrupamento de
pessoas, fatos, objetos, etc., os aprimora e utiliza no dia-a-dia.
O problema de “categorização” ou de agrupamento pode ser visto

como sendo a construção de um dado número de grupos que reúnem o maior
número de características em comum para os indivíduos agregados
(NEGREIROS et. al., 2002). Dado um conjunto finito de indivíduos, o problema
de agrupamento consiste em encontrar uma estrutura em que indivíduos mais
similares fiquem no mesmo grupo e indivíduos menos similares sejam alocados
em grupos distintos.
Um aspecto importante a ser considerado em relação ao problema

de agrupamento é como medir o quanto um indivíduo é similar a outro, ou seja,
quantificar o grau de associatividade entre eles e, assim, identificar se dois
indivíduos devem estar contidos em um mesmo grupo ou não. Para isto, pode
ser utilizada uma medida de distância ou uma medida de semelhança
(similaridade) ou dessemelhança (dissimilaridade). Todas elas buscam o grau
de associatividade entre os indivíduos e são obtidas por transformações a partir
de dados quantitativos ou qualitativos. A escolha de uma tal medida envolve
uma componente de julgamento que deve ser tratada com bastante cuidado
para evitar erros de interpretação na solução do problema.
De uma maneira mais formal, o problema de agrupamento pode ser

definido como se segue: dado um conjunto com n indivíduos
X = { x1, x2, . . ., xn }, onde cada indivíduo xi, com 1 ≤ i ≤ n,
identifica-se a um vetor de p valores que caracterizam este indivíduo, o
problema de agrupamento consiste na obtenção de um conjunto de k grupos,
4
G = { G1, G2, . . ., Gk }, de forma que as seguintes condições sejam atendidas:

 G1 ∪ G2 ∪ . . . ∪ Gk = X;
 Gi ≠ ∅, ∀i , 1 ≤ i ≤ k;
 Gi ∩ Gj = ∅, ∀i ≠ j, 1 ≤ i, j ≤ k.
Por estas condições, um indivíduo não pode pertencer a mais de um

grupo (grupos disjuntos) e cada grupo tem que ter pelo menos um indivíduo
(HRUSCHKA e EBECKEN, 2003). Vale ressaltar que na aplicação de um
particular algoritmo, excepcionalmente, um ou mais grupos poderão resultar
vazios. Neste caso, a partição obtida terá menos que k grupos.
Os métodos de agrupamento de dados atribuem indivíduos aos

grupos criados baseados em uma medida de similaridade entre os indivíduos.
De acordo com a técnica utilizada para classificar os indivíduos em grupos, os
métodos de agrupamento podem ser divididos em dois principais tipos: os
hierárquicos e os não-hierárquicos. Os métodos de agrupamento hierárquicos
organizam o conjunto de indivíduos na medida em que pares de indivíduos ou
de grupos são sucessivamente agregados ou desagregados formando uma
hierarquia de partições, enquanto nos métodos de agrupamento não-
hierárquico obtém-se uma partição do conjunto de indivíduos em k grupos
disjuntos (KAUFMANN e ROUSSEEUW, 1990). Nestes últimos, o número de
grupos poderá ser escolhido a priori ou inferido no decorrer do algoritmo.
1.1 Métodos de agrupamento não-hierárquicos
Esta técnica de partição dos dados é baseada na idéia de otimizar

algum critério pré-definido. O uso dela geralmente assume que o número final
de clusters seja conhecido à partida, apesar de haver alguns métodos que
permitem que esse número varie ao longo da análise.
Os métodos de agrupamento de dados não-hierárquicos, também

conhecidos como métodos particionais, produzem uma classificação separando
um conjunto de indivíduos em k grupos não sobrepostos. Eles são baseados
na minimização de uma função de custo, onde os indivíduos são agrupados em
5
um número k de grupos, escolhido a priori, utilizando uma medida de

dissimilaridade (distância) ou de similaridade (semelhança ou proximidade)
(XAVIER e XAVIER, 1994). Cada indivíduo é alocado no grupo em que essa
função de custo é minimizada, garantindo, assim, que indivíduos, quando
comparados com os demais de seu grupo, guardem máxima similaridade e
quando comparados com os indivíduos de outros grupos apresentem mínima
similaridade.
Estes métodos não requerem que a alocação de um indivíduo em

um grupo seja definitiva. Por isso eles são considerados combinatórios por
natureza, já que existe um grande número de possibilidade de alocar um
conjunto n de indivíduos em k grupos.
Os métodos de agrupamentos de dados não-hierárquicos mais

conhecidos, e usualmente utilizados, são os algoritmos de médias (“means”) e
as nuvens dinâmicas de Diday. Os primeiros agrupam os indivíduos em torno
de centros individuais não necessariamente pertencentes ao universo
observado, enquanto as nuvens dinâmicas de Diday agrupam os indivíduos em
torno de centros constituídos de um ou mais elementos (“estalões” ou
“protótipos”) que obrigatoriamente pertencem ao universo a ser agrupado
(LANGRAND, 1994).
1.1.1 Algoritmos de Médias (“means”)
Os algoritmos de médias, também conhecidos como algoritmos de

centróides ou “k-means”, baseiam-se na minimização de uma função de custo
da distância interna entre os indivíduos e os centros de seus grupos. Eles são
conhecidos por apresentar um caráter discreto, pois, a cada iteração busca-se
minimizar o custo, diminuindo o valor da distorção e garantindo, assim, a
identificação de um mínimo local da função-objetivo (LIKAS et. al., 2003).
Esses algoritmos têm como ponto de partida um agrupamento inicial

dos indivíduos e em cada iteração, baseado na medida de distância ou
similaridade, são criados novos grupos, com seus indivíduos e centros, que
6
diminuem o custo da função-objetivo. Estas iterações são exaustivamente

executadas até que o algoritmo não consiga mais diminuir este custo ou até
que seja alcançado um critério preestabelecido de parada.
Os algoritmos “k-means” apresentam, como vantagens principais, a

simplicidade na implementação e a rapidez da execução, o que aumenta a sua
aplicabilidade a conjuntos com um grande número de indivíduos a serem
agrupados. Suas principais desvantagens são: a dependência do valor inicial
da quantidade de grupos a serem formados, da ordem em que os indivíduos
são agrupados, da escolha dos primeiros centros de agrupamento e da
disposição geométrica dos indivíduos do conjunto a ser agrupado, pois eles
produzem como resultado grupos concêntricos.
Esses algoritmos possuem diversas implementações. Neste trabalho

serão utilizados as versões de Forgy e JMeans, descritas a seguir.
1.1.1.1 Versão de Forgy
A versão de Forgy para o algoritmo de “k-means” trata de uma

heurística interativa para obtenção de um ótimo local, que busca identificar,
rapidamente, aqueles k-grupos (onde k é inicialmente informado) que melhor
se ajustam aos dados pela proximidade aos centróides previamente
encontrados (FORGY, 1965).
Nesta versão, o algoritmo parte de um agrupamento inicial com os

centróides dos k grupos, para, a cada iteração, gerar novos grupos que
diminuam a função-objetivo utilizada ƒ (Pik), que é o somatório dos quadrados
das distâncias dentro dos grupos. Uma das vantagens deste método é a
rapidez da convergência. Num universo de n indivíduos e k grupos, o algoritmo
só irá realizar no máximo n x k comparações, o que torna viável o agrupamento
de um grande conjunto de indivíduos.
Devido aos bons resultados do método de Forgy e à aplicabilidade

aos conjuntos de larga escala, muitos pesquisadores utilizam-no como
7
algoritmo inicial de agrupamento e definição prévia do número de grupos,

sendo, posteriormente, utilizados algoritmos para dividir ou fundir a partição
obtida inicialmente pelo método de Forgy. Outros executam o método com
diferentes escolhas de soluções iniciais. Em particular ao invés de iniciar com a
escolha de uma partição pode-se optar pela seleção de pontos que funcionarão
como centróides iniciais. Por fim, variam o número de grupos até obter um que
possa generalizar e representar o conjunto suficientemente.
O algoritmo de Forgy pode ser descrito como:

Passo 1: Faça i = 0
Passo 2: Se i = 0, tome uma partição P0k de X;
Senão, forme uma nova partição Pik de X, alocando cada
indivíduo ao grupo cujo centróide esteja mais próximo e
faça i = i + 1.
Passo 3: Calcule os novos centróides dos grupos formados.
Passo 4: Se ƒ (Pik) ≥ ƒ (Pi -1k), pare;

Senão, vá ao passo 2.
Na figura 1 é exibida uma formação inicial de cinqüenta indivíduos

criada no software SCluster (VIANA, 2003) e utilizada para demonstrar o
funcionamento dos algoritmos implementados nos softwares SCluster (VIANA,
2003) e FastClass (ALMEIDA, 2005).
Figura 1 – Formação Inicial de 50 indivíduos

8
A figura 2 exibe, separado com círculos, os grupos que se espera

obter. Nestes grupos, têm-se os indivíduos mais unidos, enquanto os demais
podem ser considerados como de passagem ou “outlier”.
Figura 2 – Grupos que se esperaria obter
Na figura 3, podem-se acompanhar os passos iterativos do método

de Forgy para a formação de cinco grupos. Estas figuras foram obtidas a partir
da execução do algoritmo da versão Forgy, implementado no software SCluster
(VIANA, 2003).
(a) Partição inicial (b) 2ª Iteração
(c) 4ª Iteração (d) 5ª Iteração

9
(e) Partição Final (f) Resultado obtido X esperado
Figura 3 – Etapas iterativas do método de Forgy
A figura 3–f acima mostra que o método de Forgy identificou 3 dos 5

grupos esperados e um dos grupos esperados teve indivíduos absorvidos pelo
grupo vizinho. Os grupos reconhecidos corretamente estão marcados com
círculo contínuo, enquanto o outro está com um círculo tracejado. É importante
observar que nos algoritmos de medianas todos os indivíduos são agrupados,
por isto os “outliers” fazem parte de algum grupo.
1.1.1.2 Versão JMeans
A versão JMeans é iniciada com uma partição aleatória de k grupos

desejados e a cada iteração alguns indivíduos são retirados do seu grupo e
atribuídos a outros para minimizar a função-objetivo ƒobj (Pik), que é o somatório
dos quadrados das distâncias dos indivíduos aos centros dos seus grupos
(HANSEN e MLADENOVIC, 2002).
Neste método, a cada iteração, os indivíduos que se afastam do seu

centróide, a uma distância maior que uma tolerância t, são atribuídos aos
outros grupos e naquele que melhor minimizar a função-objetivo eles são
realocados.
O algoritmo JMeans pode ser descrito como:

Passo 1: Assuma uma solução inicial de alocação dos indivíduos a
seus respectivos k grupos;
Passo 2: Encontre os indivíduos em que a distância ao centro do
seu grupo seja maior que uma certa tolerância t e
marque-os como não ocupados;
10
Passo 3: Reatribua os indivíduos não ocupados aos outros grupos

e encontre a melhor partição PM’, ou seja, aquela que
melhor minimize a função-objetivo local ƒobj’;
Passo 4: Se não ocorrer melhora na função-objetivo ( ƒobj’ > ƒobj ),

pare, caso contrário, retorne ao passo 2.
Na figura 4, pode-se acompanhar os passos iterativos do método

JMeans para a formação de cinco grupos dos mesmos indivíduos da figura 1.
Estas figuras foram obtidas a partir da execução do algoritmo de JMeans,
implementado no software SCluster (VIANA, 2003).
(e) Partição Final (f) Resultado obtido X esperado

Figura 4 – Etapas iterativas do método JMeans
11
A figura 4–f acima mostra que o método JMeans identificou todos os

5 grupos esperados, os quais estão marcados com círculo contínuo. É
importante observar que todos os indivíduos são necessariamente agrupados,
por isto os “outliers” fazem parte de algum grupo.
1.1.2 Nuvens Dinâmicas de Diday
Nas nuvens dinâmicas de Diday, diferente do que acontece nos

algoritmos de medianas (k-means), os indivíduos são agrupados em torno de
centros que obrigatoriamente pertencem ao universo a ser agrupado. Neste
método, os grupos não são caracterizados por um centróide e sim por um
conjunto de indivíduos que constituem o núcleo do grupo, denominados
padrões. Este núcleo pode ser um indivíduo ou um conjunto de indivíduos
(DIDAY, 1973).
Os algoritmos de agrupamento não hierárquico do tipo nuvens

dinâmicas buscam otimizar um critério que se exprime pela adequação entre os
grupos e a maneira de representá-los. A finalidade é possibilitar um
reconhecimento de formas, no sentido dos núcleos ficarem melhores
adaptados às conformações geométricas das classes que devem representar
(ALMEIDA, 2005).
Os centros, em torno dos quais os indivíduos são agrupados, são

substituídos pela representação do grupo. A inovação principal desse tipo de
algoritmo de agrupamento não hierárquico é procurar simultaneamente a
partição e a melhor representação dos grupos que constituem esta partição,
minimizando um critério de ajustamento entre esta partição e a representação
de cada um dos grupos (DIDAY e SIMON, 1976). Em muitas aplicações, este
método fornece uma melhor descrição do que os algoritmos k-means.
Esse tipo de algoritmo é executado iterativamente, até a

convergência em um mínimo local que depende da constituição inicial dos
grupos. Ele é composto por duas etapas principais, a primeira é uma fase de
representação, que associa um representante a cada classe partição e a
12
segunda é a fase de alocação, que associa a cada representante obtido na

fase de representação, um novo grupo formando assim uma nova partição.
O algoritmo de Diday pode ser descrito como:
Passo 1: Assuma uma solução inicial aleatória de k núcleos;
Passo 2: Atribua cada indivíduo a ser agrupado ao núcleo mais

próximo, obtendo assim K grupos que melhor minimize a
função-objetivo local ƒobj’, que é a média das distâncias
dos indivíduos ao representante mais próximo dos seus
grupos;
Passo 3: Para cada grupo gerado obtenha um novo núcleo que

seja mais representativo;
Passo 4: Se não ocorrer melhora na função-objetivo ( ƒobj’ > ƒobj ),

pare, caso contrário, retorne ao passo 2.
Na figura 5 são exibidos os passos iterativos de um agrupamento

dos mesmos indivíduos da figura 1 com a execução do algoritmo das nuvens
dinâmicas de Diday, implementado no software FastClass (ALMEIDA, 2005).

13
(c) Partição final (d) Resultado obtido X esperado
Figura 5 – Etapas iterativas do método das nuvens dinâmicas de Diday
A figura 5–f acima mostra que o método das nuvens dinâmicas de

Diday identificou todos os 5 grupos esperados, os quais estão marcados com
círculo contínuo. É importante observar que todos os indivíduos são
necessariamente agrupados, por isto os “outliers” fazem parte de algum grupo.
1.2 Métodos de agrupamentos hierárquicos
Nos métodos de agrupamentos hierárquicos, que são técnicas mais

complexas do que as dos métodos não-hierárquicos, os indivíduos de um
conjunto são sucessivamente agregados ou separados até que todos os
indivíduos formem uma estrutura de partições hierarquicamente organizada,
segundo a similaridade entre eles (BOUDAILLIER e HEBRAIL, 1998).
Os métodos hierárquicos podem ser divididos em aglomerativos ou

ascendentes e divisivos ou descendentes. Os métodos aglomerativos partem
de uma solução inicial em que cada indivíduo do conjunto a ser agrupado é
considerado um grupo e a cada iteração eles são gradualmente agregados até
a obtenção de um único grupo com todos os indivíduos. Os métodos divisivos
consideram a princípio a existência de um único grupo com todos os indivíduos
e em cada passo realiza divisões até que cada indivíduo forme um grupo
(EVERITT, 2001).
14
Os algoritmos aglomerativos são os mais comuns dentre os métodos

hierárquicos. Partindo do princípio que no início cada indivíduo do conjunto a
ser agrupado é considerado um grupo, o primeiro passo deste tipo de
algoritmos é criar uma matriz de similaridade entre os grupos. Após isto,
encontra-se o menor valor desta matriz de similaridade, para identificar os dois
agrupamentos mais similares entre si, formando, assim, um novo agrupamento.
A matriz de similaridade é atualizada, contendo agora um grupo a menos, e os
passos são repetidos até ficar apenas um agrupamento com todos os
indivíduos (VALE, 2005).
Na figura 6 é exibida uma formação inicial de dez indivíduos criada

no software SCluster (VIANA, 2003) e utilizada para demonstrar os passos
iterativos de um agrupamento hierárquico aglomerativo. Na figura 7 é
apresentado o dendograma, que é um gráfico com a representação hierárquica
do agrupamento obtido (JACOBY, 1998) com a execução de um método de
agrupamento hierárquico aglomerativo do software SCluster (VIANA, 2003),
onde em um eixo tem-se cada indivíduo do conjunto a ser agrupado e, no
outro, cada agregação ocorrida nas iterações do algoritmo.

15
(e) 4ª Iteração (f) 5ª Iteração
(g) 6ª Iteração (h) 7ª Iteração
(i) 8ª Iteração (j) Partição final
Figura 6 – Etapas iterativas de um agrupamento hierárquico aglomerativo

16
Figura 7 – Dendograma do agrupamento hierárquico aglomerativo
1.2.1 Árvore geradora
Uma árvore geradora de um grafo conexo G = (V, E) é uma estrutura

em árvore T que é um sub-grafo de G e contém todos os vértices de G. Se um
grafo é desconexo, não podemos identificar nenhuma árvore geradora. Mas
podemos identificar, no mínimo, uma floresta de árvores geradoras, uma para
cada componente do grafo.
O algoritmo para achar uma árvore geradora de um grafo G é

bastante simples. Se G não contém nenhum ciclo ele já é a sua própria árvore
geradora. Agora se ele contém pelo menos um ciclo, tira-se uma aresta deste
ciclo, resultando em um grafo ainda conexo. Continua-se com o processo até
que não exista mais nenhum ciclo, obtendo-se então um grafo que é um grafo
conexo e uma árvore.
Seja G = (V, E) um grafo conexo onde cada aresta “e” possui um

peso p(e). Denomina-se peso de uma árvore geradora T = (V, ET) de G a soma
dos pesos das arestas ET. Uma árvore geradora mínima é a árvore geradora de
G que possui peso mínimo dentre todas as árvores geradoras de G.
O problema de se encontrar a árvore geradora mínima para um

grafo G conexo pode ser colocado formalmente da seguinte forma:
17
Deseja-se encontrar um subconjunto ET ⊆ E tal que:

1. (V, ET) seja uma árvore;
2. ∑ p(e) seja mínimo.

e∈ET
1.2.2 Algoritmo de Kruskal – 1956
O algoritmo de Kruskal é um algoritmo guloso que busca uma árvore

geradora mínima para um grafo convexo com pesos, ou seja, ele encontra um
subconjunto das arestas que forma uma árvore que inclui todos os vértices,
onde a soma dos pesos das arestas da árvore é minimizada.
Seja G = (V, E) um grafo convexo de V vértices com o conjunto E de

arestas, o algoritmo de Kruskal faz T vazio e seleciona-se a aresta de E que
tem o menor peso e se ela conectar dois grupos diferentes, colocam-nas no
conjunto T e os dois grupos são unidos para formar um novo agrupamento,
caso contrário, ela é descartada, pois a sua inclusão formaria um ciclo.
Continua-se assim até a obtenção de um único grupo, neste caso T constitui a
solução (CORMEN et. al., 2001).
A principal característica do algoritmo de Kruskal é que ele seleciona

a melhor aresta sem, no início, levar em conta a conexão com as arestas
selecionadas antes. O resultado é uma proliferação de árvores que
eventualmente se juntam para formar uma única árvore.
O algoritmo pode ser descrito da seguinte forma:
Passo 1: T = ∅
Passo 2: Para cada vértice v ∈ V[G] crie as árvores

Passo 3: Coloque os arcos em ordem crescente de peso
Passo 4: Para cada arco (u, v) ∈ E verifique se ambos estão na

mesma árvore. Caso não estejam, adicione o arco
encontrado em T e una os vértices nas duas árvores.
18
Na figura 8 são exibidos os passos iterativos da execução do

algoritmo de Kruskal, implementado no software SCluster (VIANA, 2003), para
os mesmos 50 indivíduos da figura 1.
(a) 1ª Iteração (b) 10ª Iteração
(e) 40ª Iteração (f) Partição Final
Figura 8 – Etapas iterativas do método de Kruskal
1.2.3 Algoritmo Hierárquico Não Supervisionado (IGN)

Os métodos para identificar grupos naturais em geral buscam
encontrar a melhor quantidade de k grupos para os existentes em um processo
de agrupamento de um conjunto de n indivíduos (ZAHID et. al., 2001). Trata-se
de um problema de otimização onde se busca encontrar, baseado em algum
19
critério ou índice, a solução que melhor identifica as partições que entre si

formam uma forte ligação de semelhança, caracterizando a naturalidade das
agregações finais. Em geral, os grupos naturais contêm um número relevante
de indivíduos agregados, maior que dois, porém não existe nenhuma regra de
equilíbrio quanto à quantidade de indivíduos nos grupos.
Segundo (KAUFMAN e ROUSSEEUW, 1990), a utilização das

técnicas hierárquicas de agrupamento para a identificação de grupos naturais
possuem o inconveniente de não estabelecerem respostas prontas para o
problema de agrupamento. Com o auxílio do software para análise multivariada
de dados SCluster (VIANA, 2003) foram realizados diversos testes e observado
que, diferentemente do pensamento desses autores, as técnicas hierárquicas
são mais adequadas que as técnicas não hierárquicas para a resolução do
problema dos grupos naturais, uma vez que os métodos de agrupamento não
hierárquicos possuem como característica a geração de grupos concêntrico e
não obrigatoriamente os grupos naturais possuem este tipo de configuração.
O algoritmo IGN (identificador de grupos naturais) utiliza o algoritmo

de Kruskal como o método de agrupamento hierárquico, pois a cada iteração
ele cria uma nova árvore independente ou une árvores existentes e, em uma
de suas iterações, encontra a quantidade de grupos naturais existentes. Com
base nisto, o IGN automatiza o processo de escolha da quantidade de árvores
do método que melhor representa a solução do problema dos grupos naturais,
através de um índice de similaridade (VIANA, 2003).
O algoritmo pode ser descrito como:
Passo 1: Executar o algoritmo de Kruskal guardando os custos dos

grupos gerados. Iniciando de n grupos até 1;
Passo 2: Encontrar o módulo da diferença entre o custo de cada

iteração com os custos dos seus dois sucessores;
Passo 3: Selecionar a menor diferença entre o custo obtido a cada

iteração do passo anterior com o seu predecessor;
20
Passo 4: Retornar a composição das árvores do melhor resultado

respeitando o parâmetro de quantidade mínima de
elementos para se constituir um grupo.
A complexidade do método IGN é O(n2 log n), onde n é o número de

indivíduos observados.
Na figura 9 são exibidos os passos iterativos da execução o

algoritmo IGN, implementado no software SCluster (VIANA, 2003), para os
mesmos 50 indivíduos da figura 1.

(e) 50ª Iteração (f) Agrupamento escolhido
(30a Iteração)
Figura 9 – Etapas iterativas do método IGN
21
A figura 9–f acima mostra que o método IGN identificou todos os 5

grupos esperados, os quais estão marcados com círculo contínuo. É importante
observar que neste método de identificação de grupos naturais, nenhuns dos
“outliers” foram agrupados.
Figura 10 – Gráfico: Custo x No de árvores
Considerando que os grupos naturais devam possuir uma

quantidade maior que dois indivíduos agregados, o agrupamento final
escolhido pelo método (figura 9, item f) encontra todos os cinco grupos naturais
existentes na figura 1. Este método realiza sua escolha baseada na região de
mudança brusca de direção vetorial da função de custo de k, componente
principal do índice de agregação (figura 10).
2 – AGRUPAMENTOS DIFUSOS
As técnicas de agrupamento têm como principal objetivo a partição

de um conjunto de indivíduos em grupos homogêneos, em relação a uma
determinada medida de similaridade. Os indivíduos que pertencem a um grupo
devem ser os mais semelhantes possíveis entre si, e os que pertencem a
grupos diferentes devem apresentar a menor semelhança.
Nas técnicas de agrupamento booleano as fronteiras entre os grupos

são bem definidas, e cada indivíduo pertence ou não a um dado grupo. O
termo booleano é utilizado porquê neste tipo de agrupamento um indivíduo
pertence ou não a um determinado grupo e cada indivíduo está associado a um
e somente um grupo. Freqüentemente, esta separação de indivíduos se torna
demasiado arbitrária, e as fronteiras, apesar de bem definidas, não retratam
precisamente a realidade.
É comum a utilização de expressões como freqüentemente, muito,

pouco, raro, entre outras para descrever situações do cotidiano que não são
precisas como um simples sim ou não. Neste contexto, surge a teoria dos
conjuntos difusos para suportar os modos de raciocínio aproximado, em vez de
exato, tratando, assim, as imprecisões dos dados reais. Ela tem como principal
objetivo permitir graduações na pertinência de um indivíduo a um determinado
grupo, ou seja, de possibilitar a um indivíduo pertencer com maior ou menor
intensidade a um ou mais grupos (ZADEH, 1972). Basicamente, isso se faz
quando o grau de pertinência de um indivíduo a um grupo, que na teoria dos
conjuntos booleanos é dado por um valor do conjunto {0,1}, passa a ser dado
por um valor no intervalo dos números reais [0,1].
O conjunto difuso é uma representação de grupos que não têm ou
para os quais não se podem definir limites rígidos entre eles. Na prática, os
conjuntos difusos são funções que indicam o grau de relacionamento de um
23
valor de entrada, ou atributo, para com um conjunto difuso (COX, 1994).
Um conjunto difuso A é caracterizado por uma função de pertinência,

relacionando os elementos de um domínio, espaço, ou universo Z, ao intervalo
unitário [0, 1]. Matematicamente, esta relação pode ser descrita como
µA : Z  [0, 1], com µA ( x ) ∈ [0, 1], onde µA ( x ) mostra o grau com que o
indivíduo x de Z está no conjunto difuso A, com µA ( x ) = 0 e µA ( x ) = 1
indicando, respectivamente, a não pertinência e a pertinência completa de x ao
conjunto difuso A (ZADEH, 1996).
A função difusa µA ( x ) deve assegurar que o valor do indivíduo no

centro do conjunto é “1”, e que este decai de maneira lógica, através da
fronteira difusa (zona de transição), para as regiões fora do conjunto, onde o
valor deve ser “0”. O ponto onde o valor do membro é igual a 0,5 é denominado
de “ponto de cruzamento” e ele deve coincidir com os contatos rígidos dos
conjuntos booleanos. A função deve ser definida de tal modo que esta
condição seja respeitada. As funções mais comuns utilizadas para determinar
valores de indivíduos difusos são funções lineares e quadráticas (BURROUGH
e MCDONNELL, 1998).
Os conjuntos difusos podem ser utilizados de duas maneiras no

problema de agrupamento: a primeira é nos atributos, para representar os
indivíduos, do conjunto a ser agrupado, como um vetor de graus de pertinência,
onde cada item deste vetor representa o grau de pertinência de um
determinado atributo para o indivíduo em questão; a segunda forma é no
agrupamento, para representar o grau de pertinência dos indivíduos aos grupos
(KLIR e YUAN, 1995).
Com a utilização dos conjuntos difusos, o problema de agrupamento

passa a ser caracterizado como um problema de agrupamento difuso, cujo
objetivo principal é a obtenção de uma partição difusa em um conjunto de
indivíduos. A análise de agrupamentos difusos é uma generalização da análise
de agrupamentos clássica, onde o conceito de pertinência é utilizado para
representar o grau com que um indivíduo é similar ao outro.
24
Na resolução de um problema de agrupamento difuso, o resultado

obtido é um conjunto difuso, porém, em muitos casos, é necessário um
conjunto booleano como solução. Uma forma de obter este resultado é realizar
a “desfuzzificação”, que pode ser entendida como o processo utilizado para
converter o conjunto difuso de saída em valores binários observando seus
graus de pertinência. Vale ressaltar que nesse processo não é obrigatório que
todo o conjunto difuso seja desfuzzificado.
Existem vários métodos de “desfuzzificação” e a sua escolha está

associada à forma como a saída do sistema é esperada. Como exemplos deste
processo podem ser citados (NASSAR, 2005):
 Método do Centro de Massa ou Centróide: o valor numérico
obtido representa o centro de gravidade da distribuição de
possibilidade de saída do sistema difuso.
 Método da Média dos Máximos: produz um valor numérico que
representa o valor médio de todos os valores cuja função de
pertinência atinge o máximo de saída.
 Método do Critério Máximo: resulta em um valor numérico onde a
distribuição de possibilidade atinge um valor máximo.
O algoritmo de agrupamento difuso mais utilizado, devido

principalmente a sua simplicidade, é o fuzzy c-means, proposto por Bezdek em
1981. Ele é uma derivação do algoritmo de k-means, utilizando os conceitos
de conjuntos difusos.
O primeiro passo do algoritmo fuzzy c-means é criar uma partição

inicial, onde são definidos, de forma aleatória, os centros de cada um dos k
grupos e para cada indivíduo é calculado o seu grau de pertinência para cada
um dos grupos. Interativamente, com o objetivo de minimizar a função-objetivo.
Os centros dos grupos e os graus de pertinência de cada indivíduo são
atualizados, até que o algoritmo não consiga mais diminuir este custo ou que o
critério de parada seja alcançado.
25
2.1 Algoritmo Difuso de Forgy
A versão difusa de Forgy, assim como a sua versão clássica, trata-

se de uma heurística interativa para identificação de k grupos, com o k
previamente estabelecido e foco na minimização de uma função-objetivo. A
diferença é que ao invés de partições rígidas, o algoritmo fornecerá partições
ponderadas por graus de pertinência dos indivíduos aos grupos.
Dado um conjunto com n indivíduos X = { x1, x2, . . ., xn }, o problema

de agrupamento consiste na obtenção de um conjunto de k grupos, G = { G1,
G2, . . ., Gk }, cujos centros C = { C1, C2, . . ., Ck } são obtidos por:
n
∑µ
j =1
ij xj
Ci = n , i = 1, . . . k
∑ µ ij
j =1
onde, Ci é o centro do grupo i, µij é o grau de pertinência do indivíduo j em

relação ao grupo i e xj é o indivíduo j do conjunto a ser agrupado. O grau de
pertinência é a função difusa µ ∈ [1, 0], cuja influência está no grau de
superposição dos grupos. Portanto, a partição resultante é difusa já que todos
os indivíduos possuem um grau de pertinência a cada um dos grupos.
O algoritmo difuso de Forgy pode ser descrito como:
Passo 1: Selecione k indivíduos para serem os primeiros centros

dos grupos a serem formados;
Passo 2: Calcule o grau de pertinência de cada indivíduo em

relação a cada grupo. Aloque cada indivíduo aos grupos
G = { G1, G2, . . ., Gk }, em torno do conjunto dos centros
C = { C1, C2, . . ., Ck }. O indivíduo será alocado no grupo
que ele tiver o maior grau de pertinência.
Passo 3: Verifique o critério de parada e caso seja atingido pare;
Senão, Calcule os novos centros dos grupos formados e
volte ao passo 2.
26
É importante ressaltar que a eficiência do resultado do agrupamento

utilizando o algoritmo difuso de Forgy depende da função difuso µA aplicada,
da quantidade definida de grupos k e da escolha da partição inicial.
Na figura 11 são exibidos os passos iterativos do algoritmo difuso de

Forgy, implementado no software FastClass (ALMEIDA, 2005), para os
mesmos 50 indivíduos da figura 1. Por tratar-se de um método difuso, os
indivíduos podem pertencer a mais de um grupo. Portanto, para expressar esta
característica, aqueles indivíduos que possuem pertinência máxima para um
grupo estão representados com uma cor sólida, enquanto os que pertencem a
mais de um grupo aparecem de cor amarela e com uma borda da cor do grupo,
no qual ele possui maior grau de pertinência.

27
(e) Partição final (f) Resultado obtido X esperado
Figura 11– Etapas iterativas do algoritmo difuso de Forgy
A figura 11–f acima mostra que o algoritmo difuso de Forgy

identificou todos os 5 grupos esperados, os quais estão marcados com círculo
contínuo. Apenas os centróides, que não pertencem ao conjunto de indivíduos,
estão com uma cor sólida, indicando que nenhum indivíduo apresentou 100%
de pertinência a um grupo. É importante observar que todos os indivíduos são
necessariamente agrupados, por isto os “outlier” fazem parte de algum grupo.
Na tabela 1 são exibidos as pertinências (%) de cada um dos 50

indivíduos da figura 1 em relação aos 5 grupos obtidos. Esses dados foram
retirados do software FastClass (ALMEIDA, 2005) após execução do algoritmo
difuso de Forgy.
Grupo 01 Grupo 02 Grupo 03 Grupo 04 Grupo 05

Indivíduo
(Rósea) (Verde) (Preto) (Vermelho) (Azul)
01 9,7 17,9 13,8 49,6 9,0
02 8,5 18,4 11,5 54,1 7,5
03 10,5 29,7 12,6 38,7 8,5
04 11,4 36,0 12,8 30,9 8,9
05 12,8 40,2 13,2 24,3 9,5
06 6,3 12,2 9,6 66,1 5,8
07 4,4 9,2 6,4 76,1 3,9
08 4,7 11,2 6,6 73,4 4,1
09 6,4 16,8 8,7 62,7 5,4
10 8,6 56,7 9,4 19,1 6,2
11 10,6 53,6 10,6 17,8 7,4
12 9,3 25,5 13,4 44,3 7,5
13 9,6 48,5 11,8 23,1 7,0
14 10,2 17,8 21,1 41,5 9,4
15 12,5 17,4 27,1 30,4 12,6
16 13,6 22,4 25,6 27,0 11,4
17 16,5 32,9 20,2 19,5 10,9
18 11,2 54,9 11,7 15,0 7,2
19 8,6 65,2 8,7 11,9 5,6
28

Indivíduo
20 11,3 57,7 10,6 13,4 7,0
21 11,2 58,3 10,3 13,2 7,0
22 12,0 55,8 10,8 13,9 7,5
23 27,4 19,7 25,0 13,8 14,1
24 18,9 15,9 37,5 13,9 13,8
25 12,7 14,1 42,6 17,6 13,0
26 12,2 10,9 47,3 13,3 16,3
27 10,0 7,5 59,9 8,2 14,4
28 6,4 4,8 75,3 5,2 8,3
29 9,0 6,0 67,2 6,1 11,7
30 7,5 5,4 73,6 5,4 8,1
31 14,7 8,7 51,9 8,3 16,4
32 15,0 8,8 22,1 9,2 44,9
33 13,8 8,6 21,2 8,9 47,5
34 13,5 8,1 18,9 8,3 51,2
35 13,1 7,6 17,0 7,7 54,6
36 13,0 7,2 21,6 7,1 51,1
37 19,1 8,1 23,3 7,4 42,1
38 12,3 5,8 12,1 5,4 64,4
39 25,2 9,2 17,2 8,2 40,2
40 32,5 11,3 17,4 9,6 29,2
41 38,7 12,2 16,5 9,9 22,7
42 48,4 9,5 14,7 7,7 19,7
43 57,0 8,4 12,6 6,6 15,4
44 69,3 6,5 9,1 5,0 10,1
45 69,1 7,1 9,0 5,3 9,5
46 59,1 9,1 11,7 6,9 13,2
47 53,3 11,8 14,7 8,3 11,9
48 35,3 21,4 17,4 12,7 13,2
49 39,8 11,1 22,3 9,0 17,8
50 10,7 7,4 58,1 7,8 16,0
Tabela 1 – Graus de Pertinência após execução do algoritmo difuso de Forgy
Na tabela 2 são exibidos os graus de pertinências (%) de cada um

dos 50 indivíduos da figura 1 em relação aos cinco grupos obtidos, após o
processo de desfuzzificação do software FastClass (ALMEIDA, 2005),
utilizando o método de critério máximo com α = 1.5, onde um indivíduo
somente é alocado a um grupo caso o grau de pertinência em relação a ele for
α vezes maior que cada uma das demais pertinências. Ou seja, dado o
problema de agrupar n indivíduos { x1, x2, . . ., xn } em k grupos { G1, G2, . . .,
Gk } e representando o grau de pertinência do indivíduo j em relação ao grupo i
por µij, tem-se que o indivíduo j pertence ao grupo i se e somente se:
µ ij > αµ mj , com 1 ≤ m ≤ k e α = 1.5
29

Indivíduo
42 100 0 0 0 0
43 100 0 0 0 0
44 100 0 0 0 0
45 100 0 0 0 0
46 100 0 0 0 0
47 100 0 0 0 0
10 0 100 0 0 0
11 0 100 0 0 0
13 0 100 0 0 0
18 0 100 0 0 0
19 0 100 0 0 0
20 0 100 0 0 0
21 0 100 0 0 0
22 0 100 0 0 0
25 0 0 100 0 0
26 0 0 100 0 0
27 0 0 100 0 0
28 0 0 100 0 0
29 0 0 100 0 0
30 0 0 100 0 0
31 0 0 100 0 0
50 0 0 100 0 0
1 0 0 0 100 0
2 0 0 0 100 0
6 0 0 0 100 0
7 0 0 0 100 0
8 0 0 0 100 0
9 0 0 0 100 0
32 0 0 0 0 100
33 0 0 0 0 100
34 0 0 0 0 100
35 0 0 0 0 100
36 0 0 0 0 100
38 0 0 0 0 100
3 10,5 29,7 12,6 38,7 8,5
4 11,4 36,0 12,8 30,9 8,9
5 12,8 40,2 13,2 24,3 9,5
12 9,3 25,5 13,4 44,3 7,5
14 10,2 17,8 21,1 41,5 9,4
15 12,5 17,4 27,1 30,4 12,6
16 13,6 22,4 25,6 27,0 11,4
17 16,5 32,9 20,2 19,5 10,9
23 27,4 19,7 25,0 13,8 14,1
24 18,9 15,9 37,5 13,9 13,8
37 19,1 8,1 23,3 7,4 42,1
39 25,2 9,2 17,2 8,2 40,2
40 32,5 11,3 17,4 9,6 29,2
41 38,7 12,2 16,5 9,9 22,7
48 35,3 21,4 17,4 12,7 13,2
49 39,8 11,1 22,3 9,0 17,8
Tabela 2 – Graus de Pertinência após processo de desfuzzificação
30
A tabela 3 resume a distribuição final dos 50 indivíduos nos cinco

grupos após a desfuzzificação, visualizada na tabela 2. Nela, pode-se observar
a identificação de indivíduos que não pertencem a nenhum dos agrupamentos
(“outlier”).
Grupo 01 (Rósea) 42, 43, 44, 45, 46 e 47

Grupo 02 (Verde) 10, 11, 13, 18, 19, 20, 21 e 22
Grupo 03 (Preto) 25, 26, 27, 28, 29, 30, 31 e 50
Grupo 04 (Vermelho) 1, 2, 6, 7, 8 e 9
Grupo 05 (Azul) 32, 33, 34, 35, 36 e 38
3, 4, 5, 12, 14, 15, 16, 17, 23, 24,
Indivíduos não agrupados
37, 39, 40, 41, 48 e 49
Tabela 3 – Distribuição dos indivíduos nos grupos após desfuzzificação
Na figura 12 podem ser visualizados os passos iterativos do

algoritmo difuso de Forgy, implementado no software FastClass (ALMEIDA,
2005), para os mesmos 50 indivíduos da figura 1, utilizando o processo de
desfuzzificação a cada iteração. Os indivíduos que apresentaram grau de
pertinência 1 estão pintados com a cor sólida do grupo a que pertence,
enquanto os demais aparecem de cor amarela e com uma borda da cor do
grupo, no qual ele possui maior grau de pertinência.
31
(e) Partição final (f) Resultado obtido X esperado
Figura 12 – Etapas iterativas do algoritmo difuso de

Forgy com o processo de desfuzzificação
A figura 12–f acima mostra que o algoritmo difuso de Forgy com o

processo de desfuzzificação identificou todos os 5 grupos esperados, os quais
estão marcados com círculo contínuo, com todos os seus indivíduos
identificados com grau de pertinência 1. Dezesseis indivíduos foram
identificados corretamente como indivíduos de passagem (“outlier”), pois
mesmo após o processo de desfuzzificação não foram alocados a nenhum
grupo, enquanto outros dez “outlier” foram agrupados.
2.2 Algoritmo Difuso de Diday

Na versão difusa das nuvens dinâmicas de Diday, assim como na
versão clássica, os indivíduos são agrupados em torno de representações dos
grupos, também conhecidos como protótipos ou padrões, que pertencem
32
obrigatoriamente ao conjunto a ser agrupado.
O algoritmo difuso de Diday pode ser descrito como:
Passo 1: Assuma uma solução inicial aleatória de k núcleos;
Passo 2: Atribua cada indivíduo a ser agrupado ao núcleo mais

próximo, obtendo assim k grupos, onde o critério de
similaridade definirá o grau de pertinência GP relativo do
indivíduo xi a cada centro Cj do grupo Gj :
d ( xi , C j )
GPi , j = k
∑ d (x ,C
z =1
i z )
sendo d o valor da medida de similaridade entre os

indivíduos e seus respectivos núcleos. O maior grau de
pertinência definirá a qual grupo o indivíduo pertencerá;
Passo 3: Calcular novos núcleos com base nos grupos formados.

O novo núcleo será a melhor combinação dos indivíduos
no grupo que produza a menor distância média entre eles.
Passo 4: Calcule o critério de parada e caso ele seja atingido pare;

Senão, Calcule os novos centros dos grupos formados e
volte ao passo 2.
Na figura 13 são exibidos os passos iterativos do algoritmo difuso

das nuvens dinâmicas de Diday, implementado no software FastClass
(ALMEIDA, 2005), para os mesmos 50 indivíduos da figura 1.
33
(c) Partição final (d) Resultado obtido X esperado
Figura 13 – Etapas iterativas da versão difusa

das nuvens dinâmicas de Diday
A figura 13–f acima mostra que o algoritmo difuso das nuvens

dinâmicas de Diday identificou todos os 5 grupos esperados, os quais estão
marcados com círculo contínuo. É importante observar que todos os indivíduos
são necessariamente agrupados, por isto os “outlier” fazem parte de algum
grupo.
3 – ANÁLISE DE COMPONENTES PRINCIPAIS
Supondo um conjunto com n indivíduos X = { x1, x2, . . ., xn }, onde

cada indivíduo xi, com 1 ≤ i ≤ n, é um vetor de p variáveis aleatórias, com
relevância para a estrutura das covariâncias ou correlações entre as p
variáveis. Geralmente, não é eficiente observar as p variâncias e todas as
1
p ( p − 1) covariâncias, a menos que a quantidade de variáveis p seja muito
2
pequena ou que a estrutura das covariâncias seja bastante simples. Uma
solução para resolver este problema é identificar algumas variáveis aleatórias
(<< p) que preservam a maioria da informação (JOLLIFFE, 2002).
A análise de componentes principais (ACP) é uma técnica estatística

utilizada para reduzir a dimensionalidade de um conjunto multidimensional de
dados, ou seja, de um conjunto com um grande número de variáveis
relacionadas e, ao mesmo tempo, reter o máximo possível da informação
presente neste conjunto de dados (FERREIRA, 2002). Isto é obtido através da
transformação do conjunto de variáveis a ser analisado em um novo conjunto
de variáveis, as componentes principais, que não são relacionadas entre si e
que retêm em poucas variáveis a informação contida em todas do conjunto
original.
A ACP consiste, basicamente, em reescrever as variáveis originais

em novas variáveis denominadas componentes principais, através de uma
transformação de coordenadas. As componentes principais são as novas
variáveis geradas através de uma transformação matemática realizada sobre
as variáveis originais. Cada componente principal é uma combinação linear de
todas as variáveis originais. Por exemplo, um sistema com oito variáveis, após
a transformação, terá oito componentes principais escritas como combinações
lineares das variáveis originais.
35
As componentes principais podem ser analisadas separadamente

devido à ortogonalidade, servindo para interpretar o peso das variáveis
originais na combinação das componentes principais mais importantes e pode
servir para visualizar o conjunto da amostra apenas pelo gráfico das duas
primeiras componentes principais, que detêm maior parte da informação
estatística.
O objetivo principal da análise de componentes principais é

encontrar uma transformação mais representativa e geralmente mais compacta
de um conjunto observado. As principais vantagens da ACP são que as
variáveis podem guardar entre si correlações que são suprimidas nas
componentes principais, ou seja, as componentes principais são ortogonais
entre si. Deste modo, cada componente principal traz uma informação
estatística diferente das outras. E a segunda é decorrente do processo
matemático-estatístico de geração de cada componente que maximiza a
informação estatística para cada uma das coordenadas que estão sendo
criadas. As variáveis originais têm a mesma importância estatística, enquanto
que as componentes principais têm importância estatística decrescente. Assim,
as primeiras componentes principais são tão mais importantes que se pode até
desprezar as demais (MOITA NETO, 2004).
O método de análise de componentes principais pode ser descrito

em cinco passos (LINDSAY e SMITH, 2002). O primeiro é a seleção do
conjunto de dados a ser analisado.
O segundo passo é obter a média das variáveis no conjunto de

dados. Num conjunto com n indivíduos X = { x1, x2, . . ., xn }, onde cada
indivíduo xi , com 1 ≤ i ≤ n, é um vetor de p variáveis [ p1, p2, . . ., pp ], ou seja,
xi = [ xi1, xi2, . . ., xip ], a média das variáveis é obtida da seguinte forma:
n
∑x ij
, j = 1, . . . , p
pj = i =1
36
O terceiro passo é calcular a matriz de covariância do conjunto X,

que é uma matriz quadrática de ordem p, dada por:
 S11 S12  S1 p 
S S 22  S 2 p  1 n
= ∑ ( xki − pi )( xkj − p j )
12
S pxp , com S ij =
     n − 1 k =1
 
 S p1 S p 2  S pp 
onde, xki e xkj são as k-ésimas observações das variáveis xi e xj
respectivamente, e, pi e p j são as médias das variáveis pi e pj nesta ordem.
O quarto passo é calcular os auto-vetores e autovalores da matriz de

covariância obtida. A matriz de covariância S pode ser reduzida a uma matriz
diagonal D através da equação UTSU = D, com:
λ1 0  0 
0 λ  0 
D pxp =
2
    
 e U= u
1 [ u2  u p ]
 
 0 0  λ p 
onde os elementos λ1, λ2, . . ., λp da matriz diagonal L são os autovalores de S,

os elementos u1, u2, . . ., up da matriz U são os auto-vetores de S e UT é a
matriz transposta de U. Os autovalores podem ser obtidos resolvendo a
equação S − λI = 0 , onde S é a matriz de covariância, λ é uma constante e I é
a matriz de identidade de dimensão p. Os auto-vetores podem ser obtidos pela
ti
solução das equações: [ S − λI ]t i = 0 e u i = , para i = 1, 2, . . ., p.
t iT t i
O último passo é observar que os auto-vetores com os maiores
autovalores serão as componentes principais do conjunto de dados analisado.
Alinhando os autovalores de forma decrescente, do valor mais elevado ao mais
baixo, as componentes ficarão ordenadas pela importância, da mais
significativa a menos. Com isto, pode-se decidir por não considerar as
componentes de pouca relevância e, assim, reduzir a dimensão deste conjunto
de dados.
37
A figura 14 mostra um gráfico com o resultado do algoritmo da

análise das componentes principais implementado no software FastClass
(ALMEIDA, 2005) de um conjunto de 100 indivíduos com 12 variáveis. Nela
pode-se observar que as variáveis foram transformadas em 12 componentes
principais com seus respectivos percentuais de importância em relação ao
conjunto analisado. Percebe-se, pela figura, que as quatro primeiras
componentes principais possuem juntas mais de 99% da representatividade do
conjunto observado, o que permite a redução da dimensão da ordem de doze
para quatro sem perda considerável da informação.
Figura 14 – Gráfico com resultado da análise de componentes principais

5 – ANÁLISE COMPARATIVA ENTRE OS MÉTODOS
DE AGRUPAMENTOS RÍGIDOS E DIFUSOS
Neste capítulo serão analisados os resultados dos agrupamentos de

nove exemplos após a execução da análise de componentes principais (ACP) e
dos algoritmos Forgy e Diday nas versões rígidas e difusas, utilizando o
software FastClass (ALMEIDA, 2005), além do IGN implementado no SCluster
(VIANA, 2003). Os cinco primeiros exemplos são clássicos da literatura: Flor de
Íris, exemplos de Devillez, Breast Cancer Wisconsin e Diabetes. Os quatro
últimos são exemplos propostos pelo trabalho. Os exemplos foram escolhidos
para exercitar as diferentes características dos algoritmos implementados.
As versões difusas foram executadas utilizando, a cada iteração, o

processo de desfuzzificação (método de critério máximo), conforme descrito na
página 28 deste trabalho. Nesse caso, os indivíduos, não, necessariamente
precisam ser alocados a um grupo, sendo, portanto, considerados “outliers”.
Como os algoritmos não hierárquicos são heurísticos por natureza e

buscam identificar um mínimo local, para tentar evitar um resultado muito
distante do ótimo, cada método foi executado pelo menos vinte vezes e o
resultado final foi considerado como o da bateria, dentre as execuções, que
obteve o menor valor da função-objetivo.
4.1 Flor de Íris

O exemplo da Flor de Íris foi introduzido por Fisher, em 1936, ao
ilustrar os princípios da análise discriminante. Este problema de classificação
envolve três espécies de flores: Íris setosa; Íris versicolor; e, Íris virgínica. O
conjunto observado possui 150 indivíduos, sendo 50 de cada espécie, e 4
variáveis: comprimento da sépala (SL), largura da sépala (SW), comprimento
da pétala (PL) e largura da pétala (PW).
39
4.1.1 Resultado da ACP
A análise de componentes principais indicou que as duas primeiras

componentes do conjunto possuem juntas mais que 97% de representatividade
do todo, conforme tabela 4. Neste caso, é possível utilizar o resultado da ACP
para reduzir a dimensionalidade do conjunto observado em 50%, com perda de
informação menor que 5%.
Componentes Principais Representatividade (%)

1ª. Componente Principal 92,462
Tabela 4 – Resultado da ACP para o exemplo da flor de íris
4.1.2 Resultados do algoritmo de Forgy rígido
A execução do método rígido de Forgy, analisando as quatro

variáveis, separou os 150 indivíduos em três grupos, conforme tabela 5. Nela
pode-se observar que um grupo foi corretamente identificado e 88,67% dos
indivíduos foram alocados de acordo com a classificação das variedades ou
espécies de flores.
Íris Íris Íris

Grupo Total
setosa versicolor virgínica
Indivíduos esperados por grupo 50 50 50 150
Indivíduos alocados ao grupo 50 61 39 150
Indivíduos alocados ao grupo
50 47 36 133
conforme o esperado
0 14 3 17
diferente do esperado
Tabela 5 – Resultado do Forgy rígido para o exemplo

da Flor de Íris, observando todas as variáveis
40
Na tabela 6, têm-se os resultados obtidos com a execução do

método rígido de Forgy, analisando apenas as duas principais componentes
identificadas pela ACP. Ela mostra que, comparando com a tabela 5, o
resultado obtido foi o mesmo.
Íris Íris Íris

Grupo Total
50 47 36 133
conforme o esperado
0 14 3 17
Tabela 6 – Resultado do Forgy rígido para o exemplo da Flor de Íris,

observando as duas principais componentes
4.1.3 Resultados do algoritmo de Forgy difuso
A execução do algoritmo difuso de Forgy, analisando as quatro

variáveis, separou os 150 indivíduos em três grupos, conforme tabela 7. Nela
pode-se observar que apenas um grupo foi identificado corretamente e 76,67%
dos indivíduos foram alocados de acordo com a classificação das variedades
ou espécies de flores.
Íris Íris Íris

Grupo Total
50 40 25 115
conforme o esperado
0 6 0 6
Tabela 7 – Resultado do Forgy difuso para o exemplo

41

método difuso de Forgy, analisando apenas as duas principais componentes
resultado alcançado foi um pouco melhor, pois também identificou um grupo de
acordo com a classificação das espécies de flores e a quantidade de indivíduos
alocados ao grupo conforme o esperado foi 2,67% maior.
Íris Íris Íris

Grupo Total
50 41 28 119
conforme o esperado
0 7 0 7
Tabela 8 – Resultado do Forgy difuso para o exemplo da Flor de Íris,

4.1.4 Resultados do algoritmo de Diday rígido
A execução da versão rígida das nuvens dinâmicas de Diday,

analisando as quatro variáveis, separou os 150 indivíduos em três grupos,
conforme tabela 9. Nela pode-se observar que um grupo e 92% dos indivíduos
foram alocados de acordo com a classificação das espécies de flores.
Íris Íris Íris

Grupo Total
50 40 48 138
conforme o esperado
0 2 10 12
Tabela 9 – Resultado do Diday rígido para o exemplo

42
Na tabela 10, têm-se os resultados obtidos com a execução da

versão rígida das nuvens dinâmicas de Diday, analisando apenas as duas
principais componentes identificadas pela ACP. Ela mostra que, comparando
com a tabela 9, o resultado obtido foi pior, pois, nenhum grupo foi identificado
corretamente e a quantidade de indivíduos alocados ao grupo conforme o
esperado foi 7,97% menor.
Íris Íris Íris

Grupo Total
50 43 34 127
conforme o esperado
4 16 3 23
Tabela 10 – Resultado do Diday rígido para o exemplo da Flor de Íris,

4.1.5 Resultados do algoritmo de Diday difuso
A execução da versão difusa das nuvens dinâmicas de Diday,

analisando as quatro variáveis, separou os 150 indivíduos em três grupos,
conforme tabela 11. Nela pode-se observar que um grupo e 68,67% dos
indivíduos foram alocados de acordo com a classificação das espécies de
flores. Além disso, 47 indivíduos não foram agrupados.
Íris Íris Íris

Grupo Total
50 21 30 101
conforme o esperado
0 1 1 2
Tabela 11 – Resultado do Diday difuso para o exemplo

43
Na tabela 12, têm-se os resultados obtidos com a execução da

versão difusa das nuvens dinâmicas de Diday, analisando apenas as duas
principais variáveis indicadas pela análise das componentes principais. Ela
mostra que, comparando com a tabela 11, o resultado alcançado foi um pouco
melhor, pois também identificou um grupo de acordo com a classificação das
espécies de flores e a quantidade de indivíduos alocados ao grupo conforme o
esperado foi 7,92% maior.
Íris Íris Íris

Grupo Total
50 24 35 109
conforme o esperado
0 1 2 3
Tabela 12 – Resultado do Diday difuso para o exemplo da Flor de Íris,

4.1.6 Resultados do algoritmo IGN
A execução do algoritmo IGN, analisando as quatro variáveis,

separou os 150 indivíduos em dois grupos, conforme tabela 13. Nela pode-se
observar que um grupo foi identificado de acordo com o esperado.
Íris Íris Íris

Grupo Total
50 50 0 100
conforme o esperado
0 50 0 50
Tabela 13 – Resultado do IGN para o exemplo da Flor de Íris,

observando todas as variáveis
44
Na tabela 14, têm-se os resultados obtidos com a execução do IGN,

analisando apenas as duas principais componentes identificadas pela ACP. Ela
mostra que, comparando com a tabela 13, o resultado obtido foi o mesmo.
Íris Íris Íris

Grupo Total
50 50 0 100
conforme o esperado
0 50 0 50
Tabela 14 – Resultado do IGN para o exemplo da Flor de Íris,

4.1.7 Análise dos resultados obtidos
Dentre os métodos não-hierárquicos utilizados, a versão rígida das

nuvens dinâmicas de Diday foi a que obteve o agrupamento mais próximo da
classificação das três espécies de flores, com 92% de indivíduos alocados ao
grupo conforme o esperado. Na figura 15 é exibido o resultado da execução
deste algoritmo observando todas as quatro variáveis.
Figura 15 – Agrupamento do Diday rígido para o exemplo da Flor de Íris
45
Há muita discussão sobre a quantidade de grupos naturais (2 ou 3)

existentes na flor de íris. Na figura 16 é exibido o resultado obtido com o
método IGN observando as duas principais componentes.
Figura 16 – Agrupamento do IGN para o exemplo da Flor de Íris
4.2 Exemplo de Devillez – 3 grupos
Esse problema de classificação foi proposto por Devillez et. al, 2002.
O conjunto observado possui 474 indivíduos com duas variáveis (figura 17). O
resultado esperado é a formação de três grupos, sendo o primeiro com 110
indivíduos, o segundo com 140 e o terceiro com 224 (DEVILLEZ et. al., 2002).
Figura 17 – Formação inicial do exemplo de Devillez – 3 grupos
46
A análise de componentes principais indicou que uma das

componentes é cerca de quatro vezes mais representativa que a outra,
conforme tabela 15. Porém, neste caso, não é possível utilizar o resultado da
ACP para reduzir a dimensionalidade do conjunto observado, com perda de

Tabela 15 – Resultado da ACP para o exemplo de Devillez – 3 grupos
A execução do método rígido de Forgy separou os 474 indivíduos

em três grupos, conforme tabela 16. Nela pode-se observar que, dos grupos
identificados, nenhum está de acordo com a classificação esperada. O
percentual de indivíduos alocados conforme o esperado foi de 51,69%.
Grupo Grupo 01 Grupo 02 Grupo 03 Total

110 16 119 245
conforme o esperado
124 105 0 229
Tabela 16 – Resultado do Forgy rígido para o exemplo de Devillez – 3 grupos
A execução do método difuso de Forgy separou os 474 indivíduos

em três grupos, conforme tabela 17. Nela pode-se observar que, dos grupos
identificados, nenhum está de acordo com a classificação esperada. O
47
percentual de indivíduos alocados conforme o esperado foi de 39,66% e 112

indivíduos não foram agrupados.

83 0 105 188
conforme o esperado
106 68 0 174
Tabela 17 – Resultado do Forgy difuso para o exemplo de Devillez – 3 grupos
A execução do método rígido das nuvens dinâmicas de Diday

separou os 474 indivíduos em três grupos, conforme tabela 18. Nela pode-se
observar que, dos grupos identificados, nenhum está de acordo com a
classificação esperada. O percentual de indivíduos alocados conforme o
esperado foi de 54,22%.

96 37 124 257
conforme o esperado
104 100 13 217
Tabela 18 – Resultado do Diday rígido para o exemplo de Devillez – 3 grupos
A execução do método difuso das nuvens dinâmicas de Diday

separou os 474 indivíduos em três grupos, conforme tabela 19. Nela pode-se
observar que, dos grupos identificados, nenhum está de acordo com a
48

esperado foi de 29,11% e 197 indivíduos não foram agrupados.

40 0 98 138
conforme o esperado
75 64 0 139
Tabela 19 – Resultado do Diday difuso para o exemplo de Devillez – 3 grupos
A execução do algoritmo IGN separou os 474 indivíduos em três

grupos, conforme tabela 20. Nela pode-se observar que os três grupos foram
identificados de acordo com o esperado.

110 140 224 474
conforme o esperado
0 0 0 0
Tabela 20 – Resultado do IGN para o exemplo de Devillez – 3 grupos

Para este exemplo de Devillez, os métodos não-hierárquicos

executados não identificaram grupos conforme o esperado. Dentre eles, o
resultado da versão rígida das nuvens dinâmicas de Diday pode ser
considerado o melhor, pois alocou a maior quantidade de indivíduos ao grupo
conforme o esperado. Na figura 18 é exibido o resultado da execução deste
algoritmo.
49
Figura 18 – Agrupamento do Diday rígido para

o exemplo de Devillez – 3 grupos
O método IGN identificou todos os grupos, conforme o esperado. Na

figura 19 é exibido o resultado obtido.
Figura 19 – Agrupamento do IGN para o exemplo de Devillez – 3 grupos
4.3 Exemplo de Devillez – 4 grupos
Esse problema de classificação foi proposto por Devillez et. al, 2002.
O conjunto observado possui 236 indivíduos com duas variáveis (figura 20) e o
resultado esperado é a formação de quatro grupos, sendo o primeiro com 47
indivíduos, o segundo e o terceiro com 57, e o quarto com 41, além de 34
50
indivíduos de passagem (DEVILLEZ et. al., 2002).
Figura 20 – Formação inicial do exemplo de Devillez – 4 grupos

componentes tem quase o dobro de representativa em relação à outra,
conforme tabela 21. Porém, neste caso, não é possível utilizar o resultado da
ACP para reduzir a dimensionalidade do conjunto observado, com perda de

Tabela 21 – Resultado da ACP para o exemplo de Devillez – 4 grupos

em quatro grupos, conforme tabela 22. Nela, pode-se observar que dos grupos
identificados nenhum está de acordo com a classificação esperada. Porém,
não considerando os indivíduos de passagem, percebe-se que o método
51
identifica corretamente um grupo. O percentual de indivíduos alocados

conforme o esperado foi de 82,63%.
Grupo Grupo Grupo Grupo Outlier Total

Grupo
01 02 03 04
Indivíduos esperados por
47 57 57 41 34 236
grupo
Indivíduos alocados ao
61 56 63 56 0 236
grupo
grupo conforme o esperado 47 51 56 41 0 195
grupo diferente do esperado 14 5 7 15 0 41
Tabela 22 – Resultado do Forgy rígido para o exemplo de Devillez – 4 grupos

identifica corretamente dois grupos. O percentual de indivíduos alocados

Grupo
01 02 03 04
47 57 57 41 34 236
grupo
51 39 47 43 56 236
grupo
Tabela 23 – Resultado do Forgy difuso para o exemplo de Devillez – 4 grupos
52

separou os 236 indivíduos em quatro grupos, conforme tabela 24. Nela, pode-
se observar que dos grupos identificados nenhum está de acordo com a

Grupo
01 02 03 04
47 57 57 41 34 236
grupo
44 51 82 59 34 236
grupo
Tabela 24 – Resultado do Diday rígido para o exemplo de Devillez – 4 grupos

separou os 236 indivíduos em quatro grupos, conforme tabela 25. Nela, pode-
se observar que dos grupos identificados nenhum está de acordo com a
classificação esperada. Porém, não considerando os indivíduos de passagem,
percebe-se que o método identifica corretamente um grupo. O percentual de
indivíduos alocados conforme o esperado foi de 76,69%.
53

Grupo
01 02 03 04
47 57 57 41 34 236
grupo
45 27 44 53 67 236
grupo
Tabela 25 – Resultado do Diday difuso para o exemplo de Devillez – 4 grupos
A execução do algoritmo IGN separou os 236 indivíduos em quatro

grupos, conforme tabela 26. Nela pode-se observar que todos os grupos foram

Grupo
01 02 03 04
47 57 57 41 34 236
grupo
47 57 57 41 34 236
grupo
Tabela 26 – Resultado do IGN para o exemplo de Devillez – 4 grupos
Para este exemplo de Devillez, os métodos não-hierárquicos

executados não identificaram grupos conforme o esperado. Dentre eles, o
resultado da versão difusa de Forgy pode ser considerado o melhor, pois
alocou a maior quantidade de indivíduos ao grupo conforme o esperado. Na
54
figura 21 é exibido o resultado da execução deste algoritmo.
Figura 21 – Agrupamento do Forgy difuso para

o exemplo de Devillez – 4 grupos
O método IGN identificou todos os grupos conforme o esperado. Na

Figura 22 – Agrupamento do IGN para o exemplo de Devillez – 4 grupos
55
4.4 Breast Cancer Wisconsin
O exemplo Breast Cancer foi publicada pelo Dr. William H. Wolberg

do Hospital da Universidade de Wisconsin. O conjunto observado possui 683
prontuários de pacientes com suspeita de câncer e nove variáveis resultantes
de exames laboratoriais (Clump Thickness, Uniformity of Cell Size, Uniformity
of Cell Shape, Marginal Adhesion, Single Epithelial Cell Size, Bare Nuclei,
Bland Chromatin, Normal Nucleoli e Mitoses). O resultado esperado é a
formação de dois grupos, sendo o primeiro composto por 444 pacientes com
parecer médico de benigno e o segundo com 239 pacientes com diagnóstico
de maligno (WOLBERG e MANGASARIAN, 1990). Por tratar-se de um
exemplo que exige um resultado exclusivo, ou seja, um indivíduo ou é benigno
ou maligno, as versões difusas com o processo de desfuzzificação não foram
executadas.
A análise de componentes principais indicou que a primeira

componente é mais representativa que todas as outras juntas, conforme tabela
27. A utilização do resultado da ACP, com perda de informação menor que 5%,
reduz a dimensionalidade do conjunto observado em 22,22%.

Tabela 27 – Resultado da ACP para o exemplo Breast Cancer Wisconsin
56

em dois grupos, conforme tabela 28. Nela pode-se observar que dos grupos
identificados, nenhum está de acordo com a classificação esperada, porém o
Grupo Benigno Maligno Total

Indivíduos esperados por grupo 444 239 683
Indivíduos alocados ao grupo 453 230 683
435 221 656
conforme o esperado
18 9 27

Wisconsin, observando todas as variáveis

método rígido de Forgy, analisando apenas as sete principais componentes
resultado obtido foi quase o mesmo, havendo um pequeno aumento de quase
0,15% na quantidade de indivíduos alocados conforme o esperado.

435 222 657
conforme o esperado
17 9 26

Wisconsin, observando as sete principais componentes
57
A execução da versão rígida das nuvens dinâmicas de Diday

observar que dos grupos identificados, nenhum está de acordo com a
classificação esperada, porém o percentual de indivíduos alocados conforme o

439 202 641
conforme o esperado
37 5 42


método rígido das nuvens dinâmicas de Diday, analisando apenas as sete
com a tabela 30, o resultado obtido foi um pouco pior, havendo perda de 5,15%
na quantidade de indivíduos alocados conforme o esperado.

442 166 608
conforme o esperado
73 2 75

58
A execução do algoritmo IGN, praticamente, não separou o conjunto

analisado, conforme tabela 32. O método deixou de agrupar dois indivíduos e
os demais 681 foram alocados ao grupo do benigno. O percentual de

444 0 444
conforme o esperado
237 0 237
Tabela 32 – Resultado do IGN para o exemplo Breast Câncer


algoritmo IGN, analisando apenas as sete principais componentes identificadas
pela ACP. Ela mostra que, comparando com a tabela 32, o resultado obtido foi
o mesmo.

444 0 444
conforme o esperado
237 0 237
Tabela 33 – Resultado do IGN para o exemplo Breast Câncer

59
Para o exemplo Breast Cancer Wisconsin, o algoritmo IGN não

apresentou um agrupamento satisfatório. Dentre os métodos não-hierárquicos
executados, o resultado da versão rígida de Forgy (figura 23) pode ser
conforme o esperado (96,05%).
Figura 23 – Agrupamento do Forgy rígido para o

exemplo Breast Cancer Wisconsin
4.5 Diabetes
Esse problema de classificação possui como título original "Pima

Indians Diabetes Database" e é de propriedade do National Institute of
Diabetes and Digestive and Kidney Diseases. O conjunto observado possui 768
indivíduos com oito variáveis (1 – Números de vezes que engravidou, 2 –
Concentração de glicose no plasma em teste de tolerância de glicose oral de 2
horas, 3 – Pressão diastólica em mm/Hg, 4 – Espessura da dobra na pele do
tríceps em mm, 5 – Aplicação de 2 horas de soro com insulina em mu U/ml, 6 –
Índice de massa corpórea, 7 – Função de genealogia de diabetes e 8 – Idade
em anos) (SMITH et. al., 1988).
Retirou-se, dessa base, os indivíduos que possuíam valor zero para
as variáveis 2, 3, 4 e 6, restando 532 indivíduos. O resultado esperado é a
60
formação de dois grupos, sendo o primeiro composto por 355 pacientes com
parecer médico de negativo para diabético e o segundo com 177 pacientes
com diagnóstico de positivo para diabético.
Por tratar-se de um exemplo que exige um resultado exclusivo, ou
seja, um indivíduo ou é diabético ou não, as versões difusas com o processo
de desfuzzificação não foram executadas.
A análise de componentes principais indicou que as duas primeiras

componentes do conjunto possuem juntas mais que 97% de representatividade
do todo, conforme tabela 34. Neste caso, é possível utilizar o resultado da ACP
para reduzir a dimensionalidade do conjunto observado em 75%, com perda de

Tabela 34 – Resultado da ACP para o exemplo Diabetes


em dois grupos, conforme tabela 35. Nela pode-se observar que dos grupos
identificados, nenhum está de acordo com a classificação esperada, porém o
61
Grupo Negativo Positivo Total

311 49 360
conforme o esperado
128 44 172
Tabela 35 – Resultado do Forgy rígido para o

exemplo Diabetes, observando todas as variáveis

método rígido de Forgy, analisando apenas as duas principais componentes

311 49 360
conforme o esperado
128 44 172

Diabetes, observando as duas principais componentes
A execução da versão rígida das nuvens dinâmicas de Diday

observar que dos grupos identificados, nenhum está de acordo com a
classificação esperada, porém o percentual de indivíduos alocados conforme o
62

345 15 360
conforme o esperado
162 10 172
Tabela 37 – Resultado do Diday rígido para o


método rígido das nuvens dinâmicas de Diday, analisando apenas as duas
com a tabela 37, o resultado obtido foi o mesmo.

345 15 360
conforme o esperado
162 10 172

A execução do algoritmo IGN, praticamente, não separou o conjunto

analisado, conforme tabela 32. O método deixou de agrupar três indivíduos e
os demais 529 foram alocados ao grupo do negativo para diabetes. O
63

353 0 353
conforme o esperado
176 0 176
Tabela 39 – Resultado do IGN para o


algoritmo IGN, analisando apenas as duas principais componentes

353 0 353
conforme o esperado
176 0 176
Tabela 40 – Resultado do IGN para o exemplo


Para o exemplo Diabetes, nenhum dos algoritmos executados
apresentou um agrupamento satisfatório. Os resultados dos métodos não-
hierárquicos executados foram iguais e podem ser considerados os melhores,
pois alocou a maior quantidade de indivíduos aos grupos conforme o esperado
(67,67%). A figura 24 exibe o resultado da versão rígida de Forgy analisando
as duas principais componentes.
64
Figura 24 – Agrupamento do Forgy rígido para o exemplo Diabetes
4.6 Exemplo Proposto – Trevo
Esse é um problema de classificação proposto por este trabalho,

como uma variante do exemplo da borboleta sugerido por KLIR e YUAN em
1995. O exemplo é composto por quatro triângulos unidos em forma de trevo.
O conjunto observado possui 261 indivíduos com duas variáveis (figura 25). O
resultado esperado é a formação de quatro grupos com as seguintes
quantidades de elementos 66, 65, 65 e 65.
Figura 25 – Formação inicial do exemplo proposto – Trevo
65
A análise de componentes principais indicou que as duas

componentes principais possuem a mesma representatividade, conforme
tabela 41. Neste caso, não é possível utilizar o resultado da ACP para reduzir a
dimensionalidade do conjunto observado, com perda de informação menor que
5%.

Tabela 41 – Resultado da ACP para o exemplo proposto – Trevo

em quatro grupos, conforme tabela 42. Nela, pode-se observar que todos os
grupos foram identificados de acordo com a classificação esperada.
Indivíduos Indivíduos Indivíduos Indivíduos

Grupo esperados alocados ao alocados ao alocados ao
por grupo grupo grupo conforme grupo diferente
o esperado do esperado
Grupo 01 66 66 66 0
Grupo 02 65 65 65 0
Grupo 03 65 65 65 0
Grupo 04 65 65 65 0
Total 261 261 261 0
Tabela 42 – Resultado do Forgy rígido para o exemplo proposto – Trevo


identificados nenhum está de acordo com a classificação esperada. O
percentual de indivíduos alocados conforme o esperado foi de 90,80%. Além
66
disso, 24 indivíduos não foram agrupados.

Grupo 01 66 60 60 0
Grupo 02 65 61 61 0
Grupo 03 65 58 58 0
Grupo 04 65 58 58 0
Total 261 237 237 0
Tabela 43 – Resultado do Forgy difuso para o exemplo proposto – Trevo

separou os 261 indivíduos em dois grupos, conforme tabela 44. Nela, pode-se
observar que todos os grupos foram identificados de acordo com a
classificação esperada.

Grupo 01 66 66 66 0
Grupo 02 65 65 65 0
Grupo 03 65 65 65 0
Grupo 04 65 65 65 0
Total 261 261 261 0
Tabela 44 – Resultado do Diday rígido para o exemplo proposto – Trevo


observar que dos grupos identificados nenhum está de acordo com a
esperado foi de 81,23%. Além disso, 49 indivíduos não foram agrupados.
67

Grupo 01 66 54 54 0
Grupo 02 65 52 52 0
Grupo 03 65 54 54 0
Grupo 04 65 52 52 0
Total 261 212 212 0
Tabela 45 – Resultado do Diday difuso para o exemplo proposto – Trevo
A execução do algoritmo IGN separou os 261 indivíduos em trinta e

sete grupos naturais, conforme figura 26. Nela, pode-se observar que dos
grupos identificados nenhum está de acordo com a classificação esperada.
Figura 26 – Agrupamento do IGN para o exemplo proposto – Trevo

Para este exemplo proposto em 2D – Trevo, o algoritmo IGN não

apresentou um resultado satisfatório. As versões rígidas dos métodos não-
hierárquicos executados identificaram todos os grupos, conforme o esperado.
Nas figuras 27 e 28 são exibidos, respectivamente, os resultados obtidos com
68
as execuções das versões rígidas de Forgy e das nuvens dinâmicas de Diday.
Figura 27 – Agrupamento do Forgy rígido para o exemplo proposto – Trevo
Figura 28 – Agrupamento do Diday rígido para o exemplo proposto – Trevo

4.7 Exemplo Proposto de 375 indivíduos
Esse é um problema de classificação proposto por este trabalho. O

conjunto observado possui 375 indivíduos com duas variáveis (figura 29). O
resultado esperado é a formação de treze grupos com as seguintes
quantidades de elementos 20, 9, 39, 26, 37, 28, 23, 14, 15, 39, 17, 9 e 10. Além
desses, o exemplo apresenta 89 indivíduos de passagem (“outlier”).
69
Figura 29 – Formação inicial do exemplo proposto de 375 indivíduos

componentes é cerca de duas vezes mais representativa que a outra, conforme
tabela 46. Porém, neste caso, não é possível utilizar o resultado da ACP para
reduzir a dimensionalidade do conjunto observado, com perda de informação
menor que 5%.

Tabela 46 – Resultado da ACP para o exemplo
proposto de 375 indivíduos

em treze grupos, conforme tabela 47. Nela, pode-se observar que dos grupos
70

identifica corretamente sete grupos. O percentual de indivíduos alocados

Grupo 01 20 35 20 15
Grupo 02 9 19 9 10
Grupo 03 39 45 39 6
Grupo 04 26 33 26 7
Grupo 05 37 45 37 8
Grupo 06 28 39 28 11
Grupo 07 23 30 23 7
Grupo 08 14 32 14 18
Grupo 09 15 39 15 24
Grupo 10 39 18 13 5
Grupo 11 17 9 0 9
Grupo 12 9 14 9 5
Grupo 13 10 17 10 7
Outlier 89 0 0 0
Total 375 375 243 132
Tabela 47 – Resultado do Forgy rígido para

o exemplo proposto de 375 indivíduos

identifica corretamente cinco grupos. O percentual de indivíduos alocados
71

Grupo 01 20 30 20 10
Grupo 02 9 10 7 3
Grupo 03 39 40 39 1
Grupo 04 26 27 26 1
Grupo 05 37 38 37 1
Grupo 06 28 30 28 2
Grupo 07 23 24 23 1
Grupo 08 14 23 14 9
Grupo 09 15 5 0 5
Grupo 10 39 12 10 2
Grupo 11 17 28 15 13
Grupo 12 9 9 7 2
Grupo 13 10 10 9 1
Outlier 89 89 63 26
Total 375 375 298 77
Tabela 48 – Resultado do Forgy difuso para


separou os 375 indivíduos em treze grupos, conforme tabela 49. Nela, pode-se
classificação esperada. Porém, não considerando os indivíduos de passagem,
percebe-se que o método identifica corretamente três grupos. O percentual de
72

Grupo 01 20 36 20 16
Grupo 02 9 31 9 22
Grupo 03 39 49 39 10
Grupo 04 26 33 26 7
Grupo 05 37 25 20 5
Grupo 06 28 43 28 15
Grupo 07 23 28 23 5
Grupo 08 14 35 10 25
Grupo 09 15 20 13 7
Grupo 10 39 13 12 1
Grupo 11 17 18 8 10
Grupo 12 9 13 5 8
Grupo 13 10 31 10 21
Outlier 89 0 0 0
Total 375 375 223 152
Tabela 49 – Resultado do Diday rígido para


73

Grupo 01 20 4 4 0
Grupo 02 9 12 8 4
Grupo 03 39 52 39 13
Grupo 04 26 39 24 15
Grupo 05 37 63 32 31
Grupo 06 28 47 28 19
Grupo 07 23 29 18 11
Grupo 08 14 22 8 14
Grupo 09 15 7 4 3
Grupo 10 39 24 19 5
Grupo 11 17 27 7 20
Grupo 12 9 15 5 10
Grupo 13 10 8 5 3
Outlier 89 26 8 18
Total 375 375 209 166
Tabela 50 – Resultado do Diday difuso para

A execução do algoritmo IGN separou os 375 indivíduos em treze

grupos, conforme tabela 51. Nela pode-se observar que os treze grupos foram
74

Grupo 01 20 20 20 0
Grupo 02 9 9 9 0
Grupo 03 39 39 39 0
Grupo 04 26 26 26 0
Grupo 05 37 37 37 0
Grupo 06 28 28 28 0
Grupo 07 23 23 23 0
Grupo 08 14 14 14 0
Grupo 09 15 15 15 0
Grupo 10 39 39 39 0
Grupo 11 17 17 17 0
Grupo 12 9 9 9 0
Grupo 13 10 10 10 0
Outlier 89 89 89 0
Total 375 375 375 0
Tabela 51 – Resultado do IGN para o exemplo proposto de 375 indivíduos
Para este exemplo proposto, os métodos não-hierárquicos

executados não identificaram todos os grupos conforme o esperado. Dentre
eles, o resultado do método difuso de Forgy pode ser considerado o melhor,
pois alocou a maior quantidade de indivíduos ao grupo conforme o esperado.
Na figura 30 é exibido o resultado da execução deste algoritmo.
75
Figura 30 – Agrupamento do Forgy difuso para


Figura 31 – Agrupamento do IGN para o

exemplo proposto de 375 indivíduos
76
4.8 Exemplo Proposto em 3D – 2 arcos

exemplo, em 3D, é composto por dois arcos entrelaçados. O conjunto
observado possui 96 indivíduos com três variáveis (figura 32). O resultado
esperado é a formação de dois grupos cada um deles sendo um arco com 48
elementos dispersos.
Figura 32 – Formação inicial do exemplo proposto em 3D – 2 arcos

componentes principais possui quase a mesma representatividade que as
outras duas juntas, conforme tabela 52. Neste caso, não é possível utilizar o
resultado da ACP para reduzir a dimensionalidade do conjunto observado, com
perda de informação menor que 5%.

Tabela 52 – Resultado da ACP para o exemplo proposto em 3D – 2 arcos
77
A execução do método rígido de Forgy separou os 96 indivíduos em

dois grupos, conforme tabela 53. Nela, pode-se observar que dos grupos

Grupo 01 48 50 36 14
Grupo 02 48 46 34 12
Total 96 96 70 26
Tabela 53 – Resultado do Forgy rígido para

o exemplo proposto em 3D – 2 arcos
A execução do método difuso de Forgy separou os 96 indivíduos em

dois grupos, conforme tabela 54. Nela, pode-se observar que dos grupos

Grupo 01 48 37 28 9
Grupo 02 48 31 23 8
Total 96 68 51 17
Tabela 54 – Resultado do Forgy difuso para
78


Grupo 01 48 72 46 26
Grupo 02 48 24 22 2
Total 96 96 68 28
Tabela 55 – Resultado do Diday rígido para



Grupo 01 48 44 28 16
Grupo 02 48 14 14 0
Total 96 58 42 16
Tabela 56 – Resultado do Diday difuso para

79
A execução do algoritmo IGN separou os 96 indivíduos em dois


Grupo 01 48 48 48 0
Grupo 02 48 48 48 0
Total 96 96 96 0
Tabela 57 – Resultado do IGN para o exemplo proposto em 3D – 2 arcos
Para este exemplo proposto em 3D – 2 arcos entrelaçados, os

métodos não-hierárquicos executados não identificaram grupos conforme o
esperado. Dentre eles, o resultado da versão rígida de Forgy pode ser
conforme o esperado. Na figura 33 é exibido o resultado da execução deste
algoritmo.
Figura 33 – Agrupamento do Forgy rígido para
80

Figura 34 – Agrupamento do IGN para o exemplo proposto em 3D – 2 arcos
4.9 Exemplo Proposto em 3D – 1 cubo com 12 arcos

exemplo, em 3D, é composto de um cubo com 12 arcos, sendo que cada
aresta do cubo é envolvida por um arco. O conjunto observado possui 420
indivíduos com três variáveis (figura 35). O resultado esperado é a formação de
treze grupos sendo 1 com 132 elementos e os outros 12 com 24 elementos
cada.
Figura 35 – Formação inicial do exemplo
proposto em 3D – 1 cubo e 12 arcos
81
A análise de componentes principais indicou que as três

componentes têm quase a mesma representativa, conforme tabela 58. Neste
caso, não é possível utilizar o resultado da ACP para reduzir a
dimensionalidade do conjunto observado, com perda de informação menor que
5%.

Tabela 58 – Resultado da ACP para o exemplo


82

Grupo 01 132 10 10 0
Grupo 02 24 31 24 7
Grupo 03 24 35 24 11
Grupo 04 24 33 24 9
Grupo 05 24 36 24 12
Grupo 06 24 31 24 7
Grupo 07 24 36 24 12
Grupo 08 24 36 24 12
Grupo 09 24 35 24 11
Grupo 10 24 33 24 9
Grupo 11 24 36 24 12
Grupo 12 24 33 24 9
Grupo 13 24 35 24 11
Total 420 420 298 122


83

Grupo 01 132 9 9 0
Grupo 02 24 31 24 7
Grupo 03 24 31 24 7
Grupo 04 24 29 24 5
Grupo 05 24 31 24 7
Grupo 06 24 31 24 7
Grupo 07 24 31 24 7
Grupo 08 24 31 24 7
Grupo 09 24 29 24 5
Grupo 10 24 31 24 7
Grupo 11 24 29 24 5
Grupo 12 24 31 24 7
Grupo 13 24 31 24 7
Total 420 375 297 78
Tabela 60 – Resultado do Forgy difuso para o exemplo


84

Grupo 01 132 12 12 0
Grupo 02 24 39 24 15
Grupo 03 24 33 24 9
Grupo 04 24 52 24 28
Grupo 05 24 26 12 14
Grupo 06 24 27 21 6
Grupo 07 24 39 24 15
Grupo 08 24 49 24 25
Grupo 09 24 20 11 9
Grupo 10 24 39 24 15
Grupo 11 24 33 21 12
Grupo 12 24 35 12 23
Grupo 13 24 16 10 6
Total 420 420 243 177


85

Grupo 01 132 13 6 7
Grupo 02 24 26 20 6
Grupo 03 24 19 14 5
Grupo 04 24 23 17 6
Grupo 05 24 20 14 6
Grupo 06 24 13 5 8
Grupo 07 24 22 16 6
Grupo 08 24 20 15 5
Grupo 09 24 12 12 0
Grupo 10 24 7 7 0
Grupo 11 24 8 8 0
Grupo 12 24 7 7 0
Grupo 13 24 11 4 7
Total 420 201 145 56
Tabela 62 – Resultado do Diday difuso para o exemplo

A execução do algoritmo IGN separou os 420 indivíduos em treze

86

Grupo 01 132 132 132 0
Grupo 02 24 24 24 0
Grupo 03 24 24 24 0
Grupo 04 24 24 24 0
Grupo 05 24 24 24 0
Grupo 06 24 24 24 0
Grupo 07 24 24 24 0
Grupo 08 24 24 24 0
Grupo 09 24 24 24 0
Grupo 10 24 24 24 0
Grupo 11 24 24 24 0
Grupo 12 24 24 24 0
Grupo 13 24 24 24 0
Total 420 420 420 0
Tabela 63 – Resultado do IGN para o exemplo

Para este exemplo proposto em 3D – 1 cubo e 12 arcos, os métodos

não-hierárquicos executados não identificaram grupos conforme o esperado.
Dentre eles, o resultado da versão rígida de Forgy pode ser considerado o
melhor, pois alocou a maior quantidade de indivíduos ao grupo conforme o
esperado. Na figura 36 é exibido o resultado da execução deste algoritmo.
87
Figura 36 – Agrupamento do Forgy rígido para o exemplo

proposto em 3D – 1 cubo com 12 arcos

Figura 37 – Agrupamento do IGN para o exemplo
proposto em 3D – 1 cubo com 12 arcos
CONCLUSÃO
No transcorrer dos anos, o processo de agrupamento evoluiu de

uma habilidade pessoal e fundamental em áreas como biologia e medicina,
onde inicialmente foram usadas, para um conjunto de algoritmos matemáticos,
que têm como precursores Forgy, McQueen, Diday, Fischer entre outros,
implementados em softwares de amplo uso acadêmico ou comercial. Hoje,
ramos inovadores da ciência da computação, como “data mining”, “data
warehouse” e reconhecimento de padrões estão diretamente ligados ao estudo
deste problema. As técnicas de agrupamento são amplamente utilizadas na
ciência moderna, tornando-se muitas vezes um recurso necessário e
indispensável para a compreensão e entendimento das questões em estudo.
O problema de agrupamento possui um elevado grau de

complexidade (NP-HARD) com um alto custo computacional para seu cálculo,
ainda mais se considerarmos os grandes volumes de informações da
atualidade e seus constantes crescimentos. Neste trabalho, um aspecto a ser
enfatizado refere-se à aplicação da análise das componentes principais aos
conjuntos de dados analisados, no sentido de permitir reduzir suas
dimensionalidades; assim, comprovou-se diminuição do custo computacional
sem perda considerável da informação, inclusive em termos das alocações dos
indivíduos nos vários grupos. Por exemplo, ao comparar as tabelas 5 e 6 em
5.1.2, e em outros casos descritos no mesmo capítulo 5.
Ao longo do estudo realizado sobre o problema de agrupamento,

verificamos que os resultados produzidos pelas versões rígidas e difusas dos
algoritmos não-hierárquicos de Forgy e Diday dependem bastante da sua
solução inicial; o que, aliás, já era considerado nos trabalhos básicos relativos
aos dois métodos, bem como, no que concerne a métodos similares. Assim,
executando mais de uma vez o mesmo algoritmo sobre uma mesma base de
dados, os valores da função-objetivo, com respeito aos diferentes resultados,
89
chegaram a variar em mais de 700%. Por conta disto, no presente trabalho,

para não produzir um resultado baseado apenas em um mínimo local, os
algoritmos não-hierárquicos foram executados cerca de vinte vezes em cada
exemplo, sendo então selecionada a solução que melhor minimizou a função-
objetivo.
A utilização da lógica difusa nos processos de agrupamento introduz

um conceito de dualidade, onde um indivíduo pode está alocado a mais de um
grupo com seus respectivos graus de pertinências. Isto se mostrou bastante útil
na identificação de indivíduos de passagem (“outliers”) e na análise de
inconsistências entre resultados observados e esperados.
O algoritmo de identificação de grupos naturais (IGN) apresentou

bons resultados e tem sua importância pela aplicabilidade em situações
específicas como, por exemplo, na melhoria de serviço em telefonia celular
num estudo da utilização do serviço para implantação de novas ERBs
(Estações Rádio Base).
De fato, na literatura especializada, há referência a uma variedade

muito grande de outros métodos de agrupamento que, evidentemente, seria
exaustivo listar e tratar, neste trabalho. À parte de métodos de classificação
para grupos representados num espaço multidimensional de pontos, em geral
um espaço euclidiano n-dimensional, observe-se que ainda existem muitos
outros problemas especializados, de agrupamento. Como a classificação de
curvas ou funções; e a de imagens contínuas, especialmente nos casos de
aplicações para imagens médicas ou as de caráter geográfico, incluindo-se
neste último caso a análise de campos meteorológicos de superfície ou de
altitude ou, ainda, de campos oceânicos de superfície. A par da análise sobre
concentração espacial de casos de uma doença ou de focos de um vetor, como
no caso da dengue, da malária, etc.
Um artigo tratando de vários dos aspectos que se acabou de

mencionar merece ser citado (JAIN et. al., 1999). Outro problema refere-se à
determinação de grupos em métodos não supervisionados (HARDY, 1996).
90
Como continuidade a este trabalho sugere-se avaliar os mesmos

métodos com outros exemplos da literatura que envolvam uma quantidade
maior de indivíduos e de grupos definidos. Desenvolver uma função de
avaliação da eficiência dos resultados obtidos com as execuções dos
algoritmos, baseada principalmente nas quantidades de indivíduos esperados e
alocados por grupo. Além de disponibilizar no software FastClass (ALMEIDA,
2005) outras opções para obter a solução inicial dos métodos não-hierárquicos;
como por exemplo, aquela em que se lance mão da estrutura de árvore
geradora mínima.
Mais uma questão a ser examinada refere-se à avaliação de outros

critérios de desfuzzificação no contexto das versões difusas desses algoritmos.
Quanto ao algoritmo de Diday, pode certamente ser melhorado; em particular,
com a implementação do conceito de “formas fortes”, ou seja, pela identificação
de elementos que sempre se repetem, juntos, em várias rodadas do algoritmo.
Isso permitiria partir de uma solução inicial mais próxima da solução ótima.
Ainda no contexto de algoritmos difusos (“fuzzy”) deve-se também

considerar a questão do cálculo do diâmetro de uma classe difusa, bem como,
da distância entre duas classes difusas quaisquer. Com efeito, uma vez que
cada classe difusa, de permeio aos diversos graus de pertinência dos seus
elementos, alcança todo o espaço dos indivíduos, segue-se que o emprego das
definições convencionais implicaria que o diâmetro seria aquele de todo o
espaço, bem como, que a distância entre duas classes se reduzisse, sempre, a
um mesmo valor mínimo. Portanto, no caso difuso, os cálculos exigem que de
alguma maneira seja levada em conta a distinta ponderação dos vários graus
de pertinência individuais. Isso já havia sido tratado em (XAVIER & XAVIER,
1989).
Por fim, restaria ainda inovar, com a criação e avaliação de outras
bases de dados oriundas de formas tridimensionais. Ou ainda, considerar
coleções de dados reais advindos de problemas de classificação ou previsão
de campos meteorológicos e oceanográficos, e outros; veja-se, a este respeito,
(XAVIER & XAVIER, 1994) e (XAVIER, 2006). Para dados de interesse em
91
Biologia, verificar em (OLIVEIRA, 1985) e (MESQUITA, 1986).
Note-se que alguns exemplos de grupos apresentados nesta

dissertação, designados como naturais, de fato correspondem a exemplos de
certa forma artificiais, criados pelos pesquisadores com a única finalidade de
testar a funcionalidade e desempenho dos métodos empregados. Nesta
dissertação, contudo, foram considerados exemplos tridimensionais que nunca
ou raramente são encontrados na literatura especializada.
Em suma, a ciência da computação está relacionada a diversas

áreas e sua importância torna-se mais evidente quando é aplicada para
solucionar problemas de interesse nas esferas das ciências aplicadas, inclusive
nas ciências humanas e sociais, como ainda a problemas tecnológicos. Nessa
visão, os softwares FastClass (ALMEIDA, 2005) e SCluster (VIANA, 2003)
podem auxiliar a outros pesquisadores em seus trabalhos para facilitar a
extração de informação, a redução da dimensionalidade e a identificação de
grupos efetivamente naturais, entre outras possibilidades.
REFERÊNCIAS BIBLIOGRAFICAS
ALMEIDA, A. M. R. FastClass - Classificação Automática “Fuzzy”.

Fortaleza, 2005. Dissertação (Mestrado Integrado Profissional em Computação
Aplicada – UECE/CEFETCE) – Centro de Ciências e Tecnologia (CCT),
Universidade Estadual do Ceará (UECE); Diretoria de Pesquisa e Pós-
Graduação (DIPPG), Centro Federal de Educação Tecnológica do Ceará
(CEFETCE). Orientado por Airton Fontenele Sampaio Xavier (UECE).
ANDERBERG, M. R. Cluster Analysis for Application. 1. ed. New York:

Academic Press, 1973.
BEZDEK, J. C. Pattern Recognition with Fuzzy Objective Function

Algorithms. 1. ed. New York: Plenum Pub Corp, 1981.
BOUDAILLIER, E.; HEBRAIL, G. Interactive interpretation of hierarchical

clustering. Journal Of Intelligent Data Analysis, Amsterdam: Elsevier, 1998.
v. 2, n. 3, p. 229-244.
BURROUGH, P. A.; MCDONNELL, R. A. Principles of geographical

information systems. 2. ed. Oxford: Oxford University Press, 1998.
CORMEN, T. H. , et. al. Introduction to algorithms. 2. ed. Massachusetts:

The MIT Press / McGraw-Hill Book Company, 2001.
COX, E. The Fuzzy Systems Handbook: A Practitioner's Guide to Building,

Using, and Maintaining Fuzzy Systems. 1. ed. Boston: Academic Press,
1994.
DEVILLEZ, A.; BILLAUDEL, P. LECOLIER, G. V. A fuzzy hybrid hierarchical

clustering method with a new criterion able to find the optimal partition. Fuzzy
Sets and Systems, Amsterdam: Elsevier, 2002. v. 128, n. 3, p. 323-338.
DIAS E SILVA, A. F. Contribution a L’analyse structurale par des methodes
de classification automatiqué. Toulouse, 1986. Tese (Doutorado – INSA de
Toulouse), Institut national des sciences appliquées de Toulouse. Orientado por
B. Pradin.
DIDAY, E.; SIMON, J. C. In: FU, K. S., editor, Digital Pattern Recognition.
Clustering Analysis. Berlin: Springer-Verlag, 1976. p. 47-94.
II
DIDAY, E. The dynamic clusters method and optimization in non hierarchical

clustering. Lecture Notes In Computer Science. Heidelberg: Springer, 1973.
v. 3, p. 241-258 (5th Conference on Optimization Techniques, Part 1).
EVERITT, B. S.; LANDAU, S.; LEESE, M. Cluster analysis. 4. ed. London:

Arnold Publishers, 2001.
FERREIRA, P. F. Estatística multivariada aplicada: disciplina Métodos

Estatísticos. Coimbra: Faculdade de Economia da Universidade de Coimbra –
FEUC, 2002. Nota de Aula.
FISHER, R. A. The use of multiple measurements in taxonomic problems.

Annual Eugenics, 1936. v.7, part II, p. 179-188.
FORGY, E. W. Cluster analysis of multivariate data: Efficiency vs.

Interpretability of classification. Biometrics (abstract). Riverside: Universidade
da California, 1965. v. 21, n. 3, p. 768-769.
FRAKES, W. B.; YATES R. B. Information retrieval: Data structures &

Algorithmus. 1. ed. Englewood Cliffs: Prentice Hall, 1992.
HANSEN, P.; MLADENOVIC, N. J-Means: A New Local Search Heuristic for

Minimum Sum-Of-Squares Clustering. The Journal of the Pattern
Recognition Society. Amsterdam: Elsevier, 2002. v. 35, n. 10, p. 2193-2200.
HARDY, A. On the number of clusters. Computational Statistics & Data

Analysis, Amsterdam: Elsevier, 1996. v. 23, p. 83-96.
HRUSCHKA, E. R.; EBECKEN, N. F. A genetic algorithm for cluster analysis.

Intelligent Data Analysis. Amsterdam: IOS Press, 2003. v. 7, n. 1, p. 15-25.
JACOBY, W. G. Statistical graphics for visualizing multivariate data,

Volume 120. 1. ed. New Delhi: Sage Publications, 1998.
JAIR, A. K.; MURTY, M.N.; FLYNN, P. J. Data Clustering: A Review. ACM

Computing Surveys. 1996. v. 31, n. 3.
JOLLIFFE, I. T. Principal Component Analysis. 2. ed. New York: Springer-
Verlag, 2002. (Springer Series in Statistic).
KAUFMANN, L.; ROUSSEEUW, P. J. Finding groups in data: an

introduction to cluster analysis. 1. ed. New York: John Wiley & Sons, 1990.
(Wiley Series in Probability and Mathematical Statistics).
KLIR, G.J.; YUAN, B. Fuzzy Sets and Fuzzy Logic: Theory and
Applications. 1. ed. New Jersey: Prentice Hall, 1995.
III
LANGRAND, C. Métodos de Clasificación. 1. ed. Université des Sciences et

Technologies de Lille. Presta, 1994.
LIKAS, A.; VLASSIS, N.; VERBEEK, J. J. The global k-means clustering

algorithm. The Journal of the Pattern Recognition Society. Amsterdam:
Elsevier, 2003. v. 36, n. 2, p. 451-461.
LINDSAY, I.; SMITH. A tutorial on principal components analysis. 2002.

Disponível em: <http://neurobot.bio.auth.gr/archives/000012a_tutorial_on_
principal_components_analysis.php>. Acesso em 11 de março de 2007.
MESQUITA, J. H. de S., Aplicações de Álgebra Linear à Análise Fatorial de

Correspondências. Fortaleza, 1986. Dissertação (Mestrado em Matemática –
UFC) – Departamento de Matemática, Universidade Federal do Ceará (UFC).
Orientado por Airton Fontenele Sampaio Xavier.
MOITA NETO, J. M. Estatística Multivariada: Uma visão didático-

metodológica. 2004. Disponível em: <http://criticanarede.com/cien_
estatistica.html>. Acesso em 17 de junho de 2007.
NASSAR, S. M. Métodos de Desfuzzificação. 2005. Disponível em: <http://

www.inf.ufsc.br/~silvia/disciplinas/sed/aulas/>. Acesso em 20 de maio de 2007.
Nota de Aula.
NEGREIROS, M. J. G.; ALMEIDA, P. G. De; BEZERRA, A. G. F.; XAVIER, A.

E. Análise de agrupamentos para a taxa de resíduos sólidos de Fortaleza via
sistema visual TAX. Limpeza Pública: Revista da Associação Brasileira de
Limpeza Pública, Fortaleza, 2002. v. 57, p. 10-17.
NOVAIS, U. R. Agrupamento de dados através de algoritmos de swarm.

Rio de Janeiro, 2002. Dissertação (Mestrado em Ciências em Engenharia Civil
– COPPE UFRJ) – Coordenação dos Programas de Pós-graduação de
Engenharia (COPPE), Universidade Federal do Rio de Janeiro (UFRJ).
Orientado por Nelson Francisco Favilla Ebecken.
OLIVEIRA, R. P. de Aspectos Matemáticos dos Problemas de

Classificação Automática Não-Hierárquica: O Método das Nuvens
Dinâmicas. Fortaleza, 1985. Dissertação (Mestrado em Matemática – UFC) –
Departamento de Matemática, Universidade Federal do Ceará (UFC).
Orientado por Airton Fontenele Sampaio Xavier.
SMITH, J. W.; EVERHART, J. E.; DICKSON, W. C.; KNOWLER, W. C.;

JOHANNES, R. S. Using the ADAP learning algorithm to forecast the onset
of diabetes mellitus. In Proceedings of the Symposium on Computer
Applications and Medical Care. IEEE Computer Society Press, 1988. p.
261-265.
IV
VALE, M. N. do Agrupamentos de Dados: Avaliação de Métodos e.

Desenvolvimento de Aplicativo para Análise de Grupos. Rio de Janeiro,
2005. Dissertação (Mestrado em Engenharia Elétrica – PUC-RIO) – Pontifícia
Universidade Católica do Rio de Janeiro (PUC-RIO). Orientado por Marley
Vellasco e Ricardo Tanscheit.
VIANA, J. F. R. SCLUSTER: Um sistema para análise multivariada de

agrupamentos de dados em larga escala. Fortaleza, 2003. Monografia
(Graduação em Ciências da Computação – UECE) – Universidade Estadual do
Ceará. Orientado por Marcos José Negreiros Gomes (UECE).
WOLBERG, W. H. e MANGASARIAN, O.L. Multisurface method of pattern

separation for medical diagnosis applied to breast cytology. Proceedings
of the National Academy of Sciences of the United States of America, 1990. v.
87, n. 23, p. 9193-9196.
XAVIER A. F. S. e XAVIER, T. M. B. S. Uma Técnica de Classificação

Automática “Fuzzy” e Aplicações em Meteorologia. In: VIII CBMET –
Congresso Brasileiro de Meteorologia, Belo Horizonte, 1994.
XAVIER, T. M. B. S. Avanços da Climatologia no Brasil – Algumas

Considerações. In: BSBMET – Boletim da Sociedade Brasileira de
Meteorologia, 2006. v. 30, p. 53-61.
XAVIER, T. M. B. S. e XAVIER A. F. S. Introdução à Análise de dados

Multidimensionais (Classificação Automática e Análise Fatorial), São
Paulo: Universidade de São Paulo (USP), 1994. Nota de Aula.
XAVIER, T. M. B. S. e XAVIER A. F. S. Cálculo de Distâncias e Diâmetros de

Classes para Partições Fuzzy - Aplicações à Classificação Automática. In:
XXII SIMPÓSIO BRASILEIRO. DE PESQUISA OPERACIONAL, Fortaleza,
1989. v. resumos do XXII SBPO, p. 317-320.
ZADEH, L. A. A fuzzy-set theoretic interpretation of linguistic hedges. Journal

of Cybernetics. Berkeley: Electronics Research Laboratory, 1972. v. 2, n. 3, p.
4-34.
ZADEH, L. A. Fuzzy Sets, Fuzzy Logic, and Fuzzy Systems: Selected
Papers by Lotfi A. Zadeh. 1. ed. Singapore: World Scientific Publishing, 1996.
ZAHID, N.; ABOUELALA, O.; LIMOURI, M., ESSAID, A. Fuzzy clustering based
on K-nearest-neighbours rule. Fuzzy Sets and Systems. Amsterdam: Elsevier,
2001. v. 120, n. 2, p. 239-247.
APÊNDICE A – SCLUSTER E FASTCLASS
A denominação “Análise Multivariada” corresponde a um grande

número de métodos e técnicas que utilizam, simultaneamente, todas as
variáveis na interpretação teórica do conjunto de dados obtidos (MOITA NETO,
2004).
Os métodos multivariados consideram a correlação entre muitas

variáveis analisadas ao mesmo tempo, permitindo a extração de uma
quantidade maior de informações, muitas vezes impossível quando se analisa
variável a variável.
Na observação dos acontecimentos naturais ou sociais percebe-se o

envolvimento de um grande número de variáveis e nestes casos as inferências
baseadas na análise isolada das variáveis não produzem resultados
consistentes, pois as relações existentes entre as variáveis são fundamentais
para interpretação destas informações. Para isto, cada vez mais, é necessária
a utilização de softwares que realizem a análise dos dados com uma visão
mais global, ou seja, multivariada. Dentro deste contexto, este capítulo
apresenta os dois softwares para análise multivariada de dados utilizadas neste
trabalho: a FastClass implementada por ALMEIDA em 2005 sob orientação do
professor Airton Xavier e a SCluster desenvolvida por VIANA em 2003 sob
orientação do professor Marcos Negreiros.
A.1 SCluster
O software de análise multivariada de dados – SCLUSTER foi

desenvolvida para facilitar o processo de agrupamento (Clustering) em Bases
de Dados de Larga Escala, utilizando técnicas distintas, com metaheurísticas,
parametrização valorada de variáveis após escalonamento e análise de grupos
naturais do conjunto (VIANA, 2003).
VI
A SCluster possui a implementação de dois métodos de

agrupamento baseados em medianas: K-Means versão de Forgy e J-Means.
Também foram implementadas duas variações dos métodos, denominadas
Forgy A e J-Means A, que modificam os algoritmos apenas na forma de gerar a
sua solução inicial ao invés de utilizar um método seqüencial elas usam uma
estrutura em árvore de busca (bidimensional).
No software também foi implementado o método de agrupamento

hierárquico Kruskal e o algoritmo de identificação de grupos naturais (IGN),
com gráfico de formação (custo x árvores de Kruskal), dendograma da solução
e implementação paralela.
A figura 38 exibe a tela principal do software SCluster.

Figura 38 – Tela principal do software SCluster
VII
A.1.1 Diagrama de Classes
O software SCluster foi desenvolvida em ambiente Delphi com

implementação voltada a orientação a objeto. A figura 39 exibe as suas cinco
principais classes (TClusterBasico, TForgy, TJMeans, TKruskal e TIGN) com
as propriedades e métodos mais importantes.
TClusterBasico
NumGrupos
NumIndividuos
VetorPartes
VetorIndividuos
ExibirIndividuo
ExibirGrupo
InserirIndividuo
ExcluirIndividuo
MoverIndividuo
TForgy TJMeans TKruskal

NumIteracoes NumIteracoes Raiz
Similaridade Similaridade Custo
CalculaGrupos Realoca Preenche
Forgy JMeans Kruskal
Mediana
ExibirAGM
TIGN
VetorRaizes
Analisar Formação
Figura 39 – Diagrama das principais classes do software SCluster
A principal classe do SCluster é a TClusterBasico, responsável pela

exibição dos indivíduos e grupos além das definições básicas pertinentes ao
problema de agrupamento como quantidade de indivíduos a serem agrupados,
número de grupos, relação entre indivíduo e grupo, entre outras.
VIII
As classes TForgy, TJMeans e TKruskal herdam da classe

TClusterBasico suas definições básicas e se utiliza da mesma para exibir as
suas soluções. Em cada uma das três classes está implementado seu
algoritmo correspondente Forgy, JMeans e Kruskal, respectivamente.
A classe TIGN é responsável pelo algoritmo IGN que utiliza o

método de Kruskal da classe TKruskal para dar uma solução para o problema
de identificação dos grupos naturais.
A.1.2 Interface para duas dimensões
Nesta visualização são exibidos pontos na tela que representam os

indivíduos a serem agrupados. O usuário pode criar e manipular a base de
dados no próprio ambiente do software inserindo, removendo e movendo
indivíduos e movendo todo o conjunto a ser agrupado. Outra opção do software
é abrir de um arquivo texto o posicionamento dos indivíduos, ou gerá-lo de
forma aleatória (ver figura 38).
Além do módulo de edição, ficam disponíveis nesta interface os

métodos de agrupamento: Forgy e JMeans tanto com solução inicial baseada
numa estrutura seqüencial quanto numa estrutura em árvore; o algoritmo de
Kruskal para n árvores; e o algoritmo de identificação de grupos naturais –
IGN, com visualização de gráficos de formação e dendogramas.
A.1.3 Interface para três dimensões

Nesta visualização os indivíduos a serem agrupados são
representados numa planilha de dados com três colunas para as dimensões
(variáveis) do problema e uma coluna para o resultado dos agrupamentos
(figura 40). O usuário pode criar e manipular a base de dados no próprio
ambiente do software como se estivesse trabalhando numa planilha eletrônica
qualquer. Ele pode inserir, apagar, gerar uma base aleatória, abrir e salvar em
um arquivo. Além disto, é possível exportar a solução para um editor e
visualizador de grupos em três dimensões (figura 41).
IX
Nela não estão disponíveis os métodos de Forgy e JMeans com a

solução inicial baseada numa estrutura em árvore. O editor de grafo 3D tem as
funcionalidades de inserir, excluir e mover indivíduos, além de mover o
conjunto nos três eixos e realizar a rotação.
Figura 40 – Interface em 3D do software SCluster

Figura 41 – Visualizador de grupos em 3D
A.1.4 – Interface para n dimensões
Assim como na visualização em três dimensões, os indivíduos a

serem agrupados são representados numa planilha de dados só que agora
com n colunas para as dimensões (variáveis) do problema e uma coluna para o
resultado dos agrupamentos (figura 42).
Figura 42 – Interface em nD do software SCluster
A.2 FastClass
A FastClass é um software de análise multivariada de dados que
implementa os algoritmos não hierárquicos Forgy e Diday tanto na versão
rígida quanto na difusa (ALMEIDA, 2005). Além disto, ela possui um módulo de
análise de componentes principais com três funções: ACP Avaliação, que
realiza o cálculo das componentes principais; ACP Conjunto Transformado,
que substitui o conjunto original por todos os novos componentes; e ACP
Conjunto Reduzido, que substitui o conjunto original pelos novos componentes
que têm até 95% de representatividade em relação ao conjunto analisado.
XI
O software FastClass possui o recurso de visualização de conjuntos

multidimensionais e permite a leitura e gravação de um conjunto de indivíduos
em arquivos de textos ou em XML. Para melhor visualizar a separação dos
grupos formados ela possui a implementação da envoltória convexa, que é o
menor polígono convexo que contém todos os indivíduos do conjunto analisado
sendo que cada vértice do polígono pertence, obrigatoriamente, ao conjunto
analisado.
A figura 43 exibe a tela principal do software FastClass.

Figura 43 – Tela principal do software FastClass
A.2.1 Diagrama de Classes
O software FastClass foi desenvolvida em ambiente Delphi com

implementação voltada a orientação a objeto e utiliza XML como um dos
padrões de formato de dados de entrada e saída. A figura 44 apresenta as
suas seis principais classes (TFastClass, TForgyRigido, TForgyDifuso,
TDidayRigido, TDidayDifuso e TACP) com as propriedades e métodos mais
importantes.
XII
TFastClass
NumIndividuos
NumVariaveis
NumGrupos
VetorIndividuos
VetorVariaveis
VetorGrupos
ExibirIndividuo
ExibirGrupo
ExecutarAlgoritmo
ExibirEnvoltoriaConvexa
MoverIndividuo
TForgyRigido TDidayRigido TACP

NumIteracoes Densidade PCAMode
Similaridade Similaridade DataFormat
ObterLimites ObterLimites ACP
CalcularInercia CalcularInercia ExecutarAvaliação
ForgyRigido ObterMedia ExecutarTransformado
DidayRigido ExecutarReduzido
TForgyDifuso TDidayDifuso
NumIteracoes Densidade
Similaridade Similaridade
ObterLimites ObterLimites
CalcularInercia CalcularInercia
ForgyDifuso ObterMedia
DidayDifuso
Figura 44 – Diagrama das principais classes do software FastClass
As classes TForgyRigido, TForgyDifuso, TDidayRigido,

TDidayDifuso e TACP herdam da classe TFastClass suas definições básicas e
se utiliza da mesma para exibir as suas soluções. Em cada uma das cinco
classes estão implementados o seu algoritmo correspondente Forgy Rígido,
Forgy Difuso, Diday Rígido, Diday Difuso e Análise de Componentes Principais,
respectivamente.
XIII
A.2.2 Interface para duas e três dimensões
Nesta visualização são exibidos pontos na tela que representam os

indivíduos a serem agrupados e os eixos cartesianos (X, Y e Z). O usuário
pode alterar a base de dados incluindo novos indivíduos ou alterando os
valores dos existentes. Além disto é possível definir o grau de inclinação do
eixo Z e associar as variáveis que serão exibidas nos eixos.
A figura 43 exibe uma visualização em duas dimensões do

FastClass, enquanto a figura 45 mostra uma visualização em três dimensões.
Figura 45 – Interface em 3D do software FastClass

Dissertação

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Dissertação

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE ESTADUAL DO CEARÁ – UECE

Centro de Ciências e Tecnologia – CCT

CENTRO FEDERAL DE EDUCAÇÃO TECNOLÓGICA

MESTRADO INTEGRADO PROFISSIONAL EM COMPUTAÇÃO

João Frederico Roldan Viana

ANÁLISE MULTIVARIADA DE AGRUPAMENTOS DE

CENTRO FEDERAL DE EDUCAÇÃO TECNOLÓGICA

MESTRADO INTEGRADO PROFISSIONAL EM COMPUTAÇÃO

João Frederico Roldan Viana

ANÁLISE MULTIVARIADA DE AGRUPAMENTOS DE

Dissertação apresentada ao Curso de Mestrado

CENTRO FEDERAL DE EDUCAÇÃO TECNOLÓGICA

MESTRADO INTEGRADO PROFISSIONAL EM COMPUTAÇÃO

Título do Trabalho: Análise multivariada de agrupamentos de dados

Autor: João Frederico Roldan Viana

Defesa em ____ / ____ / ________ Conceito obtido: ________

Poema Pegadas na Areia - Autor desconhecido.

A Deus por guiar meus caminhos.

O problema de agrupamento pode ser definido como a tarefa de

Esse problema tem sido bastante estudado na literatura científica e

O presente trabalho insere-se dentro desse contexto e, nele, faz-se

O seu principal objetivo é implementar ou adequar algoritmos de

The clustering problem can be defined as the task of finding a

This problem has been sufficiently studied in scientific literature and

The present work is inserted inside this context and, in it, an

Its main objective is to implement or to adjust grouping algorithms in

4.2.1 Resultados da ACP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.6.7 Análise dos resultados obtidos. . . . . . . . . . . . . . . . . . . . . . . 67

A.2.1 Diagrama de Classes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XI

Figura 1 – Formação inicial de 50 indivíduos. . . . . . . . . . . . . . . . . . . . 7

Figura 22 – Agrupamento do IGN para o exemplo de Devillez – 4

Tabela 1 – Graus de Pertinência após execução do algoritmo difuso

Tabela 18 – Resultados do Diday rígido para o exemplo de Devillez –

Tabela 39 – Resultado do IGN para o exemplo Diabetes, observando

Tabela 59 – Resultado do Forgy rígido para o exemplo proposto em

A análise multivariada de agrupamentos é uma técnica de Estatística

O problema de agrupamento de dados pode ser visto como um

Muitas são as aplicações de domínio científico, tecnológico ou

Os métodos de agrupamento de dados, portanto, são desenvolvidos

características de cada indivíduo pelas características do grupo a que pertence

Os métodos de agrupamento, de acordo com o tipo de estrutura de

Quanto à rigidez, os métodos de agrupamento podem ser

A utilização da análise multivariada de agrupamentos de dados

Esta dissertação está estruturada em cinco capítulos. O primeiro

O processo de agrupar objetos reais ou abstratos em classes

O problema de “categorização” ou de agrupamento pode ser visto

Um aspecto importante a ser considerado em relação ao problema

De uma maneira mais formal, o problema de agrupamento pode ser

G = { G1, G2, . . ., Gk }, de forma que as seguintes condições sejam atendidas:

Por estas condições, um indivíduo não pode pertencer a mais de um

Os métodos de agrupamento de dados atribuem indivíduos aos

1.1 Métodos de agrupamento não-hierárquicos

Esta técnica de partição dos dados é baseada na idéia de otimizar

Os métodos de agrupamento de dados não-hierárquicos, também

um número k de grupos, escolhido a priori, utilizando uma medida de

Estes métodos não requerem que a alocação de um indivíduo em

Os métodos de agrupamentos de dados não-hierárquicos mais

1.1.1 Algoritmos de Médias (“means”)

Os algoritmos de médias, também conhecidos como algoritmos de

Esses algoritmos têm como ponto de partida um agrupamento inicial

diminuem o custo da função-objetivo. Estas iterações são exaustivamente

Os algoritmos “k-means” apresentam, como vantagens principais, a

Esses algoritmos possuem diversas implementações. Neste trabalho

Defesa em / / Conceito obtido: ____