Escolar Documentos
Profissional Documentos
Cultura Documentos
Fortaleza – Ceará
Junho de 2008
UNIVERSIDADE ESTADUAL DO CEARÁ – UECE
Centro de Ciências e Tecnologia – CCT
Fortaleza – Ceará
Junho de 2008
UNIVERSIDADE ESTADUAL DO CEARÁ – UECE
Centro de Ciências e Tecnologia – CCT
Banca Examinadora
_________________________________
Airton Fontenele Sampaio Xavier, LDc. (UECE)
Orientador
_________________________________
Carlos Humes Junior, DSc. (USP)
1º Membro Externo
_________________________________
Guilherme Lincoln Ellery, DSc. (UECE)
1º Membro Interno
_________________________________
Gustavo Augusto Lima Campos, DSc. (UECE)
2º Membro Interno
“Um dia eu tive um sonho . . .
Sonhei que estava andando na praia com o Senhor e
através do céu passavam cenas da minha vida.
Para cada cena que passava, percebi que eram deixados
dois pares de pegadas na areia: um era meu e o outro era
do Senhor.
Quando a última cena passou diante de nós, olhei para
trás, para as pegadas na areia e notei que muitas vezes, no
caminho da minha vida, havia apenas um par de pegadas
na areia.
Notei também que isso aconteceu nos momentos mais
difíceis e angustiantes do meu viver. Isso me aborreceu
deveras e perguntei então ao Senhor:
- Senhor, Tu me disseste que, uma vez que resolvi te seguir,
Tu andarias sempre comigo, em todo caminho. Contudo,
notei que durante as maiores atribulações do meu viver,
havia apenas um par de pegadas na areia. Não
compreendo por que nas horas em que eu mais necessitava
de Ti, Tu me deixaste sozinho?
O senhor me respondeu:
- Meu querido filho. Jamais te deixaria nas horas de
provas e de sofrimento. Quando viste, na areia, apenas um
par de pegadas, eram as minhas. Foi exatamente aí que eu
te carreguei nos braços.
p.
LISTA DE FIGURAS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . x
LISTA DE TABELAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xii
INTRODUÇÃO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1 – MÉTODOS DE AGRUPAMENTO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1 Métodos de agrupamentos não-hierárquicos. . . . . . . . . . . . . . . . . 4
1.1.1 Algoritmos de Médias (“means”). . . . . . . . . . . . . . . . . . . . . . 5
1.1.1.1 Versão de Forgy. . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.1.2 Versão JMeans. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1.2 Nuvens Dinâmicas de Diday. . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2 Métodos de agrupamentos hierárquicos . . . . . . . . . . . . . . . . . . . . 13
1.2.1 Árvore Geradora. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2.2 Algoritmo de Kruskal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2.3 Algoritmo Hierárquico Não Supervisionado (IGN) . . . . . . . . 18
2 – AGRUPAMENTOS DIFUSOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1 Algoritmo Difuso de Forgy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2 Algoritmo Difuso de Diday . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3 – ANÁLISE DE COMPONENTES PRINCIPAIS . . . . . . . . . . . . . . . . . . . . 34
4 – ANÁLISE COMPARATIVA ENTRE OS MÉTODOS DE
AGRUPAMENTOS RÍGIDOS E DIFUSOS . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.1 Flor de Íris. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.1.1 Resultados da ACP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.1.2 Resultados do algoritmo de Forgy rígido . . . . . . . . . . . . . . . 39
4.1.3 Resultados do algoritmo de Forgy difuso. . . . . . . . . . . . . . . 40
4.1.4 Resultados do algoritmo de Diday rígido . . . . . . . . . . . . . . . 41
4.1.5 Resultados do algoritmo de Diday difuso. . . . . . . . . . . . . . . 42
4.1.6 Resultados do algoritmo IGN . . . . . . . . . . . . . . . . . . . . . . . . 43
4.1.7 Análise dos resultados obtidos. . . . . . . . . . . . . . . . . . . . . . . 44
4.2 Exemplo de Devillez – 3 grupos. . . . . . . . . . . . . . . . . . . . . . . . . . . 45
viii
p.
p.
11
12
14
15
Passo 1: T = ∅
21
25
∑µ
j =1
ij xj
Ci = n , i = 1, . . . k
∑ µ ij
j =1
29
30
31
d ( xi , C j )
GPi , j = k
∑ d (x ,C
z =1
i z )
1
p ( p − 1) covariâncias, a menos que a quantidade de variáveis p seja muito
2
pequena ou que a estrutura das covariâncias seja bastante simples. Uma
solução para resolver este problema é identificar algumas variáveis aleatórias
(<< p) que preservam a maioria da informação (JOLLIFFE, 2002).
35
∑x ij
, j = 1, . . . , p
pj = i =1
36
S11 S12 S1 p
S S 22 S 2 p 1 n
= ∑ ( xki − pi )( xkj − p j )
12
S pxp , com S ij =
n − 1 k =1
S p1 S p 2 S pp
e U= u
1 [ u2 u p ]
0 0 λ p
ti
solução das equações: [ S − λI ]t i = 0 e u i = , para i = 1, 2, . . ., p.
t iT t i
O último passo é observar que os auto-vetores com os maiores
autovalores serão as componentes principais do conjunto de dados analisado.
Alinhando os autovalores de forma decrescente, do valor mais elevado ao mais
baixo, as componentes ficarão ordenadas pela importância, da mais
significativa a menos. Com isto, pode-se decidir por não considerar as
componentes de pouca relevância e, assim, reduzir a dimensão deste conjunto
de dados.
37
40
41
Esse problema de classificação foi proposto por Devillez et. al, 2002.
O conjunto observado possui 474 indivíduos com duas variáveis (figura 17). O
resultado esperado é a formação de três grupos, sendo o primeiro com 110
indivíduos, o segundo com 140 e o terceiro com 224 (DEVILLEZ et. al., 2002).
Figura 17 – Formação inicial do exemplo de Devillez – 3 grupos
46
Esse problema de classificação foi proposto por Devillez et. al, 2002.
O conjunto observado possui 236 indivíduos com duas variáveis (figura 20) e o
resultado esperado é a formação de quatro grupos, sendo o primeiro com 47
indivíduos, o segundo e o terceiro com 57, e o quarto com 41, além de 34
50
52
53
55
56
57
58
59
4.5 Diabetes
formação de dois grupos, sendo o primeiro composto por 355 pacientes com
parecer médico de negativo para diabético e o segundo com 177 pacientes
com diagnóstico de positivo para diabético.
Por tratar-se de um exemplo que exige um resultado exclusivo, ou
seja, um indivíduo ou é diabético ou não, as versões difusas com o processo
de desfuzzificação não foram executadas.
61
62
63
69
71
77
78
79
CONCLUSÃO
DIDAY, E.; SIMON, J. C. In: FU, K. S., editor, Digital Pattern Recognition.
Clustering Analysis. Berlin: Springer-Verlag, 1976. p. 47-94.
II
KLIR, G.J.; YUAN, B. Fuzzy Sets and Fuzzy Logic: Theory and
Applications. 1. ed. New Jersey: Prentice Hall, 1995.
III
IV
ZAHID, N.; ABOUELALA, O.; LIMOURI, M., ESSAID, A. Fuzzy clustering based
on K-nearest-neighbours rule. Fuzzy Sets and Systems. Amsterdam: Elsevier,
2001. v. 120, n. 2, p. 239-247.
VII
TClusterBasico
NumGrupos
NumIndividuos
VetorPartes
VetorIndividuos
ExibirIndividuo
ExibirGrupo
InserirIndividuo
ExcluirIndividuo
MoverIndividuo
TIGN
VetorRaizes
Analisar Formação
Figura 39 – Diagrama das principais classes do software SCluster
A.2 FastClass
A FastClass é um software de análise multivariada de dados que
implementa os algoritmos não hierárquicos Forgy e Diday tanto na versão
rígida quanto na difusa (ALMEIDA, 2005). Além disto, ela possui um módulo de
análise de componentes principais com três funções: ACP Avaliação, que
realiza o cálculo das componentes principais; ACP Conjunto Transformado,
que substitui o conjunto original por todos os novos componentes; e ACP
Conjunto Reduzido, que substitui o conjunto original pelos novos componentes
que têm até 95% de representatividade em relação ao conjunto analisado.
XI
TFastClass
NumIndividuos
NumVariaveis
NumGrupos
VetorIndividuos
VetorVariaveis
VetorGrupos
ExibirIndividuo
ExibirGrupo
ExecutarAlgoritmo
ExibirEnvoltoriaConvexa
MoverIndividuo
TForgyDifuso TDidayDifuso
NumIteracoes Densidade
Similaridade Similaridade
ObterLimites ObterLimites
CalcularInercia CalcularInercia
ForgyDifuso ObterMedia
DidayDifuso
Figura 44 – Diagrama das principais classes do software FastClass
XIII