Você está na página 1de 60

UNIVERSIDADE FEDERAL DO PARÁ

INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS


PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO

Caio Marcos Flexa Rodrigues

Projeto de Dissertação: Um Novo Índice de


Validade de Cluster Baseado no Espalhamento
Equidistante Mútuo para Clusterização Crisp

Belém-PA
2018
Caio Marcos Flexa Rodrigues

Projeto de Dissertação: Um Novo Índice de


Validade de Cluster Baseado no Espalhamento
Equidistante Mútuo para Clusterização Crisp

Projeto de Dissertação de Mestrado apre-


sentado ao Programa de Pós-Graduação em
Ciência da Computação da Universidade
Federal do Pará, como requisito parcial para
a obtenção do Grau de Mestre em Ciência
da Computação na área de concentração:
Sistemas de Computação. Linha de Pesquisa:
Sistemas Inteligentes. Orientador: Prof. Dr.
Claudomiro de Souza de Sales Júnior

Belém-PA
2018
Lista de ilustrações

Figura 1 – Paradigma SPR para SHM (FIGUEIREDO, 2010). . . . . . . . . . . . 9


Figura 2 – Ilustração de um procedimento de clusterização em quatro níveis de
abstração. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Figura 3 – Procedimento de determinação do número de clusters em validade de
clusters (ZHAO, 2012). . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Figura 4 – Resultados do MEC para um mesmo conjunto de oito dados, tal que
cada linha pontilhada configure um módulo de dissimilaridade intra-
cluster representado por um centroide quadrático e ciano, onde: (a)
K = 1; (b) K = 2; (c) K = 4; (d) validação dos resultados. . . . . . . . 23
Figura 5 – Visualização bidimensional dos conjuntos de dados sintéticos S2 e S3 ,
cujo número esperado de clusters K ◦ é, respectivamente: (a) quatro; (b)
dois. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Figura 6 – Visualização bidimensional dos conjuntos de dados sintéticos S4−8 , cujo
número esperado de clusters K ◦ é, respectivamente: (a) um; (b) um; (c)
dois; (d) seis (ou dois) e diagrama de Voronoi; (e) seis (cinco ou três) e
diagrama de Voronoi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Figura 7 – Visualização bidimensional dos conjuntos de dados sintéticos S9−12 , cujo
número esperado de clusters K ◦ é, respectivamente: (a) quatro; (b)
nove; (c) dez e outliers destacados em vermelho; (d) dez (adaptado de
(SALVADOR; CHAN, 2004)). . . . . . . . . . . . . . . . . . . . . . . . 33
Figura 8 – Visualização bidimensional dos conjuntos de dados sintéticos S13−16 ,
cujo número esperado de clusters K ◦ é, respectivamente: (a) quinze; (b)
quinze; (c) quinze; (d) quinze (FRäNTI; VIRMAJOKI, 2006). . . . . . 34
Figura 9 – Esquema para a Ponte Z-24 (a), bem como cenários de dano por falha
da cabeça de ancoragem (b) e ruptura do tendão (c). . . . . . . . . . . 36
Figura 10 – Primeiras duas frequências naturais estimadas pela coleta de dados
diária às 5 da manhã. . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Figura 11 – Primeiras quatro frequências naturais da Ponte Z-24. As observações
no intervalado 1-3470 são de condições normais (BC) e as observações
3471-3932 são relacionadas à condição de dano estrutural (DC). . . . . 38
Figura 12 – A Ponte Tamar (FIGUEIREDO; MOLDOVAN; MARQUES, 2013). . . 38
Figura 13 – Primeiras cinco frequências naturais obtidas mediante a Ponte Tamar.
As observações no intervalo de 1-301 são usadas na modelagem estatística
enquanto as amostras seguintes, somente, na fase de teste. . . . . . . . 39
Figura 14 – Histograma tomado a partir das cinquenta validações de cluster para
cada base de dados reais: (a) Iris; (b) Wine; (c) Glass. . . . . . . . . . 43
Figura 15 – Três soluções de clusterização encontradas para S11 a partir do K-
médias, onde K̂ = 10 é claramente menos adequado que K̂ = 9 ou 11,
malgrado K ◦ = 10, de maneira que: (a) Solução I; (b) Solução II; (c)
Solução III. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Figura 16 – Histograma tomado a partir das cinquenta validações de cluster para
os primeiros oito conjuntos de dados sintéticos: (a) S1 ; (b) S2 ; (c) S3 ;
(d) S4 ; (e) S5 ; (f) S6 ; (g) S7 ; (h) S8 ; . . . . . . . . . . . . . . . . . . . . 48
Figura 17 – Histograma tomado a partir das cinquenta validações de cluster para
os últimos oito conjuntos de dados sintéticos: (a) S9 ; (b) S10 ; (c) S11 ;
(d) S12 ; (e) S13 ; (f) S14 ; (g) S15 ; (h) S16 ; . . . . . . . . . . . . . . . . . . 49
Lista de tabelas

Tabela 1 – Características dos conjuntos de dados artificiais. (*) Válido para a


maioria dos clusters do referido conjunto de dados. . . . . . . . . . . . 34
Tabela 2 – Cenários de dano estrutural introduzido progressivamente (FIGUEI-
REDO et al., 2014). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Tabela 3 – Frequência absoluta (acima), média e desvio padrão (abaixo) de K̂ a
partir de cinquenta validações de cluster sobre os conjuntos de dados
reais, com destaque para o índice de maior frequência em cada conjunto
(negrito). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Tabela 4 – Média do RMSE tomada a partir das três bases de dados reais para
cada um dos índices de validade. . . . . . . . . . . . . . . . . . . . . . 42
Tabela 5 – Frequência absoluta (acima), média e desvio padrão (abaixo) de K̂ a
partir de cinquenta validações de cluster sobre os conjuntos de dados
sintéticos, com destaque para o índice de maior frequência em cada
conjunto (negrito). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Tabela 6 – Média do RMSE tomada a partir dos dezesseis conjuntos de dados
sintéticos para cada um dos índices de validade. . . . . . . . . . . . . . 45
Lista de abreviaturas e siglas

AM Aprendizado de Máquina

BIC Bayesian Information Criterion

CH Calinski-Harabasz

DB Davies-Bouldin

DI Damage Indicator

GS Gap Statistic

LM L-Method

MD Mineração de Dados

MEC Mutual Equidistant-scattering Criterion

SC Silhouette Coefficient

SHM Structural Health Monitoring


Sumário

1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Trabalhos relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3 Contextualização e terminologias do trabalho . . . . . . . . . . . . . . . . . 14
3.1 Validação de cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.1 Índice CH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.2 Índice DB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.3 Índice SC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.4 Índice BIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1.5 Índice GS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1.6 Índice LM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.1.7 Índice WB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4 Espalhamento equidistante mútuo: hipótese e contribuições . . . . . . . . . 20
4.1 Índice MEC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.2 Desajuste MEM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
6 Justificativa e contribuição à área . . . . . . . . . . . . . . . . . . . . . . . . 27
7 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
7.1 Objetivo geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
7.2 Objetivos específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
8 Metodologia de pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
9 Dados de teste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
9.1 Conjuntos de dados do mundo real . . . . . . . . . . . . . . . . . . . . . . 30
9.2 Conjuntos de dados sintéticos . . . . . . . . . . . . . . . . . . . . . . . . . 31
9.3 Conjuntos de dados SHM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
10 Resultados experimentais e análises . . . . . . . . . . . . . . . . . . . . . . 40
10.1 Dos conjuntos de dados reais . . . . . . . . . . . . . . . . . . . . . . . . . . 40
10.2 Dos conjuntos de dados sintéticos . . . . . . . . . . . . . . . . . . . . . . . 42
10.3 Do estudo de caso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
10.3.1 Validação de cluster em SHM . . . . . . . . . . . . . . . . . . . . . 47
10.3.2 Detecção de danos com MEM . . . . . . . . . . . . . . . . . . . . . 47
11 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
12 Artigos, propostas e cronograma . . . . . . . . . . . . . . . . . . . . . . . . 51
Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
7

1 Introdução

O mundo está cada vez mais repleto de dados profícuos, sobretudo porque, em sua
maioria, são armazenados em mídias eletrônicas todos os dias. Por essa razão, desde meados
do século passado — primórdios da Revolução da Informação — conservou-se um alto
potencial para a pesquisa e desenvolvimento de técnicas que visam a análise automatizada,
classificação e recuperação de dados (GANDOMI; HAIDER, 2015). Declarações recentes
ratificam a esse respeito que, de todos os dados já produzidos pela humanidade, por volta
de 90% foram gerados nos anos de 2015 e 2016, de forma que esse conteúdo ainda duplicará
em decorrido o mesmo período de tempo (GARDINER et al., 2017). Exponencialmente
crescentes, tanto o tamanho quanto a complexidade dos dados são tidos por Big Data e,
portanto, ambos merecem atenção.

Potencialidades latentes somente são exploradas de fato se impelidas à prática:


aqui, para a tomada de decisões com base em insights aprendidos de históricos de dados.
Tal como mencionado por Gandomi e Haider (2015), o procedimento mais abrangente para
extração de informações é composto de dois subprocessos: o gerenciamento e a análise
de dados. O gerenciamento envolve tecnologias e metodologias de suporte à aquisição e
armazenamento de dados, tratando-os e, quando solicitados, prontamente os recuperando
para análise (MCAFEE; BRYNJOLFSSON, 2012; GIL; SONGI, 2016i); em contra partida,
a análise refere-se à técnicas utilizadas para avaliar e adquirir inteligência a partir daquilo
que fora armazenado.

Em conformidade com os desafios oriundos da análise de dados, Gardiner et al.


(2017) apontam que pesquisadores de diversificadas matérias têm adotado métodos de
Aprendizado de Máquinas (AM) (CAMPELLO, 2010; DZIOPA, 2016) e Mineração de
Dados (MD) (MOULAVI et al., 2014), muitos dos quais desenvolvidos ou empregados em
aplicações de Big Data, como o monitoramento de dados em estoque, a análise financeira,
o monitoramento de tráfego e, em proeminência na literatura científica sobre as demais, o
Monitoramento de Integridade Estrutural (SHM, do inglês Structural Health Monitoring)
(FUMEO; ONETO; ANGUITA, 2015). Cremona (2016) demonstrou na prática as relações
existentes entre os subprocessos de gerenciamento e análise de dados, com enfoque específico
na aplicação por nós evidenciada. O autor afirma que Big Data não se restringe, por
um lado, a uma manipulação computadorizada de massivos fluxos de dados; por outro,
enfatiza que SHM pode aprender ipsis litteris com o aproveitamento consciente de AM.

O processo de SHM é comumente estabelecido como a implementação de uma


estratégia para detecção de dano em infraestrutura de engenharia aeroespacial, civil ou
Capítulo 1. Introdução 8

mecânica, cujo procedimento envolve a observação da estrutura por intermédio de medidas


de resposta dinâmica, periodicamente amostradas, a partir de uma rede de sensores ópticos
ao longo do tempo (FARRAR; WORDEN, 2013). Sua relevância é compreendida do fato
de que praticamente todas as organizações corporativas desejam detectar avarias em seus
produtos, bem como em sua engenharia de produção, com a maior brevidade possível.
Nesse contexto, dano é definido como mudanças do material e/ou propriedades geométricas
quando essas negativamente afetam o desempenho atual ou, em alguns casos, futuro, da
estrutura, incluindo transformações nas condições de contorno e conectividade verificáveis
através de atributos (RADZIEńSKI et al., 2013). Dentre os vários atributos sensíveis a
dano, características modais, em particular frequências naturais, são usualmente extraídas
de séries temporais de aceleração, já que dependem do módulo de Young (ou rigidez)
global e local do sistema (REYNDERS; WURSTEN; ROECK, 2013).

Todavia, a sensibilidade a dano é em geral acompanhada de sensibilidade à variabi-


lidade de cunho ambiental ou operacional, sendo esta última um dos principais empecilhos
para o desenvolvimento de sistemas de monitoramento em campo. Portanto, é alvo da
normalização de dados filtrar fatores de variabilidade indesejada que dificultem ou compro-
metam a adequada distinção entre condições normais (Baseline Condition — BC) e danosas
(Damage Condition — DC) (WORDEN; DULIEU-BARTON, 2004; FIGUEIREDO et al.,
2014).

Abordagens SHM encontram-se na categoria de problemas relacionados ao Reco-


nhecimento de Padrões Estatísticos (Statistical Pattern Recognition — SPR, ilustrado na
Figura 1), paradigma do desenvolvimento de soluções que pode ser descrito num total
de quatro passos: avaliação operacional; aquisição, fusão e limpeza de dados; extração de
características e condensação de informações; e desenvolvimento de modelos estatísticos
para discriminação de características, detalhado logo abaixo por ser o pano de fundo deste
trabalho (FARRAR; DOEBLING; NIX, 2001; YAO; PAKZAD, 2012).

O desenvolvimento de modelos estatísticos visa a criação ou emprego de algoritmos


inteligentes, capazes de atuar sobre características extraídas de dados brutos, com o
propósito de qualificar o comportamento estrutural (FARRAR; WORDEN, 2013). Pro-
cedentes da mais desafiadora fase para implementação do monitoramento, os modelos
constituem o subproduto final de SPR, enquanto, malgrado sua importância, detêm insufi-
ciente atenção dos pesquisadores. O efeito advindo dessa insuficiência é contraproducente,
posto que estratégias SHM não poderão ser difundidas em aplicações práticas, a menos
que técnicas robustas sejam desenvolvidas para explicita ou implicitamente contabilizar
restrições/condições ambientais e operacionais dos sistemas a serem monitorados (SOHN,
2007; FIGUEIREDO et al., 2014).
Capítulo 1. Introdução 9

Avaliação
Operacional
Aquisição de
Dados
Extração de
Características
Modelagem
Estatística

sem danos com danos

Figura 1 – Paradigma SPR para SHM (FIGUEIREDO, 2010).

Não obstante, nota-se que o aprendizado não supervisionado é a única opção para a
maior parte da infraestrutura de engenharia civil onde processos SHM são aplicados (como
em pontes), dado ser incomum que observações de condição com dano estejam disponíveis
para distinguimos os principais estados de variância habitual do sistema daqueles exibidos
apenas quando dano se faz presente (SANTOS et al., 2016). Dessa forma, Cremona (2016)
frisa a clusterização de dados como uma ferramenta crucial para a modelagem estatística
de SHM.

O problema de agrupar (ou clusterizar) dados é uma das principais tarefas do


paradigma de AM não supervisionado, prevalecente em qualquer disciplina que envolva a
análise exploratória de dados multivariados (JAIN, 2010). Formalmente conhecido como
análise de cluster, ele obteve um lugar de destaque em muitos ensaios nas últimas décadas,
com aplicações que vão da bioinformática (PAGNUCO et al., 2017), processamento de
imagem (MELIN; CASTILLO, 2014) e aplicações Web (NOULAS et al., 2011), passando
pelo processamento de linguagem (KRöGER; CAO, 2015) e detecção de comportamentos
indesejados ou outliers (AGRAWAL; AGRAWAL, 2015), até processos SHM.

O revelar de padrões em grupos naturais constitui-se como o interesse predominante


na análise de cluster, somente equiparado à produção de inferências úteis sobre os dados
organizados (LUXBURG; WILLIAMSON; GUYON, 2011; ZHAO, 2012). Contudo, rótulos
pré-definidos que possam nos confirmar quais dados seriam desejáveis numa mesma relação
frequentemente inexistem, e visto que métodos de agrupamento normalmente não levam
em conta informações prévias acerca dos dados, de pouco ou nada valeriam por si sós.
Simultaneamente, diferentes algoritmos utilizam diferentes parâmetros de entrada exigidos
dos usuários — isto é, hiperparâmetros, como o número de clusters nos quais certo conjunto
de dados é melhor particionado — para produção de suas saídas.

A seguir, tomamos alguns exemplos de hiperparâmetros com seus respectivos


Capítulo 1. Introdução 10

algoritmos entre parênteses (XU; TIAN, 2015; LANGONE et al., 2017): o expoente
fuzzificador (Fuzzy C-Means — FCM); o número mínimo de objetos e a ε-vizinhança de
um ponto (Clusterização Espacial de Aplicações com Ruído Baseada em Densidade, do
inglês: Density Based Spatial Clustering of Application with Noise — DBSCAN); número de
outliers (Clusterização Espectral de Kernel Adaptável, do inglês: Adaptive Kernel Spectral
Clustering — AKSC); e número de clusters, o mais comum e importante de todos. A
quantidade de agrupamentos é requerida em todos os algoritmos indicados entre parênteses,
com exceção do DBSCAN. Tal fato aumenta a complexidade envolvida no ajuste por
parte de analistas de dados, aquem de diminui-la à primeira vista. Porque, não precisando
diretamente do número de clusters para modelagem de grupos de formato arbitrário, o
DBSCAN impõe a configuração de outras duas entradas. Em contrapartida, Modelos de
Mistura Gaussiana (Gaussian Mixture Models — GMM) e o consagrado K-médias (do
inglês, K-means) são boas amostras de algoritmos que necessitam apenas do número de
clusters.

Porém, mesmo que a ausência de outros hiperparâmetros torne a utilização de


certo procedimento de clusterização mais simples, dois aspectos de AM merecem reflexão:
o subajuste de dados, quando um número pequeno de clusters resulta num modelo de
aprendizado deficitário que não generaliza bem os dados; e o sobreajuste, onde um modelo
com muitos clusters é especializado a ponto de não mais reconhecer observações de
comportamento ligeiramente variante dos dados de treinamento, mas que pertencem,
originalmente, a um mesmo cluster natural.

A Figura 2 ilustra bem o processo de clusterização em vários níveis de abstração,


com 3, 5, 7 e 10 agrupamentos ao todo, onde a problemática de subajuste e sobreajuste
de dados é claramente detectada. Na imagem, três e dez clusters são os resultados menos
plausíveis. O menor valor representa uma situação onde há perda significativa de informação
(subajuste de dados), e o maior, uma ocorrência de particionamento desnecessário de um
cluster natural em quatro partes (sobreajuste de dados, canto superior esquerdo). A divisão
em cinco clusters é uma solução subótima — termo que deve ser compreendido de aqui
em diante como um resultado aceitável mas até certo ponto, a depender de especificações
definidas por um especialista, ou aplicação em particular, de acordo com a natureza da
informação buscada —, uma vez que os clusters inferiores na figura possuem uma grande
proximidade entre eles – exemplo de especificação tomada arbitrariamente. Sete seria o
número desejável de divisões que gostaríamos de alcançar se, de fato, esse fosse um exemplo
do mundo real.

Vimos, pois, o quão fortemente dependentes da estipulação razoável de hiperpa-


râmetros são as soluções obtidas da clusterização, perante o que a validação de cluster,
tarefa de suma importância em aplicações do aprendizado não supervisionado, tem sido
Capítulo 1. Introdução 11

Figura 2 – Ilustração de um procedimento de clusterização em quatro níveis de abstração.

enunciada como o meio mais confiável de determina-los (PAGNUCO et al., 2017). Nesse
cenário, índices de validade analisam de perto duas questões concernentes à estrutura
subjacente dos dados: quantos agrupamentos estão presentes e qual a qualidade da partição
encontrada. Todavia, a maioria dos índices dispostos na literatura são condicionados ao
número de objetos em clusters e, por isso, tendem a ignorar grupos pequenos ou de baixa
densidade com frequência, assim como selecionam soluções subótimas quando encontram
agrupamentos em determinado grau de sobreposição ou baixa separação (ŽALIK; ŽALIK,
2011; GUERRA et al., 2012). Todas essas e outras desvantagens serão exploradas nos
capítulos mais adiante.

Desta maneira, propomos um novo índice de validade interna não paramétrico


neste trabalho, baseado no espalhamento equidistante mútuo entre dados dentro do cluster
a partir da saída de qualquer algoritmo de clusterização crisp – p. ex.: K-médias ou
Hierárquico. Analisamos sete diferentes índices de validade para detectar o número de
clusters em comparação com o nosso: CH, DB, SC, BIC, GS, LM e WB. Experimentos em
ambos os tipos de dados, sintético e do mundo real, mostram a eficácia e confiabilidade de
nossa abordagem para avaliação e seleção de algoritmos de clusterização e seus parâmetros
apropriados. Além disso, um estudo de caso de SHM foi realizado pela utilização de
algumas bases de dados bem conhecidas da área, com a finalidade mesma de, por fim,
corroborar e confirmar a viabilidade de uso do índice proposto para determinar o número
de clusters em casos concretos.
12

2 Trabalhos relacionados

A maioria dos índices são usualmente formulados pela combinação intuitiva do


seguinte par de métricas de avaliação (RENDóN et al., 2011; CHARRAD et al., 2014;
MARY; SIVAGAMI; RANI, 2015): homogeneidade, também chamada de compactação, e
separação. O primeiro mensura o quão correlacionados são os elementos de um determinado
cluster. Um popular exemplo é a variância, observando que ela também indica o grau
de dissimilaridade entre os mesmos elementos. Portanto, temos que um menor valor de
variância é um bom indicativo de proximidade. A separação consiste na distinção entre
dois clusters ou mais cujo principal exemplo é a distância entre seus dados representativos,
sendo ainda largamente empregada devido a seu uso computacionalmente eficiente e
eficácia para lidar com clusters de formato esférico. Um breve histórico dos índices de
validade propostos nas últimas décadas é apresentado a seguir.

O índice Dunn (DUNN, 1973) mede a razão entre a menor e a maior distância
intra-cluster em um particionamento, do qual muitas versões foram propostas nos anos
subsequentes (PAL; BISWAS, 1997; BEZDEK; PAL, 1998). O índice SD (HALKIDI;
VAZIRGIANNIS; BATISTAKIS, 2000) é definido com base nos conceitos de espalhamento
médio para clusterização e a separação total entre clusters. O índice S_Dbw verifica os
processos de variância intra-cluster e inter-cluster, muito similar ao SD. Chou, Su e Lai
(2002) usaram a distância não métrica extraída do conceito de simetria de ponto (SU;
CHOU, 2001), como também a simetria média total dos centroides, na produção de um
índice de validade baseado na simetria de ponto (Point-Symmetry — PS). Posteriormente,
Chou, Su e Lai (2004) propuseram o índice CS que obtém bons resultados quando a
densidade e/ou tamanho dos agrupamentos alcançados é diferente. Seu ponto fraco,
contudo, é o elevado custo computacional.

Outros autores optam por focar o fenômeno cotovelo ou ponto de joelho (TIBSHI-
RANI; WALTHER; HASTIE, 2001; SALVADOR; CHAN, 2004; ZHAO; HAUTAMAKI;
FRäNTI, 2008). Por exemplo, Tibshirani, Walther e Hastie (2001) propuseram o Gap esta-
tístico (Gap Statistic — GS), índice que visa algumas medidas estatísticas para resolução
da questão, ao passo que o Método-L (L-Method — LM) obtém o ponto de joelho dada
uma curva de soluções através do par de retas que melhor a ajusta (SALVADOR; CHAN,
2004). O Critério de Informação Bayesiana (Bayesian Information Criterion — BIC),
diferente dos critérios anteriores, é derivado do teorema de Bayes (SCHWARZ, 1978), logo,
usado para determinar o modelo de mistura mais apropriado baseado na distribuição de
probabilidades dos dados de entrada (FRALEY; RAFTERY, 2002).
Capítulo 2. Trabalhos relacionados 13

Na clusterização fuzzy, índices podem ser encontrados em (WU; YANG, 2005;


RAHMAN; ISLAM, 2014; RUBIO et al., 2017), onde o mais largamente empregado
é o Xie-Beni (HANCER; KARABOGA, 2017). Em contra partida, os preferidos na
clusterização crisp são (KIM; RAMAKRISHNA, 2005; HANCER; KARABOGA, 2017):
o Calinski-Harabasz (CH) e o Davies-Bouldin (DB), que combinam diferentes métricas
de homogeneidade e separação como o Coeficiente Silhouette (Silhouette Coefficient —
SC) (ROUSSEEUW, 1987). Para mais informações concernentes à validação de cluster
consultar (ZAKI; MEIRA, 2014).
14

3 Contextualização e terminologias do traba-


lho

O objetivo da clusterização é encontrar a melhor maneira de particionar um


determinado conjunto de dados X = {x1 , x2 . . . , xN }, num espaço de características M -
dimensional, em K subgrupos finitos definidos como P = {p1 , p2 , . . . , pK } e sintetizados
por meio de dados representativos Θ = {θ1 , θ2 , . . . , θK } (p. ex.: centroides, medianas,
medoides etc.), onde K ≤ N , tal que (XU; WUNSCH II, 2005):

• pκ 6= ø, κ = 1, . . . , K (todo cluster contém pelo menos um objeto);


SK
• κ=1 pκ = X (todo objeto pertence a um determinado cluster de dados);

• pκ ∩ pl = ø, κ, l = 1, . . . , K e κ =
6 l (cada objeto pertence exclusivamente a um único
cluster);

• pκ ∃θκ , κ = 1, . . . , K (para cada cluster existe um dado representativo).

O agrupamento resultante desse tipo de estrutura ocorre convencionalmente na literatura,


intitulado de hard no contexto da clusterização crisp (ŽALIK; ŽALIK, 2011; LINGRAS;
CHEN; MIAO, 2014), onde um objeto pertencente a algum dos cluster não poderá ser
novamente atribuido a quaisquer outros concomitantemente. O K-médias (MACQUEEN,
1967) é, de longe, a técnica mais popular na clusterização crisp; facilidade de implementação,
simplicidade e sucesso empírico na exploração dos dados são as principais razões de sua
popularidade ainda hoje (JAIN, 2010; MARY; SIVAGAMI; RANI, 2015).

Existe uma variedade muito grande de algoritmos de clusterização em função


da quantidade igualmente ampla de aplicações e princípios de indução ou formulações
matemáticas do que os pesquisadores acreditam ser uma boa definição de cluster (ŽALIK;
ŽALIK, 2011). Charrad et al. (2014) distinguem os algoritmos de clusterização em crisp
(clusters hard) versus fuzzy (clusters soft), completo versus parcial, one-way versus two-way
e hierárquico versus particional.

Estivill-Castro (2002), Jain (2010) e Hancer e Karaboga (2017) argumentam que,


de fato, a maioria dos autores possuem algum grau de dificuldade teórica em descrever o
que é cluster sem que, para isso, assumam alguma sugestão a respeito de um princípio de
indução, comumente referido por critério de agrupamento. Segundo eles, por exemplo, uma
definição clássica é que: “objetos são agrupados com base no princípio de maximização
Capítulo 3. Contextualização e terminologias do trabalho 15

da similaridade intra-classe e minimização da similaridade inter-classe”. Nesta definição,


classe é o mesmo que cluster, de tal forma que a similaridade/dissimilaridade/proximidade
é usualmente determinada por uma medida de distância, como a distância Euclidiana ou
Mahalanobis (GEVA et al., 2000; WORDEN; MANSON, 2007). Outra definição aceitável
é que clusters sejam delimitados por fronteiras de decisão que separam regiões de alta
densidade de regiões de baixa densidade no espaço característico.

Em algoritmos de clusterização, usualmente é assumido que o número de clusters é


conhecido ou dado e, uma vez que a clusterização é um procedimento de aprendizagem não
supervisionada, isto é, que não existe conhecimento a priori da distribuição de dados no
conjunto de subjacência, a significância dos clusters definidos precisa ser validada para o
conjunto de dados (LUXBURG; WILLIAMSON; GUYON, 2011; IGLESIAS; KASTNER,
2013). Portanto, um dos aspectos mais desafiadores do agrupamento é a validação ou
exame objetivo e quantitativo dos resultados de agrupamento (MOULAVI et al., 2014).

3.1 Validação de cluster


O procedimento de avaliar os resultados de um algoritmo de clusterização é co-
nhecido sob o termo de validade de cluster e realizado por índices (às vezes chamados
de critérios) de validade, que também atacam problemas difíceis como a avaliação da
qualidade de clusters e o grau com que um esquema de clusterização se ajusta a um
conjunto de dados específico. Porém, a aplicação mais comum dos índices de validade
é o fine-tuning do parâmetro K mostrada na Figura 3. Tal procedimento é necessário
para encontrar um número apropriado de clusters K̂ dado um conjunto de dados X,
um algoritmo de clusterização específico e uma faixa de número de clusters, segundo os
seguintes passos (ZHAO, 2012; DZIOPA, 2016):

Figura 3 – Procedimento de determinação do número de clusters em validade de clusters


(ZHAO, 2012).

1. Repetir um algoritmo de clusterização sucessivas vezes de acordo com um número de


clusters a partir de uma faixa fixada de valores definida a priori: K ∈ [Kmin , Kmax ];
Capítulo 3. Contextualização e terminologias do trabalho 16

2. Obter o resultado da clusterização (partições P e dados representativos Θ) para


cada valor da faixa;

3. Calcular o valor do índice de validade para todas as soluções;

4. Selecionar o K̂, valor máximo ou mínimo (Figura 3), para o qual o particionamento
de dados forneceu o melhor resultado.

Por sua vez, índices são considerados virtualmente independentes dos algoritmos
de clusterização utilizados (WU; YANG, 2005) e normalmente caem em uma das duas
categorias fundamentais: validação de cluster interna e validação de cluster externa
(GUERRA et al., 2012; MARY; SIVAGAMI; RANI, 2015). A validação interna não
requer conhecimento sobre o domínio do problema, de forma tal que a qualidade da
partição que utiliza índices de validade interna é validada pela verificação de cada partição
individualmente. Portanto, critérios de validade interna são medidas que utilizam apenas
informações intrínsecas aos dados, e por isso mesmo possuem forte apelo prático. Em
contra partida, a validação externa é mais acurada, porém nada factível em termos práticos.
Nesse caso, avaliamos o quanto a solução obtida se aproxima de uma estrutura pré-definida
baseada no conhecimento prévio e intuitivo concernente a natureza dos dados. Existe
uma subcategoria, ainda, que cobre ambas as outras, usada para comparar esquemas de
clusterização: a validação relativa baseada na análise repetida de um mesmo algoritmo a
partir de diferentes parâmetros para obter um resultado estável (MOULAVI et al., 2014).

Por esses motivos, optamos por desenvolver um índice de validade interna, comparando-
o com outros afins com o intuito de validar a proposta em um número exaustivo de casos
através de conjuntos de dados. Observamos que por questão de simplicidade nossas análises
serão focadas no largamente usado procedimento de clusterização K-médias, assim como
em (TIBSHIRANI; WALTHER; HASTIE, 2001; RENDóN et al., 2011).

As seções a seguir oferecem uma visão mais detalhada dos sete índices internos
comparados com aquele proposto em nosso estudo em termos de formulação matemática.
São eles: CH, DB, SC, BIC, GS, LM e WB, onde os quatro primeiros são os mais tradicio-
nais e, portanto, comparados na literatura de validação de cluster; esses, os mais recentes
e superiores a outros critérios de avaliação que os precederam como reportado por seus
próprios autores, porém ainda não exaustivamente confrontados. Logo abaixo denotamos
que

x̄ consiste na média de dados em X,


Capítulo 3. Contextualização e terminologias do trabalho 17

nκ representa o número de objetos no cluster pκ ,

PK Pnκ
WK = κ=1 i=1 (xi − θκ )(xi − θκ )> é a matriz de dispersão dentro do cluster K,

PK
BK = κ=1 nκ (θκ − x̄)(θκ − x̄)> a matriz de dispersão entre grupos em função de K para
os dados particionados.

3.1.1 Índice CH
O índice CH (CALIńSKI; HARABASZ, 1974) é definido pelo número de clusters
K que maximiza a Equação 3.1.
BK N −K
CH(K) = × . (3.1)
WK K −1

3.1.2 Índice DB
O índice DB (DAVIES; BOULDIN, 1979) é formulado como a máxima razão entre a
homogeneidade interna e a separação de clusters de acordo com o valor de K que minimiza
DB(K) da seguinte maneira:
K
!
1 X δκ + δl
DB(K) = max , (3.2)
K κ=1 κ6=l dist(θκ , θl )
onde

l = 1, . . . , K,

q
|xij − θκj |u é o desvio padrão para u = 2,
1 Pnκ Pm
δκ = u
nκ i=1 j=1

qP
dist(θκ , θl ) = v m
j=1 |θκj − θlj |v a distância Euclidiana quando v = 2.

3.1.3 Índice SC
Rousseeuw (1987) propôs o uso do SC, maximizando a Equação 3.3, onde SC(K) ∈
[−1, 1].
N
1 X
SC(K) = S(i), (3.3)
N i=1
onde

b(xi )−a(xi )
S(i) = max{a(xi ),b(xi )}
,
Capítulo 3. Contextualização e terminologias do trabalho 18

1 Pnκ
a(xi ) = nκ −1 j=1 dist(xi , xj ), x ∈ pκ , é a dissimilaridade média do i-ésimo objeto para
j6=i
quaisquer outros objetos pertencentes a pκ ,

Pnl
b(xi ) = min{ n1l j=1 dist(xi , xj )}, xj ∈ pl , é a dissimilaridade média do i-ésimo objeto para
l6=κ
todos os objetos do cluster mais próximo a ele.

3.1.4 Índice BIC


O BIC (FRALEY; RAFTERY, 2002) foi originalmente concebido para evitar
overfitting. O critério de informação é definido como mostra a Equação 3.4 into partition-
based clusterização.
K
!
ni ni × m ni ni × K 1
X  
BIC(K) = ni log − log (2π) − log (Di ) − − K log(N ),
i=1 n 2 2 2 2
(3.4)

onde

1 Pni
Di = N −K j=1 kxj − θi k2 é o ajuste do modelo aos dados de entrada.

3.1.5 Índice GS
O GS foi desenvolvido por (TIBSHIRANI; WALTHER; HASTIE, 2001) para a
comparação dos resultados de validação de um dado conjunto de dados a outro tomado
a partir de uma distribuição nula de refência apropriada. Então, o índice GS é definido
como:
B
1 X
GS(K) = (log (WKb )) − log (WK ) , (3.5)
B b
onde

PK 1
dist(xi , xj ), ∀x ∈ pκ , de forma que i 6= j,
P
WK = κ=1 2nκ

WKb denota a distância intra-cluster média da b-ésima amostra Monte-Carlo obtida


através da distribuição de referência, usando K agrupamentos de dado.

O número razoável de clusters é dado pelo menor valor de K, tal que GS(K) ≥ GS(K +
q
1) − sK+1 , onde sK = sdK 1 + 1/B e sdK é o desvio padrão de {log (WKb )}.
Capítulo 3. Contextualização e terminologias do trabalho 19

3.1.6 Índice LM
Dada uma curva de avaliação (conjunto de soluções de agrupamento em sequência),
o LM (SALVADOR; CHAN, 2004) tem como finalidade encontrar o ponto de joelho por
intermédio da fronteira entre o par de linhas retas que melhor fit a curvatura. O LM index
denota a raiz do erro quadrático médio (RMSE, do inglês Root Mean Squared Error) total
minimizada em função de K como abaixo
K −1
LM(K) = × RMSE(LK )+
Kmax − 1
(3.6)
Kmax − K
× RMSE(RK ),
Kmax − 1
onde

LK e RK são as sequências de dados esquerda e direita particionadas em K e sujei-


tas a um limite mínimo de cardinalidade igual a dois. Isto é, LK consiste nos pontos que
variam de 2, . . . , K no eixo-x e RK do restante, K + 1, . . . , Kmax , onde K = 3, ..., Kmax − 2.

3.1.7 Índice WB
Zhao, Xu e Fränti (2009) propuseram um simples, porém eficiente, método sum-
of-square. Os autores enfatizaram o vantajoso efeito de multiplicar o número de clusters
por WK (Equação 3.7), uma vez que, desse modo, o índice determinará o K pelo valor
mínimo da função sem que haja a necessidade de qualquer método de detecção do ponto
de joelho.
WB(K) = K × WK /BK . (3.7)
20

4 Espalhamento equidistante mútuo: hipó-


tese e contribuições

Este capítulo define as principais contribuições desta dissertação: na seção 4.1, um


novo índice de validade de cluster elaborado para detectar automaticamente o número
razoável de clusters, chamado de critério de espalhamento equidistante mútuo (MEC,
do inglês Mutual Equidistant-scattering Criterion); apresentamos um novo método de
detecção de outliers na seção seguinte, aplicado à detecção de danos em SHM e designado
por desajuste do espalhamento equidistante mútuo (MEM, do inglês Mutual Equidistant-
scattering Misfit). Tanto MEC quanto MEM são fundamentados na suposição de que o
espalhamento equidistante mútuo constitui-se num modo superior de quantificar informação.

4.1 Índice MEC


Propomos um novo índice de validade interna não paramétrico para clusterização
crisp, computacionalmente eficiente e de larga aplicabilidade em muitos problemas e áreas
do conhecimento humano. Um benefício imediato de MEC é a ausência de hiperparâmetos
que necessitam de configuração da parte de um especialista no domínio do problema
atacado para determinar K. Assim sendo, o esforço do usuário é mitigado em termos
operacionais, ao mesmo tempo que a possibilidade de uso efetivo do critério é maximizada
em dados do mundo real cuja estrutura interna pouco, às vezes quase nada, se conhece.

A principal hipótese assumida é:

Objetos pertencentes à mesma distribuição de dados tenderão a ser mutuamente mais


“equidistante espalhados” que dados de distribuições distintas – sejam elas quais forem.

O espalhamento equidistante mútuo é então ponderado por penalizações de natureza


restritiva local a cada cluster pκ , enquanto uma penalização de caráter global é aplicada
a posteriori. Tais penalizações são: uma nova medida de homogeneidade intra-cluster e
outra de separação inter-cluster, respectivamente.

Empregamos a diferença absoluta média M sobre todas as partições pk , usando


dados multi-representativos para toda solução de clusterização {P, Θ} obtida, como dito
anteriormente, a partir de um pré-determinado número de clusters K. Para tal proveito, a
diferença absoluta média é calculada entre quaisquer possíveis pares de dissimilaridade
Capítulo 4. Espalhamento equidistante mútuo: hipótese e contribuições 21

pairwise intra-cluster
dκ = dist(xi , xj ), (4.1)

sujeito a

∀xi , xj ∈ pκ , i 6= j,

onde os nκ objetos dentro do cluster são considerado como dados representativos na


formulação. Ou seja, cada dκ = {d(1) (2) (Lκ )
κ , dκ , . . . , dκ } na sequência de vetores é definido
nκ (nκ −1)
como Lκ = 2
valores de distância Euclidiana intra-cluster para formulação da parte
chave do critério:
κ −1
LX Lκ
M(pκ ) = ηκ−1
(i)
− d(j)
X
dκ κ , (4.2)

i=1 j=i+1
Lκ (Lκ −1)
onde ηκ = 2
é o número total de diferenças absolutas calculadas para um único
cluster. Wu e Yang (2002) declararam que uma distância de tipo exponencial oferece
uma propriedade robusta baseada na análise da função de influência, de tal modo que
mais tarde (veja Wu e Yang (2005) para detalhes) a usaram para validação de partições.
Em nossas análises experimentais a partir de dados simulados e em exemplos de dados
reais observamos empiricamente que ela trabalha adequadamente, especialmente quando
o número de clusters “ótimo” ou razoável K ◦ é buscado dentro de um conjunto de
dados hierárquicos. Portanto, modelamos uma nova medida de homogeneidade Σ de tipo
exponencial não negativa para penalização de M(pκ ),
−σ 2

1 − e κ

 se σκ > 0
Σ(pκ ) = e−σκ2 (4.3)

0

c.c.,

onde
σκ2 = Eκ(1) − Eκ(2) , (4.4)

de sorte que o par Eκ é determinado em função de dκ , como



1 X 2
Eκ(1) = d(l)
κ ,
Lκ l=1
!2 (4.5)

1 X
Eκ(2) = d(l) .
Lκ l=1 κ
Observa-se que a métrica de homogeneidade se inicia cada vez mais perto da origem com a
aproximação da solução do modelo ideal, aquele onde o valor do critério é zero e, portanto,
a perda de informação é nula em conformidade com a hipótese suposta. Dessa forma,
tem-se o índice MEC definido em termos de
K
X
MEC(K) = λ Σ(pκ ) × M(pκ ), (4.6)
κ=1
Capítulo 4. Espalhamento equidistante mútuo: hipótese e contribuições 22

onde 
1

 K se K > 1
 max dist(θi , θj )


λ= ∀θ∈Θ (4.7)
 i6=j




1 c.c.
A medida de separação e penalização global λ assim formulada, portanto, não depende
única e exclusivamente de pκ , porém do maior afastamento entre os pares de pontos
representativos de cada partição de dados (p. ex., centroide ou centralização da massa
de dados de pκ no caso da aplicação do K-médias). Em poucas palavras, λ mensura o
resultado da solução como um todo.

A pertinência de K na Equação 4.7 é uma maneira simples de evitar prováveis


superajustes em decorrência de soluções de clusterização já suficientemente acomodadas
aos dados. Além de mitigar a ocorrência de superajustes, um melhoramento em relação
à maioria dos índices preexistentes trata-se da possibilidade de avaliar a tendência de
clusterização (quando K = 1), consequentemente evitando o uso de técnicas exteriores ao
índice enquanto tal (ZHAO, 2012).

Finalmente, nota-se que a Equação 4.6 deva ser minimizada, isto é, que K̂ é inferido
pela variação de K ∈ [Kmin , Kmax ] que determinou o menor valor de MEC,

K̂ = arg min MEC(K), (4.8)

independentemente do método ou do algoritmo de agrupamento aplicado. Ou ainda,


quando a comparação envolve soluções qualitativamente diferentes para um mesmo número
de partições.

A Figura 4 exibe a composição do valor de MEC para cinco possíveis soluções


de clusters mediante um pequeno conjunto de objetos, onde também o mecanismo de
funcionamento do critério, homogeneidade e separação, é visualizado para apenas três delas
por questões de melhor legibilidade, K = 1, 2 e 4 – Figuras 4a, 4b e 4c respectivamente.

A noção intuitiva geral é que, medidas de dissimilaridade devam se assemelhar ao


máximo possível entre si ao observarmos individualmente os clusters. Neste caso, a solução
dos quatro clusters (Figura 4c) é a melhor dentro do conjunto de soluções (Figura 4d), visto
que as distâncias entre objetos são exatamente as mesmas em cada cluster. A Figura 4a
contém a solução menos adequada entre as mostradas graficamente, pois suas medidas
de dissimilaridade são mais divergentes em comprimento do que aquelas que existem nas
Figuras 4b e 4c.

Não obstante, a Equação 4.2 pode ser equivalentemente otimizada a uma complexi-
dade log-linear em função de Lκ , para que alcançemos uma maior eficiência computacional
com o emprego do critério. A razão disso está na reformulação da Equação 4.2 pela
Capítulo 4. Espalhamento equidistante mútuo: hipótese e contribuições 23

(a)

(b)

(c)

4
MEC

mínimo global:
3

1 1.5 2 2.5 3 3.5 4 4.5 5


Número de clusters

(d)

Figura 4 – Resultados do MEC para um mesmo conjunto de oito dados, tal que cada linha
pontilhada configure um módulo de dissimilaridade intra-cluster representado
por um centroide quadrático e ciano, onde: (a) K = 1; (b) K = 2; (c) K = 4;
(d) validação dos resultados.
Capítulo 4. Espalhamento equidistante mútuo: hipótese e contribuições 24

produção de um vetor auxiliar, bem como na dependência de dκ frente a um processo


de ordenação de inexoravelmente mesma ordem (p. ex., como o desempenhado pelo al-
goritmo HeapSort). Com efeito, o tempo de processamento computacional de MEC será
inteiramente dependente da complexidade do algoritmo de ordenação escolhido. Dessa
maneira, temos uma complexidade no tempo de O(Lκ log Lκ ) com o HeapSort, O(N 2 )
sobre o tamanho do conjunto de dados, pelo reformulado
L̃κ  
M(pκ ) = ηκ−1 c(l) ˆ(l)
X
κ − dκ × (Lκ − l) , (4.9)
l=1

onde dˆκ é a ordenação crescente dos valores de dκ e L̃κ = Lκ − 1 = #cκ . Por sua vez, cκ é
uma variável auxiliar que consiste num vetor cumulativo e natural ordenado de dˆκ definido
como
c(κL̃κ ) = dˆ(L
κ
κ)
≥ 0
c(κL̃κ −1) = cκ + dˆκ κ
(L̃κ ) (L −1) L̃
≥ cκ κ )
(

.. .. .. (4.10)
. . .
c(1)
κ = cκ + dˆκ
(2) (2) (2)
≥ cκ .

4.2 Desajuste MEM


A seguir, o funcionamento de um novo método aplicado à detecção de danos é
demonstrado. Batizado de MEM, caracteriza-se pelo desdobramento direto do índice MEC
através do reaproveitamento intuitivo de alguns dos seus parâmetros internos. Logo, é
necessário que MEC tenha sido previamente aplicado para que os DIs sejam produzidos.
MEM é consistente por transitividade com a hipótese postulada na seção 4.1.

Desse modo, a produção de MEM é subsequente à fase de validação de cluster,


onde os parâmetros do critério são ajustados usando vetores de características a partir de
uma matriz de treino, X; em contrapartida, MEM irá transformar cada vetor de entrada
z num DI global a partir da matriz Z na fase de teste (SANTOS et al., 2016). Assim, o
desajuste MEM depende explicitamente do nível de correlação,

p0κ = p_
κ z = {x1 , x2 , . . . , xnκ , z}, (4.11)

resultante da inserção de z ao cluster pκ . A Equação 4.12 define a que cluster a nova


observação deve pertencer, conforme
 
κ = arg min dist(θi , z) . (4.12)
1≤i≤K̂

Isto posto, MEM é definido explicitamente como uma perturbação mensurada da razão
tomada entre parâmetro recalculado e original do critério:
Σ(p0 ) M(p0κ )


κ
DI(z) = α × − 1 , (4.13)

Σ(pκ ) M(pκ )
Capítulo 4. Espalhamento equidistante mútuo: hipótese e contribuições 25

onde  
min
0
d0  
α= d >0
= min d0 (1 + nκ ), (4.14)
1 0
d >0
1+nκ

é um fator de normalização que contém o tamanho do cluster nκ (i.e., o quão influente


espera-se que o acréscimo de um único objeto, no todo, venha a ser) e algum tratamento
 
ao problema da convexidade de cluster em min
0
d0 , onde
d >0

d0 = dist(x, z), ∀x ∈ pκ . (4.15)


26

5 Motivação

A análise de cluster é uma das tarefas mais importantes do reconhecimento de


padrões, bem-conceituada como um método para clusterização de um conjunto de dados
em grupos de objetos cujas propriedades são intrinsicamente similares, sendo largamente
empregada para a descoberta do conhecimento a fim de revelar estruturas de dados que
possam ser extremamente úteis para o analista.

Em algoritmos de clusterização, usualmente é assumido que o número de clusters é


conhecido ou dado e, uma vez que o particionamento é um procedimento de aprendizagem
não supervisionada, i.e., que não existe conhecimento a priori da distribuição de dados no
conjunto de subjacência, a significância dos clusters definidos precisa ser validada para o
conjunto de dados.

A notória variedade de algoritmos de agrupamento impõe dificuldades para os


usuários que não só precisam selecionar o algoritmo mais adequado para uma determinada
tarefa, como também ajustar simultânea e adequadamente seus parâmetros de entrada
(MOULAVI et al., 2014). Tais escolhas estão intimamente relacionadas com a valida-
ção de cluster, um dos tópicos mais desafiadores na literatura de clusterização, e que
exime usuários entusiastas —- ou mesmo experientes cientistas de dados –– de prévio
conhecimento a respeito do problema e investigações sobre a natureza do algoritmo de
clusterização empregado, seus hiperparâmetros e conjunto de dados manipulado. Nossa
principal motivação é provar que além de superar índices previamente reportados na
literatura, esta proposta poderá ser empregada em situações reais e adversas com autêntica
e notória confiabilidade.
27

6 Justificativa e contribuição à área

No contexto da clusterização crisp, propusemos um novo índice de validade interna


de caráter não paramétrico com base no espalhamento equidistante mútuo entre dados
intra-cluster a partir da saída de qualquer algoritmo de clusterização, dentre os quais os
mais comuns são: K-médias e Hierárquico. A principal justificativa advém do fato de que,
de forma geral, os índices de validade encontrados na literatura são ainda considerados
dependentes do número de objetos de dado em cada clusters e com frequência tendem a
ignorar grupos pequenos e de baixa densidade, assim como selecionam soluções subótimas
de agrupamento quando os clusters se encontram em determinado grau de sobreposição
ou baixa separação (JAIN, 2010; ŽALIK; ŽALIK, 2011).

Por outro lado, a validação interna não requer conhecimento sobre o domínio do
problema, de forma tal que a validade da partição que utiliza especificamente esses índices
é qualificada pela verificação de cada uma individualmente. Portanto, é correto salientar
que critérios de validade interna possuem forte apelo prático, haja vista que são medidas
de razoabilidade da solução que utilizam apenas informações intrínsecas aos dados.

Analisamos diferentes índices de validade para detectar o número de clusters em


um conjunto de dados: CH, DB, SC, BIC, GS, LM e WB, cada um dos quais detentores de
pontos fracos e fortes singulares. Experimentos e comparações em exaustivos conjuntos de
dados, sintéticos e do mundo real, mostraram a eficácia e confiabilidade de nossa abordagem
para avaliação e seleção de hiperparâmetros de clusterização apropriados, automaticamente
determinando o número de clusters em uma alta gama de problemas. Uma revisão de
trabalhos correlacionados e recentes é também fornecida a partir da literatura.
28

7 Objetivos

Com vistas à problemática de se avaliar soluções no contexto da Validação de


Cluster, os objetivos foram divididos em Geral e Específicos, descritos abaixo em detalhes:

7.1 Objetivo geral


Propomos um novo índice de validade interna (MEC) para avaliar soluções crisp de
clusterização; robusto, não paramétrico e livre de hiperparâmetros, seu principal objetivo é
encontrar automaticamente o número de clusters K presente nos dados. Para atingir essa
meta, submetemos o MEC a variados cenários do mundo real por meio de conjuntos de
dados imbuídos dos mais destacados aspectos e nuances por trás de obstáculos encontrados
no processo de clusterização. Na busca de comprovação para superioridade de nossa técnica,
nossos esforços foram concentrados na comparação de resultados com os obtidos também
de outras técnicas afins, previamente estabelecidas e bem exploradas na literatura.

7.2 Objetivos específicos


Cada objetivo específico constitui-se também de contribuições deste trabalho:

• Aplicar o algoritmo K-médias de AM para detecção de padrões e modelagem em


bases de dados com o objetivo de gerar soluções sem a necessidade de rótulos e mais
informações;
• Sete índices de validade são explorados neste trabalho com o intuito de determinar o
número razoável de clusters, bem como para comparação com o MEC: CH, DB, SC,
BIC, GS, LM e WB;
• Simular e obter uma quantidade exaustiva de conjuntos de dados sintéticos como
arquétipos de desafios reais enfrentados na validação de cluster, tais como: hierarquia
de dados, existência de um único cluster, diferenças de densidade, tamanho, formato
e afins, totalizando dezesseis conjuntos de dados, dos quais propriamente a metade
é de nossa autoria. Ressalta-se que todos os conjuntos de dados sintéticos são
bidimensionais por questões analíticas de observação;
• Um estudo de caso no contexto de SHM (Structural Health Monitoring – monitora-
mento de integridade estrutural);
• Produção de novo DI (Damage Indicator – indicador de dano) na fase de detecção
de danos em SHM baseado no índice MEC.
29

8 Metodologia de pesquisa

Analisamos diferentes índices de validade para detectar o número de clusters em


um conjunto de dados: CH, DB, SC, BIC, GS, LM e WB, cada um dos quais detentores
de pontos fracos e fortes singulares. Desse modo, conduzimos experimentos e comparações
em exaustivos conjuntos de dados, sintéticos e do mundo real, para demonstrar a eficácia
e confiabilidade de nossa abordagem para avaliação e seleção de hiperparâmetros de
clusterização apropriados, automaticamente determinando o número de clusters em uma
alta gama de problemas.

Como método de validação dos resultados encontrados na pesquisa deste projeto,


tem-se por objetivo a construção de cenários baseados nos principais desafios encontrados
na clusterização de dados mediante a produção de oito (8) conjuntos sintéticos. De fato,
outros oito (8) conjuntos artificiais são extraídos da literatura, totalizando dezesseis (16)
conjuntos de dados sintéticos usados na validação de cluster, dos quais propriamente a
metade é de nossa autoria. Também são empregados três conjuntos de dados reais como
conjuntos de teste em comparações dos índices. São eles: Iris, Glass e Wine, alguns dos
mais populares benchmarks de dados do mundo real usados na validação de cluster.

Em suma, o desempenho dos sete índices de validade é explanado em diversos


conjuntos de dados através de uma série de indicadores estatísticos: frequência absoluta,
média e desvio padrão de K̂ a partir de cinquenta validações de cluster em cada conjunto de
dados. Neste sentido, também considerou-se exibir um gráfico de histograma da distribuição
dos resultados num esforço a fim de facilitar a compreensão do leitor do que fora alcançado
por cada índice. Por fim, o erro entre o número desejado e ajustado de clusters fora
estimado para denotar que, na média, o comportamento de MEC tende a superar os
demais índices.

Ademais, comparações mais detalhadas de eficiência dos índices serão realizadas em


quatro bases no estudo de caso SHM, mostrando e ratificando as implicações vantajosas
de uso do MEC. As comparações em geral deverão considerar: a inexistência de hiperparâ-
metros de ajuste para os critérios, possibilidade de avaliação de uma única distribuição
(um cluster), a detecção de soluções em níveis diferentes de refinamento, a eficiência para
baixa densidade, a sensibilidade à separação e sobreposição de clusters e, por fim, mas não
menos importante, a proximidade do resultado com o número de clusters esperado.
30

9 Dados de teste

Nossa principal motivação é provar que, além de superar índices previamente


reportados na literatura, esta proposta poderá ser empregada em situações reais com
autêntica confiabilidade, ainda que sejam adversas. Obviamente, todos os conjuntos de
dados são bidimensionais por questões analíticas de observação.

9.1 Conjuntos de dados do mundo real


Explanaremos nesta seção os conjuntos de dados reais que serão usados como
conjunto de testes em comparações de índices de validade de cluster. São eles: Iris, Glass e
Wine, alguns dos mais populares benchmarks do mundo real ainda usados para avaliar
o desempenho de técnicas de AM, especialmente na validação de cluster (Erisoglu et al.,
2011; Zalik and Zalik, 2011; Moulavi et al., 2014). Todos estão disponíveis online, podendo
ser facilmente obtidos no UCI machine learning repository (Frank and Asuncion, 2010).

O conjunto de dados Iris (Bezdeket al., 1999) contém 150 exemplos de dados
relacionados a três classes ou clusters balanceados de espécies, designadamente: (I) Iris
setosa, (II) Iris Versiculor e (III) Iris Virginica. A classe Iris setosa é fortemente separável
das demais, porém a Iris Versiculor e Iris Virginica não são linearmente separáveis uma da
outra. Cada data point é descrito por um conjunto de quatro atributos: comprimento da
sépala, largura da sépala, comprimento da pétala e largura da pétala.

Forina et al., (1988) realizaram uma análise da composição química de vinhos


cultivados em uma mesma região da Italia, porém derivados de três diferentes vinículas,
definindo o conhecido conjunto de dados Wine. A análise química determinou a quantidade
precisa de 13 constituintes encontrados em cada um dos três tipos de vinhos para um total
de 178 objetos: 59, 71 e 48 objetos na classe I, II e III, respectivamente.

O conjunto de dados Glass (Frank and Asuncion, 2010) é oriundo de um estudo de


classificação dos tipos de vidro motivado pela investigação criminológica, visto que o vidro
existente na cena do crime pode ser usado como evidência crimical quando corretamente
identificado. Ele é constituído de N = 214 data points no espaço característico de nove
dimensões particionados em K = 6 clusters com diferentes números de data objects: 70,
17, 76, 13, 9 e 29.
Capítulo 9. Dados de teste 31

9.2 Conjuntos de dados sintéticos


Simulamos e obtemos uma quantidade exaustiva de conjuntos de dados sintéticos
como arquétipos de desafios reais enfrentados na validação de cluster, tais como: hierarquia
de dados, existência de um cluster somente, diferentes densidades, tamanhos, formatos
e afins, totalizando dezesseis conjuntos de dados, dos quais propriamente a metade é de
nossa autoria.

Oito conjunto de dados sintéticos são de nossa própria autoria, desses oito, os três
primeiros foram construídos para demonstrar o bom funcionamento das bases de nosso
critério, com efeito: o espalhamento equidistante mútuo dos dados. Assim, S1 foi pensado
como quatro clusters de formato triangular e equilátero (see Figura 4), onde cada ponto é
posicionado exatamente nos cantos pertencentes a seu agrupamento, totalizando 12 data
points com o intuito de validar a hipótese oriunda do MESC index. O mesmo acontece com
S2 (Figura 5a), porém com um único diferencial, aqui, cada triângulo é irregular. Outro
polígono é representado no cojunto de dados S3 (Figura 5b) com número de clusters K = 2
e size N = 8. A despeito das condições ideais constituídas a priori, S2 e S3 intentam provar
que a avaliação do MESC pode ser extensível a conjuntos de subjacência de outros tipos.

Ademais, uma grande parte dos critérios de validade conhecidos, principalmente


aqueles que usam distâncias entre clusters como métrica de validade, não suportam uma
resposta adequada ao problema de somente um cluster incluso nos dados. (BEZDEK; PAL,
1998) introduziram tal problema chamando-o de “tendency assessment”. E, considerando
que a baixa densidade e a forma não esférica dos clusters também constituem importantes
aspéctos a serem observados, propomos mais três conjuntos de dados: S4 , S5 e S6 , Figures
6a, 6b e 6c. O primeiro deles configura-se como uma distribuição Gaussiana de média
centrada em (2, 2) e covariância = ( 0.25 0
0 0.25 ) para N = 1000. Os demais, S5 e S6 , são
distribuições uniformes de baixa densidade de dados, formato não esférico e N = 100 e

3.5 5

4
3

2.5
2

1
2

1.5
−1

1 −2
1 1.5 2 2.5 3 3.5 1 2 3 4 5 6 7 8

(a) (b)

Figura 5 – Visualização bidimensional dos conjuntos de dados sintéticos S2 e S3 , cujo


número esperado de clusters K ◦ é, respectivamente: (a) quatro; (b) dois.
Capítulo 9. Dados de teste 32

3.5 1

0.9
3
0.8

2.5 0.7

0.6
2

0.5

1.5
0.4

1 0.3

0.2
0.5
0.1

0 0
0 0.5 1 1.5 2 2.5 3 3.5 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

(a) (b)
1 30

0.9
25
0.8

0.7 20

0.6
15

0.5

10
0.4

0.3 5

0.2
0
0.1

0 −5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 −5 0 5 10 15 20 25 30

(c) (d)
8

1
1 2 3 4 5 6 7 8

(e)

Figura 6 – Visualização bidimensional dos conjuntos de dados sintéticos S4−8 , cujo número
esperado de clusters K ◦ é, respectivamente: (a) um; (b) um; (c) dois; (d) seis
(ou dois) e diagrama de Voronoi; (e) seis (cinco ou três) e diagrama de Voronoi.

30, respectivamente. Por fim, geramos dois conjuntos hierárquicos, S7 e S8 (Figura 6), de
dados uniforme e normalmente distribuídos, respectivamente. De outra forma, S7 tem
K = 6 agrupamentos, interessantemente também agrupado ainda em K = 2 (resposta
subótimo). S8 permite duas outras soluções subótimas além dos seus seis clusters, nesta
ordem, K = 5 e 3. Daí a nomenclatura K = 6(2) e K = 6(5, 3). A ideia principal é que
um bom critério de validade possa identificar, aquem do resultado ótimo, outras possíveis
soluções subótimos, mesmo para distribuições, densidades, tamanhos e hierarquias de
dados diferentes, bem como um alto valor de K no caso das misturas Gaussianas que
notamos na Figura 8.

De fato, reproduzimos e adaptamos quatro conjuntos de dados bidimensionais,


S9−12 , exibidos na Figura 7 e usados para avaliar o L-Method in clustering algorithms por
(SALVADOR; CHAN, 2004). De tamanhos, densidades, separações, números de clusters e
quantidade de outliers diversos, cada um deles tipifica um ou mais aspectos desafiadores
Capítulo 9. Dados de teste 33

4 6

3.5 5

3 4

2.5 3

2 2

1.5 1

1 0
1 1.5 2 2.5 3 3.5 4 1 2 3 4 5 6 7

(a) (b)
10 6.5

9 6

5.5
8

5
7
4.5
6
4
5
3.5
4
3
3
2.5

2
2

1 1.5

0 1
−1 0 1 2 3 4 5 6 7 8 9 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 6.5

(c) (d)

Figura 7 – Visualização bidimensional dos conjuntos de dados sintéticos S9−12 , cujo número
esperado de clusters K ◦ é, respectivamente: (a) quatro; (b) nove; (c) dez e
outliers destacados em vermelho; (d) dez (adaptado de (SALVADOR; CHAN,
2004)).

que precisam ser transpostos para uma boa validação de cluster. São eles: (S9 ) quatro
clusters cônvacos, bem separados e size N = 2000; (S10 ) um conjunto de dados com nove
clusters de formato quadrático conectados at the corners e size N = 4500; (S11 ) dez clusters
côncavos, onde uma metade é composta de clusters sobrepostos e a outra de fortemente
separados, bem como uma distribuição uniforme de outliers e tamanho N = 3000; por
último, (S12 ) dez clusters bem separados de diferentes tamanhos e densidades de data
points, onde N = 3200.

Fränti e Virmajoki (2006) apresentam quatro conjuntos de dados em progressivo


grau de sobreposição de cluster (Figura 8), aqui, denotados como S13 (Figura 8a), S14
(Figura 8b), S15 (Figura 8c) e S16 (Figura 8d), a cada um dos quais pertencem modelos
de distribuição Gaussiana, cuja reunião é conhecida como mistura Gaussiana. São con-
juntos bidimensionais compostos de N = 5000 vetores independentes e K = 15 clusters
Gaussianos, não apenas sobrepostos como ruidosos em diferentes níveis de graduação.

A Tabela 1 resume as principais informações supracitadas a respeito do compor-


tamento dos dados nesta seção, mostrando os dezesseis conjuntos de dados sintéticos e
às quais características se vincunlam, p. ex: formato quadrático, alta homogeneidade e
distribuição Gaussiana, e outros atributos como tamanho e número esperado de clusters.
Capítulo 9. Dados de teste 34

10 10

9 9

8 8

7 7

6 6

5 5

4 4

3 3

2 2

1 1

0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

(a) (b)
10 10

9 9

8 8

7 7

6 6

5 5

4 4

3 3

2 2

1 1

0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

(c) (d)

Figura 8 – Visualização bidimensional dos conjuntos de dados sintéticos S13−16 , cujo nú-
mero esperado de clusters K ◦ é, respectivamente: (a) quinze; (b) quinze; (c)
quinze; (d) quinze (FRäNTI; VIRMAJOKI, 2006).

Tabela 1 – Características dos conjuntos de dados artificiais. (*) Válido para a maioria
dos clusters do referido conjunto de dados.
Conjuntos
N K◦ Separação Compactação Distribuição Densidade Sobreposição Formato Ruído
de dados
S1 12 4(2) Alto Baixo —— Baixo —— Triangular ——

S2 12 4 Alto Baixo —— Baixo —— Triangular ——

S3 8 2 Alto Baixo —— Baixo —— Quadrático ——

S4 1000 1 —— Alto Gaussiana Alto —— Esférico ——

S5 100 1 —— Alto Uniforme Alto —— Quadrático ——

S6 30 2 Alto Baixo Uniforme Baixo —— Quadrático ——

S7 300 6(2) Baixo Alto Uniforme Alto —— Esférico ——

S8 180 6(5,3) Alto Alto Gaussiana Alto —— Esférico ——

S9 2000 4 Alto Alto Uniforme Alto —— Esférico ——

S10 4500 9 Baixo Alto Uniforme Alto —— Quadrático ——

S11 3000 10 Alto* Alto Uniforme Alto Baixo Quadrático Baixo

S12 3200 10 Alto Alto* Uniforme Alto* —— Esférico ——

S13 5000 15 Alto Alto Gaussiana Alto Baixo Esférico* Baixo

S14 5000 15 Baixo Baixo Gaussiana Alto Baixo Esférico* Alto

S15 5000 15 Baixo Baixo Gaussiana Alto Alto Esférico* Alto

S16 5000 15 Baixo Baixo Gaussiana Alto Alto Esférico* Alto


Capítulo 9. Dados de teste 35

9.3 Conjuntos de dados SHM


A Ponte Z-24 era uma estrutura de concreto padrão que ligava as cidades de
Berna e Zurique, Suíça. Esta ponte foi composta por um vão principal de 30 m e dois
laterais de 14 m cada um (Figura 9a). A demolição da ponte ocorreu a partir de 04 de
Agosto de 1997 à 10 de Setembro de 1998, e durante este período foi efetivado um sistema
de monitoramento onde foram extraídas medições de vibração sob influência de caráter
ambiental e operacional, a fim de fornecer uma ferramenta viável para testar e validar
novos sistemas e soluções de monitoramento. Aproximadamente, no último mês do período
de observação (de 4 de Agosto à 9 de Setembro, 1998), cenários de danos (Tabela 2) foram
artificialmente induzidos ao sistema com o alvo de realizar a modelagem estatística para a
detecção de danos.

Tabela 2 – Cenários de dano estrutural introduzido progressivamente (FIGUEIREDO et


al., 2014).

Data Descrição
04-08-1998 Medição de referência I (antes de qualquer cenário de dano)
09-08-1998 Após a instalação do sistema de sedimentação
10-08-1998 Sedimentação de pilar = 2 cm
12-08-1998 Sedimentação de pilar = 4 cm
17-08-1998 Sedimentação de pilar = 5 cm
18-08-1998 Sedimentação de pilar = 9.5 cm
19-08-1998 Inclinação da fundação
20-08-1998 Medição de referência II (depois da remoção do sistema de sedimentação)
25-08-1998 Espalhamento de concreto (12 m2 )
26-08-1998 Espalhamento de concreto (24 m2 )
27-08-1998 Deslizamento de terra no pilar
31-08-1998 Falha das articulações (ou ligamentos) de concreto
02-09-1998 Falha da cabeça de ancoragem I
03-09-1998 Falha da cabeça de ancoragem II
07-09-1998 Ruptura do tendão I
08-09-1998 Ruptura do tendão II
09-09-1998 Ruptura do tendão III

Os cenários de danos, introduzidos progressivamente durante um período de nove


meses antes da demolição da ponte, proporcionaram um verdadeiro conjuntos de dados de
características em condição comprometida. Alguns desses cenários foram: espalhamento de
concreto, sedimentação de pilar, falha da cabeça de ancoragem (Figura 9b) e ruptura do
tendão (Figura 9c).

Um método baseado em identificação estocástica de subespaço foi usado (PE-


ETERS; ROECK, 1999) com o objetivo de extrair as principais frequências naturais.
Capítulo 9. Dados de teste 36

(a)

(b)

(c)

Figura 9 – Esquema para a Ponte Z-24 (a), bem como cenários de dano por falha da
cabeça de ancoragem (b) e ruptura do tendão (c).
Capítulo 9. Dados de teste 37

Extrações mediante séries temporais de aceleração coletadas e observáveis a cada hora,


de 11 de Novembro de 1997 à 10 de Setembro de 1998, resultando em quatro frequências
naturais e numa quantidade de 3932 observações, onde as primeiras 3470 observações são
correlacionados a condições não danificadas e as últimas (470) correspondem a condições de
avaria, introduzidas progressivamente no sistema. É importante destacar que, a ponte foi
intensamente influenciada por variações térmicas provocadas por efeitos de congelamento
comuns à região (veja Figura 10). Observações realizadas no intervalo de 11 de Novembro
de 1997 à 3 de Agosto de 1998 (1-3470 observações) são referidas como condição normal
devido à existência única dos dados intactos sob variabilidade ambiental e operacional.
No entanto, as observações realizadas no intervalo de 4 de Agosto à 10 de Setembro,
1998, estão relacionadas com as condições de dano. A Figura 11 exibe as primeiras quatro
frequências naturais obtidas de acordo com o seu respectivo estado estrutural, onde as
observações em azul (BC) foram somente usadas na fase de teste.

Figura 10 – Primeiras duas frequências naturais estimadas pela coleta de dados diária às
5 da manhã.

O uso de apenas observações não danificadas na modelagem estatística destaca a


característica sem supervisão dos algoritmos propostos. A matriz de treino permite que o
algoritmo aprenda e modele a distribuição subjacente e a variabilidade ambiental e opera-
cional. É composta por quatro frequências naturais (características) e todas as observações
não danificadas, porém a matriz de teste é composta pelas mesmas características (todas
as observações não danificadas) com a inclusão de vetores característicos sob condição de
dano, resultando em: uma matriz de treinamento X3123×4 (1-3123 observações) e uma
Capítulo 9. Dados de teste 38

Figura 11 – Primeiras quatro frequências naturais da Ponte Z-24. As observações no


intervalado 1-3470 são de condições normais (BC) e as observações 3471-3932
são relacionadas à condição de dano estrutural (DC).

Figura 12 – A Ponte Tamar (FIGUEIREDO; MOLDOVAN; MARQUES, 2013).

matriz de teste composto por todas as observações Z3932×4 (1-3932 observações).

A Ponte Tamar (Figura 12) foi construída em meados de 1961 para interligar as
cidades de Saltash e Cornwall por meio da estrada A38 no Reino Unido. A Figura 13
mostra as primeiras cinco frequências naturais obtidas durante a fase de extração de
características usando identificação estocástica de subespaço (PEETERS; ROECK, 1999)
através de dados coletados no período de 1 de Julho de 2007 à 24 do Fevereiro de 2009,
totalizando 602 observações ou amostras.
Capítulo 9. Dados de teste 39

Figura 13 – Primeiras cinco frequências naturais obtidas mediante a Ponte Tamar. As


observações no intervalo de 1-301 são usadas na modelagem estatística
enquanto as amostras seguintes, somente, na fase de teste.

Para o estudo realizado na Ponte Tamar é aplicada uma abordagem semelhante à


descrita sobre a Ponte Z-14, a diferença é que observações danificadas não estão disponíveis,
assim, apenas os erros do tipo I podem ser contabilizados. Pela mesma razão, as curvas
ROC não podem ser construídas. A partir de uma quantidade total de 602 observações, as
primeiro 301 (ou seja, 50 por cento) são utilizadas para a modelação estatística e toda a
base de dados é utilizada na fase de teste. Isto resulta na formação de uma matriz X301×5
(1-301 observações) e uma matriz de teste Z602×5 (1-602 observações).
40

10 Resultados experimentais e análises

Este capítulo se divide em três seções de análise dos resultados. Nas duas primeiras
seções, 10.1 e 10.2, explanamos o desempenho dos sete índices de validade em diversos
conjuntos de dados através de uma série de indicadores estatísticos. São eles: frequência
absoluta, média e desvio padrão de K̂ a partir de cinquenta validações de cluster sobre os
conjuntos de dados, de modo que também considerou-se exibir um gráfico de histograma
para a distribuição dos resultados num esforço para facilitar a compreensão do leitor do
que fora alcançado. Por fim, o erro entre o número desejado e ajustado de clusters fora
estimado para denotar que, na média, o comportamento de MEC tende a superar os
demais índices.

Terceira e última seção deste capítulo, a seção 10.3 apresenta um estudo de caso
para avaliação de soluções de clusterização no contexto de SHM, quando não se conhece
ao certo o número de clusters nos quais os dados se agrupam. Para isso, algum insight dos
dados e conhecimento técnico da área são necessários. Os resultados são então validados
conforme o pipeline convencional da área, mediante: curvas ROC, erros Tipo I e Tipo II e
DIs, descritos no Capítulo 8. Além da validação em si, o método de detecção de outliers
MEM tem seu funcionamento comparado ao que tradicionalmente se alcança a partir da
distância Euclidiana, novamente conforme o pipeline particular de SHM.

10.1 Dos conjuntos de dados reais


A frequência de ocorrência do número de clusters corretamente detectado, junto
a indicadores estatísticos que visem mensurar algum tipo de desvio na tendência de
validação, compõe uma maneira confortável e compreensiva de analisar a performance
provida, tanto por MEC quanto pelos demais índices. A Tabela 3 exibe a frequência de K̂
quando K̂ = K ◦ , mostrando que o índice proposto foi destaque em dois dos três conjuntos
de dados reais avaliados: Iris e Wine, ambos detentores de K ◦ = 3 clusters, com frequência
absoluta correspondente a 30 e 50 vezes. No primeiro caso, MEC (3.50 ± 0.68) se fixou
razoavelmente próximo do valor esperado com leve desvio padrão; no segundo, alcançou
desempenho igual a 100% de precisão (3.00 ± 0.00).

Para o conjunto de dados Iris em particular, LM (2.00 ± 0.00) e SC (2.00 ± 0.00)


obtiveram respostas subótimas à K ◦ . Não o tendo alcançado uma única vez sequer, no
entanto, permanecem coerentes devido a ocorrência de forte sobreposição entre as classes
Iris Versiculor e Iris Virginica. Os índices verificados como problemáticos em desempenho
Capítulo 10. Resultados experimentais e análises 41

foram: GS (9.08 ± 4.44), CH (11.48 ± 3.97) e BIC (4.50 ± 4.02), destaques negativos da
segunda linha na Tabela 3, pouco importando se por algumas vezes encontraram o número
correto de agrupamentos, decerto que caracterizam-se principalmente por grandes desvios
e médias ainda maiores.

Por sua vez, a Tabela 3 apresentou uma diversidade bem menor de resultados na
base de dados Wine em relação à sua anterior, Iris, pois não apenas MEC destacou-se aqui,
como também GS, SC e CH, com frequência absoluta 50 e média e desvio de 3.00 ± 0.00
respectivamente, totalizando a maioria dos índices estatisticamente experimentados. Na
contramão, LM (2.00 ± 0.00) alcançou equilíbrio, porém sem detectar uma única vez a
K ◦ = 3.

A maior relevância foi alcançada com o uso de DB em conjunto de dados Glass,


de forma que BIC, GS, SC e CH sobressaíram-se desfavoravelmente a partir de médias
discrepantes em comparação a K ◦ = 6. Além disso, DB, dono da maior frequência
absoluta, foi seguido imediatamente de MEC e LM em decorrência de seus baixos desvios,
ao mesmo tempo que próximos a K ◦ , isto é, 7.84 ± 0.84 e 4.12 ± 0.77, nessa ordem. A
razão disso, a despeito de que ambos possuam frequência absoluta em torno de zero, é
que a estabilidade de soluções próximas a K ◦ faz-se preferível a uma maior variação de
soluções que ocasionalmente o possam interpolar.

Assim sendo, a média do RMSE é apresentada na Tabela 4 para cada índice.


Ademais, a Figura 14 exibe um conjunto de histogramas com o objetivo-fim de auxiliar
e corroborar nossas análises numéricas, a fim de comprovar, sobretudo, o fenômeno
supracitado para Glass quanto a distribuição de K̂. A Tabela 4 demonstra de forma
inequívoca tal fenômeno, onde MEC (0.95) se mostra muito superior a DB (3.18), com um
valor de erro por mais de três vezes menor do que o obtido com DB. Os demais índices
chegaram a obter erro igual a 4.41, para CH, 4.65, para BIC, e 4.86 a partir de GS, ou seja:
aproximadamente 4 ou 5 vezes o erro da abordagem proposta neste estudo. Finalmente,

Tabela 3 – Frequência absoluta (acima), média e desvio padrão (abaixo) de K̂ a partir de


cinquenta validações de cluster sobre os conjuntos de dados reais, com destaque
para o índice de maior frequência em cada conjunto (negrito).
Conjuntos
K◦ Kmax MEC BIC LM GS SC DB CH
de dados
30 5 0 13 0 0 8
Iris 3 15
3.50 ± 0.68 4.50 ± 4.02 2.00 ± 0.00 9.08 ± 4.44 2.00 ± 0.00 2.40 ± 2.02 11.48 ± 3.97

50 35 0 50 50 44 50
Wine 3 15
3.00 ± 0.00 5.42 ± 4.03 2.00 ± 0.00 3.00 ± 0.00 3.00 ± 0.00 4.24 ± 3.44 3.00 ± 0.00

0 4 2 0 0 13 0
Glass 6 15
7.84 ± 0.84 9.94 ± 3.15 4.12 ± 0.77 12.86 ± 1.71 2.64 ± 0.75 8.28 ± 3.09 2.14 ± 0.35
Capítulo 10. Resultados experimentais e análises 42

a Figura 14c nos permite concluir que MEC supera DB a despeito de sua frequência 0
(Tabela 5), visto que a dispersão de K̂ é muito acentuada para DB, assemelhando-se
somente a de BIC.
Tabela 4 – Média do RMSE tomada a partir das três bases de dados reais para cada um
dos índices de validade.

MEC BIC LM GS SC DB CH

RMSE (médio) 0.95 4.65 1.34 4.86 1.48 3.18 4.41

10.2 Dos conjuntos de dados sintéticos


O desempenho dos sete índices de validade é agora analisado sobre os conjuntos
detalhados na seção 9.2, onde cada um deles fora artificialmente produzido tendo em vista
um problema real enfretado na validação de cluster.

Na Tabela 5, a frequência de K̂ quando K̂ = K ◦ é exibida, de onde observamos


que MEC (3.62 ± 0.49) acertou K ◦ em 31 de 50 vezes em S1 , seguido de BIC (3.30 ± 1.40)
com 7 de 50 vezes. Outros índices inclinaram-se mais a encontrar K̂ = 2 como notamos
através da média, uma vez que existe certa coerência na organização de S1 em dois pares
de clusters que são mais próximos entre si que de quaisquer outros — conforme explanado
na seção 4.1 e indicado na Figura 4b —, exceto DB. Em S2 , os clusters deixam de ser
equiláteros em formato, havendo, portanto, dois destaques: MEC e CH, com frequência
absoluta 47 e mesmas médias e desvios, ambos iguais a 3.94 ± 0.24. Por outro lado, DB
(5.90 ± 0.36) e GS (1.00 ± 0.00) demonstraram pouca consistência, com frequência em
torno de 0. Em S3 , o formato é quadrático, sem nenhuma hierarquia entre os clusters, para
o qual cinco índices de validade alcançaram K = 2 nas 50 vezes, a saber: MEC, BIC, LM,
SC e CH; em contrapartida, DB conseguiu encontrar por 27 vezes o valor esperado de K,
diferente de GS que destacou-se negativamente com 1.00 ± 0.00.

Posteriormente, lembremos que tanto S4 como S5 constituem-se como casos especiais


entre os conjuntos de dados sintéticos, visto que não possuem qualquer tendência de
clusterização, ou, em outras palavras, por conterem apenas um único cluster. Todavia,
enquanto a distribuição de dados de S5 é uniforme, a de S4 é Gaussiana. Dessa forma,
MEC e GS foram destaques incontestes, independentemente da distribuição que os dados
seguissem ou do formato de seus clusters, demonstrando assim, com 100% de precisão,
habilidade em detectar a ausência de tendência de clusterização num dado conjunto. No
tocante aos outros índices, LM foi o que mais se aproximou de K ◦ = 1 com média em
torno de 3 e um baixo desvio, a despeito de nenhum deles ser naturalmente capaz de
avaliar K = 1. BIC, SC, DB e CH apresentaram desempenho muito aquém do aceitável a
Capítulo 10. Resultados experimentais e análises 43

(a)

(b)

(c)

Figura 14 – Histograma tomado a partir das cinquenta validações de cluster para cada
base de dados reais: (a) Iris; (b) Wine; (c) Glass.
Capítulo 10. Resultados experimentais e análises 44

Tabela 5 – Frequência absoluta (acima), média e desvio padrão (abaixo) de K̂ a partir


de cinquenta validações de cluster sobre os conjuntos de dados sintéticos, com
destaque para o índice de maior frequência em cada conjunto (negrito).
Conjuntos
K◦ Kmax MEC BIC LM GS SC DB CH
de dados
31 7 0 0 0 0 0
S1 4(2) 6
3.62 ± 0.49 3.30 ± 1.40 2.00 ± 0.00 1.84 ± 0.37 2.00 ± 0.00 3.56 ± 1.88 2.00 ± 0.00

47 6 0 0 7 1 47
S2 4 6
3.94 ± 0.24 4.12 ± 0.94 2.80 ± 0.40 1.00 ± 0.00 3.20 ± 0.53 5.90 ± 0.36 3.94 ± 0.24

50 50 50 0 50 27 50
S3 2 4
2.00 ± 0.00 2.00 ± 0.00 2.00 ± 0.00 1.00 ± 0.00 2.00 ± 0.00 2.92 ± 1.01 2.00 ± 0.00

50 0 0 50 0 0 0
S4 1 15
1.00 ± 0.00 13.66 ± 6.53 5.00 ± 0.00 1.00 ± 0.00 12.60±11.05 25.44 ± 5.25 6.16 ± 0.71

50 0 0 50 0 0 0
S5 1 15
1.00 ± 0.00 8.98 ± 3.40 3.28 ± 0.50 1.00 ± 0.00 6.12 ± 2.32 11.86 ± 3.29 12.10 ± 2.35

50 12 50 7 50 50 0
S6 2 15
2.00 ± 0.00 9.30 ± 4.51 2.00 ± 0.00 8.66 ± 4.00 2.00 ± 0.00 2.00 ± 0.00 12.34 ± 2.49

11 0 0 0 0 0 0
S7 6(2) 15
6.26 ± 1.87 2.00 ± 0.00 2.00 ± 0.00 2.00 ± 0.00 2.00 ± 0.00 2.00 ± 0.00 2.00 ± 0.00

11 8 0 11 6 5 11
S8 6(5,3) 15
7.44 ± 1.28 4.44 ± 1.74 2.74 ± 0.94 7.20 ± 1.16 4.34 ± 1.48 3.94 ± 1.15 7.20 ± 1.16

46 46 4 46 46 46 46
S9 4 15
4.08 ± 0.27 4.04 ± 0.28 3.08 ± 0.27 4.08 ± 0.27 4.08 ± 0.27 3.92 ± 0.27 4.08 ± 0.27

28 28 0 28 28 28 28
S10 9 15
9.48 ± 0.58 9.36 ± 0.66 3.00 ± 0.00 9.48 ± 0.58 9.42 ± 0.57 8.60 ± 0.53 9.48 ± 0.58

9 4 0 7 5 7 7
S11 10 30
9.60 ± 1.88 7.68 ± 3.44 5.14 ± 0.76 11.02 ± 1.41 6.98 ± 2.02 6.50 ± 1.85 10.90 ± 1.45

17 12 0 6 9 9 2
S12 10 30
9.54 ± 2.03 10.66 ± 4.23 4.94 ± 0.47 19.12 ± 8.17 8.30 ± 1.18 8.20 ± 1.46 22.16 ± 7.41

10 9 0 10 15 11 10
S13 15 30
16.12 ± 0.80 13.50 ± 3.45 4.62 ± 0.60 16.12 ± 0.80 15.42 ± 0.88 13.96 ± 1.01 16.12 ± 0.80

17 11 0 16 18 18 16
S14 15 30
15.82 ± 1.00 12.78 ± 4.58 4.16 ± 0.37 16.14 ± 0.97 15.56 ± 1.05 14.32 ± 0.98 16.14 ± 0.97

12 5 0 13 13 12 12
S15 15 30
13.54 ± 1.69 9.28 ± 5.90 4.10 ± 0.30 15.60 ± 1.26 14.78 ± 1.46 13.30 ± 1.62 15.94 ± 1.32

15 2 0 19 18 19 19
S16 15 30
13.10 ± 2.26 14.40 ± 8.77 4.64 ± 0.49 15.32 ± 1.08 15.38 ± 1.16 14.10 ± 1.17 15.54 ± 1.07

partir de médias e desvios padrões bastante elevados, chegando até a 12.10 ± 2.35 no pior
caso (CH).

Para S6 , aproximadamente metade dos índices, MEC, LM, SC e DB a saber,


alcançou um excelente resultado com frequência absoluta de 50, de forma que a outra
Capítulo 10. Resultados experimentais e análises 45

metade distanciou-se largamente de K ◦ = 2, decerto porque tais índices não puderam


lidar corretamente com a baixa densidade do cluster mais à direita na ??. Foram eles, BIC
(9.30 ± 4.51), GS (8.66 ± 4.00) e CH (12.34 ± 2.49), cujas frequências foram 12, 7 e 0
respectivamente.

Dois outros conjuntos de dados podem ser hierarquicamente reorganizados por


conta de suas estruturas. Além de S1 , são eles: S7 , em apenas 2 clusters, e S8 , em 5 ou 3,
sem que percamos de vista que neles existem não menos que seis de fato. Em S7 , MEC foi,
de longe, o principal destaque, com frequência absoluta igual a 11 e 6.26 ± 1.87, enquanto
todos os demais não encontraram outra solução viável que não fosse a subótima – isto
é, exibindo média 2 e desvio padrão 0. Isso ocorre porque todos eles, excetuando-se o
próprio MEC, possuem dificuldades em detectar clusters com baixa separação mutua,
compactos ou não, preferindo “enxerga-los” como a um só ao invés disso. Em menor grau,
o mesmo comportamento foi exibido com S1 , vide os índices LM, GS, SC e CH, e S8 , onde
BIC (4.44 ± 1.74), LM (2.74 ± 0.94), SC (4.34 ± 1.48) e DB (3.94 ± 1.15) optam mais
frequentemente por K̂ = 5 ou 3. Junto a MEC, destacam-se também GS e CH em S8 ,
todos com frequência absoluta 11 e K̂ médio em torno de 7.

Basicamente, todos os critérios, com exceção de LM, produziram um mesmo e


adequado desempenho para S9 e S10 , onde a média fora em torno de, respectivamente, 4
e 9 para pequenos desvios padrões. Encontramos o valor esperado de K ◦ em 36 das 50
validações que aplicamos a S9 . Enquanto isso, para S10 , esse valor diminui para pouco mais
da metade das vezes. Tal diferença parece se apoiar sobre dois fatores principais segundo a
Tabela 1: no número de clusters, sendo o segundo (K ◦ = 9) aproximadamente o dobro do
primeiro (K ◦ = 4) — pois a complexidade do espaço de busca tende a aumentar em função
de K —; e no grau de separação entre clusters, devido a que clusters bem-separados, como
é o caso de S9 , são mais facilmente localizados na clusterização via de regra.

MEC (9.60 ± 1.88) se destacou em S11 também, contabilizando uma modesta


frequência absoluta de 9. Por sua vez, BIC (7.68 ± 3.44), LM (5.14 ± 0.76) e SC (6.98
± 2.02) mostram-se menos interessantes para avaliar o conjunto de dados em questão,
dado que suas frequências foram 4, 0 e 5 nessa ordem, além de terem alcançado menor
proximidade média de K ◦ = 10, bem como maiores desvios padrões. A baixa frequência
apresentada aqui ocorre, de fato, em função de limitações inerentes ao algoritmo K-médias,

Tabela 6 – Média do RMSE tomada a partir dos dezesseis conjuntos de dados sintéticos
para cada um dos índices de validade.

MEC BIC LM GS SC DB CH

RMSE 1.09 4.71 4.78 2.49 2.64 3.84 3.60


Capítulo 10. Resultados experimentais e análises 46

10 10

9 9

8 8

7 7

6 6

5 5

4 4

3 3

2 2

1 1

0 0
−1 0 1 2 3 4 5 6 7 8 9 −1 0 1 2 3 4 5 6 7 8 9

(a) K̂ = 9 (b) K̂ = 11
10

0
−1 0 1 2 3 4 5 6 7 8 9

(c) K̂ = 10

Figura 15 – Três soluções de clusterização encontradas para S11 a partir do K-médias,


onde K̂ = 10 é claramente menos adequado que K̂ = 9 ou 11, malgrado
K ◦ = 10, de maneira que: (a) Solução I; (b) Solução II; (c) Solução III.

não devido às fraquezas dos índices. É assim porque o K-médias, não sendo capaz de lidar
satisfatoriamente com outliers, nem sempre produzirá soluções coerentes que diferenciem
bem os cinco clusters mais internos quando K = 10 (Figura 7c) – a depender de sua
inicialização de parâmetros.

Abaixo, na Figura 15, vemos alguns exemplos de soluções de clusterização para


valores diferentes de K ◦ = 10 em S11 , que nitidamente superam uma solução de K̂ = K ◦ =
10. A Solução I aglomera a maior parte de dois dos clusters em sobreposição na Figura 15a,
encontrando o restante mais apropriadamente, num total de nove agrupamentos. De forma
inversa, a Solução II (Figura 15b) divide apenas um cluster para K̂ = 11. A Figura 15c,
afinal, mostra uma modelagem de cluster pouco sensível à estrutura subjacente aos dados,
onde várias aglomerações e divisões indevidas podem ser observadas.

O conjunto de dados S12 contém um dos cenários mais desafiadores na análise


de clusters: a existência de clusters de tamanhos e densidades diferentes, no qual o
desempenho de MEC (9.54 ± 2.03) prevaleceu, com frequência absoluta de 17 contra a
Capítulo 10. Resultados experimentais e análises 47

segunda maior, igual a 12, através da avaliação de BIC (10.66 ± 4.23). No extremo oposto,
os destaques negativos foram notórios, a saber: GS (19.12 ± 8.17) e CH (22.16 ± 7.41),
como consequência de valores de média elevadíssimos e alta instabilidade em seu entorno.

Por fim, avaliaremos o comportamento dos índices de validade conjuntamente em


S13 , S14 , S15 e S16 , em virtude de tais conjuntos de dados se diferenciam sobretudo no
nível de sobreposição entre clusters que, de forma paulatina, aumenta na direção de S13
a S16 como visto na Figura 8. O índice SC se destacou em três dos quatro conjuntos de
dados. Os destaques negativos são: LM, em decorrência de amplos distanciamentos de
K ◦ na média, e BIC, pelo acentuamento de seus desvios (em S13 (3.45), no melhor caso,
e S16 (8.77), no pior). Consequentemente, deduzimos que há uma patente relação entre
a progressão no nível de sobreposição e a instabilidade dos resultados na validação, de
forma geral até S15 . De outro modo, afirmamos que a dispersão das respostas dos índices
aumenta à medida que os clusters se misturam. Já MEC, GS, DB e CH apresentaram
comportamentos equiparáveis, com médias próximas a K ◦ e baixos desvios padrões.

Finalmente, condensamos o desempenho dos índices em torno da média do RMSE


Tabela 6, levando em conta todos os conjuntos de dados artificiais. De fato, MEC (1.09)
se afastou consideravelmente menos do número correto de clusters em comparação com os
outros, errando quantitativamente menos da metade dos valores obtidos para GS (2.49)
e SC (2.64). BIC e LM foram os piores na avaliação dos conjuntos sintéticos estudados,
com erros iguais a 4.71 e 4.78 respectivamente. Um atento exame às colunas da Tabela 5
permite-nos concluir o porquê: BIC fora o mais instável dentre os sete índices, vide o
número de vezes nas quais seu desvio padrão fora maior que 2; por sua vez, LM tende a
não lidar bem com a presença de muitos clusters nos dados, preferindo atribuir valores
pequenos a K̂ (linhas equivalente a S10−16 ).

10.3 Do estudo de caso


Todos os resultados foram gerados, porém não estão formalizados nesta seção.

10.3.1 Validação de cluster em SHM


Todos os resultados foram gerados, porém não estão formalizados nesta seção.

10.3.2 Detecção de danos com MEM


Todos os resultados foram gerados, porém não estão formalizados nesta seção.
Capítulo 10. Resultados experimentais e análises 48

(a) (b)

(c) (d)

(e) (f)

(g) (h)

Figura 16 – Histograma tomado a partir das cinquenta validações de cluster para os


primeiros oito conjuntos de dados sintéticos: (a) S1 ; (b) S2 ; (c) S3 ; (d) S4 ; (e)
S5 ; (f) S6 ; (g) S7 ; (h) S8 ; .
Capítulo 10. Resultados experimentais e análises 49

(a) (b)

(c) (d)

(e) (f)

(g) (h)

Figura 17 – Histograma tomado a partir das cinquenta validações de cluster para os


últimos oito conjuntos de dados sintéticos: (a) S9 ; (b) S10 ; (c) S11 ; (d) S12 ; (e)
S13 ; (f) S14 ; (g) S15 ; (h) S16 ; .
50

11 Conclusões

A validação de cluster é uma tarefa importante na análise de cluster, com muitas


aplicações reais. Este trabalho propôs um novo índice de validade não paramétrico,
denominado: critério de espalhamento equidistante mútuo, ou simplesmente MEC. Ele
consiste num índice interno e eficiente, baseado na hipótese do espalhamento equidistante
mútuo sob medidas de dissimilaridade intra-cluster e separação inter-cluster.

Ele obteve uma boa performance, mesmo em S7 , S11 e S12 . Ou seja, três dos conjuntos
de dados que simulam hierarquia de dados, baixa separação de cluster, presença de outliers
e agrupamentos com diferentes tamanhos e densidades. Cenários esses encontrados como
alguns dos maiores impedimentos para validação de cluster, bem como pouco explorados
ao mesmo tempo no mesmo trabalho.

Em termos da análise de resultados, pode-se notar que MEC recebera grande ênfase
em vários testes e conjuntos de naturezas distintas, alcançando com mais frequência do que
qualquer outro índice o número esperado de clusters. Com exceção dos testes realizados na
base de dados Glass e nos quatro últimos conjuntos sintéticos, MEC alcançou os melhores
resultados quando comparado a outros índices bem estabelecidos na literatura.

Assim, seu desempenho é prova concreta de sua relevância em aplicações práticas


do mundo real, posto, entre outras coisas, haver superado seis outros critérios de validade
de cluster, a saber: CH, DB, SC, BIC, GS, LM e WB. Tal fenômeno demonstrou a robustez
e grande versatilidade de nossa abordagem na validação de cluster.
51

12 Artigos, propostas e cronograma

As principais propostas não completamente formalizadas ainda são: o novo método


de detecção de danos, MEM (seção 4.2), e seus resultados (subseção 10.3.2), e a validação
de cluster em SHM, como um estudo de caso junto aos resultados subseção 10.3.1. Todos
os resultados foram gerados, porém a parte escrita não fora concluída.

Abaixo, constam quatro artigos dentre os quais planejamos submeter os três


primeiros até, no máximo, o meio do ano. O primeiro fora submetido recentemente, dia
9 de Março; o segundo encontra-se em fase de finalização e correções; o terceiro está no
início da escrita; o último, contudo, necessita de mais maturação.

Título A novel cluster validity index based on mutual equidistant-scattering.


Destino UAI 2018 – Association for Uncertainty in Artificial Intelligence (Conf ).
Status Under review.
Descrição Neste trabalho, propusemos um novo índice de validade interna não pa-
ramétrico baseado no espalhamento equidistante mútuo entre dados intra-clusters,
chamado: critério de espalhamento equidistante mútuo (Mutual Equidistant-scattering
Criterion — MEC). Analisamos diferentes índices de validade para o ajuste fino do
número de clusters: CH, DB, SC, BIC, GS, LM e WB. Experimentos em ambos
os dados, sintéticos e do mundo real, demonstraram a eficácia e confiabilidade de
nossa abordagem para a avaliação e seleção de algoritmos de clusterização e seus
parâmetros apropriados.

Título Mutual Equidistant-scattering Criterion (MEC): a novel validity index for


crisp clustering.
Destino Expert systems with applications (Journal).
Status Em andamento.
Descrição Este artigo atualmente está em fase de finalização. Ele consiste numa versão
expandida e aprofundada do artigo «A novel cluster validity index based on mutual
equidistant-scattering», recentemente submetido à UAI conference.

Título Genetic-based clustering through improved decision boundary analysis.


Destino (Journal)
Status Em andamento.
Descrição Os autores do artigo «A novel unsupervised approach based on a genetic
algorithm for structural damage detection in bridges» propuseram um novo algoritmo
Capítulo 12. Artigos, propostas e cronograma 52

genético não paramétrico para a análise de fronteiras de decisão (GADBA, do inglês


Genetic Algorithm for Decision Boundary Analysis), a fim de melhorar o processo
de detecção de danos estruturais em pontes. Assim, este artigo apresentará uma
versão melhorada do GADBA através do emprego de MEC como função objetivo do
GADBA, com a intenção de avaliarmos de maneira mais geral e precisa as soluções
providos pelo algoritmo evolucionário em questão.

Título Mutual Equidistant-scattering Misfit (MEM): a new damage detection


indicator for structural health monitoring.
Destino (Journal)
Status Em andamento.
Descrição O funcionamento de um novo método de detecção de outliers, chamado de
MEM, será aplicado à detecção de danos. Dos quatro artigos, este é o que possui a
menor prioridade em função do curto tempo do mestrado.
53

Referências

AGRAWAL, S.; AGRAWAL, J. Survey on anomaly detection using data mining


techniques. Procedia Computer Science, v. 60, n. Supplement C, p. 708 – 713, 2015. ISSN
1877-0509. Knowledge-Based and Intelligent Information & Engineering Systems 19th
Annual Conference, KES-2015, Singapore, September 2015 Proceedings. Disponível em:
<http://www.sciencedirect.com/science/article/pii/S1877050915023479>. Citado na
página 9.

ŽALIK, K. R.; ŽALIK, B. Validity index for clusters of different sizes and densities.
Pattern Recognition Letters, v. 32, n. 2, p. 221 – 234, 2011. ISSN 0167-8655. Disponível
em: <http://www.sciencedirect.com/science/article/pii/S0167865510002928>. Citado 3
vezes nas páginas 11, 14 e 27.

BEZDEK, J. C.; PAL, N. R. Some new indexes of cluster validity. Trans. Sys. Man Cyber.
Part B, IEEE Press, Piscataway, NJ, USA, v. 28, n. 3, p. 301–315, jun. 1998. ISSN
1083-4419. Disponível em: <http://dx.doi.org/10.1109/3477.678624>. Citado 2 vezes nas
páginas 12 e 31.

CALIńSKI, T.; HARABASZ, J. A dendrite method for cluster analysis. Communications


in Statistics, v. 3, n. 1, p. 1–27, 1974. Disponível em: <http://www.tandfonline.com/doi/
abs/10.1080/03610927408827101>. Citado na página 17.

CAMPELLO, R. Generalized external indexes for comparing data partitions with


overlapping categories. Pattern Recognition Letters, v. 31, n. 9, p. 966 – 975, 2010.
ISSN 0167-8655. Disponível em: <http://www.sciencedirect.com/science/article/pii/
S0167865510000048>. Citado na página 7.

CHARRAD, M. et al. Nbclust: An r package for determining the relevant number of


clusters in a data set. Journal of Statistical Software, v. 61, n. 1, p. 1–36, 2014. ISSN 1548-
7660. Disponível em: <https://www.jstatsoft.org/index.php/jss/article/view/v061i06>.
Citado 2 vezes nas páginas 12 e 14.

CHOU, C. H.; SU, M. C.; LAI, E. Symmetry as a new measure for cluster validity. In: in
Second WSEAS International Conference on Scientific Compuation and Soft Computing.
[S.l.: s.n.], 2002. p. 209–213. Citado na página 12.

CHOU, C. H.; SU, M. C.; LAI, E. A new cluster validity measure for clusters with
different densities. In: 2003 the IASTED International Conference on Intelligent Systems
& Control (accepted). Submitted Papers. [S.l.: s.n.], 2004. p. 2005–2020. Citado na página
12.

CREMONA, C. Big data and structural health monitoring. In: Challenges in Design and
Construction of an Innovative and Sustainable Built Environment, 19th IABSE Congress
Stockholm. [S.l.]: Challenges in Design and Construction of an Innovative and Sustainable
Built Environment, 2016. p. 1793–1801. Citado 2 vezes nas páginas 7 e 9.

DAVIES, D. L.; BOULDIN, D. W. A cluster separation measure. IEEE Trans. Pattern Anal.
Mach. Intell., IEEE Computer Society, Washington, DC, USA, v. 1, n. 2, p. 224–227, fev.
Referências 54

1979. ISSN 0162-8828. Disponível em: <http://dx.doi.org/10.1109/TPAMI.1979.4766909>.


Citado na página 17.

DUNN, J. C. A fuzzy relative of the isodata process and its use in detecting compact
well-separated clusters. Journal of Cybernetics, v. 3, n. 3, p. 32–57, 1973. Disponível em:
<http://dx.doi.org/10.1080/01969727308546046>. Citado na página 12.

DZIOPA, T. Clustering validity indices evaluation with regard to semantic homogeneity.


In: Position Papers of the 2016 Federated Conference on Computer Science and
Information Systems, FedCSIS 2016, Gdańsk, Poland, September 11-14, 2016. [s.n.], 2016.
p. 3–9. Disponível em: <http://dx.doi.org/10.15439/2016F371>. Citado 2 vezes nas
páginas 7 e 15.

ESTIVILL-CASTRO, V. Why so many clustering algorithms: A position paper. SIGKDD


Explor. Newsl., ACM, New York, NY, USA, v. 4, n. 1, p. 65–75, jun. 2002. ISSN 1931-0145.
Disponível em: <http://doi.acm.org/10.1145/568574.568575>. Citado na página 14.

FARRAR, C. R.; DOEBLING, S. W.; NIX, D. A. Vibration-based structural damage


identification. Philosophical Transactions of the Royal Society: Mathematical, Physical &
Engineering Sciences, v. 359, n. 1778, p. 131–149, 2001. Citado na página 8.

FARRAR, C. R.; WORDEN, K. Structural Health Monitoring: A Machine Learning


Perspective. Hoboken NJ, United States: John Wiley & Sons, Inc., 2013. Citado na
página 8.

FIGUEIREDO, E.; MOLDOVAN, I.; MARQUES, M. B. Condition Assessment of Bridges:


Past, Present, and Future - A Complementary Approach. Portugal: Universidade Católica
Editora, 2013. Citado 2 vezes nas páginas 2 e 38.

FIGUEIREDO, E. et al. A Bayesian approach based on a Markov-chain Monte Carlo


method for damage detection under unknown sources of variability. Engineering
Structures, v. 80, n. 0, p. 1–10, 2014. Citado 3 vezes nas páginas 4, 8 e 35.

FIGUEIREDO, E. J. F. Damage Identification in Civil Engineering Infrastructure


under Operational and Environmental Conditions. Tese (Doctor of Philosophy in Civil
Engineering) — Faculdade de Engenharia, Universidade do Porto, Porto, Portugal, 2010.
Citado 2 vezes nas páginas 2 e 9.

FRALEY, C.; RAFTERY, A. E. Model-based clustering, discriminant analysis, and


density estimation. Journal of the American Statistical Association, v. 97, n. 458, p.
611–631, 2002. Disponível em: <http://dx.doi.org/10.1198/016214502760047131>.
Citado 2 vezes nas páginas 12 e 18.

FRäNTI, P.; VIRMAJOKI, O. Iterative shrinking method for clustering problems. Pattern
Recogn., Elsevier Science Inc., New York, NY, USA, v. 39, n. 5, p. 761–775, maio 2006.
ISSN 0031-3203. Disponível em: <http://dx.doi.org/10.1016/j.patcog.2005.09.012>.
Citado 3 vezes nas páginas 2, 33 e 34.

FUMEO, E.; ONETO, L.; ANGUITA, D. Condition based maintenance in railway


transportation systems based on big data streaming analysis. Procedia Computer Science,
v. 53, n. Supplement C, p. 437 – 446, 2015. ISSN 1877-0509. INNS Conference on
Big Data 2015 Program San Francisco, CA, USA 8-10 August 2015. Disponível em:
Referências 55

<http://www.sciencedirect.com/science/article/pii/S1877050915018244>. Citado na
página 7.

GANDOMI, A.; HAIDER, M. Beyond the hype: Big data concepts, methods, and
analytics. International Journal of Information Management, v. 35, n. 2, p. 137 – 144,
2015. ISSN 0268-4012. Disponível em: <http://www.sciencedirect.com/science/article/pii/
S0268401214001066>. Citado na página 7.

GARDINER, A. et al. Skill requirements in big data: A content analysis of job


advertisements. Journal of Computer Information Systems, Taylor & Francis, v. 0, n. 0, p.
1–11, 2017. Disponível em: <https://doi.org/10.1080/08874417.2017.1289354>. Citado
na página 7.

GEVA, A. B. et al. A comparison of cluster validity criteria for a mixture of


normal distributed data. Pattern Recogn. Lett., Elsevier Science Inc., New York,
NY, USA, v. 21, n. 6-7, p. 511–529, jun. 2000. ISSN 0167-8655. Disponível em:
<http://dx.doi.org/10.1016/S0167-8655(00)00016-7>. Citado na página 15.

GIL, D.; SONGI, I.-Y. Modeling and management of big data: Challenges and
opportunitiesi. Future Generation Computer Systemsi, v. 63i, n. Supplement Ci, p.
96 – 99i, 2016i. ISSN 0167-739Xi. Modeling and Management for Big Data Analytics
and Visualizationi. Disponível em: <http://www.sciencedirect.com/science/article/pii/
S0167739X15002514i>. Citado na página 7.

GUERRA, L. et al. A comparison of clustering quality indices using outliers


and noise. Intell. Data Anal., IOS Press, Amsterdam, The Netherlands, The
Netherlands, v. 16, n. 4, p. 703–715, jul. 2012. ISSN 1088-467X. Disponível em:
<http://dx.doi.org/10.3233/IDA-2012-0545>. Citado 2 vezes nas páginas 11 e 16.

HALKIDI, M.; VAZIRGIANNIS, M.; BATISTAKIS, Y. Quality scheme assessment


in the clustering process. In: Proceedings of the 4th European Conference on
Principles of Data Mining and Knowledge Discovery. London, UK, UK: Springer-
Verlag, 2000. (PKDD ’00), p. 265–276. ISBN 3-540-41066-X. Disponível em:
<http://dl.acm.org/citation.cfm?id=645804.669820>. Citado na página 12.

HANCER, E.; KARABOGA, D. A comprehensive survey of traditional, merge-split


and evolutionary approaches proposed for determination of cluster number. Swarm and
Evolutionary Computation, v. 32, p. 49 – 67, 2017. ISSN 2210-6502. Disponível em:
<http://www.sciencedirect.com/science/article/pii/S2210650216300475>. Citado 2 vezes
nas páginas 13 e 14.

IGLESIAS, F.; KASTNER, W. Analysis of similarity measures in times series clustering


for the discovery of building energy patterns. Energies, v. 6, n. 2, p. 579–597, 2013. ISSN
1996-1073. Disponível em: <http://www.mdpi.com/1996-1073/6/2/579>. Citado na
página 15.

JAIN, A. K. Data clustering: 50 years beyond k-means. Pattern Recogn. Lett., Elsevier
Science Inc., New York, NY, USA, v. 31, n. 8, p. 651–666, jun. 2010. ISSN 0167-8655.
Disponível em: <http://dx.doi.org/10.1016/j.patrec.2009.09.011>. Citado 3 vezes nas
páginas 9, 14 e 27.
Referências 56

KIM, M.; RAMAKRISHNA, R. S. New indices for cluster validity assessment. Pattern
Recogn. Lett., Elsevier Science Inc., New York, NY, USA, v. 26, n. 15, p. 2353–2363, nov.
2005. ISSN 0167-8655. Disponível em: <http://dx.doi.org/10.1016/j.patrec.2005.04.007>.
Citado na página 13.

KRöGER, B. J.; CAO, M. The emergence of phonetic–phonological features in a


biologically inspired model of speech processing. Journal of Phonetics, v. 53, n. Supplement
C, p. 88 – 100, 2015. ISSN 0095-4470. On the cognitive nature of speech sound systems.
Disponível em: <http://www.sciencedirect.com/science/article/pii/S0095447015000765>.
Citado na página 9.

LANGONE, R. et al. Automated structural health monitoring based on adaptive


kernel spectral clustering. Mechanical Systems and Signal Processing, v. 90,
n. Supplement C, p. 64 – 78, 2017. ISSN 0888-3270. Disponível em: <http:
//www.sciencedirect.com/science/article/pii/S0888327016305131>. Citado na página 10.

LINGRAS, P.; CHEN, M.; MIAO, D. Qualitative and quantitative combinations


of crisp and rough clustering schemes using dominance relations. International
Journal of Approximate Reasoning, v. 55, n. 1, p. 238 – 258, 2014. ISSN
0888-613X. Special issue on Decision-Theoretic Rough Sets. Disponível em:
<http://www.sciencedirect.com/science/article/pii/S0888613X13001278>. Citado na
página 14.

LUXBURG, U. V.; WILLIAMSON, R. C.; GUYON, I. Clustering: Science or art?


In: Proceedings of the 2011 International Conference on Unsupervised and Transfer
Learning Workshop - Volume 27. JMLR.org, 2011. (UTLW’11), p. 65–79. Disponível em:
<http://dl.acm.org/citation.cfm?id=3045796.3045803>. Citado 2 vezes nas páginas 9
e 15.

MACQUEEN, J. B. Some methods for classification and analysis of multivariate


observations. In: CAM, L. M. L.; NEYMAN, J. (Ed.). Proc. of the fifth Berkeley
Symposium on Mathematical Statistics and Probability. [S.l.]: University of California
Press, 1967. v. 1, p. 281–297. Citado na página 14.

MARY, S. A. L.; SIVAGAMI, A. N.; RANI, M. U. Cluster validity measures dynamic


clustering algorithms. ARPN Journal of Engineering and Applied Sciences, Asian Research
Publishing Network, v. 10, n. 9, maio 2015. ISSN 1819-6608. Citado 3 vezes nas páginas
12, 14 e 16.

MCAFEE, A.; BRYNJOLFSSON, E. Big data: The management revolution. v. 90, p.


60–6, 68, 128, 10 2012. Citado na página 7.

MELIN, P.; CASTILLO, O. A review on type-2 fuzzy logic applications in


clustering, classification and pattern recognition. Applied Soft Computing,
v. 21, n. Supplement C, p. 568 – 577, 2014. ISSN 1568-4946. Disponível em:
<http://www.sciencedirect.com/science/article/pii/S1568494614001823>. Citado na
página 9.

MOULAVI, D. et al. Density-based clustering validation. In: 14th SIAM International


Conference on Data Mining (SDM). Philadelphia, PA: [s.n.], 2014. Citado 4 vezes nas
páginas 7, 15, 16 e 26.
Referências 57

NOULAS, A. et al. Exploiting semantic annotations for clustering geographic areas and
users in location-based social networks. In: 3rd Workshop Social Mobile Web, Colocated
with Fifth International AAAI Conference on Weblogs and Social Media. [S.l.: s.n.], 2011.
Citado na página 9.

PAGNUCO, I. A. et al. Analysis of genetic association using hierarchical clustering


and cluster validation indices. Genomics, 2017. ISSN 0888-7543. Disponível em:
<http://www.sciencedirect.com/science/article/pii/S0888754317300575>. Citado 2 vezes
nas páginas 9 e 11.

PAL, N. R.; BISWAS, J. Cluster validation using graph theoretic concepts.


Pattern Recognition, v. 30, n. 6, p. 847–857, 1997. Disponível em: <https:
//doi.org/10.1016/S0031-3203(96)00127-6>. Citado na página 12.

PEETERS, B.; ROECK, G. D. Reference-based stochastic subspace identification for


output-only modal analysis. Mechanical Systems and Signal Processing, v. 13, n. 6, p. 855
– 878, 1999. Citado 2 vezes nas páginas 35 e 38.

RADZIEńSKI, M. et al. Damage localisation in a stiffened plate structure using a


propagating wave. Mechanical Systems and Signal Processing, v. 39, n. 1, p. 388 – 395,
2013. ISSN 0888-3270. Disponível em: <http://www.sciencedirect.com/science/article/pii/
S0888327013000939>. Citado na página 8.

RAHMAN, M. A.; ISLAM, M. Z. A hybrid clustering technique combining a novel


genetic algorithm with k-means. Knowledge-Based Systems, v. 71, p. 345 – 365, 2014.
ISSN 0950-7051. Disponível em: <http://www.sciencedirect.com/science/article/pii/
S0950705114002937>. Citado na página 13.

RENDóN, E. et al. A comparison of internal and external cluster validation indexes.


In: Proceedings of the 2011 American Conference on Applied Mathematics and the 5th
WSEAS International Conference on Computer Engineering and Applications. Stevens
Point, Wisconsin, USA: World Scientific and Engineering Academy and Society (WSEAS),
2011. (AMERICAN-MATH’11/CEA’11), p. 158–163. ISBN 978-960-474-270-7. Disponível
em: <http://dl.acm.org/citation.cfm?id=1959666.1959695>. Citado 2 vezes nas páginas
12 e 16.

REYNDERS, E.; WURSTEN, G.; ROECK, G. D. Output-only structural health


monitoring in changing environmental conditions by means of nonlinear system
identification. Structural Health Monitoring, 2013. Citado na página 8.

ROUSSEEUW, P. Silhouettes: A graphical aid to the interpretation and validation of


cluster analysis. J. Comput. Appl. Math., Elsevier Science Publishers B. V., Amsterdam,
The Netherlands, The Netherlands, v. 20, n. 1, p. 53–65, nov. 1987. ISSN 0377-0427.
Disponível em: <http://dx.doi.org/10.1016/0377-0427(87)90125-7>. Citado 2 vezes nas
páginas 13 e 17.

RUBIO, E. et al. An extension of the fuzzy possibilistic clustering algorithm


using type-2 fuzzy logic techniques. Adv. Fuzzy Sys., Hindawi Limited, London,
UK, United Kingdom, v. 2017, p. 2–, jan. 2017. ISSN 1687-7101. Disponível em:
<https://doi.org/10.1155/2017/7094046>. Citado na página 13.
Referências 58

SALVADOR, S.; CHAN, P. Determining the number of clusters/segments in hierarchical


clustering/segmentation algorithms. In: Proceedings of the 16th IEEE International
Conference on Tools with Artificial Intelligence. Washington, DC, USA: IEEE
Computer Society, 2004. (ICTAI ’04), p. 576–584. ISBN 0-7695-2236-X. Disponível em:
<http://dx.doi.org/10.1109/ICTAI.2004.50>. Citado 5 vezes nas páginas 2, 12, 19, 32
e 33.

SANTOS, A. et al. Machine learning algorithms for damage detection: Kernel-based


approaches. Journal of Sound and Vibration, v. 363, n. Supplement C, p. 584 – 599, 2016.
ISSN 0022-460X. Disponível em: <http://www.sciencedirect.com/science/article/pii/
S0022460X15009049>. Citado 2 vezes nas páginas 9 e 24.

SCHWARZ, G. Estimating the Dimension of a Model. The Annals of Statistics, Institute


of Mathematical Statistics, v. 6, n. 2, p. 461–464, 1978. ISSN 00905364. Disponível em:
<http://dx.doi.org/10.2307/2958889>. Citado na página 12.

SOHN, H. Effects of environmental and operational variability on structural health


monitoring. Philosophical Transactions of the Royal Society: Mathematical, Physical &
Engineering Sciences, v. 365, n. 1851, p. 539–560, 2007. Citado na página 8.

SU, M. C.; CHOU, C. H. A modified version of the k-means algorithm with a distance
based on cluster symmetry. IEEE Trans. Pattern Anal. Mach. Intell., IEEE Computer
Society, Washington, DC, USA, v. 23, n. 6, p. 674–680, jun. 2001. ISSN 0162-8828.
Disponível em: <http://dx.doi.org/10.1109/34.927466>. Citado na página 12.

TIBSHIRANI, R.; WALTHER, G.; HASTIE, T. Estimating the number of clusters in a


data set via the gap statistic. Journal of the Royal Statistical Society: Series B (Statistical
Methodology), Blackwell Publishers Ltd., v. 63, n. 2, p. 411–423, 2001. ISSN 1467-9868.
Disponível em: <http://dx.doi.org/10.1111/1467-9868.00293>. Citado 3 vezes nas
páginas 12, 16 e 18.

WORDEN, K.; DULIEU-BARTON, J. M. An Overview of Intelligent Fault Detection in


Systems and Structures. Structural Health Monitoring, v. 3, n. 1, p. 85–98, 2004. Citado
na página 8.

WORDEN, K.; MANSON, G. The application of machine learning to structural health


monitoring. Philosophical Transactions of the Royal Society: Mathematical, Physical &
Engineering Sciences, v. 365, n. 1851, p. 515–537, 2007. Citado na página 15.

WU, K.-L.; YANG, M.-S. Alternative c-means clustering algorithms. Pattern


Recognition, v. 35, n. 10, p. 2267 – 2278, 2002. ISSN 0031-3203. Disponível em:
<http://www.sciencedirect.com/science/article/pii/S0031320301001972>. Citado na
página 21.

WU, K.-L.; YANG, M.-S. A cluster validity index for fuzzy clustering. Pattern Recogn.
Lett., Elsevier Science Inc., New York, NY, USA, v. 26, n. 9, p. 1275–1291, jul. 2005. ISSN
0167-8655. Disponível em: <http://dx.doi.org/10.1016/j.patrec.2004.11.022>. Citado 3
vezes nas páginas 13, 16 e 21.

XU, D.; TIAN, Y. A comprehensive survey of clustering algorithms. Annals of


Data Science, v. 2, n. 2, p. 165–193, Jun 2015. ISSN 2198-5812. Disponível em:
<https://doi.org/10.1007/s40745-015-0040-1>. Citado na página 10.
Referências 59

XU, R.; WUNSCH II, D. Survey of clustering algorithms. Trans. Neur. Netw., IEEE Press,
Piscataway, NJ, USA, v. 16, n. 3, p. 645–678, maio 2005. ISSN 1045-9227. Disponível em:
<http://dx.doi.org/10.1109/TNN.2005.845141>. Citado na página 14.

YAO, R.; PAKZAD, S. N. Autoregressive statistical pattern recognition algorithms for


damage detection in civil structures. Mechanical Systems and Signal Processing, v. 31,
n. 0, p. 355–368, 2012. Citado na página 8.

ZAKI, M.; MEIRA, W. Data Mining and Analysis: Fundamental Concepts and Algorithms.
New York, NY, USA: Cambridge University Press, 2014. ISBN 0521766338, 9780521766333.
Citado na página 13.

ZHAO, Q. Cluster Validity in Clustering Methods. Tese (Doutorado) — University of


Eastern Finland, jun. 2012. Citado 4 vezes nas páginas 2, 9, 15 e 22.

ZHAO, Q.; HAUTAMAKI, V.; FRäNTI, P. Knee point detection in bic for detecting
the number of clusters. In: Proceedings of the 10th International Conference on
Advanced Concepts for Intelligent Vision Systems. Berlin, Heidelberg: Springer-
Verlag, 2008. (ACIVS ’08), p. 664–673. ISBN 978-3-540-88457-6. Disponível em:
<http://dx.doi.org/10.1007/978-3-540-88458-3_60>. Citado na página 12.

ZHAO, Q.; XU, M.; FRäNTI, P. Sum-of-squares based cluster validity index and
significance analysis. In: Proceedings of the 9th International Conference on Adaptive
and Natural Computing Algorithms. Berlin, Heidelberg: Springer-Verlag, 2009.
(ICANNGA’09), p. 313–322. ISBN 3-642-04920-6, 978-3-642-04920-0. Disponível em:
<http://dl.acm.org/citation.cfm?id=1813739.1813774>. Citado na página 19.