Escolar Documentos
Profissional Documentos
Cultura Documentos
Versão do Documento
Manuscrito do autor aceito
Publicado em:
Computação Suave Aplicada
Citando este
documento Por favor, note que onde o texto completo fornecido no Manchester Research Explorer é o manuscrito aceito pelo autor ou a
versão de prova, isso pode diferir da versão publicada final. Se estiver citando, é aconselhável que você verifique e use a versão definitiva
do editor.
Direitos gerais
Os direitos autorais e morais das publicações disponibilizadas no Research Explorer são mantidos pelos autores e/ou outros
proprietários de direitos autorais e é uma condição de acesso às publicações que os usuários reconheçam e cumpram os requisitos
legais associados a esses direitos.
Política de remoção
Se você acredita que este documento viola direitos autorais, consulte os Procedimentos de remoção da Universidade de Manchester
[http://man.ac.uk/04Y6Bo] ou entre em contato com uml.scholarlycommunications@manchester.ac.uk fornecendo detalhes relevantes,
para que possamos investigue sua reclamação.
Abstrato
Muitos domínios de aplicativos envolvem a consideração de várias fontes de dados. Normalmente, cada uma dessas exibições de dados fornece uma
perspectiva diferente de um determinado conjunto de entidades. Inspirados nos primeiros trabalhos sobre aprendizado multiview (supervisionado), os
algoritmos multiview para agrupamento de dados oferecem a oportunidade de considerar e integrar todas essas informações em um ambiente não
supervisionado. Na prática, alguns problemas complexos do mundo real podem dar origem a um punhado ou mais visualizações de dados, cada uma com
diferentes níveis de confiabilidade. No entanto, os algoritmos existentes geralmente se limitam a considerar apenas duas visualizações ou assumem que
todas as visualizações têm o mesmo nível de importância. Aqui, descrevemos o projeto de um algoritmo evolutivo para o problema de análise de cluster
multiview, explorando avanços recentes no campo da otimização evolutiva para endereçar configurações com um número maior de visualizações. O método
é capaz de considerar visualizações que são representadas na forma de conjuntos de recursos distintos, ou matrizes de dissimilaridade distintas, ou uma
combinação dos dois. Nossos resultados experimentais em conjuntos de dados de benchmark padrão (incluindo do mundo real) confirmam que a adoção
de um algoritmo evolucionário de muitos objetivos aborda as limitações do trabalho anterior e pode ser facilmente dimensionado para configurações com
quatro ou mais exibições de dados. O destaque final do nosso artigo é uma ilustração do potencial da abordagem em uma aplicação para classificação de lesões mam
Palavras-chave: Data Clustering, Multiview Clustering, Evolutionary Clustering, Evolutionary Multiobjective Clustering
abordagens estatísticas sobre abordagens de aprendizado profundo e múltiplas fontes de informação disponíveis para gerar resultados de
meta-heurísticas para várias abordagens híbridas [2]. agrupamento mais precisos e robustos.
10 Muitas áreas de aplicação, por exemplo, em bioinformática ou recuperação Em sentido estrito, o termo “agrupamento multiview” refere-se a
de informações, requerem o agrupamento de dados caracterizados por algoritmos que podem utilizar vários espaços de recursos, que
múltiplos conjuntos de recursos e/ou múltiplas descrições relacionais, descrevem pontos de vista distintos de um fenômeno. No entanto, 35 o
resultantes da aplicação de diferentes funções de dissimilaridade [5, 6]. termo “multivisão” pode ser estendido para dar conta do papel colaborativo
No primeiro caso, o agrupamento final é obtido a partir do consenso de de diferentes matrizes de dissimilaridade que mapeiam um único espaço
15 diferentes espaços de características (isto é, dados de características) de recursos para múltiplas visualizações caracterizadas por diferentes
usando uma função de dissimilaridade fixa. Por exemplo, na análise de descrições relacionais [6]. Portanto, consideramos um algoritmo de
imagens de ultrassom de mama, diferentes conjuntos de características agrupamento multiview como qualquer algoritmo suficientemente versátil 40
quantitativas podem ser extraídos para descrever a forma, orientação, para lidar com diferentes representações dos mesmos dados, incluindo
margem, padrão de eco e características posteriores de massas para vários conjuntos de recursos e várias descrições relacionais, e pode
20 realizar a classificação da lesão [7]. Por outro lado, no segundo caso, o integrar essas informações para encontrar clusters consistentes nas
agrupamento é obtido a partir de diferentes funções de proximidade que diferentes visões. Além disso, não deve fazer suposições sobre a
aumentam as relações de dissimilaridade (isto é, dados relacionais) [8]. Nesseimportância
caso, de diferentes pontos de vista. Isso é particularmente relevante45
em situações em que as visões individuais são incomensuráveis, ou seja,
onde a fusão de todas as visões para formar um único conjunto de dados
ÿEndereços de e-mail do é inconveniente devido às suas propriedades únicas, ou onde as visões
´ ´
autor correspondente: adan.jose@cinvestav.mx (Adan Jos ´ÿa), e-Garc
podem apresentar níveis variados de confiabilidade [10, 11]. Por fim, uma
julia.handl@manchester.ac.uk (Julia Handl), wgomez@cinvestav.mx (Wilfrido Gomez-Flores),
´
mario.garza@cinvestav.mx ( Mario Garza-Fabre) abordagem robusta de agrupamento multiview precisa ser capaz de 50
dimensionar de forma confiável para mais de duas visualizações (uma 2. Antecedentes e Trabalhos Relacionados
propriedade que chamamos de “many-view”, emprestando do termo “many-
objective” introduzido pela primeira vez no campo de otimização multiobjetivo [12]). Esta seção apresenta conceitos básicos que são essenciais para
compreensão deste trabalho e discute trabalhos relacionados relevantes.
Este artigo descreve uma nova abordagem de agrupamento de dados
multiview 5 , chamada MVMC, baseada em otimização evolutiva multiobjetivo,
2.1. Agrupamento de dados multivisualização 55
onde a propriedade multiview refere-se à disponibilidade de conjuntos de
recursos múltiplos e/ou descrições relacionais múltiplas. A abordagem tira Um agrupamento nítido é o particionamento de N objetos de dados em K
proveito dos conceitos de otimização de muitos objetivos [12] para explorar subconjuntos mutuamente disjuntos [1]. Formalmente, seja X = {x1, . . . , xN}
uma variedade de trade-offs (ótimo de Pareto 10 ), enquanto dimensiona para seja um conjunto de N objetos a serem particionados em K clusters C =
configurações com três ou mais exibições de dados, superando assim duas das {c1, . . . , cK}, de modo que as três condições a seguir sejam ÿ; c1 ÿ ÿ cK = X;
limitações mais frequentes do cluster multiview existente métodos. A adequação pode ser avaliado pela ÿ cj = ÿ. para
e cidefinição . . uma
de satisfeito:
funçãociobjetivo
determinada K e i j. sobre
partição Apode
qualidade
os = 1,de
. .uma
i, j recursos . , dos 60
75
• Nosso algoritmo usa uma codificação baseada em tipos proto de cluster,
Pesquisas recentes relataram alguns primeiros passos para explorar a
25 o que fornece boa escalabilidade para grandes conjuntos de dados.
natureza multicritério intrínseca do MvC [14, 11, 15, 16, 17, 8]. No MvC, as
Além disso, propomos uma estratégia de decodificação inovadora que
exibições de dados estão disponíveis na forma de conjuntos de recursos
explora diretamente os mecanismos do otimizador subjacente (vetores
múltiplos ou como matrizes de dissimilaridades múltiplas [5, 6, 18]. Abordagens
escalares) no mapeamento de um conjunto de protótipos de cluster para
representativas na primeira categoria 80 são descritas abaixo. Wang et ai. [14]
uma partição real. O uso do vetor de referência nos permite garantir que
propuseram uma formulação de agrupamento espectral multiobjetivo para MvC, que
30 nenhum viés em relação a qualquer visualização particular seja
requer o cálculo da construção do kernel e da posição do autovetor. Embora este
introduzido no estágio de decodificação.
método tenha apresentado bom desempenho em problemas com duas visões, ele
requer altos recursos computacionais, e a extensão para mais de duas visões de
• Um método de seleção de agrupamento não supervisionado é proposto
dados não foi analisada. Jiang et ai. [11] usaram a otimização evolutiva multiobjetivo85
para escolher a solução de agrupamento mais adequada a partir das
para aproximar o conjunto de soluções ótimas de trade-off, vendo cada visão como
aproximações de frente de Pareto produzidas pelo MVMC. Este método
um objetivo independente e descrevendo as soluções na forma de cluster centróides.
35 é baseado em uma técnica de validação interna estabelecida, mas utiliza
No entanto, um mecanismo adequado para um mapeamento 1-1 de cada um desses
as informações contidas em vetores de referência individuais para
centróides para uma partição candidata, preservando a natureza multicritério do
ponderar todas as exibições de dados adequadamente.
problema, não foi descrito. Durante a busca, Jiang et al. [11] realizam separadamente
90
2
Machine Translated by Google
baseados no uso de múltiplas descrições relacionais ou matrizes de Algoritmos evolutivos multiobjetivos (MOEAs) geralmente funcionam
dissimilaridade (geralmente derivadas pela aplicação de diferentes funções bem em problemas de dois e três objetivos. No entanto, o desempenho de
de distância) também foram propostas [5, 16, 19, 18]. O uso de matrizes muitos algoritmos existentes degrada severamente quando o número de
de dissimilaridade como visualizações de dados é de particular importância objetivos é maior que três [12, 23]. Problemas de otimização com mais de
5 em cenários onde as definições de espaços de características não estão três objetivos 55 são freqüentemente chamados de problemas de muitos objetivos
disponíveis/simples, ou uma série de medidas complementares podem ser (MaOPs).
derivadas. Mesmo quando espaços de recursos bem definidos estão Nos últimos anos, os desenvolvimentos na comunidade de computação
disponíveis, a escolha de uma medida de dissimilaridade pode ser crucial evolucionária têm se concentrado no projeto de MOEAs especializados
para identificar tipos particulares de estruturas de cluster, impactando o para tais configurações de muitos objetivos [12, 23], incluindo abordagens
10 desempenho do agrupamento [20]. Por exemplo, sabe-se que a distância baseadas em indicadores, baseadas em decomposição e baseadas em 60
euclidiana é mais adequada para clusters de formato esférico. Da mesma dominância e decomposição.
forma, a distância máxima da borda (MED) [9] é excelente na identificação A seguir, desenvolvemos esses desenvolvimentos na otimização de
de componentes de forma irregular [21, 8], e a distância do cosseno é mais muitos objetivos para propor um método de agrupamento de múltiplas
adequada quando a orientação entre padrões 15 terns é mais relevante do visualizações capaz de escalar para um número arbitrário de visualizações,
que sua magnitude [22 ] . superando a limitação das abordagens anteriores. 65
de determinar sem conhecimento prévio dos tipos de estruturas presentes de recursos múltiplos e/ou fontes múltiplas de informações relacionais. No
nos dados e da confiabilidade das informações fornecidas por essas entanto, acreditamos que sua contribuição metodológica mais importante é
25 medidas. Por esta razão, Liu et al. [16] apresentaram um algoritmo evolutivo a etapa de decodificação, que explora uma sinergia específica entre as
multiobjetivo (baseado em NSGA-II) que considerava simultaneamente demandas de agrupamento e o campo de otimização de muitos objetivos.
duas funções de distância diferentes. Nosso algoritmo adota o uso de medoids para garantir a aplicabilidade a 75
abordagem de agrupamento fuzzy baseada em um algoritmo de evolução consideradas. Essa estratégia é diferente de todos os trabalhos relacionados
diferencial multiobjetivo. Nesta abordagem, uma codificação baseada em anteriores, que sempre se basearam em mecanismos de decodificação
35 centróide é usada para representar as soluções de agrupamento. que inadvertidamente introduzem um viés específico de exibição na
No entanto, a avaliação dessas abordagens foi limitada a dados de duas otimização. Essa importante contribuição e seu posicionamento dentro do
visualizações, e a escalabilidade para mais de três visualizações (e, escopo geral de nosso trabalho são ilustrados na Figura 1. Especificamente, 85
portanto, objetivos) será limitada para as abordagens que dependem do o gráfico do segundo estágio (“algoritmo proposto”) destaca como o mesmo
domínio de Pareto [23]. par de prototipos pode levar a diferentes soluções de clustering , devido
apenas a diferenças nos vetores de peso subjacentes.
40 2.2. Otimização multi e multiobjetivo Sem perda de
A estrutura geral do MVMC é descrita no Algo- 90
generalidade, um problema de otimização multiobjetivo pode ser definido
ritmo 1, que é baseado no algoritmo baseado em decomposição (MOEA/D)
como segue [12]:
[24]. Ele decompõe um problema de otimização multiobjetivo (MOP) em
minimizar F(z) = (f1 (z) , . . . , fm (z))T sujeito muitos subproblemas de objetivo único (cor respondendo a diferentes
, (1)
escalares), que são otimizados simultaneamente, e as soluções ótimas de
azÿÿ
todos os subproblemas 95 constituem o conjunto ótimo de Pareto. O MOEA/D é
T é um
onde ÿ é o espaço de decisão factível, z = (z1, . . . ,zl) solução um conhecido algoritmo evolucionário multiobjetivo que tem se mostrado mais
candidata, e F : ÿ ÿ R m consiste em m funções objetivo. Para duas eficiente do que outros métodos multiobjetivos em relação à qualidade das
soluções z1, z2 ÿ ÿ, z1 é dito dominar z2 (denotado como z1 ÿ z2), se e soluções e à taxa de convergência [24, 25].
somente se fi(z1) ÿ fi(z2) para todo i ÿ {1, . . . , m} e fj(z1) < f j(z2) para
45 pelo menos um índice j ÿ {1, . . . , m}. Uma (1)
solução
se não
z ÿhouver
é Pareto
outra
ótima
solução
para Por essas razões, o MOEA/D é considerado como o otimizador 100 subjacente
z ÿ ÿ tal que z ÿ z em nossa abordagem de agrupamento de dados multivisualização proposta.
ÿ
. F(z ÿ
) é chamado O MVMC requer como entrada: o número de subproblemas (NP), o m
de vetor objetivo ótimo de Pareto. O conjunto de todas as soluções ótimas uma distribuição uniforme de vetores de peso NP (W) 1 , dissim
de Pareto é chamado de conjunto ótimo de Pareto (PS) e o conjunto de
todos os 50 vetores objetivos ótimos de Pareto é chamado de frente de Pareto (PF). 1Os vetores de peso são gerados usando o método de Das e Dennis [26].
3
Machine Translated by Google
entrada de dados
w1
f2
ponto nadir
Algoritmo proposto
Agrupamento Medóide 1
f2 w1
Aglomerado Medóide 2
+ Decodificação Grupo de membros 1
(atribuição de cluster) Grupo de
MVMC membros 2
baseado em
+ Avaliação (variação intra-cluster
MOEA/D
em um determinado espaço de
dissimilaridade ponderada) wN
f1
Seleção de modelo
w1
f2 Índice de silhueta / índice ARI
1,0
+ Melhor solução ARI Melhor solução
de cluster
(Seleção supervisionada) Índice de vetores de peso
Aproximação 0,5
frente pareto
+ Melhor índice Silhouette
(Seleção não supervisionada) 0,0
1 N
wN
f1 Índice de vetores de peso
Figura 1: Principais etapas e componentes da abordagem MVMC proposta. As matrizes de dissimilaridade múltipla podem ser obtidas considerando: (i) um único
conjunto de atributos e funções de dissimilaridade distintas; e (ii) múltiplos conjuntos de características e uma única função de dissimilaridade.
matrizes de ilaridade D = {D1, . . . , Dm}, e o critério de terminação, que neste uma representação baseada em medoid de partições candidatas, usada
caso é o número máximo de gerações (Gmax). Os detalhes de implementação amplamente e com sucesso em abordagens evolutivas para agrupamento de
de cada componente do MVMC são descritos a seguir. dados [28, 29]. Essa representação pode lidar com grandes instâncias de
problemas (em relação ao número de pontos de dados ou o número de recursos) 25
ao seu medoid mais próximo (menos diferente), e nos referimos a isso como 35 a
forma:
etapa de decodificação. Como o conceito de dissimilaridade varia em relação a cada
visualização, um desafio único em uma configuração multiview é o design desta etapa
ÿ ref ÿ de maneira que facilite a identificação de clusters suportados por diferentes
ref fj(z) ÿ z
j
te g z | wi , z = máx. ÿÿÿ
eu w ÿÿÿ
, (2) visualizações de dados. Em trabalhos anteriores [14, 11, 16, 17], a decodificação de
1ÿiÿm j nad ref
ÿÿÿ
zj ÿzj ÿÿÿ
um conjunto de 40 protótipos candidatos (medoides ou centróides) normalmente
dependia do uso de uma única visão (ou uma ponderação fixa entre as visões) para
onde fj : ÿ ÿ R é o j-ésimo critério de agrupamento j ÿ {1, . . . , m}, que deve ser
= determinar as atribuições de cluster, potencialmente introduzindo um viés no algoritmo.
15 minimizado (sem perda de generalidade), w eu
4
Machine Translated by Google
Algoritmo 1: Estrutura geral do algoritmo MVMC. que representam as diferentes exibições de dados. Assim, para o i-ésimo
subproblema, a atribuição de cluster para o ponto de dados s ÿ {1, . . . , N}
Entrada: NP, W, D, Gmax
é obtido como:
Saída: População P, aproximação frontal de Pareto S 1 P,B, z
nad
ÿ Inicialização(W)
do2 para g ÿ 1 para Gmax do para i ÿ 1 para NP (3)
Ci (s) = argminrÿzi {Dws (r, s)} ,
onde
3
D r, s eu = w1D r,s + . . . eu + wmD r,s . (4)
4 ui ÿ Reprodução(P,B(i)) ws 1 m
5 Ci ÿ Decodificação(ui , fi ÿ eu w ,D) Aqui, D wsr,srepresenta a associação de matriz de distância de soma
6 Avaliação(Ci , D)
com o vetor escalarizante w rived, a eu
5
Machine Translated by Google
de acordo com preferências particulares. No entanto, em alguns cenários, formação sobre a importância das visualizações de dados (matrizes de distância
métodos automáticos podem ser desejáveis para selecionar uma única 15 ). O uso da distância de soma ponderada em (8) ajuda a selecionar a melhor
melhor solução das aproximações de frente de Pareto (PFAs). Portanto, solução de agrupamento considerando as informações obtidas na fase de
nesta seção, apresentamos um método automatizado para agrupamento multiobjetivo.
5 avaliando a qualidade de soluções individuais de clustering.
3.7. Código Fonte MVMC
estrutura.
Observe que a matriz de dissimilaridade particular Dws = dws(i, j) usada 3O código-fonte está disponível em https://sites.google.com/site/
para medir a qualidade de C em S, fornece em bojiangzjut/.
6
Machine Translated by Google
MOEA/D. Durante a busca evolutiva dessa abordagem, uma solução (G2), clusters não linearmente separáveis (G3) e misturas de diferentes
baseada em centroide é mapeada para várias partições (uma por distribuições de dados (G4). A Figura A.11 no Apêndice 55 A ilustra a
visualização). Em seguida, cada partição é avaliada usando a função diversidade de propriedades cobertas por nossos conjuntos de dados de teste.
objetivo associada à visualização correspondente. No final da busca,
5 uma única partição de consenso por solução candidata é obtida pela Neste estudo, diferentes visualizações de dados são derivadas de um
decodificação dos centróides finais dentro do espaço de recursos único conjunto de recursos usando duas medidas de dissimilaridade
completo (ou seja, pela concatenação de todas as visualizações). conceitualmente diferentes: a distância euclidiana (denotada por ) e a 60
A abordagem proposta MVMC gera um conjunto de soluções de distância MED baseada em euclidiana (MEDeuc, denotada por ).
agrupamento não dominadas, mas uma única solução geralmente é Os algoritmos de agrupamento de visualização única k-means, SL,
necessária . Assim, três estratégias diferentes para selecionar a solução WARD e GCA executam a tarefa de agrupamento usando uma medida
mais adequada a partir das aproximações de frente de Pareto (PFAs) de dissimilaridade, enquanto MVSC e MVMC otimizam simultaneamente
são exploradas: MVMCSIL, MVMCAUC e MVMCACC. duas visualizações de dados, cada uma representando uma medida de 65
MVMCSIL implementa o método de seleção não supervisionado proposto dissimilaridade diferente. Os resultados desta análise estão resumidos
descrito na Seção 3.6. MVMCAUC e MVMCACC selecionam a melhor na Figura 2. Para resultados mais detalhados e a análise de significância
15 solução com base no valor máximo de precisão e nos valores máximos estatística correspondente, consulte a Tabela A.5 (Apêndice).
de AUC, respectivamente, portanto, são abordagens supervisionadas.
k-meios SL ALA GCA MVSC MVMC
1,0
4.2. Avaliação de desempenho
0,8
A medida do Índice de Rand Ajustado (ARI) é usada para avaliar o
desempenho de 20 agrupamentos [34]. ARI funciona contando o número de ARI 0,6
sintéticos Esta seção investiga a capacidade do MVMC de gerar A partir dos resultados experimentais resumidos na Figura 2,
soluções de agrupamento de alta qualidade em conjuntos de dados confirmamos as expectativas acima. Por um lado, observamos que os
sintéticos com 50 tamanhos, dimensionalidades, graus de sobreposição e algoritmos individuais de visão única obtêm bons resultados em conjuntos
formas de agrupamento variados. Esses conjuntos de dados sintéticos de dados que atendem às suposições feitas pela medida de
foram organizados em quatro categorias em relação ao tipo de dissimilaridade específica empregada. Consequentemente, esses 90
7
Machine Translated by Google
de diferentes propriedades de cluster. Por outro lado, os resultados Aproximações de frente de Melhor
Pareto solução Mediana
Aproximações de frente de Pareto Melhor
Aproximações de frentePior
de Pareto
do algoritmo multiview confirmam que um desempenho superior pode a) 0,6 Laranja Dados_43 Dados_62
V2 V2
0,25
0,3
V2 0,14
0,12
0,1
ICV
b)
reporte um desempenho consistentemente bom em toda a gama de TwoDiamonds Quadrado1 Tamanhos5
0,92
0,9
0,5967
0,86
0,5965
V1 V1 0,62 V1
análises exploratórias de dados. Como pode ser visto na Figura 3, a forma c) 0,7 Parte 2 0,9
1
Dentro 0,7
espirais
e extensão do PFA fornecem informações adicionais sobre a força do MED
0,6 0,5
0,25
V2 V2
0,61
0,59
V2
0,57
0,15
0,91
0,74
Esta seção investiga a escalabilidade do MVMC ao aumentar o 0,73 0,75 0,305 0,315
V1
0,325 0,335 0,2 0,21 0,22 0,23 0,24 0,25 V1
V1 ICV
EUC ICVEUC
número de exibições de dados (medidas de dissimilaridade).
ICVEUC Figura 3: PFAs obtidos pela abordagem proposta MVMC em alguns conjuntos de
Seis conjuntos de dados do mundo real do repositório UCI [37] são
dados sintéticos ao minimizar a dispersão dentro do cluster (WCS) usando a distância
considerados: Iris, Wine, Breast, Thyroid, Glass e 30 Ecoli. Várias
Euclidiana (eixo x) e a distância MED (eixo y). Para cada subfigura, os melhores, médios e
exibições de dados são derivadas de um único conjunto de recursos piores PFAs derivados de 31 execuções são plotados usando linhas pretas, azuis e cinzas,
(conjunto de dados) usando quatro medidas de dissimilaridade respectivamente.
diferentes: distância euclidiana (), MED baseada em euclidiana Além disso, cada subfigura inclui um quadrado para ilustrar a melhor
(MEDeuc, denotada por ), distância de cosseno () e MED baseada solução (valor máximo de ARI).
em cosseno (MEDcos, denotada por ). Um total de dez combinações
35 de visualizações de dados são estudadas: seis configurações bi-
objetivas, três configurações de três objetivos e uma configuração de ber de pontos de vista. A Figura 5 ilustra o desempenho de
quatro objetivos. Os algoritmos de visualização única k-means, WARD agrupamento obtido por esses algoritmos para todas as dez diferentes
e GCA executam a tarefa de agrupamento usando uma das quatro combinações de exibições de dados. Pode-se ver que o uso de mais
medidas de dissimilaridade individuais. Em contraste, MVSC e 40 de duas medidas de dissimilaridade permite que o MVMC produza até 60
MVMC otimizam simultaneamente uma das dez combinações que melhores soluções de agrupamento do que as configurações bi-objetivas.
envolvem duas ou mais exibições de dados. Os resultados estão Observamos que a estratégia MVMCARI obteve o melhor
resumidos nas Figuras 4 e 5. Para obter resultados mais detalhados desempenho ao utilizar todas as quatro visualizações de dados, com
e a análise de significância estatística correspondente, consulte a um ARI médio de 0,846 ± 0,08. Além disso, não foram encontradas
Tabela A.6 (Apêndice). diferenças estatisticamente significativas entre esta estratégia e todas 65
45 A Figura 4 compara o desempenho das seis configurações as configurações de três objetivos do MVMCARI. O melhor
biobjetivas básicas do MVMC com os três algoritmos de agrupamento desempenho geral para a estratégia MVMCSIL foi para as instâncias
de exibição única. Podemos observar que a configuração MVMC {} e {}, enquanto para
instância MVSC, o{melhor
bi-objetivo desempenho
Em geral, observamos foi uma
obtido para a
melhora
apresenta o melhor desempenho, com um ARI médio de 0,81 ± 0,12. no clustering 70 }.
Adicionalmente, não são observadas diferenças estatisticamente
50 significativas entre esta estratégia e as configurações MVMC (0,75 ± desempenho para as configurações MVMC ao considerar três e
0,20) e MVMC (0,77 ± 0,15). Esses resultados sugerem que a quatro objetivos, em relação às configurações bi-objetivo de MVMC.
consideração de duas medidas de dissimilaridade permite ao MVMC Para a estratégia MVMCARI, é evidente que o aumento no número
produzir melhores soluções de agrupamento do que os algoritmos de visualizações se traduz sistematicamente em um aumento no
baseados em uma única medida de dissimilaridade. desempenho do clustering. Os conjuntos de dados do mundo real 75
55 Também comparamos as estratégias MVMC MVMCARI e MVMCSIL geralmente exibem clusters sobrepostos ou dados ruidosos, resultando
com o algoritmo MVSC ao aumentar o num em baixo desempenho da abordagem MVSC de multivisualização concorrente
8
Machine Translated by Google
0,08
porque euc
0,8
V2 V2
COS
MED
0,06
0,6 0,762
MED
0,76
V2
ARI 0,05
0,9225
0,9215
0,922
0,921
0,4 0,344 0,35 0,356 0,362 0,368 0,693 0,695 0,697 0,699 0,701 0,267 0,27 0,273 0,277 0,28
V1 deV1 Aproximações deV1
AproximaçõesEUC
de frente de Pareto Aproximações EUCfrente de Pareto frente de Pareto COS
0,2
Novatireoide Vidro Ecoli
0,55
0,74
0,0 V2
euc
V2
porque
COS
0,7
V2 0,53
MED MED
0,4
MVMC ARI
MVMCSIL
0,2 6. Resultados em agrupamento de múltiplas visualizações usando vários recursos
MVSC
Dados
Valores médios
0,0
1 2 3 4 5 6 7 8 9 10
9
Machine Translated by Google
• Conjunto de dados de imagem Corel (Corel)5 : é uma coleção de 7. Aplicação de MVMC para Classificação de Tumores de Mama
imagens com propriedades diferentes, como cores, iluminação e
ângulo diferentes. Em nossos experimentos, selecionamos Por fim, investigamos os recursos do MVMC em um conjunto de dados
aleatoriamente cinco classes (ou seja, 500 imagens) com seis multiview desafiador. O problema em estudo está associado a sistemas de
5 visualizações do conjunto de dados original. As exibições são diagnóstico assistido por computador (CAD) para ultrassonografia de mama
(BUS), onde o objetivo é gerar uma classificação de 50 tumores fornecendo uma
histograma de cores, momento, grossura, textura Tamura, wavelet e MARSAR
textura. segunda opinião e evitando variação interobservador. Geralmente, o pipeline do
sistema CAD envolve quatro etapas: pré-processamento da imagem, segmentação
da lesão, extração de recursos e classificação da lesão. Especificamente, na
• Serviço Postal dos EUA (USPS)6 : O conjunto de dados é obtido de
etapa de classificação da lesão, técnicas de aprendizado de máquina são usadas
uma coleção de mapas utilitários holandeses. As duas exibições de
para distinguir entre tumores benignos e malignos. 55
10 dados a seguir são consideradas: Coeficientes de Fourier das formas
de caracteres e correlações de perfil.
Para esse fim, foi recentemente projetada uma ferramenta de garantia
de qualidade que padroniza os relatórios mamográficos e é conhecida como
• Columbia Consumer Video (CCV)7 : Este conjunto de dados envolve sistema de relatórios e dados de imagens de mama (BI-RADS). A última
as duas exibições de dados da seguinte forma: Transformação de
edição do léxico BI-RADS para ultrassonografia considera cinco termos 60
recurso invariante em escala e pontos de interesse espaço-tempo. qualitativos para descrever a forma, orientação, margem, padrão de eco e
15 Para simplificar, as amostras multimarcadas e não marcadas são características posteriores das massas. Portanto, uma abordagem comum
removidas do banco de dados original. ao projetar sistemas CAD baseados em BI-RADS é representar nominalmente
cada termo qualitativo do léxico BI-RADS para massas usando 65 recursos
Além dos algoritmos considerados nas seções anteriores, incluímos uma quantitativos. Então, a coleção de características quantitativas forma um único
comparação com a abordagem de Mitra8 [33] e as abordagens de Jiang et vetor de características que constitui a entrada de um classificador.
al. [11] para agrupamento multiview: 20 SPEA2, NSGA-II, NSGA-III e MOED/
D. A Tabela 3 indica a melhor solução de agrupamento em termos de métricas
ARI e NMI. Em comparação com as técnicas concorrentes, o MVMC e o Aqui, abordamos a classificação de lesões de mama como um problema
algoritmo de Mitra claramente se beneficiam da flexibilidade de uma de aprendizado de máquina não supervisionado (ou seja, como um problema 70
abordagem multiobjetivo. A escalabilidade do MVMC para muitos 25 de agrupamento de dados). A esse respeito, em vez de coletar todos os
objetivos deve dar uma vantagem sobre a abordagem do Mitra em uma recursos quantitativos para formar um único conjunto de recursos, cada
conjunto de recursos derivados dos léxicos BI-RAD é considerado uma
configuração de muitas visualizações (ou seja, com três ou mais visualizações),
mas a indisponibilidade do código nos impede de investigar a abordagem visão distinta por nosso algoritmo MVMC. A vantagem dessa abordagem
do Mitra neste cenário específico. exploratória é uma visão distinta do nível 75 da estrutura natural do cluster em
cada uma das visualizações separadas e até que ponto as diferentes visualizações
Além disso, a partir dos resultados da Tabela 3, é notável que o MVMC fornecem informações complementares.
específicas da visão, o vetor objetivo eventualmente atribuído à solução termos do léxico BI-RADS, foram extraídas características morfológicas e
40 candidata é uma agregação dos valores objetivos associados a essas de textura para cada imagem BUS do contorno traçado pelo radiologista. As
partições. Portanto, essa estratégia de decodificação introduz um viés no propriedades das exibições de dados usadas neste estudo estão resumidas
algoritmo que, conforme observado na Tabela 3, impacta significativamente na Tabela 4 e ilustradas na Figura 7. No total, 139 recursos quantitativos
no desempenho do clustering. A Figura 10 ilustra o impacto das etapas de foram calculados para gerar cinco espaços de recursos, um para cada termo do
decodificação usadas no aplicativo de Jiang léxico BI-RADS [7].
45 abordagem e a proposta no MVMC.
Para os experimentos deste estudo, um total de 26 configurações de
visualização de dados foram obtidas a partir dos cinco conjuntos de recursos:
5Conjunto de dados Corel: https://archive.ics.uci.edu/ml/datasets/corel+image+features dez configurações de dois objetivos, dez de três objetivos, cinco de quatro
objetivos e uma configuração de 95 cinco objetivos correspondentes a combinações
Conjunto de dados 6USPS: https://archive.ics.uci.edu/ml/datasets/ Multiple+Features
de dois , três, quatro e cinco exibições de dados, respectivamente. Uma
7CCV conjunto de dados: http://www.ee.columbia.edu/ln/dvmm/CCV/ 8Os configuração específica de problema será referida como Vm-seq ao longo deste
resultados do Mitra são retirados diretamente do papel, pois nenhuma implementação de estudo, onde m = {2, 3, 4, 5} é o número de visualizações de dados e seq denota
o algoritmo está disponível. uma sequência de m letras diferentes referindo-se a 100
10
Machine Translated by Google
Tabela 2: Características dos conjuntos de dados multiview considerados neste estudo. ”Conjunto de dados Multiview” refere-se ao acrônimo do conjunto de dados, ”N”
denota o número de pontos de dados, ”V” é o número de exibições de dados, ”D” é a dimensionalidade do espaço de recursos para cada exibição e ”K” é o número real de
aglomerados.
Tabela 3: Resultados detalhados em termos de métricas ARI e NMI em todos os conjuntos de dados multiview (valores médios de 31 execuções). O desempenho
do MVMC é comparado com relação a seis abordagens de agrupamento multiview e o algoritmo k-means. Os resultados da abordagem de Mitra foram retirados do
artigo original [33]. Os melhores valores de ARI e NMI pontuados para cada conjunto de dados foram sombreados e destacados em negrito e, adicionalmente, os
melhores resultados estatisticamente (ÿ = 0,05) estão destacados em negrito.
– 0,537 0,372 0,519 0,362 0,393 0,259 0,401 0,257 0,411 0,243 0,434 0,287 0,631 0,552
Imagem
ETA – 0,074 0,025 0,038 0,009 0,101 0,031 0,103 0,043 0,080 0,006 0,100 0,022 0,192 0,151
aloi – 0,624 0,438 0,644 0,587 0,700 0,561 0,699 0,561 0,694 0,560 0,681 0,559 0,999 0,998
corel – 0,535 0,456 0,445 0,405 0,439 0,393 0,432 0,381 0,327 0,273 0,365 0,295 0,508 0,422
USPS 0,781 0,622 0,489 0,753 0,703 0,420 0,280 0,449 0,307 0,464 0,308 0,423 0,276 0,768 0,725
CCV 0,234 0,081 0,079 0,241 0,216 0,217 0,203 0,193 0,149 0,181 0,133 0,211 0,198 0,297 0,259
implementação de k-means, as informações de 5 exibições de dados múltiplos 0,849, 0,884), V3-MEP (0,849, 0,849, 0,847, 0,850), V4-MOEP (0,851, 0,847,
foram mescladas, assumindo comensurabilidade (e, portanto, peso igual) entre o 0,833, 0,860) e V5-SMOEP (0,851 , 0,847, 0,834, 0,859) obteve valores médios
recurso individual altos para todos os índices, que são apresentados como
espaços.
11
Machine Translated by Google
Precisão
0,6
ACC
0,85 0,9 0,9 0,860,86
0,9 0,86
Alta especificidade e V2-SM 0,86
0,5 0,84 V3-SMO
baixa sensibilidade 0,840,84
0,850,85 0,84
0,85
0,83 0,85
0,820,82
0,4 0,82
0,82
0,8 0,8 0,8
0,84
k-significa X MVSC MVMCSIL MVMCAUC MVMCACC Margem
Orientação
Orientação
0,8 0,8 0,8
0,81 Orientação
SMOE
V4- SMOP
V4-
SMEP
V4- SOEP
V4-
MOEP
V4- 0,79 0,7 0,7 0,82
SMOEP
V5-
0,76 0,760,76
0,78
0,650,7
0,65 0,81
0,80,7 0,740,74
0,65 0,74
Figura 8: Resumo do desempenho do agrupamento para as 26 configurações 0,77 0,7 0,82 0,83 0,84 0,85 0,86 0,87 0,88
0,8 0,8 0,84 0,82 0,84 0,82 0,9 0,88 0,86 0,9 0,88
0,88Forma
0,86 0,92
Forma
0,840,86
0,9 0,92 0,9 Forma
0,82 0,9
Margem Margem
Margem 0,92 0,9
Forma
de problema. As curvas mostram a precisão média pontuada por k-means,
MVSC, MVMCSIL, MVMCAUC e MVMCACC. Consulte a Tabela A.7 para Figura 9: PFAs obtidos de todas as execuções independentes do MVMC em
obter resultados detalhados (Apêndice). termos de precisão (ACC) para as configurações do problema V2-SM
(esquerda) e V3-SMO (direita). As soluções de agrupamento são destacadas
com diferentes intensidades de cores: quanto mais tende ao amarelo, melhor
o desempenho em termos de ACC. Os quadrados vermelho e azul representam
tupla (ACC, AUC, SEN, SPE). Seu desempenho nos diferentes índices
as melhores soluções selecionadas pelas estratégias MAUC e MACC, respectivamente.
reflete a eficácia geral da abordagem multiview proposta, demonstrando
que a otimização simultânea de visualizações de dados leva a um
A Figura 9 exemplifica esse efeito e outras características dos PFAs
melhor desempenho de agrupamento e que isso se estende à
bidimensionais e tridimensionais gerados por MVMC. Também ilustra as 45
5 identificação correta de casos positivos e negativos.
soluções de agrupamento selecionadas pelas estratégias MVMCAUC e
MVMCACC, indicando a posição das soluções de agrupamento mais
Compreendendo esses resultados em termos de qualidade dos
precisas. Ao analisar a forma dos PFAs para este conjunto de dados,
espaços de recursos subjacentes, vale a pena observar que as
fica claro que há um conflito significativo entre as múltiplas visualizações
configurações de problemas envolvendo as visualizações Shape (S) e
e que é difícil identificar uma solução ideal de trade-off a partir da 50
10 Margin (M) tiveram melhor desempenho, especialmente a visualização
estrutura presente apenas no PFA. Observamos que, para os conjuntos
Margin. Por exemplo, as configurações V2-SM, V2-ME, V2-MP, V3-MEP,
de recursos considerados aqui, a frente de Pareto nos fornece diferentes
V3-SMP, V4-MOEP, V4-SMOP e V5-SMOP obtiveram valores médios
trade-offs em relação a falsos positivos e falsos negativos, semelhante
altos para todos os índices e em toda a diferentes algoritmos de
a uma curva ROC. Além disso, consistentemente com nossas
agrupamento. Curiosamente, um baixo desempenho de agrupamento
descobertas sobre os conjuntos de dados UCI, descobrimos que as 55
foi observado para cerca de 15 configurações de problemas em todos os
regiões do espaço objetivo associadas às melhores soluções de
algoritmos estudados. Por exemplo, as configurações, incluindo as
agrupamento tendem a ser aquelas que correspondem a uma
visualizações Echo (E) e Posterior (P), resultaram repetidamente em
compensação equilibrada entre as exibições de dados; e que MVMCAUC
baixo desempenho, indicando um baixo desempenho preditivo desses espaços de recursos específicos.
e MVMCACC os selecionam consistentemente.
Devido à abordagem de ponderação mais flexível implementada por 20
Essas descobertas suportam a hipótese de que as 60 soluções de
MVMCAUC e MVMCACC (usando vetores de referência), eles são robustos
agrupamento mais promissoras tendem a integrar informações de várias
para a inclusão de um espaço de recurso individual de baixa qualidade,
visualizações e que as técnicas de otimização de muitos objetivos têm um
superando k-means e MVSC junto com todos os indicadores de
papel importante no suporte à geração de tais soluções candidatas.
desempenho.
Todo o potencial do agrupamento multiview deriva da presença de
espaços de recursos complementares e de alta qualidade, cuja consideração
conjunta pode melhorar o desempenho. Os nossos resultados (ver 8. Discussão 65
sensibilidade versus especificidade. Este último destaca uma Nossas observações a esse respeito são as seguintes:
oportunidade particular para a combinação frutífera de visões: Um
35 exemplo disso são os espaços de recursos relacionados à Forma (S) e
à Margem (M). Enquanto o conjunto de recursos Shape suporta solução • A maioria dos trabalhos existentes sobre clustering multiview usou
com alta especificidade e baixa sensibilidade, o oposto é o caso do algoritmos baseados na otimização de Pareto, em vez de
conjunto de recursos Margin (M). Conforme mostrado na Figura 9, a abordagens que empregam uma função escalar. Isso é 75
otimização simultânea de ambos os espaços de recursos simplesmente reflexo da prevalência mais ampla (e anterior) desses
12
Machine Translated by Google
algoritmos no campo da otimização multiobjetivo evolucionária é normalmente necessário por ponto de dados), a redundância da
[38], ao invés de uma escolha consciente. Como consequência, representação e a dificuldade de derivar operadores de variação
embora as limitações conhecidas das abordagens baseadas em efetivos que abordam essa redundância.
Pareto (especificamente a baixa escalabilidade em relação ao
5 número de objetivos) tenham sido transmitidas para o campo do • Não há nenhum trabalho anterior sobre agrupamento de muitas
agrupamento multiview, com a maioria dos algoritmos evolutivos visualizações que explore o vetor escalar durante o estágio de 60
existentes também baseados na dominância de Pareto . decodificação e avaliação e valide empiricamente o desempenho
dessa abordagem. Assim como nosso artigo, [11] usa MOEA/D,
• Nossa abordagem de decodificação não pode ser usada em mas deriva uma partição diferente para cada visualização (consulte
abordagens de otimização baseadas em Pareto para agrupamento a Figura 1 do artigo). Para o trabalho deles, isso tem a vantagem
10 multiview. Isso ocorre porque a abordagem requer conhecimento de que o mesmo esquema de decodificação pode ser usado 65
do vetor escalar para cada solução candidata. Em uma abordagem consistentemente para as abordagens baseadas em Pareto e
de otimização baseada em Pareto, essa informação não está escalares comparadas no artigo. No entanto, do ponto de vista
disponível — em outras palavras, dada uma única solução, não teórico, sofre da desvantagem destacada acima - os vetores
sabemos especificamente para qual vetor de escalarização ela é objetivos observados durante o processo de pesquisa não refletem
15 ideal; temos apenas informações genéricas sobre suas relações de mais o trade-off genuinamente alcançável por uma única partição, o que
dominância com outras soluções. pode afetar a eficácia da pesquisa.
Isso é usado durante a pesquisa em [11]. Aqui, a etapa de representações que descrevem as mesmas entidades. Em nosso trabalho,
25 decodificação mapeia uma única solução candidata para várias o termo agrupamento multiview é usado para se referir à consideração de
partições possíveis (uma por exibição) e avalia cada uma usando a diferentes aspectos de dados, como conjuntos de recursos (ou seja,
função objetivo associada a essa exibição. A limitação de fazer isso medidas quantitativas) e informações relacionais (ou seja, relações de
é a seguinte: como uma determinada solução candidata é mapeada dissimilaridade). A maioria das abordagens existentes para clustering 80
para várias partições específicas de exibição, o vetor objetivo multiview são limitadas ao processamento de duas exibições de dados ou
30 eventualmente atribuído à solução candidata é, na verdade, uma seu desempenho de clustering diminui à medida que o número de
agregação dos valores objetivos associados a essas partições. Em exibições aumenta. Neste artigo, demonstramos como os avanços
outras palavras, podemos apenas pensar no vetor objetivo resultante recentes na otimização de muitos objetivos suportam o projeto de um
como um ponto ideal, e isso não indica uma troca entre objetivos algoritmo evolucionário para agrupamento de dados capaz de dimensionar o
que uma única partição pode necessariamente alcançar. (ii) número de exibições de dados.
35 Suposição de uma soma ponderada fixa de todas as visualizações A abordagem proposta, chamada MVMC, foi avaliada em uma
em todas as soluções candidatas. Essa decodificação é usada variedade de dados, incluindo benchmarks anteriores para agrupamento
implicitamente no final do algoritmo de Jiang et al. (2016). multiview da literatura e uma aplicação para classificação de tumores de
mama. Usamos dados sintéticos e do mundo real 90 para avaliar o
comportamento do MVMC em situações em que vários dados relacionais (ou
Para obter uma única partição por solução candidata, seu algoritmo
40 decodifica os centróides finais dentro do espaço de recursos seja, diferentes matrizes de dissimilaridade) e vários conjuntos de recursos
completo (ou seja, concatenando todas as visualizações). Ao fazer estão disponíveis. Em nossos experimentos, o MVMC alcançou resultados
isso, ele efetivamente pondera cada exibição por dimensionalidade altamente competitivos quando comparado com várias técnicas tradicionais de
e escala dos recursos internos. clustering de objetivo único 95 e duas abordagens de última geração para
clustering multiview.
Na Figura 10, incluímos exemplos ilustrativos das frentes de
45 aproximação alcançadas por essas diferentes abordagens para
É importante ressaltar que nossas descobertas se generalizam para
destacar o impacto significativo dessa etapa de decodificação e
mais de duas exibições de dados: as versões para três e quatro objetivos
explicar os “vieses” específicos introduzidos.
obtiveram resultados significativamente melhores do que as versões bi- 100
• Para abordagens baseadas em Pareto para agrupamento objetivo em termos de desempenho de agrupamento. Em geral, para um
multivisualização, as únicas representações conhecidas que não determinado conjunto de dados com diferentes propriedades de cluster,
50 requerem a escolha de uma única visualização ou uma ponderação dois casos possíveis podem ocorrer no MVMC ao considerar visualizações
específica entre visualizações são aquelas que codificam diretamente de dados distintas: (i) uma visualização de dados predominante pode
a partição e, portanto, evitam completamente a etapa de levar a soluções úteis ou (ii) uma troca entre duas ou mais visualizações podem
decodificação. Existem exemplos de tais representações na literatura levar a 105 soluções eficazes. No primeiro caso, tanto o MVMC quanto os
de agrupamento evolucionário, mas elas são geralmente algoritmos de agrupamento de objetivo único usando a exibição de dados
55 consideradas ineficazes devido ao tamanho da representação resultante (uma variável
apropriada sãodebem-sucedidos.
decisão No entanto, no segundo caso, apenas
13
Machine Translated by Google
MVMC Pesos de visualização fixa Pesos sem visualização Pesos sem visualização
(abordagem de decomposição) (aproximações inatingíveis) (valores objetivos realistas)
0,064
0,39 0,76
0,062
0,388 0,74
0,06
distância
cosseno
do
0,056 distância
cosseno
do 0,384 distância
cosseno
do 0,7
0,054
0,382 0,68
0,052
0,38 0,66
0,05
Figura 10: Ilustração da importância da etapa de decodificação na passagem de uma representação baseada em medoid para uma partição real. São mostradas
as frentes de aproximação e os valores de ARI obtidos ao executar a mesma configuração do MOEA/D, mas variando apenas o mecanismo de decodificação para
(azul) contar com o vetor escalar (MVMC), (verde) contar com um único fixo (igual) ponderação de todas as visualizações. Em (vermelho) e (preto), consideramos
a abordagem de decodificação de Jiang et al. (2016). Em vermelho, podemos ver os valores de ARI observados para cada uma das duas possíveis partições
associadas a uma determinada solução candidata (conjunto de medoids). Na frente de aproximação, podemos observar a estimativa resultante dos trade-offs
alcançáveis durante a busca, que provavelmente será superestimada, pois os vetores agregam valores objetivos em duas partições diferentes. Em (preto),
ilustramos o efeito de decodificar as mesmas soluções candidatas (conjuntos de medoids) usando um único vetor de peso fixo (ou seja, adotando a abordagem
implantada em [11] no final da busca). No gráfico ARI (linha inferior), podemos observar que essa decodificação resulta em um número menor de soluções (apenas
uma partição por conjunto de medoides) e uma avaliação realista dos valores objetivos dessas soluções nas frentes de aproximação (linha superior). . A partir
desses gráficos, o impacto da etapa de decodificação no resultado do processo de busca e a cobertura aprimorada oferecida pela abordagem de escalarização
são evidentes. Como seria de esperar, um vetor de peso fixo tem um desempenho ruim para cobrir os extremos da frente de Pareto. Para a abordagem de Jiang
et al. (2016), há algumas evidências de que o uso de vetores objetivos potencialmente inatingíveis durante a busca dificulta a convergência apropriada para a frente de Pareto
MVMC é bem sucedido. Nossos resultados demonstram que o último cenário vantagens na prática, esperamos explorar sua aplicação em aplicações de
é mais frequente, enfatizando o valor de uma abordagem multiview. O MVMC dados multiview em grande escala, como agrupamento de documentos e
alcançou resultados altamente competitivos em nossos experimentos em dados médicos. 20
As principais limitações do nosso trabalho estão na seleção do modelo da O primeiro autor agradece o apoio do CONACYT México através de uma
frente de Pareto. Conforme mostrado em nossos resultados, o uso de uma bolsa de pós-doutorado.
de seleção do modelo, para permitir a seleção não supervisionada da melhor experimentos apresentados nas Seções 5, 6 e 7.
solução das aproximações de frente de Pareto. Em relação aos resultados dos conjuntos de dados sintéticos, a Figura A.11
15 Além disso, seria interessante estender o algoritmo para determinar o número ilustra a diversidade de estruturas de agrupamento cobertas por nossos
ideal de clusters automaticamente. Além disso, para confirmar que o MVMC conjuntos de dados de teste, enquanto a Tabela A.5 apresenta os resultados
pode fornecer anúncios significativos de agrupamento para os diferentes algoritmos estudados para este experimento. Tabela A.
14
Machine Translated by Google
mostra os resultados obtidos para dados do mundo real em termos [20] Taiyun Kim, Irene Rui Chen, Yingxin Lin, Andy Yi-Yang Wang, Jean Yee Hwa Yang e
Pengyi Yang. Impacto das métricas de similaridade no agrupamento de dados de 70
de valores ARI médios. A Tabela A.7 detalha os resultados em
sequência de RNA de célula única. Briefings em Bioinformática, 2018.
termos de índices ACC, AUC, SEN e SPE para os diferentes ´ ´ ´
[21] Adan Jos e-Garc´ÿa e Wilfrido Gomez-Flores. Agrupamento Evolucionário Usando
métodos considerados neste estudo. Representação Multiprotótipo e Critério de Conectividade. Na Conferência Mexicana
sobre Reconhecimento de Padrões, MCPR 2017, páginas 63–73.
Primavera, 2017. 75
5 Referências [22] Tomas Mikolov, Quoc V. Le e Ilya Sutskever. Explorando semelhanças entre idiomas
para tradução automática. arXiv e-prints, página arXiv:1309.4168, 2013.
[1] Sergios Theodoridis e Konstantinos Koutrumbas. Reconhecimento de padrões.
Elsevier Inc., quarta edição, 2009.
´ [23] Kalyanmoy Deb e Himanshu Jain. Um Objetivo Múltiplo Evolucionário
[2] Andrzej Bielecki e Mateusz Wojcik. Sistema Híbrido de Redes Neurais ART e RBF para Algoritmo de Otimização Usando Pontos de Referência Não Dominados 80 Abordagem de
Clustering Online. Applied Soft Computing, 58:1–10, 2017. Ordenação, Parte I: Resolvendo Problemas com Restrições de Caixa. IEEE Transactions on
10
Evolutionary Computation, 18(4):577–601, 2013.
[3] Patrick CH Ma, Keith CC Chan, Xin Yao e David KY Chiu. Um Algoritmo de Agrupamento [24] Qingfu Zhang e Hui Li. MOEA/D: Um Algoritmo Evolucionário Multiobjetivo Baseado em
Evolucionário para Análise de Dados de Microarray de Expressão Gênica. IEEE Decomposição. IEEE Transactions on Evolutionary Computation, 11(6):712–731,
Transactions on Evolutionary Computation, 10(3):296–314, 2006. 2007. 85
[25] Hui Li e Qingfu Zhang. Problemas de Otimização Multiobjetivo com Conjuntos de Pareto
15 [4] Chih Chin Lai e Chuan Yu Chang. Um Algoritmo Evolutivo Hierárquico para Complicados, MOEA/D e NSGA-II. IEEE Transactions on Evolutionary Computation,
Segmentação Automática de Imagens Médicas. Sistemas Especialistas com 13(2):284–302, 2009.
Aplicações, 36(1):248–259, 2009. [26] Indraneel Das e JE Dennis. Interseção Normal-Boundary: Um Novo Método para Gerar
[5] Francisco de AT de Carvalho, Yves Lechevallier e Filipe M. de Melo. a Superfície de Pareto em Problemas de Otimização Multicritério Não Lineares. SIAM 90
Algoritmos de Hard Clustering de Partição baseados em Matrizes de Múltiplas Journal on Optimization, 8(3):631–657, 1998.
20 Dissimilaridades. Reconhecimento de padrões, 45(1):447–464, 2012.
[6] Francisco de AT de Carvalho, Yves Lechevallier, Thierry Despeyroux e Filipe M. de [27] Kaisa Miettinen. Otimização multiobjetivo não linear. Kluwer Academic Publishers, 1999.
Melo. Agrupamento de várias exibições em dados relacionais.
Em Avanços na descoberta e gerenciamento de conhecimento, páginas 37–51. [28] Daniel Aloise, Amit Deshpande, Pierre Hansen e Preyas Popat. NP- 95 Dureza de Agrupamento
Primavera, 2014. Euclidiano de Soma dos Quadrados. Machine Learning, 75(2):245–248, 2009.
´
25 [7] Arturo Rodríguez-Cristerna, Wilfrido Gomez-Flores e Wagner Coelho de Albuquerque
´ ´ ´
Pereira. Um sistema de diagnóstico auxiliado por computador para ultrassom de [29] Adan Jos e-Garc´ÿa e Wilfrido Gomez-Flores. Agrupamento Automático Usando
mama baseado em classes BI-RADS ponderadas. Métodos e Programas de Metaheurísticas Inspiradas na Natureza: Uma Pesquisa. Applied Soft Computing,
Computador em Biomedicina, 153:33–40, 2018. 41:192–213, 2016. 100
´ ´ ´
[8] Adan Jos e-Garc´ÿa, Julia Handl, Wilfrido Gomez-Flores e Mario Garza-Fabre. [30] Gilbert Syswerda. Otimização de cronograma usando algoritmos genéticos. Em Davis
30 Agrupamento de muitas visualizações: uma ilustração usando medidas de Lawrance, editor, Handbook of Genetic Algorithms, capítulo 21, páginas 332–349.
dissimilaridade múltipla. Em Anais da Conferência de Computação Genética e Van Nostrand Reinhold, Nova York, NY, 1991.
Evolutiva, GECCO '19, páginas 213–214. AC, 2019. [31] J. MacQueen. Alguns métodos para classificação e análise de Mul
´
[9] Ariel E Baya e Pablo M Granitto. Quantos clusters: um índice de validação para clusters Observações variáveis. Em Proceedings of the Fifth Berkeley Symposium 105 on
de formato arbitrário. IEEE/ACM Transactions on Computational Biology and Mathematical Statistics and Probability, páginas 281–297. Editora da Universidade da
35 Bioinformatics, 10(2):401–14, 2013. Califórnia, 1967.
[10] Guoqing Chao, Shiliang Sun e Jinbo Bi. Uma Pesquisa sobre Multi-View Clustering. [32] Samir Kanaan-Izquierdo, Andrey Ziyatdinov e Alexandre Perera Lluna. Agrupamento
arXiv e-prints, página arXiv:1712.06246, 2018. espectral multiview e multifeature usando autovetores comuns. Cartas de
[11] Bo Jiang, Feiyue Qiu, Shipin Yang e Liping Wang. Otimização multiobjetivo evolutiva Reconhecimento de Padrões, 102:30–36, 2018. 110
para agrupamento multivisualização. No Congresso IEEE sobre Computação [33] Sayantan Mitra, Mohammed Hasanuzzaman e Sriparna Saha. Um Algoritmo Unificado
40 Evolutiva, CEC 2016, páginas 3308–3315. de Clustering Multi-view Usando Otimização Multi-objetivo Juntamente com o Modelo
IEEE, 2016.
Generativo. ACM Transactions on Knowledge Discovery from Data, 14(1):1–31, 2020.
[12] Hisao Ishibuchi, Noritaka Tsukamoto e Yusuke Nojima. Otimização Evolucionária de
Muitos Objetivos: Uma Breve Revisão. No Congresso IEEE sobre Computação [34] Lawrence Hubert e Phipps Arabie. Comparando partições. Journal of 115 Classification,
Evolutiva, CEC 2008, páginas 2419–2426. IEEE, 2008. 2(1):193–218, 1985.
45 [13] Xiao Cai, Feiping Nie e Heng Huang. Multi-View K-Means Clustering em Big Data. Em [35] Liam Paninski. Estimativa de Entropia e Informação Mútua. Neural
Proceedings of the International Joint Conference on Artificial Intelligence, páginas Computação, 15(6):1191–1253, 2003.
2598–2604, Pequim, China, 2013. AAAI Publications. [36] Julia Handl e Joshua Knowles. Uma Abordagem Evolutiva para Multi
Agrupamento objetivo. IEEE Transactions on Evolutionary Computation, 120 11(1):56–76,
[14] Xiang Wang, Buyue Qian, Jieping Ye e Ian Davidson. Agrupamento espectral 2007.
50 multiobjetivo e multivisualização via otimização de Pareto. Em Proceedings of the [37] M. Lichman. Repositório de aprendizado de máquina UCI. http://archive. ics.uci.edu/ml,
International Conference on Data Mining, SIAM 2013, páginas 234–242, Filadélfia, 2013.
PA, 2013. Society for Industrial and Applied [38] Wei Peng, Qingfu Zhang e Hui Li. Comparação entre MOEA/D e NSGA-II no Problema
Matemática.
do Caixeiro Viajante Multiobjetivo. Em Multi-objective Memetic Algorithms, páginas 125
[15] Sriparna Saha, Sayantan Mitra e Stefan Kramer. Explorando a Otimização Multiobjetivo 309–324. Springer, 2009.
55 para Multiview Clustering. ACM Transactions on Knowledge Discovery from Data,
20(2):1–30, 2018.
[16] Cong Liu, Jie Liu, Dunlu Peng e Chunxue Wu. Uma Abordagem Geral de Agrupamento
Multiobjetivo Baseada em Múltiplas Medidas de Distância. Acesso IEEE, 6:41706–
41719, 2018.
60 [17] Cong Liu, Qianqian Chen, Yingxia Chen e Jie Liu. Um Agrupamento Fuzzy Multiobjetivo
Rápido com Combinação de Multimedidas. Problemas matemáticos em engenharia,
2019: 1–21, 2019.
[18] Francisco de AT de Carvalho, Filipe M. de Melo e Yves Lechevallier.
Um Algoritmo de Agrupamento de Vetores Relacionais Fuzzy c-medoid multi-view.
65 Neurocomputing, 163:115–123, 2015.
[19] JZ Huang, MK Ng, Hongqiang Rong e Zichen Li. Ponderação Variável Automatizada
em Clustering do tipo k-means. IEEE Transactions on Pattern Analysis and Machine
Intelligence, 27(5):657–668, 2005.
15
Machine Translated by Google
Dados
43 Dados
Laranja 62 R15 Vinte
1 1 1 1
0,8
0,6
0,2
0
1
1
0,5
0 0,5 0 0 0
0 0,5 1 0 0,5 1 0 0,5 1 0 0,5 1
00
Dados Dados
TwoDiamonds Quadrado1 Tamanhos5 52 92
1 1 1 1 1
0 0 0 0 0
0 0,5 1 0 0,5 1 0 0,5 1 0 0,5 1 0 0,5 1
0 0 0 0 0
0 0,5 1 0 0,5 1 0 0,5 1 0 0,5 1 0 0,5 1
Chama Tamanho da Chama5 Spiralsizes5 Spiralsdata52 Spiralsdata92
1 1 1 1 1
0 0 0 0 0
0 0,5 1 0 0,5 1 0 0,5 1 0 0,5 1 0 0,5 1
Figura A.11: Esta figura ilustra a diversidade de propriedades cobertas por nossa coleção de conjuntos de dados de teste. As figuras na primeira linha contêm
grupos bem separados. As figuras na segunda linha correspondem a clusters sobrepostos. As figuras na terceira linha consistem em clusters não linearmente
separáveis. Finalmente, os números na última linha são conjuntos de dados com misturas de diferentes distribuições de dados.
16
Machine Translated by Google
Tabela A.5: Valores de ARI em conjuntos de dados sintéticos obtidos pelas estratégias MVMC MVMCSIL e MVMCARI, e o algoritmo de agrupamento k-means, SL, WARD, GCA
e MVSC (valores médios de 31 execuções). As exibições de dados são derivadas usando duas medidas de dissimilaridade diferentes: Euclidiana () e MEDeuc (). O melhor valor
de ARI pontuado para cada conjunto de dados foi sombreado e destacado em negrito e, adicionalmente, os melhores resultados estatisticamente (ÿ = 0,05) estão destacados em
negrito.
k-meios SL ALA GCA MVSC MVMCSIL MVMCARI
Laranja 400 2 2 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 Dados 4 3 400 3 4 1.000 1.000 1.000 1.000 1.000 1,000 1,000
1.000 1.000 1.000 1.000 Dados 6 2 300 2 6 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0,000 R15 600 2 15 0,966 1.000 1,000 1,000
G1 0,975 0,548 0,988 0,975 Vinte 1000 2 20 0,966 1,000 1,000 1,000 1,000 1,000 1,000 0,999 1.000 1,000 1,000
0.978 0,993 0,993
1.000 1,000 1,000
TwoDiamonds 800 2 2 1,000 0,895 0,000 0,000 0,748 0,684 1,000 0,888 0,976 1.000 1.000
Square1 1000 2 4 0,973 0,906 0,000 0,000 0,973 0,777 0,971 0,902 Size5 1000 2 4 0,920 0,739 0,025 0,015 0,649 0,973 0,979
G2 0,436 0,597 0,391 0,730 0,451 0,944 0,962
Dados 5 2 250 2 5 0,870 0,750 0,189 0,394 0,895 0,714 0,841 0,742 0,915 0,834 0,930
Dados 9 2 900 2 9 0,831 0,506 0,000 0,000 0,748 0,403 0,823 0,488 0,686 0,825 0,838
Part2 417 2 2 0,265 1,000 1,000 1,000 0,433 1,000 0,237 1,000 1.000 1.000 1.000
Dentro 600 2 2 0,008 1,000 1,000 1,000 1,000 1,000 0,134 1,000 1.000 1.000 1.000
G3 Espirais 1000 2 2 0,074 1.000 1.000 1.000 0,153 1.000 0,086 1.000 ringauss 2000 2 3 0,252 0,963 0,001 1.000 1.000 1.000
0,001 0,267 0,972 0,260 0,943 Multidist 3012 2 11 0,532 0,991 0,805 0,943 0,943 0,940 0,94 . 0,001 0,971 0,972
0,878 0,979 0,984
Flame 240 2 2 0.462 0.910 0.013 0.013 0.253 0.013 0.489 0.854 Flamesize5 240 2 6 0.926 0.824 0.489 0.657 0,013 0,561 0,967
0.932 0.650 0.514 0.533 G4 Spiralsizes5 2000 2 6 0.659 0.833 0.555 0.782 0.432 0.861 0.644 0.799 Spiralsdata52 0,676 0,948 0,976
562 2 8 0.342 0.934 0.772 0.808 0.308 0.809 0.347 0.932 Spiralsdata92 1212 2 12 0,610 0,623 0,128 0,130 0,610 0,538 0,662 0,680 0,974 0,980
0,647 0,978 0,948 0,960
0,560 0,750 0,878
ARI médio 0,688 0,892 0,526 0,568 0,688 0,798 0,650 0,871 0,772 0,935 0,971
DST IRA 0,332 0,139 0,436 0,437 0,305 0,262 0,317 0,160 0,307 0,114 0,044
Tabela A.6: Valores ARI em conjuntos de dados do mundo real obtidos por MVMCARI e o algoritmo de agrupamento k-means, SL, WARD e GCA (valores médios de 31
execuções). As exibições de dados são derivadas usando quatro medidas de dissimilaridade diferentes: Euclidiana (), MEDeuc (), Cosseno () e MEDcos ().
O melhor valor de ARI pontuado para cada conjunto de dados foi sombreado e destacado em negrito e, adicionalmente, os melhores resultados estatisticamente (ÿ = 0,05)
estão destacados em negrito.
k-meios ALA GCA MVMCARI
conjunto de dados
Íris 0,730 0,717 0,904 0,726 0,773 0,530 0,834 0,558 0,731 0,803 0,902 0,748 0,922 0,927 0,928 0,922 0,903 0,835
Vinho 0,915 0,550 0,805 0,612 0,932 0,355 0,673 0,442 0,768 0,650 0,826 0,610 0,839 0,850 0,864 0,836 0,837 0,680
Peito 0,861 0,747 0,856 0,877 0,867 0,823 0,890 0,890 0,858 0,861 0,856 0,884 0,837 0,876 0,881 0,873 0,872 0,872
Thyroid 0.718 0.590 0.174 0.144 0.672 0.484 0.133 0.094 0.702 0.485 0.181 0.105 0.834 0.730 0.878 0.837 0.195 0.869 Glass 0.634 0.455 0.306 0.465 0.656 0.605 0.311
0.711 0.567 0.433 0.025 0.634 0.565 0.729 0.572 0.694 0.748 0.664
Ecoli 0,417 0,406 0,367 0,574 0,454 0,495 0,396 0,550 0,399 0,328 0,399 0,537 0,518 0,408 0,736 0,500 0,706 0,650
ARI médio 0,713 0,577 0,569 0,566 0,726 0,549 0,539 0,509 0,671 0,593 0,532 0,586 0,753 0,753 0,810 0,777 0,710 0,762
STD ARI 0,163 0,152 0,294 0,235 0,171 0,157 0,305 0,334 0,150 0,205 0,349 0,246 0,155 0,199 0,123 0,145 0,241 0,101
17
Machine Translated by Google
Tabela A.7: Resultados detalhados em relação aos índices ACC, AUC, SEN e SPE em todas as configurações do problema multiview (valores médios de 31
execuções). O melhor valor pontuado para cada índice e configuração do problema foi sombreado e destacado em negrito e, adicionalmente, os melhores
resultados estatisticamente (ÿ = 0,05) estão destacados em negrito. MSIL, MAUC e MACC denotam diferentes estratégias MVMC para selecionar a melhor
solução de agrupamento, enquanto km denota os resultados obtidos pelo algoritmo k-means.
ACC AUC SEN SPE
conf.
km MVS MSIL MAUC MACC km MVS MSIL MAUC MACC km MVS MSIL MAUC MACC km MVS MSIL MAUC MACC
V2-SM 0,852 0,730 0,834 0,857 0,863 0,846 0,853 0,835 0,738 0,786 0,846 0,836 0,818 0,844 0,781 0,764 0,632 0,811 0,751 0,732 0,812 0,889 0,712 0,940 0,881 0,921 0,905 0,875
V2-SO 0,826 0,844 0,845 0,758 0,765 0,834 0,845 0,773 0,812 0,810 0,777 0,781 0,786 0,828 0,608 0,709 0,696 0,837 0,831 0,632 0,775 0,939 0,915 0,923 0,717 0,731 0,939 0,881
V2-SE 0,849 0,843 0,754 0,832 0,840 0,845 0,817 0,816 0,759 0,783 0,819 0,812 0,716 0,733 0,775 0,627 0,749 0,709 0,918 0,900 0,742 0,938 0,888 0,916
V2-SP
V2-MO 0,816 0,655 0,743 0,826 0,827 0,816 0,700 0,717 0,827 0,825 0,817 0,841 0,634 0,831 0,821 0,815 0,559 0,800 0,823 0,830 0,577 0,631
V2-ME 0,669 0,691 0,823 0,825 0,825 0,840 0,709 0,712 0,719 0,827 0,829 0,829 0,836 0,671 0,846 0,808 0,839 0,841 0,839 0,824 0,552 0,815 0,816 0,818 0,848 0,791 0,835 0,844
V2-MP 0,837 0,846 0,848 0,622 0,755 0,733 0,732 0,838 0,846 0,844 0,657 0,778 0,703 0,738 0,842 0,849 0,832 0,765 0,852 0,608 0,758 0,856 0,548 0,705 0,798 0,718 0,561 0,561
V2-OE 0,740 0,619 0,754 0,750 0,749 0,615 0,615 0,725 0,646 0,773 0,679 0,726 0,715 0,644 0,677 0,731 0,831 0,457 0,652 0,549 0,738
V2-OP 0,619 0,754 0,750 0,749 0,615 0,646 0,773 0,679 0,726,715 0,647 0,731 0,831 0,457 0,652
V2-EP
V3-SMO 0,852 0,714 0,811 0,859 0,866 0.836 0.739 0.764 0.845 0.841 0.792 0.745 0,784 0,819 0,615 0,799 0,762 0,888 0,660 0,913 0,890 0,920
V3-SME 0,778 0,723 0,834 0,857 0,862 0,855 0,774 0.786 0.848 0.839 0.833 0.768 0.786 0.856 0,836 0,813 0,631 0,817 0,764 0,765 0,748 0,748 0,676 0,940 0,878 0,914 0,902 0,787
V3-SMP 0,835 0,864 0,870 0,767 0,775 0,806 0,843 0.853 0.781 0.791 0.757 0.826 0.820 0.818 0,630 0,830 0,796 0,828 0,841 0,603 0,773 0,943 0,882 0,909 0,735 0,741 0,911 0,879
V3-SOE 0,850 0,846 0,828 0,757 0,847 0,857 0,758 0.824 0.684 0.824 0.817 0.777 0.781 0.785 0,725 0,727 0,809 0,454 0,751 0,707 0,838 0,915 0,909 0,838 0,915 0,898 0,716 0,909
V3-SOP 0,846 0,828 0,757 0,847 0,758 0.839 0.830 0,838 0,915 0,898 0,716
V3-SEP
V3-MOE 0,674 0,687 0,732 0,826 0,828 0,716 0,725 0,704 0,829 0,829 0,849 0,842 0,615 0,841 0,830 0,582 0,607 0,792 0,818 0,827
V3-MOP 0,827 0,748 0,752 0,849 0,856 0,672 0,687 0,823 0,761 0,684 0,847 0,840 0,714 0,697 0,809 0,801 0,468 0,841 0,788 0,846 0,730 0,836 0,721 0,899 0,853 0,892 0,581 0,665
V3-MEP 0,826 0,849 0,853 0,621 0,747 0,750 0,772 0,829 0,849 0,846 0,653 0,765 0,680 0,768 0,838 0,847 0,822 0,755 0,822 0,458 0,756 0,820 0,850 0,869 0,550 0,708 0,903 0,781
V3-OEP 0,784 0,755 0,662 0,848
V4-SMOE 0,782 0,721 0,833 0,860 0,865 0,853 0,777 0,794 0,747 0,783 0,849 0,844 0,835 0,782 0,835 0,832 0,624 0,818 0,775 0,778 0,797 0,754 0,662 0,942 0,881 0,912 0,893 0,767
V4-SMOP 0,755 0,866 0,871 0,682 0,855 0,849 0,450 0,819 0,778 0,914 0,891 0,919
V4-SMEP 0,781 0,744 0,833 0,866 0,869 0,795 0,750 0,784 0,856 0,851 0,787 0,801 0,838 0,768 0,627 0,822 0,793 0,825 0,818 0,751 0,732 0,941 0,889 0,909 0,750 0,785
V4-SOEP 0,775 0,796 0,753 0,846 0,854 V4-MOEP 0,671 0,684 0,832 0,828 0,713 0,745 0,683 0,847 0,466 0,789 0,743 0,847 0,818 0,464 0,833 0,902 0,876 0,912 0,580 0,673 0,903 0,860
0,722 0,753 0,851 0,857 0,839 0,785 0,894
V5-SMOEP 0,789 0,759 0,751 0,851 0,857 0,800 0,770 0,680 0,847 0,842 0,834 0,807 0,456 0,834 0,796 0,766 0,734 0,904 0,859 0,888
18