Você está na página 1de 19

Machine Translated by Google

Pesquisa da Universidade de Manchester

Uma abordagem evolutiva de muitos objetivos para agrupamento


multivisualização usando recursos e dados relacionais
DOI:
10.1016/j.asoc.2021.107425

Versão do Documento
Manuscrito do autor aceito

Link para registro de publicação no Manchester Research Explorer

Citação da versão publicada (APA): José-


garcía, A., Handl, J., Gómez-flores, W., & Garza-fabre, M. (2021). Uma abordagem evolutiva de muitos objetivos para agrupamento
multivisualização usando recursos e dados relacionais. Computação Macia Aplicada, [107425]. https://doi.org/10.1016/j.asoc.2021.107425

Publicado em:
Computação Suave Aplicada

Citando este
documento Por favor, note que onde o texto completo fornecido no Manchester Research Explorer é o manuscrito aceito pelo autor ou a
versão de prova, isso pode diferir da versão publicada final. Se estiver citando, é aconselhável que você verifique e use a versão definitiva
do editor.

Direitos gerais
Os direitos autorais e morais das publicações disponibilizadas no Research Explorer são mantidos pelos autores e/ou outros
proprietários de direitos autorais e é uma condição de acesso às publicações que os usuários reconheçam e cumpram os requisitos
legais associados a esses direitos.

Política de remoção
Se você acredita que este documento viola direitos autorais, consulte os Procedimentos de remoção da Universidade de Manchester
[http://man.ac.uk/04Y6Bo] ou entre em contato com uml.scholarlycommunications@manchester.ac.uk fornecendo detalhes relevantes,
para que possamos investigue sua reclamação.

Data de download:03. março de 2023


Machine Translated by Google

Uma Abordagem Evolutiva de Muitos Objetivos para Multiview Clustering


Usando recursos e dados relacionais
´ ´ ´ b
Adan Jos e-Garc ´ÿaa,ÿ , Júlia Handla , Wilfrido Gomez-Flores Mario Garza-Fabreb
,
aDecision and Cognitive Sciences Research Centre, Alliance Manchester Business School, The University of Manchester, Manchester, M15 6PB, Reino Unido bCentro de Investigación y de
Estudios Avanzados del IPN, Unidad Tamaulipas, 87130, Cd. Victoria, Tamaulipas, México

Abstrato

Muitos domínios de aplicativos envolvem a consideração de várias fontes de dados. Normalmente, cada uma dessas exibições de dados fornece uma
perspectiva diferente de um determinado conjunto de entidades. Inspirados nos primeiros trabalhos sobre aprendizado multiview (supervisionado), os
algoritmos multiview para agrupamento de dados oferecem a oportunidade de considerar e integrar todas essas informações em um ambiente não
supervisionado. Na prática, alguns problemas complexos do mundo real podem dar origem a um punhado ou mais visualizações de dados, cada uma com
diferentes níveis de confiabilidade. No entanto, os algoritmos existentes geralmente se limitam a considerar apenas duas visualizações ou assumem que
todas as visualizações têm o mesmo nível de importância. Aqui, descrevemos o projeto de um algoritmo evolutivo para o problema de análise de cluster
multiview, explorando avanços recentes no campo da otimização evolutiva para endereçar configurações com um número maior de visualizações. O método
é capaz de considerar visualizações que são representadas na forma de conjuntos de recursos distintos, ou matrizes de dissimilaridade distintas, ou uma
combinação dos dois. Nossos resultados experimentais em conjuntos de dados de benchmark padrão (incluindo do mundo real) confirmam que a adoção
de um algoritmo evolucionário de muitos objetivos aborda as limitações do trabalho anterior e pode ser facilmente dimensionado para configurações com
quatro ou mais exibições de dados. O destaque final do nosso artigo é uma ilustração do potencial da abordagem em uma aplicação para classificação de lesões mam

Palavras-chave: Data Clustering, Multiview Clustering, Evolutionary Clustering, Evolutionary Multiobjective Clustering

1. Introdução matrizes de dissimilaridade múltipla podem ser derivadas usando


medidas de proximidade conceitualmente diferentes, como a
O agrupamento de dados é uma técnica de aprendizado não distância euclidiana, a distância máxima da aresta (MED) [9] e a distância
supervisionado destinada a descobrir grupos homogêneos de objetos de do cosseno 25 . Finalmente, há cenários em que as definições de espaços
dados não rotulados de acordo com características intrínsecas medidas de características não são diretas, ou apenas informações de relação
[1]. Ele apresenta uma abordagem predominante para análise de dados em sobre entidades estão disponíveis (por exemplo, em comparação de
diferentes campos científicos, como visão computacional, bioinformática proteínas ou documentos) e assumirão a forma de múltiplas matrizes de
e marketing [2, 3, 4], e a variedade de métodos disponíveis varia de dissimilaridade. Em todos os cenários acima, é benéfico integrar as 30

abordagens estatísticas sobre abordagens de aprendizado profundo e múltiplas fontes de informação disponíveis para gerar resultados de
meta-heurísticas para várias abordagens híbridas [2]. agrupamento mais precisos e robustos.
10 Muitas áreas de aplicação, por exemplo, em bioinformática ou recuperação Em sentido estrito, o termo “agrupamento multiview” refere-se a
de informações, requerem o agrupamento de dados caracterizados por algoritmos que podem utilizar vários espaços de recursos, que
múltiplos conjuntos de recursos e/ou múltiplas descrições relacionais, descrevem pontos de vista distintos de um fenômeno. No entanto, 35 o
resultantes da aplicação de diferentes funções de dissimilaridade [5, 6]. termo “multivisão” pode ser estendido para dar conta do papel colaborativo
No primeiro caso, o agrupamento final é obtido a partir do consenso de de diferentes matrizes de dissimilaridade que mapeiam um único espaço
15 diferentes espaços de características (isto é, dados de características) de recursos para múltiplas visualizações caracterizadas por diferentes
usando uma função de dissimilaridade fixa. Por exemplo, na análise de descrições relacionais [6]. Portanto, consideramos um algoritmo de
imagens de ultrassom de mama, diferentes conjuntos de características agrupamento multiview como qualquer algoritmo suficientemente versátil 40
quantitativas podem ser extraídos para descrever a forma, orientação, para lidar com diferentes representações dos mesmos dados, incluindo
margem, padrão de eco e características posteriores de massas para vários conjuntos de recursos e várias descrições relacionais, e pode
20 realizar a classificação da lesão [7]. Por outro lado, no segundo caso, o integrar essas informações para encontrar clusters consistentes nas
agrupamento é obtido a partir de diferentes funções de proximidade que diferentes visões. Além disso, não deve fazer suposições sobre a
aumentam as relações de dissimilaridade (isto é, dados relacionais) [8]. Nesseimportância
caso, de diferentes pontos de vista. Isso é particularmente relevante45
em situações em que as visões individuais são incomensuráveis, ou seja,
onde a fusão de todas as visões para formar um único conjunto de dados
ÿEndereços de e-mail do é inconveniente devido às suas propriedades únicas, ou onde as visões
´ ´
autor correspondente: adan.jose@cinvestav.mx (Adan Jos ´ÿa), e-Garc
podem apresentar níveis variados de confiabilidade [10, 11]. Por fim, uma
julia.handl@manchester.ac.uk (Julia Handl), wgomez@cinvestav.mx (Wilfrido Gomez-Flores),
´
mario.garza@cinvestav.mx ( Mario Garza-Fabre) abordagem robusta de agrupamento multiview precisa ser capaz de 50

Pré-impressão enviada para Applied Soft Computing 15 de abril de 2021


Machine Translated by Google

dimensionar de forma confiável para mais de duas visualizações (uma 2. Antecedentes e Trabalhos Relacionados
propriedade que chamamos de “many-view”, emprestando do termo “many-
objective” introduzido pela primeira vez no campo de otimização multiobjetivo [12]). Esta seção apresenta conceitos básicos que são essenciais para
compreensão deste trabalho e discute trabalhos relacionados relevantes.
Este artigo descreve uma nova abordagem de agrupamento de dados
multiview 5 , chamada MVMC, baseada em otimização evolutiva multiobjetivo,
2.1. Agrupamento de dados multivisualização 55
onde a propriedade multiview refere-se à disponibilidade de conjuntos de
recursos múltiplos e/ou descrições relacionais múltiplas. A abordagem tira Um agrupamento nítido é o particionamento de N objetos de dados em K
proveito dos conceitos de otimização de muitos objetivos [12] para explorar subconjuntos mutuamente disjuntos [1]. Formalmente, seja X = {x1, . . . , xN}
uma variedade de trade-offs (ótimo de Pareto 10 ), enquanto dimensiona para seja um conjunto de N objetos a serem particionados em K clusters C =
configurações com três ou mais exibições de dados, superando assim duas das {c1, . . . , cK}, de modo que as três condições a seguir sejam ÿ; c1 ÿ ÿ cK = X;
limitações mais frequentes do cluster multiview existente métodos. A adequação pode ser avaliado pela ÿ cj = ÿ. para
e cidefinição . . uma
de satisfeito:
funçãociobjetivo
determinada K e i j. sobre
partição Apode
qualidade
os = 1,de
. .uma
i, j recursos . , dos 60

e o desempenho do MVMC são investigados para uma variedade de conjuntos objetos ou


visa identificar partições sobre
que poras informações
minimizam
exemplo, relacionais
a variação
a análise
dentro doentre
de cluster os objetos,
cluster.
geralmente
de dados de referência tradicionais, envolvendo experimentos 15 com vários
conjuntos de recursos e múltiplas matrizes relacionais, bem como para o
problema de classificação de lesões mamárias em imagens de ultrassom. As
principais contribuições deste artigo são: 65

As soluções multiview clustering (MvC) consideradas neste artigo seguem


a mesma definição. No entanto, a avaliação de qualidade para uma determinada
partição envolve a consideração de várias fontes de informações ou exibições
• É introduzida uma abordagem de muitos objetivos para clustering de
de dados. Uma vez que as visualizações individuais decorrem de vários tipos
dados multiview. Essa abordagem explora os benefícios de fontes de
de medições, 70 elas podem ter diferentes propriedades estatísticas e suportar
20 informações complementares, obtidas de vários conjuntos de recursos
diferentes partições [13]. Assim, o MvC fornece uma abordagem baseada em
ou vários relacionamentos, para manter ou aumentar o desempenho do
princípios para integrar várias exibições para gerar partições de alta qualidade que
agrupamento à medida que o número de exibições de dados aumenta.
otimizam o suporte fornecido por essas diferentes fontes de dados.

75
• Nosso algoritmo usa uma codificação baseada em tipos proto de cluster,
Pesquisas recentes relataram alguns primeiros passos para explorar a
25 o que fornece boa escalabilidade para grandes conjuntos de dados.
natureza multicritério intrínseca do MvC [14, 11, 15, 16, 17, 8]. No MvC, as
Além disso, propomos uma estratégia de decodificação inovadora que
exibições de dados estão disponíveis na forma de conjuntos de recursos
explora diretamente os mecanismos do otimizador subjacente (vetores
múltiplos ou como matrizes de dissimilaridades múltiplas [5, 6, 18]. Abordagens
escalares) no mapeamento de um conjunto de protótipos de cluster para
representativas na primeira categoria 80 são descritas abaixo. Wang et ai. [14]
uma partição real. O uso do vetor de referência nos permite garantir que
propuseram uma formulação de agrupamento espectral multiobjetivo para MvC, que
30 nenhum viés em relação a qualquer visualização particular seja
requer o cálculo da construção do kernel e da posição do autovetor. Embora este
introduzido no estágio de decodificação.
método tenha apresentado bom desempenho em problemas com duas visões, ele
requer altos recursos computacionais, e a extensão para mais de duas visões de
• Um método de seleção de agrupamento não supervisionado é proposto
dados não foi analisada. Jiang et ai. [11] usaram a otimização evolutiva multiobjetivo85
para escolher a solução de agrupamento mais adequada a partir das
para aproximar o conjunto de soluções ótimas de trade-off, vendo cada visão como
aproximações de frente de Pareto produzidas pelo MVMC. Este método
um objetivo independente e descrevendo as soluções na forma de cluster centróides.
35 é baseado em uma técnica de validação interna estabelecida, mas utiliza
No entanto, um mecanismo adequado para um mapeamento 1-1 de cada um desses
as informações contidas em vetores de referência individuais para
centróides para uma partição candidata, preservando a natureza multicritério do
ponderar todas as exibições de dados adequadamente.
problema, não foi descrito. Durante a busca, Jiang et al. [11] realizam separadamente
90

o mapeamento (e posterior avaliação) ao longo de cada vista, o que equivale a um


• A abordagem proposta é aplicada com sucesso a um problema de mapeamento de 1 m, 95 onde m é o número de vistas. Os m valores objetivos
classificação de lesões de mama, o que confirma que resultantes são então agregados em um único vetor, refletindo um conjunto ideal de
40 MVMC oferece vantagens significativas na prática. valores em vez de um trade-off alcançável por uma única partição.

O restante deste artigo está organizado da seguinte forma. Primeiro, a


Seção 2 apresenta os antecedentes necessários e o trabalho relacionado. A
Seção 3 descreve em detalhes o algoritmo MVMC proposto. A seção 4
descreve as configurações, métodos de referência e métricas de desempenho É provável que essa superestimação tenha impacto na capacidade do
45 usadas em nossos experimentos. Os resultados experimentais em conjuntos algoritmo de aproximar a verdadeira frente de Pareto. Mais recentemente, Saha et
de dados sintéticos e do mundo real são apresentados na Seção 5. A Seção 6 100 al. [15] propuseram uma abordagem multicritério considerando m + 1 critérios de
apresenta os resultados obtidos em conjuntos de dados multiview. A seção 7 otimização: m critérios para avaliar a qualidade do agrupamento nas m visualizações
apresenta os resultados obtidos no problema de classificação das lesões individuais e um critério adicional para medir a concordância entre as visualizações
mamárias. Finalmente, a Seção 50 8 apresenta a discussão e a Seção 9 de dados.
fornece as conclusões e possíveis direções para trabalhos futuros. Embora os métodos mencionados acima sejam limitados a aplicações 105
ções em que os conjuntos de recursos estão prontamente disponíveis, as abordagens MvC

2
Machine Translated by Google

baseados no uso de múltiplas descrições relacionais ou matrizes de Algoritmos evolutivos multiobjetivos (MOEAs) geralmente funcionam
dissimilaridade (geralmente derivadas pela aplicação de diferentes funções bem em problemas de dois e três objetivos. No entanto, o desempenho de
de distância) também foram propostas [5, 16, 19, 18]. O uso de matrizes muitos algoritmos existentes degrada severamente quando o número de
de dissimilaridade como visualizações de dados é de particular importância objetivos é maior que três [12, 23]. Problemas de otimização com mais de
5 em cenários onde as definições de espaços de características não estão três objetivos 55 são freqüentemente chamados de problemas de muitos objetivos
disponíveis/simples, ou uma série de medidas complementares podem ser (MaOPs).
derivadas. Mesmo quando espaços de recursos bem definidos estão Nos últimos anos, os desenvolvimentos na comunidade de computação
disponíveis, a escolha de uma medida de dissimilaridade pode ser crucial evolucionária têm se concentrado no projeto de MOEAs especializados
para identificar tipos particulares de estruturas de cluster, impactando o para tais configurações de muitos objetivos [12, 23], incluindo abordagens
10 desempenho do agrupamento [20]. Por exemplo, sabe-se que a distância baseadas em indicadores, baseadas em decomposição e baseadas em 60

euclidiana é mais adequada para clusters de formato esférico. Da mesma dominância e decomposição.
forma, a distância máxima da borda (MED) [9] é excelente na identificação A seguir, desenvolvemos esses desenvolvimentos na otimização de
de componentes de forma irregular [21, 8], e a distância do cosseno é mais muitos objetivos para propor um método de agrupamento de múltiplas
adequada quando a orientação entre padrões 15 terns é mais relevante do visualizações capaz de escalar para um número arbitrário de visualizações,
que sua magnitude [22 ] . superando a limitação das abordagens anteriores. 65

Os algoritmos de agrupamento geralmente requerem a seleção de uma


única medida de dissimilaridade, como a distância Euclidiana, MED ou
3. A abordagem proposta
Cosseno. A tarefa de selecionar a melhor medida de dissimilaridade para
um determinado conjunto de dados ou combinar várias medidas disponíveis A seguir, descrevemos nosso método de agrupamento de muitas
20 é normalmente abordada no início do pipeline de análise de dados e pode visualizações MVMC. Conforme discutido acima, o MVMC tem como
representar um desafio significativo. Uma abordagem é atribuir diferentes objetivo fornecer uma abordagem de solução robusta para uma ampla
pesos a diferentes medidas [19, 5], mas os pesos apropriados são difíceis gama de cenários de agrupamento multiview, especificamente, conjuntos 70

de determinar sem conhecimento prévio dos tipos de estruturas presentes de recursos múltiplos e/ou fontes múltiplas de informações relacionais. No
nos dados e da confiabilidade das informações fornecidas por essas entanto, acreditamos que sua contribuição metodológica mais importante é
25 medidas. Por esta razão, Liu et al. [16] apresentaram um algoritmo evolutivo a etapa de decodificação, que explora uma sinergia específica entre as
multiobjetivo (baseado em NSGA-II) que considerava simultaneamente demandas de agrupamento e o campo de otimização de muitos objetivos.
duas funções de distância diferentes. Nosso algoritmo adota o uso de medoids para garantir a aplicabilidade a 75

toda a gama de cenários de agrupamento multiview. Demonstramos que a


Cada indivíduo é representado usando uma codificação baseada em rótulo integração direta de informações sobre protótipos (usados para representar
30 de tamanho N (número de pontos de dados) e é avaliado usando a soluções de clustering), com informações sobre os vetores de peso (usados
variância intra-cluster em relação a ambas as medidas de distância. dentro do otimizador subjacente), pode alcançar o design de uma estratégia
Recentemente, Liu et al. [17] estendeu este trabalho propondo uma de decodificação imparcial em relação a qualquer um dos vistas 80

abordagem de agrupamento fuzzy baseada em um algoritmo de evolução consideradas. Essa estratégia é diferente de todos os trabalhos relacionados
diferencial multiobjetivo. Nesta abordagem, uma codificação baseada em anteriores, que sempre se basearam em mecanismos de decodificação
35 centróide é usada para representar as soluções de agrupamento. que inadvertidamente introduzem um viés específico de exibição na
No entanto, a avaliação dessas abordagens foi limitada a dados de duas otimização. Essa importante contribuição e seu posicionamento dentro do
visualizações, e a escalabilidade para mais de três visualizações (e, escopo geral de nosso trabalho são ilustrados na Figura 1. Especificamente, 85

portanto, objetivos) será limitada para as abordagens que dependem do o gráfico do segundo estágio (“algoritmo proposto”) destaca como o mesmo
domínio de Pareto [23]. par de prototipos pode levar a diferentes soluções de clustering , devido
apenas a diferenças nos vetores de peso subjacentes.
40 2.2. Otimização multi e multiobjetivo Sem perda de
A estrutura geral do MVMC é descrita no Algo- 90
generalidade, um problema de otimização multiobjetivo pode ser definido
ritmo 1, que é baseado no algoritmo baseado em decomposição (MOEA/D)
como segue [12]:
[24]. Ele decompõe um problema de otimização multiobjetivo (MOP) em
minimizar F(z) = (f1 (z) , . . . , fm (z))T sujeito muitos subproblemas de objetivo único (cor respondendo a diferentes
, (1)
escalares), que são otimizados simultaneamente, e as soluções ótimas de
azÿÿ
todos os subproblemas 95 constituem o conjunto ótimo de Pareto. O MOEA/D é
T é um
onde ÿ é o espaço de decisão factível, z = (z1, . . . ,zl) solução um conhecido algoritmo evolucionário multiobjetivo que tem se mostrado mais
candidata, e F : ÿ ÿ R m consiste em m funções objetivo. Para duas eficiente do que outros métodos multiobjetivos em relação à qualidade das
soluções z1, z2 ÿ ÿ, z1 é dito dominar z2 (denotado como z1 ÿ z2), se e soluções e à taxa de convergência [24, 25].
somente se fi(z1) ÿ fi(z2) para todo i ÿ {1, . . . , m} e fj(z1) < f j(z2) para
45 pelo menos um índice j ÿ {1, . . . , m}. Uma (1)
solução
se não
z ÿhouver
é Pareto
outra
ótima
solução
para Por essas razões, o MOEA/D é considerado como o otimizador 100 subjacente
z ÿ ÿ tal que z ÿ z em nossa abordagem de agrupamento de dados multivisualização proposta.
ÿ
. F(z ÿ
) é chamado O MVMC requer como entrada: o número de subproblemas (NP), o m
de vetor objetivo ótimo de Pareto. O conjunto de todas as soluções ótimas uma distribuição uniforme de vetores de peso NP (W) 1 , dissim
de Pareto é chamado de conjunto ótimo de Pareto (PS) e o conjunto de
todos os 50 vetores objetivos ótimos de Pareto é chamado de frente de Pareto (PF). 1Os vetores de peso são gerados usando o método de Das e Dennis [26].

3
Machine Translated by Google

entrada de dados
w1
f2
ponto nadir

+ Vetores de peso (MOEA/D) bairros


Muitas
vetores de peso
matrizes de + Soluções iniciais (medoides) ponto ideal
dissimilaridade
+ ponto nadir
wN
f1

Algoritmo proposto
Agrupamento Medóide 1
f2 w1
Aglomerado Medóide 2
+ Decodificação Grupo de membros 1
(atribuição de cluster) Grupo de
MVMC membros 2
baseado em
+ Avaliação (variação intra-cluster
MOEA/D
em um determinado espaço de
dissimilaridade ponderada) wN
f1

Seleção de modelo
w1
f2 Índice de silhueta / índice ARI
1,0
+ Melhor solução ARI Melhor solução
de cluster
(Seleção supervisionada) Índice de vetores de peso
Aproximação 0,5

frente pareto
+ Melhor índice Silhouette
(Seleção não supervisionada) 0,0
1 N
wN
f1 Índice de vetores de peso
Figura 1: Principais etapas e componentes da abordagem MVMC proposta. As matrizes de dissimilaridade múltipla podem ser obtidas considerando: (i) um único
conjunto de atributos e funções de dissimilaridade distintas; e (ii) múltiplos conjuntos de características e uma única função de dissimilaridade.

matrizes de ilaridade D = {D1, . . . , Dm}, e o critério de terminação, que neste uma representação baseada em medoid de partições candidatas, usada
caso é o número máximo de gerações (Gmax). Os detalhes de implementação amplamente e com sucesso em abordagens evolutivas para agrupamento de
de cada componente do MVMC são descritos a seguir. dados [28, 29]. Essa representação pode lidar com grandes instâncias de
problemas (em relação ao número de pontos de dados ou o número de recursos) 25

e impactar a eficiência da computação durante o processo de agrupamento.


5 3.1. Otimização de muitos objetivos baseada em decomposição Mais importante, esta representação é mais geral do que centróides, pois pode
ser usada tanto para problemas definidos em termos de espaços de
Usamos um otimizador de muitos objetivos baseado em decomposição como
características quanto para matrizes de dissimilaridade. Em uma representação
o mecanismo de pesquisa subjacente para nossa abordagem de agrupamento.
baseada em medoid, cada vetor z compreende K genes 30 z1, . . . ,zK, onde K é o
Seguindo a prática comum, adotamos a abordagem de Tchebycheff [27] para
número de clusters, e cada gene zi pode assumir valores no intervalo {1, . . . , N}, em
decompor o problema de agrupamento multiobjetivo em um conjunto de
que N é o número de itens nas exibições de dados. Este conjunto de medoids pode
10 subproblemas de otimização escalar. Seja z uma solução referente a um vetor
então ser interpretado como uma partição real, atribuindo todos os pontos de dados
. é expressa
peso w Na abordagem de Tchebycheff, a função objetivo do i-ésimo
dasubproblema
seguinte
eu

ao seu medoid mais próximo (menos diferente), e nos referimos a isso como 35 a
forma:
etapa de decodificação. Como o conceito de dissimilaridade varia em relação a cada
visualização, um desafio único em uma configuração multiview é o design desta etapa
ÿ ref ÿ de maneira que facilite a identificação de clusters suportados por diferentes
ref fj(z) ÿ z
j
te g z | wi , z = máx. ÿÿÿ
eu w ÿÿÿ
, (2) visualizações de dados. Em trabalhos anteriores [14, 11, 16, 17], a decodificação de
1ÿiÿm j nad ref
ÿÿÿ
zj ÿzj ÿÿÿ
um conjunto de 40 protótipos candidatos (medoides ou centróides) normalmente
dependia do uso de uma única visão (ou uma ponderação fixa entre as visões) para
onde fj : ÿ ÿ R é o j-ésimo critério de agrupamento j ÿ {1, . . . , m}, que deve ser
= determinar as atribuições de cluster, potencialmente introduzindo um viés no algoritmo.
15 minimizado (sem perda de generalidade), w eu

T ref ref = z ref


Aqui, demonstramos como os princípios subjacentes da abordagem de decomposição
eu w eu

1 , . . . ,w mé o i-ésimo vetor de peso, z 1 , . . . ,z é


m podem ser explorados para definir um mecanismo de decodificação que não introduz
nad nad = z nad
o ponto de referência, e z 1 , . . . ,z m é o ponto nadir. suposições adicionais sobre a importância relativa de diferentes visualizações (consulte
a descrição na Seção 3.3). 45

3.2. Representação e Inicialização do MVMC

Usaremos os termos codificação e representação syn 20 de forma anônima


para nos referirmos à forma como uma solução candidata é representada dentro de
um algoritmo evolutivo. MVMC emprega O procedimento de inicialização do MVMC (linha 1 do Algo

4
Machine Translated by Google

Algoritmo 1: Estrutura geral do algoritmo MVMC. que representam as diferentes exibições de dados. Assim, para o i-ésimo
subproblema, a atribuição de cluster para o ponto de dados s ÿ {1, . . . , N}
Entrada: NP, W, D, Gmax
é obtido como:
Saída: População P, aproximação frontal de Pareto S 1 P,B, z
nad
ÿ Inicialização(W)
do2 para g ÿ 1 para Gmax do para i ÿ 1 para NP (3)
Ci (s) = argminrÿzi {Dws (r, s)} ,

onde
3
D r, s eu = w1D r,s + . . . eu + wmD r,s . (4)
4 ui ÿ Reprodução(P,B(i)) ws 1 m
5 Ci ÿ Decodificação(ui , fi ÿ eu w ,D) Aqui, D wsr,srepresenta a associação de matriz de distância de soma
6 Avaliação(Ci , D)
com o vetor escalarizante w rived, a eu

ponderada. Assim, a partição Ci é de


7 Atualizar z ref
/* ponto de referência */ partir do conjunto de medoids, usando a definição de proximidade que é
/* Atualiza as soluções vizinhas */ foreach j ÿ B(i) do j if g relevante para o sub-problema particular considerado. Observe que essa
8 ui | c estratégia de decodificação requer conhecimento do vetor escalar para 20
te te
9 , z ref ÿ g zj | c j z, ref então cada solução candidata. Portanto, essa estratégia não pode ser usada em
10 P(j) = ui abordagens de otimização baseadas em Pareto para agrupamento multiview,
11 Ajuste(j) = fi pois essa informação não está disponível.
12 S(j) = (Ci , wi) fim
13 3.4. Funções objetivas
14 fim
A dispersão dentro do cluster (WCS) foi selecionada como o critério de
15 fim otimização. Seja Ci um agrupamento decodificado da solução candidata zi ,
16 fim e seja Dj , j ÿ {1, . . . , m} , seja uma
Então, o matriz de dissimilaridade
WCS para específica.
o j-ésimo objetivo
subproblema
do i-ésimo
é
calculado como:

ritmo 1) consiste em três etapas principais:


fj(Ci) = dj(a, b) , (5)
• Inicialização da população pai P: Gera uma população inicial P = ckÿC a,bÿck

{z1, . . . , zNP} aleatoriamente de ÿ, onde o i-ésimo indivíduo é um


vetor de tamanho K denotado por zi = zi,1, . . . ,zi,K representando K onde dj (a, b) é a dissimilaridade entre os objetos de dados a e b conforme
definido em Dj . Não há restrições adicionais.
5 cluster medoids,
Após a etapa de avaliação, segue o ponto ideal z (linharef é atualizado como
z1, . . . ,zK.
7 do Algoritmo 1):
• Atribuição da vizinhança B: Para cada vetor peso i ÿ {1, . . . , NP}, B(i)
ref
, consiste nos índices do T (baseado na distância euclidiana). = ÿ fi, j , se fj(Ci) < z
eu w
ref j,
zj ÿÿÿ (6)
vetores de peso mais próximos de w
eu
ref caso contrário .
ÿÿÿ
zj,

10 • A inicialização do ponto nadir z é calculadanad nad nad =


z , . . . ,z 1 m . Isto
3.5. Operadores de reprodução 25
nad 1 1 éo
como z = fj(C j solução onde
dados todos
pontos
são ), j ÿ {1, . . . , m}, C
deos
O procedimento de reprodução (linha 4 do Algoritmo 1) gera soluções
agrupados juntos (ou seja, define o limite inferior do objetivo
nad descendentes para atualizar a população parental. Primeiro, dois índices k
K = 1). Assim, a
e l são selecionados aleatoriamente de B(i). Então uma nova solução u é
função z j ao usar a j-ésima matriz de dissimilaridade.
gerada a partir de zk e zl . Como zk e zl são as melhores soluções atuais
para os vizinhos do i-ésimo subproblema, sua prole y deve ser uma boa 30
15 3.3. Decodificação de Soluções
solução e muito provavelmente terá um melhor valor de aptidão para os
Em configurações de agrupamento multiview que empregam uma
vizinhos do i-ésimo subproblema.
representação baseada em protótipo, a decodificação de uma partição de
Nosso algoritmo MVMC usa uma representação baseada em medoid,
consenso é uma etapa importante, pois não é simples decodificar
valores inteiros denotando posições de pontos de dados, que são as
exclusivamente um conjunto de protótipos no contexto de várias
variáveis de decisão a serem otimizadas (consulte a Seção 3.2). Portanto, 35
visualizações de dados. Isso ocorre porque a etapa de decodificação requer
usamos os operadores de cruzamento baseado em posição (PBC) e mutação
a atribuição de todos os pontos de dados ao seu protótipo mais próximo,
baseada em posição (PBM) [30], que são convenientes para representações
mas não existe uma noção geral de proximidade em uma configuração de
baseadas em números inteiros em que valores de alelos exclusivos precisam ser
multivisualização. Aqui, definimos nosso mecanismo de decodificação, que criados.
assume o conhecimento do vetor escalar associado a cada solução
enfrentar este desafio. Sejam vetores zi e eu

candidata, como sendo o medoide e o peso


3.6. Seleção de Soluções de Clustering 40
w , respectivamente, correspondentes ao i-ésimo subproblema.
Abordagens de agrupamento multiobjetivo retornam um conjunto de
Além disso, seja {D1, . . . , Dm} denotam as m matrizes de dissimilaridade2 ,
soluções, representando diferentes compensações entre os objetivos.
Em muitas aplicações do mundo real de otimização multiobjetivo, o tomador
2Dissimilaridades são normalizadas usando a normalização minmax baseada em unidade. de decisão conduz a seleção da(s) melhor(es) solução(ões)

5
Machine Translated by Google

de acordo com preferências particulares. No entanto, em alguns cenários, formação sobre a importância das visualizações de dados (matrizes de distância
métodos automáticos podem ser desejáveis para selecionar uma única 15 ). O uso da distância de soma ponderada em (8) ajuda a selecionar a melhor
melhor solução das aproximações de frente de Pareto (PFAs). Portanto, solução de agrupamento considerando as informações obtidas na fase de
nesta seção, apresentamos um método automatizado para agrupamento multiobjetivo.
5 avaliando a qualidade de soluções individuais de clustering.
3.7. Código Fonte MVMC

Algoritmo 2: Procedimento de seleção de agrupamento O código-fonte da implementação do algoritmo MVMC pro- 20


Entrada: D, S Saída: A melhor solução C em S 1 propostos neste artigo e a coleção de conjuntos de dados considerados em
foreach (Ci , wi) ÿ S do /* Passo 1: Cálculo da matriz nossos experimentos estão disponíveis através do seguinte repositório:
de distâncias */ Compute Dws considerando wi e D https://github.com/adanjoga/mvmc.
usando a Eq. (4)
2
4. Configuração Experimental
/* Passo 2: Cálculo do índice Silhouette
*/
Esta seção descreve os métodos de referência, o desempenho
3 Calcule o valor Silhouette de Ci usando a Eq. (7) 4 fim
medidas de avaliação de risco e as configurações adotadas para este estudo.
As configurações de parâmetros adotadas por nossa abordagem MVMC
/* Passo 3: Reportar a melhor solução de clustering */
proposta estão resumidas na Tabela 1. As configurações de parâmetros são
5 Selecione a solução C com o melhor valor Silhouette
mantidas constantes em nossos diferentes experimentos, exceto para o
tamanho da população e o número de gerações. Seguindo 30 as sugestões gerais
O método proposto para selecionar a solução de clustering usa o índice para MOEA/D [24], estas são incrementadas à medida que o número de objetivos
de validade de cluster Silhouette para avaliar a qualidade de cada solução na (aqui visualizações de dados) aumenta.
frente de aproximação final: é descrito mais adiante no Algoritmo 2 e na
Tabela 1: Resumo das principais configurações de parâmetros usadas neste estudo.
Figura 1. O índice Silhouette é uma técnica de validação popular e de
Parâmetros 2 visualizações 3 visualizações 4 visualizações 5 visualizações
propósito geral comumente usado na análise de cluster para determinar o
número de clusters. Tamanho da população (NP) 100 150 175 210
Este índice define uma relação entre a coesão intra-cluster e a separação Número de gerações (Gmax) 100 200 300 400
Probabilidade de recombinação (Pr) 0,5 0,5 0,5 0,5
inter-cluster para estimar a qualidade de uma solução de agrupamento. Aqui,
Probabilidade de mutação (Pm) 0,03 0,03 0,03 0,03
a Largura da Silhueta é usada como método a posteriori para reduzir os PFAs
Tamanho da vizinhança (T) 20 20 20 20
obtidos pelo algoritmo MVMC a uma única solução de agrupamento. Para
tornar esse índice uma técnica mais eficaz para nossos propósitos específicos,
o Silhouette considera uma distância de soma ponderada para medir a
similaridade entre pontos de dados pertencentes aos mesmos clusters. 4.1. Métodos de referência

Nossos experimentos visam mostrar que as vantagens conceituais do


Seja (C, w) uma solução de agrupamento e seu vetor de peso correspondente
clustering multiobjetivo multiview se traduzem em uma melhoria de 35% no
no conjunto de soluções de compensação S (saída do Algoritmo 1).
desempenho do clustering em comparação com os algoritmos de clustering
Em seguida, a largura da silhueta é calculada como:
tradicionais. Comparamos o MVMC proposto com vários algoritmos de agrupamento
1 b (xi , ck) ÿ a (xi , ck) bem conhecidos e conceitualmente diferentes: uma abordagem de agrupamento
Sil(C) = , (7)
N particional, k-means [31]; dois métodos de agrupamento hierárquico, Single-Linkage
ckÿC xiÿck max {b (xi , ck) , a (xi , ck)}
(SL) e WARD; um algoritmo de agrupamento genético (GCA), que é baseado na 40

onde mesma representação, operadores genéticos e configurações conforme descrito


1 acima para MVMC no caso de instâncias de dois objetivos.
a (xi , ck) = | dws xi , xj , (8)
ck| ÿ 1 xjÿck

ÿ ÿ Além disso, três abordagens de agrupamento multiview são 45


1
b (xi , ck) = min ÿÿÿÿ
ÿÿÿÿ dws xi , xj ÿÿÿÿ
. considerados ao avaliar problemas de dados multiview. Um algoritmo de
crÿC\ck |cr
ÿÿÿÿ
| xjÿcr agrupamento espectral multiview (MVSC) [32], que deriva múltiplas matrizes
de similaridade dos dados de entrada e permite o uso de um número arbitrário
Em (7), a (· ) denota a distância média entre xi e todos os pontos de dados
de visualizações. Uma abordagem multiview usando otimização multiobjetivo
no mesmo cluster, enquanto b (· ) denota a menor distância média de xi ÿ ck
[33], que é conhecida como abordagem de Mitra. A terceira abordagem de 50
a todos os pontos de dados em qualquer outro cluster diferente de ck. O
agrupamento multiview proposta por Jiang et al. [11] abrange um conjunto de
índice Silhouette retorna 10 valores no intervalo [ÿ1, +1], onde quanto maior
algoritmos multiobjetivos3 : SPEA2, NSGA-II, NSGA-III e
o valor, melhor a correspondência dos pontos de dados com o cluster subjacente

estrutura.
Observe que a matriz de dissimilaridade particular Dws = dws(i, j) usada 3O código-fonte está disponível em https://sites.google.com/site/
para medir a qualidade de C em S, fornece em bojiangzjut/.

6
Machine Translated by Google

MOEA/D. Durante a busca evolutiva dessa abordagem, uma solução (G2), clusters não linearmente separáveis (G3) e misturas de diferentes
baseada em centroide é mapeada para várias partições (uma por distribuições de dados (G4). A Figura A.11 no Apêndice 55 A ilustra a
visualização). Em seguida, cada partição é avaliada usando a função diversidade de propriedades cobertas por nossos conjuntos de dados de teste.
objetivo associada à visualização correspondente. No final da busca,
5 uma única partição de consenso por solução candidata é obtida pela Neste estudo, diferentes visualizações de dados são derivadas de um
decodificação dos centróides finais dentro do espaço de recursos único conjunto de recursos usando duas medidas de dissimilaridade
completo (ou seja, pela concatenação de todas as visualizações). conceitualmente diferentes: a distância euclidiana (denotada por ) e a 60

A abordagem proposta MVMC gera um conjunto de soluções de distância MED baseada em euclidiana (MEDeuc, denotada por ).
agrupamento não dominadas, mas uma única solução geralmente é Os algoritmos de agrupamento de visualização única k-means, SL,
necessária . Assim, três estratégias diferentes para selecionar a solução WARD e GCA executam a tarefa de agrupamento usando uma medida
mais adequada a partir das aproximações de frente de Pareto (PFAs) de dissimilaridade, enquanto MVSC e MVMC otimizam simultaneamente
são exploradas: MVMCSIL, MVMCAUC e MVMCACC. duas visualizações de dados, cada uma representando uma medida de 65

MVMCSIL implementa o método de seleção não supervisionado proposto dissimilaridade diferente. Os resultados desta análise estão resumidos
descrito na Seção 3.6. MVMCAUC e MVMCACC selecionam a melhor na Figura 2. Para resultados mais detalhados e a análise de significância
15 solução com base no valor máximo de precisão e nos valores máximos estatística correspondente, consulte a Tabela A.5 (Apêndice).
de AUC, respectivamente, portanto, são abordagens supervisionadas.
k-meios SL ALA GCA MVSC MVMC

1,0
4.2. Avaliação de desempenho
0,8
A medida do Índice de Rand Ajustado (ARI) é usada para avaliar o
desempenho de 20 agrupamentos [34]. ARI funciona contando o número de ARI 0,6

co-atribuições emparelhadas de pontos de dados entre duas partições


0,4
dadas L e T. ARI é definido no intervalo [0, 1].
Valores de ARI mais próximos da unidade são preferidos, pois indicam 0,2 MVMCSIL MVMCARI

uma melhor correspondência entre L e T. A medida ARI 25 serve como


0,0
um indicador do desempenho do método de agrupamento na resolução de
um problema específico, pois compara a partição gerada por um método Figura 2: Desempenho de agrupamento (em termos de ARI) em
de agrupamento (L) e a partição correta dos dados (T). O desempenho conjuntos de dados sintéticos obtidos pelas configurações MVMC
de clustering dos algoritmos de clustering multiview também é avaliado MVMCARI e MVMCSIL e o outro algoritmo de agrupamento k-means,
usando a métrica Normalized Mutual Information (NMI) [35]. O NMI é SL, WARD, GCA e MVSC. As exibições de dados são derivadas usando
30 definido no intervalo [0, 1], onde valores mais próximos da unidade duas medidas de dissimilaridade diferentes: Euclidiana () e MEDeuc ().
indicam uma correlação perfeita entre as partições. O símbolo dosignificativa
quadrado, , entre
indicaos
que
grupos
não há
emdiferença
relação ao
estatisticamente
melhor, .

Os resultados obtidos para o problema de classificação do tumor de


Dados os algoritmos de agrupamento de visualização única sendo
mama também são avaliados em termos de precisão (ACC), área sob a
avaliados, as medidas de dissimilaridade escolhidas e as propriedades
35 curva ROC (AUC), sensibilidade (SEN) e especificidade (ESP). Essas
específicas 70 de nossos conjuntos de dados de teste, podemos antecipar
métricas são amplamente utilizadas na medicina como medidas
certos comportamentos como resultado de nossos experimentos. Em primeiro
estatísticas de um teste de classificação binária. Todos esses índices
lugar, pode-se esperar um bom desempenho ao usar a distância euclidiana
estão no intervalo [0, 1], e os valores que tendem à unidade indicam
uma melhor classificação. em conjuntos de dados nas categorias G1 e G2, pois eles contêm clusters
gaussianos esféricos que são favorecidos por essa medida. Em contraste,
40 Para todos os métodos de agrupamento estocástico analisados e
podemos esperar um desempenho ruim dessa distância em conjuntos de
comparados neste estudo, um total de 31 execuções independentes
dados com clusters não linearmente separáveis, particularmente para as
para cada conjunto de dados foi realizado. Em todos os casos, a
categorias G3 e G4. Em segundo lugar, espera-se um bom desempenho ao
significância estatística é avaliada por meio do teste de KruskalÿWallis,
considerando nível de significância de ÿ = 0,05 e correção de Bonferroni. usar a distância MED em G1 e G3, pois esses conjuntos de dados contêm
clusters bem separados, independentemente de sua separabilidade linear,
que 80 é a suposição feita pela distância MED (ou seja, clusters de forma
45 5. Resultados em Multiview Clustering usando Múltiplos Dados arbitrária podem ser detectados ) [9]. No entanto, podemos antecipar um
Relacionais desempenho ruim da distância MED para conjuntos de dados com clusters
sobrepostos, incluindo os conjuntos de dados sintéticos em G2 e G4.
5.1. Conjuntos de dados 85

sintéticos Esta seção investiga a capacidade do MVMC de gerar A partir dos resultados experimentais resumidos na Figura 2,
soluções de agrupamento de alta qualidade em conjuntos de dados confirmamos as expectativas acima. Por um lado, observamos que os
sintéticos com 50 tamanhos, dimensionalidades, graus de sobreposição e algoritmos individuais de visão única obtêm bons resultados em conjuntos
formas de agrupamento variados. Esses conjuntos de dados sintéticos de dados que atendem às suposições feitas pela medida de
foram organizados em quatro categorias em relação ao tipo de dissimilaridade específica empregada. Consequentemente, esses 90

métodos não mostram desempenho consistente em todo o intervalo


distribuição de dados subjacentes: clusters bem separados (G1), clusters sobrepostos

7
Machine Translated by Google

de diferentes propriedades de cluster. Por outro lado, os resultados Aproximações de frente de Melhor
Pareto solução Mediana
Aproximações de frente de Pareto Melhor
Aproximações de frentePior
de Pareto

do algoritmo multiview confirmam que um desempenho superior pode a) 0,6 Laranja Dados_43 Dados_62

ser alcançado através da consideração simultânea de múltiplas


0,5

medidas de dissimilaridade. Especificamente, as estratégias MVMC MED

V2 V2
0,25
0,3
V2 0,14
0,12
0,1

ICV

5 propostas MVMCARI e MVMCSIL exibiram consistentemente um 0,4

desempenho altamente competitivo em todos os cenários de teste. 0,3


0,15
0,2
0,08
0,06

De acordo com a Figura 2, a estratégia MVMC MVMCARI obteve o


0,4 0,5 0,6 0,7 0,8 0,9 0,14 0,18 0,22 0,26 de
Aproximações 0,3 frente de Pareto 0,08 Aproximações
0,1 0,12 0,15
de 0,18Pareto
frente de 0,2
Aproximações de frente de Pareto
melhor desempenho geral (0,97 ± 0,04). Embora esta estratégia V1 V1 V1

b)
reporte um desempenho consistentemente bom em toda a gama de TwoDiamonds Quadrado1 Tamanhos5

0,92
0,9
0,5967

10 propriedades de dados consideradas, não foram encontradas diferenças MED

estatisticamente significativas em relação a MVMCSIL (0,94 ± 0,11).


V2 V2 V2
ICV

0,86
0,5965

A consideração das aproximações de frente de Pareto associadas 0,9024


0,9023
0,9022
0,9021 0,5963
0,82

(PFAs) destaca uma vantagem adicional de nossa abordagem em 15 Aproximações


0,6587 de frente
0,659 0,6593 0,6597 de Pareto Aproximações
Pareto 0,3407 0,341da0,3413
frente0,3417
de Aproximações da frente de Pareto 0,54 0,56 0,58 0,6

V1 V1 0,62 V1

análises exploratórias de dados. Como pode ser visto na Figura 3, a forma c) 0,7 Parte 2 0,9
1
Dentro 0,7
espirais
e extensão do PFA fornecem informações adicionais sobre a força do MED
0,6 0,5

sinal e o tipo de estruturas de dados em um determinado conjunto de V2


ICV
V2
0,7
V2

dados. Não há conflito entre as duas exibições de dados para 0,5


0,5
0,3

conjuntos de dados contendo clusters esféricos separados 0,4 0,1


0,3

20 espacialmente, e o PFA é reduzido a um único ponto. Em contraste,


Aproximações
0,74 de
0,78 0,82 0,86 0,9 frente de Pareto Aproximações
0,84 0,9 0,96 1 1,04 1,1de frente de Pareto Aproximações
0,72 0,78 0,84 de frente
0,9de Pareto
0,94

para conjuntos de dados como Inside e Sizes5, a frente de Pareto V1 V1


0,3
V1

d) Chama Flamessizes5 Spiralsizes5


destaca o conflito entre visões e ajuda a confirmar a presença (ou 0,93

0,25

ausência) de soluções de trade-off estruturalmente pronunciadas MED

V2 V2
0,61
0,59
V2

associadas a joelhos distintos na frente de Pareto [36].


0,92
ICV 0,2

0,57

0,15
0,91

25 5.2. Conjuntos de dados do mundo real 0,55

0,74
Esta seção investiga a escalabilidade do MVMC ao aumentar o 0,73 0,75 0,305 0,315
V1
0,325 0,335 0,2 0,21 0,22 0,23 0,24 0,25 V1

V1 ICV
EUC ICVEUC
número de exibições de dados (medidas de dissimilaridade).
ICVEUC Figura 3: PFAs obtidos pela abordagem proposta MVMC em alguns conjuntos de
Seis conjuntos de dados do mundo real do repositório UCI [37] são
dados sintéticos ao minimizar a dispersão dentro do cluster (WCS) usando a distância
considerados: Iris, Wine, Breast, Thyroid, Glass e 30 Ecoli. Várias
Euclidiana (eixo x) e a distância MED (eixo y). Para cada subfigura, os melhores, médios e
exibições de dados são derivadas de um único conjunto de recursos piores PFAs derivados de 31 execuções são plotados usando linhas pretas, azuis e cinzas,
(conjunto de dados) usando quatro medidas de dissimilaridade respectivamente.
diferentes: distância euclidiana (), MED baseada em euclidiana Além disso, cada subfigura inclui um quadrado para ilustrar a melhor
(MEDeuc, denotada por ), distância de cosseno () e MED baseada solução (valor máximo de ARI).
em cosseno (MEDcos, denotada por ). Um total de dez combinações
35 de visualizações de dados são estudadas: seis configurações bi-
objetivas, três configurações de três objetivos e uma configuração de ber de pontos de vista. A Figura 5 ilustra o desempenho de
quatro objetivos. Os algoritmos de visualização única k-means, WARD agrupamento obtido por esses algoritmos para todas as dez diferentes
e GCA executam a tarefa de agrupamento usando uma das quatro combinações de exibições de dados. Pode-se ver que o uso de mais
medidas de dissimilaridade individuais. Em contraste, MVSC e 40 de duas medidas de dissimilaridade permite que o MVMC produza até 60
MVMC otimizam simultaneamente uma das dez combinações que melhores soluções de agrupamento do que as configurações bi-objetivas.
envolvem duas ou mais exibições de dados. Os resultados estão Observamos que a estratégia MVMCARI obteve o melhor
resumidos nas Figuras 4 e 5. Para obter resultados mais detalhados desempenho ao utilizar todas as quatro visualizações de dados, com
e a análise de significância estatística correspondente, consulte a um ARI médio de 0,846 ± 0,08. Além disso, não foram encontradas
Tabela A.6 (Apêndice). diferenças estatisticamente significativas entre esta estratégia e todas 65

45 A Figura 4 compara o desempenho das seis configurações as configurações de três objetivos do MVMCARI. O melhor
biobjetivas básicas do MVMC com os três algoritmos de agrupamento desempenho geral para a estratégia MVMCSIL foi para as instâncias
de exibição única. Podemos observar que a configuração MVMC {} e {}, enquanto para
instância MVSC, o{melhor
bi-objetivo desempenho
Em geral, observamos foi uma
obtido para a
melhora
apresenta o melhor desempenho, com um ARI médio de 0,81 ± 0,12. no clustering 70 }.
Adicionalmente, não são observadas diferenças estatisticamente
50 significativas entre esta estratégia e as configurações MVMC (0,75 ± desempenho para as configurações MVMC ao considerar três e
0,20) e MVMC (0,77 ± 0,15). Esses resultados sugerem que a quatro objetivos, em relação às configurações bi-objetivo de MVMC.
consideração de duas medidas de dissimilaridade permite ao MVMC Para a estratégia MVMCARI, é evidente que o aumento no número
produzir melhores soluções de agrupamento do que os algoritmos de visualizações se traduz sistematicamente em um aumento no
baseados em uma única medida de dissimilaridade. desempenho do clustering. Os conjuntos de dados do mundo real 75

55 Também comparamos as estratégias MVMC MVMCARI e MVMCSIL geralmente exibem clusters sobrepostos ou dados ruidosos, resultando
com o algoritmo MVSC ao aumentar o num em baixo desempenho da abordagem MVSC de multivisualização concorrente
8
Machine Translated by Google

k-meios ALA GCA MVMCARI Melhor


Aproximações de frente de Pareto solução Aproximações de Mediana
frente de Pareto Melhores aproximações de frente de Pareto Pior

0,08

1,0 Íris 0,766


Vinho Peito CW
0,07

porque euc

0,8
V2 V2
COS

MED
0,06

0,6 0,762
MED
0,76
V2

ARI 0,05
0,9225
0,9215
0,922
0,921

0,4 0,344 0,35 0,356 0,362 0,368 0,693 0,695 0,697 0,699 0,701 0,267 0,27 0,273 0,277 0,28
V1 deV1 Aproximações deV1
AproximaçõesEUC
de frente de Pareto Aproximações EUCfrente de Pareto frente de Pareto COS

0,2
Novatireoide Vidro Ecoli
0,55
0,74

0,0 V2
euc
V2
porque

COS
0,7
V2 0,53
MED MED

Figura 4: Desempenho de agrupamento (em termos de ARI) em conjuntos de 0,66 0,51


0,98
0,96
0,94
0,92

dados do mundo real obtidos por MVMCARI, seis configurações biobjetivas e


os outros algoritmos de visão única k-means, WARD e GCA. O símbolo do 0,4 0,5 0,6
V1
0,7 0,8 0,86 0,87 0,88 0,89 0,9 0,91
V1
0,5 0,515 0,53 0,545 0,56
V1
COS EUC EUC
quadrado, , indica que não
grupos
há diferença
em relação
estatisticamente
ao melhor, . significativa entre os
Figura 6: Exemplos de PFAs obtidos por MVMC em conjuntos de dados do
mundo real ao minimizar a dispersão dentro do cluster (WCS) usando diferentes
medidas de dissimilaridade: Euclidiana, MEDeuc, Cosseno e MEDcos. Para
2 visualizações 3 visualizações 4 visualizações cada subfigura, os melhores, medianos e piores PFAs derivados de 31
1,0 execuções são plotados usando linhas pretas, azuis e cinza, respectivamente.
Cada subfigura inclui um quadrado azul para ilustrar a melhor solução de
0,8 agrupamento (valor máximo de ARI). Observe que a melhor solução ARI nem
sempre está localizada na frente de aproximação, indicando o poder limitado
0,6 de ambas as visões em recuperar a estrutura de verdade do terreno.
ARI

0,4
MVMC ARI

MVMCSIL
0,2 6. Resultados em agrupamento de múltiplas visualizações usando vários recursos
MVSC
Dados
Valores médios
0,0

1 2 3 4 5 6 7 8 9 10

Figura 5: Desempenho de agrupamento (em termos de ARI) obtido pelas


Esta seção investiga o desempenho do MVMC em um 25
estratégias MVMC MVMCARI e MVMCSIL para todas as dez configurações de
coleção de conjuntos de dados multiview propostos na literatura especializada. A
visualizações de dados. Os resultados da abordagem MVSC também foram
Tabela 2 apresenta detalhes dos conjuntos de dados multivistas estudados: A
incluídos como referência. O símbolo doestatisticamente
quadrado, , indica
significativa
que não há entre
diferença
os
distância euclidiana foi usada para calcular a matriz de dissimilaridade para cada
grupos em relação ao melhor, .
visão no algoritmo MVMC. Esses conjuntos de dados com várias exibições de
dados estão disponíveis nas seguintes fontes: 30

e nosso método MVMCSIL, que é a estratégia de seleção de modelo não


supervisionada proposta. A seleção da melhor solução, mesmo a partir de um PFA • Segmentação de imagens (Imagem) [11]: Este conjunto de dados contém
de alta qualidade, é um problema desafiador. Embora a estratégia empregada por 2310 objetos de um banco de dados de sete imagens externas. Este
nosso método represente um passo nessa direção, mais pesquisas são necessárias conjunto de dados é dividido em duas exibições: exibição de forma e
para desenvolver técnicas de seleção de agrupamento eficazes e totalmente não exibição RGB. 35
supervisionadas.
• Estação de Tratamento de Água (ETA) [11]: Este conjunto de dados contém
Investigamos as características das aproximações de frente de Pareto (PFAs)
medições diárias de sensores em uma ETA urbana. O conjunto de dados é
geradas por nossa abordagem proposta (MVMC).
dividido em quatro exibições de dados: exibição de entrada, exibição de
Para os conjuntos de dados UCI, todos os PFAs têm vários pontos de dados,
saída, exibição de entrada de desempenho e exibição de desempenho global.
confirmando a natureza desafiadora desses conjuntos de dados e a sensibilidade do
desempenho do algoritmo ao tipo de função de distância usada. Uma análise do
• Amsterdam Library of Object Image (ALOI)4 : É uma coleção de 40 imagens de
desempenho de agrupamento ao longo do PFA sugere que, para os conjuntos de
diferentes objetos gravadas em várias condições. Essas imagens são representadas
dados do mundo real UCI, as melhores soluções tendem a corresponder às regiões
por quatro conjuntos de recursos: histogramas de cores RGB, histogramas de
no meio da frente, ou seja, 15 são melhor identificadas considerando o trade-off
cores HSB, similaridade de cores e recursos de Haralick. Em nossos experimentos,
entre várias visualizações . Algumas dessas soluções (por exemplo, Ecoli) são
selecionamos aleatoriamente subconjuntos de três classes (ou seja, 300 imagens)
estruturalmente pronunciadas e, portanto, refletidas por um joelho no PFA
do conjunto de dados original. 45
associado. Para outros conjuntos de dados, como Glass, o PFA fornece pouca
evidência de uma estrutura de cluster pronunciada. A Figura 6 exemplifica as
características contrastantes encontradas nos PFAs gerados pelo MVMC.
20
Conjunto de dados 4ALOI: http://elki.dbs.ifi.lmu.de/wiki/DataSets/
MultiView

9
Machine Translated by Google

• Conjunto de dados de imagem Corel (Corel)5 : é uma coleção de 7. Aplicação de MVMC para Classificação de Tumores de Mama
imagens com propriedades diferentes, como cores, iluminação e
ângulo diferentes. Em nossos experimentos, selecionamos Por fim, investigamos os recursos do MVMC em um conjunto de dados

aleatoriamente cinco classes (ou seja, 500 imagens) com seis multiview desafiador. O problema em estudo está associado a sistemas de
5 visualizações do conjunto de dados original. As exibições são diagnóstico assistido por computador (CAD) para ultrassonografia de mama
(BUS), onde o objetivo é gerar uma classificação de 50 tumores fornecendo uma
histograma de cores, momento, grossura, textura Tamura, wavelet e MARSAR
textura. segunda opinião e evitando variação interobservador. Geralmente, o pipeline do
sistema CAD envolve quatro etapas: pré-processamento da imagem, segmentação
da lesão, extração de recursos e classificação da lesão. Especificamente, na
• Serviço Postal dos EUA (USPS)6 : O conjunto de dados é obtido de
etapa de classificação da lesão, técnicas de aprendizado de máquina são usadas
uma coleção de mapas utilitários holandeses. As duas exibições de
para distinguir entre tumores benignos e malignos. 55
10 dados a seguir são consideradas: Coeficientes de Fourier das formas
de caracteres e correlações de perfil.
Para esse fim, foi recentemente projetada uma ferramenta de garantia
de qualidade que padroniza os relatórios mamográficos e é conhecida como
• Columbia Consumer Video (CCV)7 : Este conjunto de dados envolve sistema de relatórios e dados de imagens de mama (BI-RADS). A última
as duas exibições de dados da seguinte forma: Transformação de
edição do léxico BI-RADS para ultrassonografia considera cinco termos 60

recurso invariante em escala e pontos de interesse espaço-tempo. qualitativos para descrever a forma, orientação, margem, padrão de eco e
15 Para simplificar, as amostras multimarcadas e não marcadas são características posteriores das massas. Portanto, uma abordagem comum
removidas do banco de dados original. ao projetar sistemas CAD baseados em BI-RADS é representar nominalmente
cada termo qualitativo do léxico BI-RADS para massas usando 65 recursos
Além dos algoritmos considerados nas seções anteriores, incluímos uma quantitativos. Então, a coleção de características quantitativas forma um único
comparação com a abordagem de Mitra8 [33] e as abordagens de Jiang et vetor de características que constitui a entrada de um classificador.
al. [11] para agrupamento multiview: 20 SPEA2, NSGA-II, NSGA-III e MOED/
D. A Tabela 3 indica a melhor solução de agrupamento em termos de métricas
ARI e NMI. Em comparação com as técnicas concorrentes, o MVMC e o Aqui, abordamos a classificação de lesões de mama como um problema

algoritmo de Mitra claramente se beneficiam da flexibilidade de uma de aprendizado de máquina não supervisionado (ou seja, como um problema 70

abordagem multiobjetivo. A escalabilidade do MVMC para muitos 25 de agrupamento de dados). A esse respeito, em vez de coletar todos os
objetivos deve dar uma vantagem sobre a abordagem do Mitra em uma recursos quantitativos para formar um único conjunto de recursos, cada
conjunto de recursos derivados dos léxicos BI-RAD é considerado uma
configuração de muitas visualizações (ou seja, com três ou mais visualizações),
mas a indisponibilidade do código nos impede de investigar a abordagem visão distinta por nosso algoritmo MVMC. A vantagem dessa abordagem
do Mitra neste cenário específico. exploratória é uma visão distinta do nível 75 da estrutura natural do cluster em
cada uma das visualizações separadas e até que ponto as diferentes visualizações

Além disso, a partir dos resultados da Tabela 3, é notável que o MVMC fornecem informações complementares.

30 superou as abordagens de Jiang et al. para clustering multiview [11]. Esse


desempenho superior do MVMC se deve principalmente ao seu esquema
7.1. Descrição do conjunto de dados de ultrassom de mama
de decodificação de solução. No trabalho de Jiang et al., uma partição
diferente é derivada para cada visualização durante o estágio de O conjunto de dados consiste em 2.054 imagens BUS adquiridas no Na- 80
decodificação. Essa estratégia de decodificação mapeia uma única solução Instituto Nacional do Câncer do Rio de Janeiro, Brasil. Todas as imagens
candidata 35 para várias partições possíveis, uma por visualização, e avalia cada foram obtidas de pacientes com indicação posterior de biópsia, das quais
uma dessas partições usando a função objetivo associada a essa 1351 imagens apresentavam lesões benignas e 703 apresentavam tumores
visualização. Tal abordagem apresenta a seguinte limitação: como uma malignos. Um radiologista sênior delineou manualmente cada lesão mamária
determinada solução candidata é mapeada para múltiplas partições com a ajuda de um software especializado. Em seguida, para cobrir os cinco 85

específicas da visão, o vetor objetivo eventualmente atribuído à solução termos do léxico BI-RADS, foram extraídas características morfológicas e
40 candidata é uma agregação dos valores objetivos associados a essas de textura para cada imagem BUS do contorno traçado pelo radiologista. As
partições. Portanto, essa estratégia de decodificação introduz um viés no propriedades das exibições de dados usadas neste estudo estão resumidas
algoritmo que, conforme observado na Tabela 3, impacta significativamente na Tabela 4 e ilustradas na Figura 7. No total, 139 recursos quantitativos
no desempenho do clustering. A Figura 10 ilustra o impacto das etapas de foram calculados para gerar cinco espaços de recursos, um para cada termo do
decodificação usadas no aplicativo de Jiang léxico BI-RADS [7].
45 abordagem e a proposta no MVMC.
Para os experimentos deste estudo, um total de 26 configurações de
visualização de dados foram obtidas a partir dos cinco conjuntos de recursos:
5Conjunto de dados Corel: https://archive.ics.uci.edu/ml/datasets/corel+image+features dez configurações de dois objetivos, dez de três objetivos, cinco de quatro
objetivos e uma configuração de 95 cinco objetivos correspondentes a combinações
Conjunto de dados 6USPS: https://archive.ics.uci.edu/ml/datasets/ Multiple+Features
de dois , três, quatro e cinco exibições de dados, respectivamente. Uma
7CCV conjunto de dados: http://www.ee.columbia.edu/ln/dvmm/CCV/ 8Os configuração específica de problema será referida como Vm-seq ao longo deste
resultados do Mitra são retirados diretamente do papel, pois nenhuma implementação de estudo, onde m = {2, 3, 4, 5} é o número de visualizações de dados e seq denota
o algoritmo está disponível. uma sequência de m letras diferentes referindo-se a 100

10
Machine Translated by Google

Tabela 2: Características dos conjuntos de dados multiview considerados neste estudo. ”Conjunto de dados Multiview” refere-se ao acrônimo do conjunto de dados, ”N”
denota o número de pontos de dados, ”V” é o número de exibições de dados, ”D” é a dimensionalidade do espaço de recursos para cada exibição e ”K” é o número real de
aglomerados.

conjunto de dados multivisualização N V D k

Imagem 2100 2 [9, 10] 7


ETA 230 4 [22, 7, 5, 4] 5
aloi 333 4 [8, 27, 77, 13] 3
corel 500 6 [64, 9, 10, 8, 104, 15] 5
USPS 2000 2 [76, 216] [5000, 10
CCV 6773 2 5000] 20

Tabela 3: Resultados detalhados em termos de métricas ARI e NMI em todos os conjuntos de dados multiview (valores médios de 31 execuções). O desempenho
do MVMC é comparado com relação a seis abordagens de agrupamento multiview e o algoritmo k-means. Os resultados da abordagem de Mitra foram retirados do
artigo original [33]. Os melhores valores de ARI e NMI pontuados para cada conjunto de dados foram sombreados e destacados em negrito e, adicionalmente, os
melhores resultados estatisticamente (ÿ = 0,05) estão destacados em negrito.

Multivisualização de Mitra k-meios MVSC SPEA2 NSGA-II NSGA-III MOEA/D MVMC


conjunto de dados
NMI NMI ARI NMI ARI NMI ARI NMI ARI NMI ARI NMI ARI NMI ARI

– 0,537 0,372 0,519 0,362 0,393 0,259 0,401 0,257 0,411 0,243 0,434 0,287 0,631 0,552
Imagem
ETA – 0,074 0,025 0,038 0,009 0,101 0,031 0,103 0,043 0,080 0,006 0,100 0,022 0,192 0,151
aloi – 0,624 0,438 0,644 0,587 0,700 0,561 0,699 0,561 0,694 0,560 0,681 0,559 0,999 0,998
corel – 0,535 0,456 0,445 0,405 0,439 0,393 0,432 0,381 0,327 0,273 0,365 0,295 0,508 0,422
USPS 0,781 0,622 0,489 0,753 0,703 0,420 0,280 0,449 0,307 0,464 0,308 0,423 0,276 0,768 0,725
CCV 0,234 0,081 0,079 0,241 0,216 0,217 0,203 0,193 0,149 0,181 0,133 0,211 0,198 0,297 0,259

Tabela 4: Descrição das diferentes visualizações de dados derivadas das


imagens de ultrassom para cada léxico BI-RADS. O tamanho dessas exibições
Orientação Forma de dados é N = 2.054 pontos de dados e o número de clusters é K = 2.
k-meios
Visualizações de dados D
AUC SEN ESP

Forma (S) 29 0,81 0,73 0,90


Margem (M) 14 0,82 0,81 0,83
Margem Orientação (O) 2 0,67 0,42 0,92
Posterior 90 0,65 0,74 0,55
Padrão de eco (E)
recurso Características posteriores (P) 4 0,61 0,70 0,52

7.2. Desempenho de agrupamento


Padrão de eco Os resultados do MVMC e suas variantes para seleção do modelo estão
resumidos na Figura 8, com resultados mais detalhados e a análise de 10

significância estatística correspondente apresentados na Tabela A.7 (Apêndice).


Figura 7: Ilustração das diferentes exibições de dados derivadas de uma
No geral, o clustering parece capaz de obter bons resultados para muitas
imagem de ultrassom para cada léxico BI-RADS.
configurações de problemas, sugerindo a existência de estruturas de cluster
naturais nas visualizações de dados consideradas.
15

Nossas estratégias MVMCAUC e MVMCACC produziram consistentemente


melhores resultados do que os algoritmos de referência k-means e MVSC.
às exibições de dados usadas na configuração conforme especificado na Tabela Notavelmente, a estratégia MVMCAUC obteve valores médios altos em
4. Finalmente, a distância euclidiana foi usada para calcular as múltiplas matrizes diferentes índices e diversos problemas de configuração, tendo um número
de dissimilaridade dos cinco conjuntos de recursos de entrada. Para a distinto de visualizações. Por exemplo, as configurações V2-MP (0,846, 0,846, 20

implementação de k-means, as informações de 5 exibições de dados múltiplos 0,849, 0,884), V3-MEP (0,849, 0,849, 0,847, 0,850), V4-MOEP (0,851, 0,847,
foram mescladas, assumindo comensurabilidade (e, portanto, peso igual) entre o 0,833, 0,860) e V5-SMOEP (0,851 , 0,847, 0,834, 0,859) obteve valores médios
recurso individual altos para todos os índices, que são apresentados como
espaços.

11
Machine Translated by Google

0,9 resulta na identificação de soluções que estabelecem um equilíbrio entre 40

as duas visões, correspondendo a um trade-off entre especificidade e


0,8
sensibilidade, e resultando em uma melhoria distinta na precisão da
0,7 classificação.

Precisão
0,6
ACC
0,85 0,9 0,9 0,860,86
0,9 0,86
Alta especificidade e V2-SM 0,86
0,5 0,84 V3-SMO
baixa sensibilidade 0,840,84
0,850,85 0,84
0,85
0,83 0,85
0,820,82
0,4 0,82
0,82
0,8 0,8 0,8
0,84
k-significa X MVSC MVMCSIL MVMCAUC MVMCACC Margem
Orientação
Orientação
0,8 0,8 0,8
0,81 Orientação

0,3 0,75 0,750,75 0,83


0,8 0,780,78
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
V2-
SM V2-
SO
V2-
SE V2-
SP
MO
V2-
V2-
ME V2-
MP V2-
OE V2-
OP
V2-
EP
SEP
V3-
Baixa especificidade e 0,78
SME
V3- SMP
V3- SOE
V3- SOP
V3- OEP
V3-
SMO
V3- MEP
V3-
MOE
V3-

alta sensibilidade 0,7


MOP
V3-

SMOE
V4- SMOP
V4-
SMEP
V4- SOEP
V4-
MOEP
V4- 0,79 0,7 0,7 0,82
SMOEP
V5-
0,76 0,760,76

0,78
0,650,7
0,65 0,81
0,80,7 0,740,74
0,65 0,74
Figura 8: Resumo do desempenho do agrupamento para as 26 configurações 0,77 0,7 0,82 0,83 0,84 0,85 0,86 0,87 0,88
0,8 0,8 0,84 0,82 0,84 0,82 0,9 0,88 0,86 0,9 0,88
0,88Forma
0,86 0,92
Forma
0,840,86
0,9 0,92 0,9 Forma
0,82 0,9
Margem Margem
Margem 0,92 0,9
Forma
de problema. As curvas mostram a precisão média pontuada por k-means,
MVSC, MVMCSIL, MVMCAUC e MVMCACC. Consulte a Tabela A.7 para Figura 9: PFAs obtidos de todas as execuções independentes do MVMC em
obter resultados detalhados (Apêndice). termos de precisão (ACC) para as configurações do problema V2-SM
(esquerda) e V3-SMO (direita). As soluções de agrupamento são destacadas
com diferentes intensidades de cores: quanto mais tende ao amarelo, melhor
o desempenho em termos de ACC. Os quadrados vermelho e azul representam
tupla (ACC, AUC, SEN, SPE). Seu desempenho nos diferentes índices
as melhores soluções selecionadas pelas estratégias MAUC e MACC, respectivamente.
reflete a eficácia geral da abordagem multiview proposta, demonstrando
que a otimização simultânea de visualizações de dados leva a um
A Figura 9 exemplifica esse efeito e outras características dos PFAs
melhor desempenho de agrupamento e que isso se estende à
bidimensionais e tridimensionais gerados por MVMC. Também ilustra as 45
5 identificação correta de casos positivos e negativos.
soluções de agrupamento selecionadas pelas estratégias MVMCAUC e
MVMCACC, indicando a posição das soluções de agrupamento mais
Compreendendo esses resultados em termos de qualidade dos
precisas. Ao analisar a forma dos PFAs para este conjunto de dados,
espaços de recursos subjacentes, vale a pena observar que as
fica claro que há um conflito significativo entre as múltiplas visualizações
configurações de problemas envolvendo as visualizações Shape (S) e
e que é difícil identificar uma solução ideal de trade-off a partir da 50
10 Margin (M) tiveram melhor desempenho, especialmente a visualização
estrutura presente apenas no PFA. Observamos que, para os conjuntos
Margin. Por exemplo, as configurações V2-SM, V2-ME, V2-MP, V3-MEP,
de recursos considerados aqui, a frente de Pareto nos fornece diferentes
V3-SMP, V4-MOEP, V4-SMOP e V5-SMOP obtiveram valores médios
trade-offs em relação a falsos positivos e falsos negativos, semelhante
altos para todos os índices e em toda a diferentes algoritmos de
a uma curva ROC. Além disso, consistentemente com nossas
agrupamento. Curiosamente, um baixo desempenho de agrupamento
descobertas sobre os conjuntos de dados UCI, descobrimos que as 55
foi observado para cerca de 15 configurações de problemas em todos os
regiões do espaço objetivo associadas às melhores soluções de
algoritmos estudados. Por exemplo, as configurações, incluindo as
agrupamento tendem a ser aquelas que correspondem a uma
visualizações Echo (E) e Posterior (P), resultaram repetidamente em
compensação equilibrada entre as exibições de dados; e que MVMCAUC
baixo desempenho, indicando um baixo desempenho preditivo desses espaços de recursos específicos.
e MVMCACC os selecionam consistentemente.
Devido à abordagem de ponderação mais flexível implementada por 20
Essas descobertas suportam a hipótese de que as 60 soluções de
MVMCAUC e MVMCACC (usando vetores de referência), eles são robustos
agrupamento mais promissoras tendem a integrar informações de várias
para a inclusão de um espaço de recurso individual de baixa qualidade,
visualizações e que as técnicas de otimização de muitos objetivos têm um
superando k-means e MVSC junto com todos os indicadores de
papel importante no suporte à geração de tais soluções candidatas.
desempenho.
Todo o potencial do agrupamento multiview deriva da presença de
espaços de recursos complementares e de alta qualidade, cuja consideração
conjunta pode melhorar o desempenho. Os nossos resultados (ver 8. Discussão 65

Figura 8) indicam uma melhoria geral do desempenho com o aumento


do número de espaços de características considerados, o que evidencia Neste manuscrito, introduzimos um novo algoritmo para agrupamento
a existência de informação complementar nos dados considerados. de muitas visualizações e demonstramos seu desempenho
30 Além disso, uma análise mais detalhada (ver Tabela A.7) mostra empiricamente. Para entender melhor as diferenças empíricas de
diferenças distintas no desempenho de visualizações individuais, em desempenho, é útil considerar a base teórica de nosso trabalho e as
relação ao seu desempenho geral (precisão) e sua ênfase relativa na principais diferenças para algoritmos anteriores para clustering multiview. 70

sensibilidade versus especificidade. Este último destaca uma Nossas observações a esse respeito são as seguintes:
oportunidade particular para a combinação frutífera de visões: Um
35 exemplo disso são os espaços de recursos relacionados à Forma (S) e
à Margem (M). Enquanto o conjunto de recursos Shape suporta solução • A maioria dos trabalhos existentes sobre clustering multiview usou
com alta especificidade e baixa sensibilidade, o oposto é o caso do algoritmos baseados na otimização de Pareto, em vez de
conjunto de recursos Margin (M). Conforme mostrado na Figura 9, a abordagens que empregam uma função escalar. Isso é 75

otimização simultânea de ambos os espaços de recursos simplesmente reflexo da prevalência mais ampla (e anterior) desses

12
Machine Translated by Google

algoritmos no campo da otimização multiobjetivo evolucionária é normalmente necessário por ponto de dados), a redundância da
[38], ao invés de uma escolha consciente. Como consequência, representação e a dificuldade de derivar operadores de variação
embora as limitações conhecidas das abordagens baseadas em efetivos que abordam essa redundância.
Pareto (especificamente a baixa escalabilidade em relação ao
5 número de objetivos) tenham sido transmitidas para o campo do • Não há nenhum trabalho anterior sobre agrupamento de muitas

agrupamento multiview, com a maioria dos algoritmos evolutivos visualizações que explore o vetor escalar durante o estágio de 60

existentes também baseados na dominância de Pareto . decodificação e avaliação e valide empiricamente o desempenho
dessa abordagem. Assim como nosso artigo, [11] usa MOEA/D,
• Nossa abordagem de decodificação não pode ser usada em mas deriva uma partição diferente para cada visualização (consulte
abordagens de otimização baseadas em Pareto para agrupamento a Figura 1 do artigo). Para o trabalho deles, isso tem a vantagem
10 multiview. Isso ocorre porque a abordagem requer conhecimento de que o mesmo esquema de decodificação pode ser usado 65

do vetor escalar para cada solução candidata. Em uma abordagem consistentemente para as abordagens baseadas em Pareto e
de otimização baseada em Pareto, essa informação não está escalares comparadas no artigo. No entanto, do ponto de vista
disponível — em outras palavras, dada uma única solução, não teórico, sofre da desvantagem destacada acima - os vetores
sabemos especificamente para qual vetor de escalarização ela é objetivos observados durante o processo de pesquisa não refletem
15 ideal; temos apenas informações genéricas sobre suas relações de mais o trade-off genuinamente alcançável por uma única partição, o que
dominância com outras soluções. pode afetar a eficácia da pesquisa.

• Para abordagens baseadas em Pareto para clustering multivisualização,


atualmente não temos conhecimento de nenhum método para
decodificar uma representação medoide/centróide que não dependa
20 da escolha de uma única visualização ou de uma ponderação 9. Conclusões
específica entre visualizações para suportar cálculos de distância
nesta etapa. As abordagens comumente utilizadas na literatura são: O clustering multiview é um problema importante em muitas aplicações,
(i) Decodificação repetida de cada solução ao longo de cada visão. devido à crescente disponibilidade de múltiplas fontes de dados e 75

Isso é usado durante a pesquisa em [11]. Aqui, a etapa de representações que descrevem as mesmas entidades. Em nosso trabalho,
25 decodificação mapeia uma única solução candidata para várias o termo agrupamento multiview é usado para se referir à consideração de
partições possíveis (uma por exibição) e avalia cada uma usando a diferentes aspectos de dados, como conjuntos de recursos (ou seja,
função objetivo associada a essa exibição. A limitação de fazer isso medidas quantitativas) e informações relacionais (ou seja, relações de
é a seguinte: como uma determinada solução candidata é mapeada dissimilaridade). A maioria das abordagens existentes para clustering 80

para várias partições específicas de exibição, o vetor objetivo multiview são limitadas ao processamento de duas exibições de dados ou
30 eventualmente atribuído à solução candidata é, na verdade, uma seu desempenho de clustering diminui à medida que o número de
agregação dos valores objetivos associados a essas partições. Em exibições aumenta. Neste artigo, demonstramos como os avanços
outras palavras, podemos apenas pensar no vetor objetivo resultante recentes na otimização de muitos objetivos suportam o projeto de um
como um ponto ideal, e isso não indica uma troca entre objetivos algoritmo evolucionário para agrupamento de dados capaz de dimensionar o
que uma única partição pode necessariamente alcançar. (ii) número de exibições de dados.
35 Suposição de uma soma ponderada fixa de todas as visualizações A abordagem proposta, chamada MVMC, foi avaliada em uma
em todas as soluções candidatas. Essa decodificação é usada variedade de dados, incluindo benchmarks anteriores para agrupamento
implicitamente no final do algoritmo de Jiang et al. (2016). multiview da literatura e uma aplicação para classificação de tumores de
mama. Usamos dados sintéticos e do mundo real 90 para avaliar o
comportamento do MVMC em situações em que vários dados relacionais (ou
Para obter uma única partição por solução candidata, seu algoritmo
40 decodifica os centróides finais dentro do espaço de recursos seja, diferentes matrizes de dissimilaridade) e vários conjuntos de recursos
completo (ou seja, concatenando todas as visualizações). Ao fazer estão disponíveis. Em nossos experimentos, o MVMC alcançou resultados
isso, ele efetivamente pondera cada exibição por dimensionalidade altamente competitivos quando comparado com várias técnicas tradicionais de
e escala dos recursos internos. clustering de objetivo único 95 e duas abordagens de última geração para
clustering multiview.
Na Figura 10, incluímos exemplos ilustrativos das frentes de
45 aproximação alcançadas por essas diferentes abordagens para
É importante ressaltar que nossas descobertas se generalizam para
destacar o impacto significativo dessa etapa de decodificação e
mais de duas exibições de dados: as versões para três e quatro objetivos
explicar os “vieses” específicos introduzidos.
obtiveram resultados significativamente melhores do que as versões bi- 100

• Para abordagens baseadas em Pareto para agrupamento objetivo em termos de desempenho de agrupamento. Em geral, para um
multivisualização, as únicas representações conhecidas que não determinado conjunto de dados com diferentes propriedades de cluster,
50 requerem a escolha de uma única visualização ou uma ponderação dois casos possíveis podem ocorrer no MVMC ao considerar visualizações
específica entre visualizações são aquelas que codificam diretamente de dados distintas: (i) uma visualização de dados predominante pode
a partição e, portanto, evitam completamente a etapa de levar a soluções úteis ou (ii) uma troca entre duas ou mais visualizações podem
decodificação. Existem exemplos de tais representações na literatura levar a 105 soluções eficazes. No primeiro caso, tanto o MVMC quanto os
de agrupamento evolucionário, mas elas são geralmente algoritmos de agrupamento de objetivo único usando a exibição de dados
55 consideradas ineficazes devido ao tamanho da representação resultante (uma variável
apropriada sãodebem-sucedidos.
decisão No entanto, no segundo caso, apenas

13
Machine Translated by Google

MVMC Pesos de visualização fixa Pesos sem visualização Pesos sem visualização
(abordagem de decomposição) (aproximações inatingíveis) (valores objetivos realistas)

íris vinho vidro


0,066 0,392 0,78

0,064
0,39 0,76

0,062
0,388 0,74
0,06

0,058 0,386 0,72

distância
cosseno
do
0,056 distância
cosseno
do 0,384 distância
cosseno
do 0,7

0,054
0,382 0,68
0,052

0,38 0,66
0,05

0,048 0,378 0,64


0,345 0,35 0,355 0,36 0,365 0,37 0,693 0,6935 0,694 0,6945 0,695 0,6955 0,696 0,86 0,87 0,88 0,89 0,9 0,91
Distância euclidiana Distância euclidiana Distância euclidiana

íris vinho vidro

ARI ARI ARI

Figura 10: Ilustração da importância da etapa de decodificação na passagem de uma representação baseada em medoid para uma partição real. São mostradas
as frentes de aproximação e os valores de ARI obtidos ao executar a mesma configuração do MOEA/D, mas variando apenas o mecanismo de decodificação para
(azul) contar com o vetor escalar (MVMC), (verde) contar com um único fixo (igual) ponderação de todas as visualizações. Em (vermelho) e (preto), consideramos
a abordagem de decodificação de Jiang et al. (2016). Em vermelho, podemos ver os valores de ARI observados para cada uma das duas possíveis partições
associadas a uma determinada solução candidata (conjunto de medoids). Na frente de aproximação, podemos observar a estimativa resultante dos trade-offs
alcançáveis durante a busca, que provavelmente será superestimada, pois os vetores agregam valores objetivos em duas partições diferentes. Em (preto),
ilustramos o efeito de decodificar as mesmas soluções candidatas (conjuntos de medoids) usando um único vetor de peso fixo (ou seja, adotando a abordagem
implantada em [11] no final da busca). No gráfico ARI (linha inferior), podemos observar que essa decodificação resulta em um número menor de soluções (apenas
uma partição por conjunto de medoides) e uma avaliação realista dos valores objetivos dessas soluções nas frentes de aproximação (linha superior). . A partir
desses gráficos, o impacto da etapa de decodificação no resultado do processo de busca e a cobertura aprimorada oferecida pela abordagem de escalarização
são evidentes. Como seria de esperar, um vetor de peso fixo tem um desempenho ruim para cobrir os extremos da frente de Pareto. Para a abordagem de Jiang
et al. (2016), há algumas evidências de que o uso de vetores objetivos potencialmente inatingíveis durante a busca dificulta a convergência apropriada para a frente de Pareto

MVMC é bem sucedido. Nossos resultados demonstram que o último cenário vantagens na prática, esperamos explorar sua aplicação em aplicações de
é mais frequente, enfatizando o valor de uma abordagem multiview. O MVMC dados multiview em grande escala, como agrupamento de documentos e
alcançou resultados altamente competitivos em nossos experimentos em dados médicos. 20

comparação com várias técnicas tradicionais de agrupamento de 5 objetivos


únicos e duas técnicas de última geração
Agradecimentos
abordagens para agrupamento multiview.

As principais limitações do nosso trabalho estão na seleção do modelo da O primeiro autor agradece o apoio do CONACYT México através de uma
frente de Pareto. Conforme mostrado em nossos resultados, o uso de uma bolsa de pós-doutorado.

abordagem de seleção não supervisionada resulta em uma queda significativa


de desempenho em comparação com a melhor solução disponível e reduz a Apêndice A. Material adicional
vantagem de desempenho em relação aos métodos de referência.
Portanto, a prioridade imediata para o nosso trabalho são melhorias na etapa Este apêndice inclui figuras e tabelas que complementam os resultados dos 25

de seleção do modelo, para permitir a seleção não supervisionada da melhor experimentos apresentados nas Seções 5, 6 e 7.
solução das aproximações de frente de Pareto. Em relação aos resultados dos conjuntos de dados sintéticos, a Figura A.11
15 Além disso, seria interessante estender o algoritmo para determinar o número ilustra a diversidade de estruturas de agrupamento cobertas por nossos
ideal de clusters automaticamente. Além disso, para confirmar que o MVMC conjuntos de dados de teste, enquanto a Tabela A.5 apresenta os resultados
pode fornecer anúncios significativos de agrupamento para os diferentes algoritmos estudados para este experimento. Tabela A.

14
Machine Translated by Google

mostra os resultados obtidos para dados do mundo real em termos [20] Taiyun Kim, Irene Rui Chen, Yingxin Lin, Andy Yi-Yang Wang, Jean Yee Hwa Yang e
Pengyi Yang. Impacto das métricas de similaridade no agrupamento de dados de 70
de valores ARI médios. A Tabela A.7 detalha os resultados em
sequência de RNA de célula única. Briefings em Bioinformática, 2018.
termos de índices ACC, AUC, SEN e SPE para os diferentes ´ ´ ´
[21] Adan Jos e-Garc´ÿa e Wilfrido Gomez-Flores. Agrupamento Evolucionário Usando
métodos considerados neste estudo. Representação Multiprotótipo e Critério de Conectividade. Na Conferência Mexicana
sobre Reconhecimento de Padrões, MCPR 2017, páginas 63–73.
Primavera, 2017. 75
5 Referências [22] Tomas Mikolov, Quoc V. Le e Ilya Sutskever. Explorando semelhanças entre idiomas
para tradução automática. arXiv e-prints, página arXiv:1309.4168, 2013.
[1] Sergios Theodoridis e Konstantinos Koutrumbas. Reconhecimento de padrões.
Elsevier Inc., quarta edição, 2009.
´ [23] Kalyanmoy Deb e Himanshu Jain. Um Objetivo Múltiplo Evolucionário
[2] Andrzej Bielecki e Mateusz Wojcik. Sistema Híbrido de Redes Neurais ART e RBF para Algoritmo de Otimização Usando Pontos de Referência Não Dominados 80 Abordagem de
Clustering Online. Applied Soft Computing, 58:1–10, 2017. Ordenação, Parte I: Resolvendo Problemas com Restrições de Caixa. IEEE Transactions on
10
Evolutionary Computation, 18(4):577–601, 2013.
[3] Patrick CH Ma, Keith CC Chan, Xin Yao e David KY Chiu. Um Algoritmo de Agrupamento [24] Qingfu Zhang e Hui Li. MOEA/D: Um Algoritmo Evolucionário Multiobjetivo Baseado em
Evolucionário para Análise de Dados de Microarray de Expressão Gênica. IEEE Decomposição. IEEE Transactions on Evolutionary Computation, 11(6):712–731,
Transactions on Evolutionary Computation, 10(3):296–314, 2006. 2007. 85

[25] Hui Li e Qingfu Zhang. Problemas de Otimização Multiobjetivo com Conjuntos de Pareto
15 [4] Chih Chin Lai e Chuan Yu Chang. Um Algoritmo Evolutivo Hierárquico para Complicados, MOEA/D e NSGA-II. IEEE Transactions on Evolutionary Computation,
Segmentação Automática de Imagens Médicas. Sistemas Especialistas com 13(2):284–302, 2009.
Aplicações, 36(1):248–259, 2009. [26] Indraneel Das e JE Dennis. Interseção Normal-Boundary: Um Novo Método para Gerar
[5] Francisco de AT de Carvalho, Yves Lechevallier e Filipe M. de Melo. a Superfície de Pareto em Problemas de Otimização Multicritério Não Lineares. SIAM 90
Algoritmos de Hard Clustering de Partição baseados em Matrizes de Múltiplas Journal on Optimization, 8(3):631–657, 1998.
20 Dissimilaridades. Reconhecimento de padrões, 45(1):447–464, 2012.
[6] Francisco de AT de Carvalho, Yves Lechevallier, Thierry Despeyroux e Filipe M. de [27] Kaisa Miettinen. Otimização multiobjetivo não linear. Kluwer Academic Publishers, 1999.
Melo. Agrupamento de várias exibições em dados relacionais.
Em Avanços na descoberta e gerenciamento de conhecimento, páginas 37–51. [28] Daniel Aloise, Amit Deshpande, Pierre Hansen e Preyas Popat. NP- 95 Dureza de Agrupamento
Primavera, 2014. Euclidiano de Soma dos Quadrados. Machine Learning, 75(2):245–248, 2009.
´
25 [7] Arturo Rodríguez-Cristerna, Wilfrido Gomez-Flores e Wagner Coelho de Albuquerque
´ ´ ´
Pereira. Um sistema de diagnóstico auxiliado por computador para ultrassom de [29] Adan Jos e-Garc´ÿa e Wilfrido Gomez-Flores. Agrupamento Automático Usando
mama baseado em classes BI-RADS ponderadas. Métodos e Programas de Metaheurísticas Inspiradas na Natureza: Uma Pesquisa. Applied Soft Computing,
Computador em Biomedicina, 153:33–40, 2018. 41:192–213, 2016. 100
´ ´ ´
[8] Adan Jos e-Garc´ÿa, Julia Handl, Wilfrido Gomez-Flores e Mario Garza-Fabre. [30] Gilbert Syswerda. Otimização de cronograma usando algoritmos genéticos. Em Davis
30 Agrupamento de muitas visualizações: uma ilustração usando medidas de Lawrance, editor, Handbook of Genetic Algorithms, capítulo 21, páginas 332–349.
dissimilaridade múltipla. Em Anais da Conferência de Computação Genética e Van Nostrand Reinhold, Nova York, NY, 1991.
Evolutiva, GECCO '19, páginas 213–214. AC, 2019. [31] J. MacQueen. Alguns métodos para classificação e análise de Mul
´
[9] Ariel E Baya e Pablo M Granitto. Quantos clusters: um índice de validação para clusters Observações variáveis. Em Proceedings of the Fifth Berkeley Symposium 105 on
de formato arbitrário. IEEE/ACM Transactions on Computational Biology and Mathematical Statistics and Probability, páginas 281–297. Editora da Universidade da
35 Bioinformatics, 10(2):401–14, 2013. Califórnia, 1967.
[10] Guoqing Chao, Shiliang Sun e Jinbo Bi. Uma Pesquisa sobre Multi-View Clustering. [32] Samir Kanaan-Izquierdo, Andrey Ziyatdinov e Alexandre Perera Lluna. Agrupamento
arXiv e-prints, página arXiv:1712.06246, 2018. espectral multiview e multifeature usando autovetores comuns. Cartas de
[11] Bo Jiang, Feiyue Qiu, Shipin Yang e Liping Wang. Otimização multiobjetivo evolutiva Reconhecimento de Padrões, 102:30–36, 2018. 110
para agrupamento multivisualização. No Congresso IEEE sobre Computação [33] Sayantan Mitra, Mohammed Hasanuzzaman e Sriparna Saha. Um Algoritmo Unificado
40 Evolutiva, CEC 2016, páginas 3308–3315. de Clustering Multi-view Usando Otimização Multi-objetivo Juntamente com o Modelo
IEEE, 2016.
Generativo. ACM Transactions on Knowledge Discovery from Data, 14(1):1–31, 2020.
[12] Hisao Ishibuchi, Noritaka Tsukamoto e Yusuke Nojima. Otimização Evolucionária de
Muitos Objetivos: Uma Breve Revisão. No Congresso IEEE sobre Computação [34] Lawrence Hubert e Phipps Arabie. Comparando partições. Journal of 115 Classification,
Evolutiva, CEC 2008, páginas 2419–2426. IEEE, 2008. 2(1):193–218, 1985.
45 [13] Xiao Cai, Feiping Nie e Heng Huang. Multi-View K-Means Clustering em Big Data. Em [35] Liam Paninski. Estimativa de Entropia e Informação Mútua. Neural
Proceedings of the International Joint Conference on Artificial Intelligence, páginas Computação, 15(6):1191–1253, 2003.
2598–2604, Pequim, China, 2013. AAAI Publications. [36] Julia Handl e Joshua Knowles. Uma Abordagem Evolutiva para Multi
Agrupamento objetivo. IEEE Transactions on Evolutionary Computation, 120 11(1):56–76,
[14] Xiang Wang, Buyue Qian, Jieping Ye e Ian Davidson. Agrupamento espectral 2007.
50 multiobjetivo e multivisualização via otimização de Pareto. Em Proceedings of the [37] M. Lichman. Repositório de aprendizado de máquina UCI. http://archive. ics.uci.edu/ml,
International Conference on Data Mining, SIAM 2013, páginas 234–242, Filadélfia, 2013.
PA, 2013. Society for Industrial and Applied [38] Wei Peng, Qingfu Zhang e Hui Li. Comparação entre MOEA/D e NSGA-II no Problema
Matemática.
do Caixeiro Viajante Multiobjetivo. Em Multi-objective Memetic Algorithms, páginas 125
[15] Sriparna Saha, Sayantan Mitra e Stefan Kramer. Explorando a Otimização Multiobjetivo 309–324. Springer, 2009.
55 para Multiview Clustering. ACM Transactions on Knowledge Discovery from Data,
20(2):1–30, 2018.
[16] Cong Liu, Jie Liu, Dunlu Peng e Chunxue Wu. Uma Abordagem Geral de Agrupamento
Multiobjetivo Baseada em Múltiplas Medidas de Distância. Acesso IEEE, 6:41706–
41719, 2018.
60 [17] Cong Liu, Qianqian Chen, Yingxia Chen e Jie Liu. Um Agrupamento Fuzzy Multiobjetivo
Rápido com Combinação de Multimedidas. Problemas matemáticos em engenharia,
2019: 1–21, 2019.
[18] Francisco de AT de Carvalho, Filipe M. de Melo e Yves Lechevallier.
Um Algoritmo de Agrupamento de Vetores Relacionais Fuzzy c-medoid multi-view.
65 Neurocomputing, 163:115–123, 2015.
[19] JZ Huang, MK Ng, Hongqiang Rong e Zichen Li. Ponderação Variável Automatizada
em Clustering do tipo k-means. IEEE Transactions on Pattern Analysis and Machine
Intelligence, 27(5):657–668, 2005.

15
Machine Translated by Google

Dados
43 Dados
Laranja 62 R15 Vinte
1 1 1 1

0,8

0,6

0,5 0,4 0,5 0,5 0,5

0,2

0
1
1
0,5
0 0,5 0 0 0
0 0,5 1 0 0,5 1 0 0,5 1 0 0,5 1
00
Dados Dados
TwoDiamonds Quadrado1 Tamanhos5 52 92
1 1 1 1 1

0,5 0,5 0,5 0,5 0,5

0 0 0 0 0
0 0,5 1 0 0,5 1 0 0,5 1 0 0,5 1 0 0,5 1

Parte 2 Dentro Espirais2 Ringauss Multidist


1 1 1 1 1

0,5 0,5 0,5 0,5 0,5

0 0 0 0 0
0 0,5 1 0 0,5 1 0 0,5 1 0 0,5 1 0 0,5 1
Chama Tamanho da Chama5 Spiralsizes5 Spiralsdata52 Spiralsdata92
1 1 1 1 1

0,5 0,5 0,5 0,5 0,5

0 0 0 0 0
0 0,5 1 0 0,5 1 0 0,5 1 0 0,5 1 0 0,5 1

Figura A.11: Esta figura ilustra a diversidade de propriedades cobertas por nossa coleção de conjuntos de dados de teste. As figuras na primeira linha contêm
grupos bem separados. As figuras na segunda linha correspondem a clusters sobrepostos. As figuras na terceira linha consistem em clusters não linearmente
separáveis. Finalmente, os números na última linha são conjuntos de dados com misturas de diferentes distribuições de dados.

16
Machine Translated by Google

Tabela A.5: Valores de ARI em conjuntos de dados sintéticos obtidos pelas estratégias MVMC MVMCSIL e MVMCARI, e o algoritmo de agrupamento k-means, SL, WARD, GCA
e MVSC (valores médios de 31 execuções). As exibições de dados são derivadas usando duas medidas de dissimilaridade diferentes: Euclidiana () e MEDeuc (). O melhor valor
de ARI pontuado para cada conjunto de dados foi sombreado e destacado em negrito e, adicionalmente, os melhores resultados estatisticamente (ÿ = 0,05) estão destacados em
negrito.
k-meios SL ALA GCA MVSC MVMCSIL MVMCARI

Gato. Conjunto de dados NDK

Laranja 400 2 2 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 Dados 4 3 400 3 4 1.000 1.000 1.000 1.000 1.000 1,000 1,000
1.000 1.000 1.000 1.000 Dados 6 2 300 2 6 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0,000 R15 600 2 15 0,966 1.000 1,000 1,000
G1 0,975 0,548 0,988 0,975 Vinte 1000 2 20 0,966 1,000 1,000 1,000 1,000 1,000 1,000 0,999 1.000 1,000 1,000
0.978 0,993 0,993
1.000 1,000 1,000

TwoDiamonds 800 2 2 1,000 0,895 0,000 0,000 0,748 0,684 1,000 0,888 0,976 1.000 1.000
Square1 1000 2 4 0,973 0,906 0,000 0,000 0,973 0,777 0,971 0,902 Size5 1000 2 4 0,920 0,739 0,025 0,015 0,649 0,973 0,979
G2 0,436 0,597 0,391 0,730 0,451 0,944 0,962
Dados 5 2 250 2 5 0,870 0,750 0,189 0,394 0,895 0,714 0,841 0,742 0,915 0,834 0,930
Dados 9 2 900 2 9 0,831 0,506 0,000 0,000 0,748 0,403 0,823 0,488 0,686 0,825 0,838

Part2 417 2 2 0,265 1,000 1,000 1,000 0,433 1,000 0,237 1,000 1.000 1.000 1.000
Dentro 600 2 2 0,008 1,000 1,000 1,000 1,000 1,000 0,134 1,000 1.000 1.000 1.000
G3 Espirais 1000 2 2 0,074 1.000 1.000 1.000 0,153 1.000 0,086 1.000 ringauss 2000 2 3 0,252 0,963 0,001 1.000 1.000 1.000
0,001 0,267 0,972 0,260 0,943 Multidist 3012 2 11 0,532 0,991 0,805 0,943 0,943 0,940 0,94 . 0,001 0,971 0,972
0,878 0,979 0,984

Flame 240 2 2 0.462 0.910 0.013 0.013 0.253 0.013 0.489 0.854 Flamesize5 240 2 6 0.926 0.824 0.489 0.657 0,013 0,561 0,967
0.932 0.650 0.514 0.533 G4 Spiralsizes5 2000 2 6 0.659 0.833 0.555 0.782 0.432 0.861 0.644 0.799 Spiralsdata52 0,676 0,948 0,976
562 2 8 0.342 0.934 0.772 0.808 0.308 0.809 0.347 0.932 Spiralsdata92 1212 2 12 0,610 0,623 0,128 0,130 0,610 0,538 0,662 0,680 0,974 0,980
0,647 0,978 0,948 0,960
0,560 0,750 0,878

ARI médio 0,688 0,892 0,526 0,568 0,688 0,798 0,650 0,871 0,772 0,935 0,971
DST IRA 0,332 0,139 0,436 0,437 0,305 0,262 0,317 0,160 0,307 0,114 0,044

Tabela A.6: Valores ARI em conjuntos de dados do mundo real obtidos por MVMCARI e o algoritmo de agrupamento k-means, SL, WARD e GCA (valores médios de 31
execuções). As exibições de dados são derivadas usando quatro medidas de dissimilaridade diferentes: Euclidiana (), MEDeuc (), Cosseno () e MEDcos ().
O melhor valor de ARI pontuado para cada conjunto de dados foi sombreado e destacado em negrito e, adicionalmente, os melhores resultados estatisticamente (ÿ = 0,05)
estão destacados em negrito.
k-meios ALA GCA MVMCARI
conjunto de dados

Íris 0,730 0,717 0,904 0,726 0,773 0,530 0,834 0,558 0,731 0,803 0,902 0,748 0,922 0,927 0,928 0,922 0,903 0,835
Vinho 0,915 0,550 0,805 0,612 0,932 0,355 0,673 0,442 0,768 0,650 0,826 0,610 0,839 0,850 0,864 0,836 0,837 0,680
Peito 0,861 0,747 0,856 0,877 0,867 0,823 0,890 0,890 0,858 0,861 0,856 0,884 0,837 0,876 0,881 0,873 0,872 0,872
Thyroid 0.718 0.590 0.174 0.144 0.672 0.484 0.133 0.094 0.702 0.485 0.181 0.105 0.834 0.730 0.878 0.837 0.195 0.869 Glass 0.634 0.455 0.306 0.465 0.656 0.605 0.311
0.711 0.567 0.433 0.025 0.634 0.565 0.729 0.572 0.694 0.748 0.664
Ecoli 0,417 0,406 0,367 0,574 0,454 0,495 0,396 0,550 0,399 0,328 0,399 0,537 0,518 0,408 0,736 0,500 0,706 0,650

ARI médio 0,713 0,577 0,569 0,566 0,726 0,549 0,539 0,509 0,671 0,593 0,532 0,586 0,753 0,753 0,810 0,777 0,710 0,762
STD ARI 0,163 0,152 0,294 0,235 0,171 0,157 0,305 0,334 0,150 0,205 0,349 0,246 0,155 0,199 0,123 0,145 0,241 0,101

17
Machine Translated by Google

Tabela A.7: Resultados detalhados em relação aos índices ACC, AUC, SEN e SPE em todas as configurações do problema multiview (valores médios de 31
execuções). O melhor valor pontuado para cada índice e configuração do problema foi sombreado e destacado em negrito e, adicionalmente, os melhores
resultados estatisticamente (ÿ = 0,05) estão destacados em negrito. MSIL, MAUC e MACC denotam diferentes estratégias MVMC para selecionar a melhor
solução de agrupamento, enquanto km denota os resultados obtidos pelo algoritmo k-means.
ACC AUC SEN SPE
conf.
km MVS MSIL MAUC MACC km MVS MSIL MAUC MACC km MVS MSIL MAUC MACC km MVS MSIL MAUC MACC
V2-SM 0,852 0,730 0,834 0,857 0,863 0,846 0,853 0,835 0,738 0,786 0,846 0,836 0,818 0,844 0,781 0,764 0,632 0,811 0,751 0,732 0,812 0,889 0,712 0,940 0,881 0,921 0,905 0,875
V2-SO 0,826 0,844 0,845 0,758 0,765 0,834 0,845 0,773 0,812 0,810 0,777 0,781 0,786 0,828 0,608 0,709 0,696 0,837 0,831 0,632 0,775 0,939 0,915 0,923 0,717 0,731 0,939 0,881
V2-SE 0,849 0,843 0,754 0,832 0,840 0,845 0,817 0,816 0,759 0,783 0,819 0,812 0,716 0,733 0,775 0,627 0,749 0,709 0,918 0,900 0,742 0,938 0,888 0,916
V2-SP
V2-MO 0,816 0,655 0,743 0,826 0,827 0,816 0,700 0,717 0,827 0,825 0,817 0,841 0,634 0,831 0,821 0,815 0,559 0,800 0,823 0,830 0,577 0,631
V2-ME 0,669 0,691 0,823 0,825 0,825 0,840 0,709 0,712 0,719 0,827 0,829 0,829 0,836 0,671 0,846 0,808 0,839 0,841 0,839 0,824 0,552 0,815 0,816 0,818 0,848 0,791 0,835 0,844
V2-MP 0,837 0,846 0,848 0,622 0,755 0,733 0,732 0,838 0,846 0,844 0,657 0,778 0,703 0,738 0,842 0,849 0,832 0,765 0,852 0,608 0,758 0,856 0,548 0,705 0,798 0,718 0,561 0,561
V2-OE 0,740 0,619 0,754 0,750 0,749 0,615 0,615 0,725 0,646 0,773 0,679 0,726 0,715 0,644 0,677 0,731 0,831 0,457 0,652 0,549 0,738
V2-OP 0,619 0,754 0,750 0,749 0,615 0,646 0,773 0,679 0,726,715 0,647 0,731 0,831 0,457 0,652
V2-EP

V3-SMO 0,852 0,714 0,811 0,859 0,866 0.836 0.739 0.764 0.845 0.841 0.792 0.745 0,784 0,819 0,615 0,799 0,762 0,888 0,660 0,913 0,890 0,920
V3-SME 0,778 0,723 0,834 0,857 0,862 0,855 0,774 0.786 0.848 0.839 0.833 0.768 0.786 0.856 0,836 0,813 0,631 0,817 0,764 0,765 0,748 0,748 0,676 0,940 0,878 0,914 0,902 0,787
V3-SMP 0,835 0,864 0,870 0,767 0,775 0,806 0,843 0.853 0.781 0.791 0.757 0.826 0.820 0.818 0,630 0,830 0,796 0,828 0,841 0,603 0,773 0,943 0,882 0,909 0,735 0,741 0,911 0,879
V3-SOE 0,850 0,846 0,828 0,757 0,847 0,857 0,758 0.824 0.684 0.824 0.817 0.777 0.781 0.785 0,725 0,727 0,809 0,454 0,751 0,707 0,838 0,915 0,909 0,838 0,915 0,898 0,716 0,909
V3-SOP 0,846 0,828 0,757 0,847 0,758 0.839 0.830 0,838 0,915 0,898 0,716
V3-SEP
V3-MOE 0,674 0,687 0,732 0,826 0,828 0,716 0,725 0,704 0,829 0,829 0,849 0,842 0,615 0,841 0,830 0,582 0,607 0,792 0,818 0,827
V3-MOP 0,827 0,748 0,752 0,849 0,856 0,672 0,687 0,823 0,761 0,684 0,847 0,840 0,714 0,697 0,809 0,801 0,468 0,841 0,788 0,846 0,730 0,836 0,721 0,899 0,853 0,892 0,581 0,665
V3-MEP 0,826 0,849 0,853 0,621 0,747 0,750 0,772 0,829 0,849 0,846 0,653 0,765 0,680 0,768 0,838 0,847 0,822 0,755 0,822 0,458 0,756 0,820 0,850 0,869 0,550 0,708 0,903 0,781
V3-OEP 0,784 0,755 0,662 0,848

V4-SMOE 0,782 0,721 0,833 0,860 0,865 0,853 0,777 0,794 0,747 0,783 0,849 0,844 0,835 0,782 0,835 0,832 0,624 0,818 0,775 0,778 0,797 0,754 0,662 0,942 0,881 0,912 0,893 0,767
V4-SMOP 0,755 0,866 0,871 0,682 0,855 0,849 0,450 0,819 0,778 0,914 0,891 0,919
V4-SMEP 0,781 0,744 0,833 0,866 0,869 0,795 0,750 0,784 0,856 0,851 0,787 0,801 0,838 0,768 0,627 0,822 0,793 0,825 0,818 0,751 0,732 0,941 0,889 0,909 0,750 0,785
V4-SOEP 0,775 0,796 0,753 0,846 0,854 V4-MOEP 0,671 0,684 0,832 0,828 0,713 0,745 0,683 0,847 0,466 0,789 0,743 0,847 0,818 0,464 0,833 0,902 0,876 0,912 0,580 0,673 0,903 0,860
0,722 0,753 0,851 0,857 0,839 0,785 0,894

V5-SMOEP 0,789 0,759 0,751 0,851 0,857 0,800 0,770 0,680 0,847 0,842 0,834 0,807 0,456 0,834 0,796 0,766 0,734 0,904 0,859 0,888

18

Você também pode gostar