Escolar Documentos
Profissional Documentos
Cultura Documentos
Teresina-PI
Setembro de 2020
Lúcia Emília Soares Silva
Rotulação Automática de Grupos Baseada em Análise de Erro de Regressão /
Lúcia Emília Soares Silva. – Teresina-PI, Setembro de 2020-
45 p. : il. (algumas color.) ; 30 cm.
CDU 02:141:005.7
Lúcia Emília Soares Silva
Teresina-PI
Setembro de 2020
Aos pesquisadores e pesquisadoras que tornaram esse trabalho possível; e àqueles a quem
este possa ajudar.
Resumo
Os Modelos de Rotulação de Grupos propõem a aplicação de técnicas de Inteligência
Artificial para extração das principais características dos grupos, a fim de fornecer uma
ferramenta para interpretação de agrupamentos oriundos dos mais diversos tipos de
algoritmos de clustering. Para isso, diferentes técnincas, como Aprendizagem de Máquina,
Lógica Fuzzy e discretização de dados são utilizadas na identificação dos atributos mais
relevantes para formação dos grupos e dos intervalos de valores associados a eles. Esse
trabalho apresenta um modelo de rotulação de grupos baseado no uso de regressão para
delimitação de intervalos de valores dos atributos que revelem os pares atributo-intervalo
que melhor resumem os grupos. A relevância de um atributo para o agrupamento é
determinada pelos intervalos de valores dos atributos em que o erro de predição da
regressão é mínimo, resultando em rótulos específicos e capazes de representar a maioria
dos elementos dos grupos. Os resultados obtidos nos experimentos mostram que o modelo
é eficaz em rotular os grupos, apresentando Taxas de Concordâncias entre 0,90 e 1,0 para
as bases de dados utilizadas, além de garantir rótulos exclusivos para cada grupo por meio
da análise da Taxa de Concordância dos rótulos em grupos distintos.
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 Motivação e Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Estrutura do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 REFERENCIAL TEÓRICO . . . . . . . . . . . . . . . . . . . . . . . 5
2.1 Agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1 Validação de agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Rotulação de Grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Análise de Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3.1 Regressão linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3.2 Support Vector Regression . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.3 ε-SVR aplicado a problemas não lineares . . . . . . . . . . . . . . . . . . 14
2.3.4 Análise de resíduos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3 TRABALHOS RELACIONADOS . . . . . . . . . . . . . . . . . . . . 17
4 MODELO PROPOSTO . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.1 Etapa I - Definição dos pares atributo-intervalo . . . . . . . . . . . . 22
4.1.1 Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.1.2 Cálculo das funções de erro . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.1.3 Delimitação dos intervalos de valores . . . . . . . . . . . . . . . . . . . . . 25
4.2 Etapa II - seleção dos pares atributo–intervalo . . . . . . . . . . . . . 28
4.3 Parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.3.1 Parâmetro d: diferença máxima entre as curvas . . . . . . . . . . . . . . . 30
4.3.2 Parâmetro t: erro aceitável . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5 RESULTADOS E DISCUSSÃO . . . . . . . . . . . . . . . . . . . . . 33
5.1 Iris . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.2 Sementes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.3 Câncer de Mama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.4 Comparativo entre os modelos . . . . . . . . . . . . . . . . . . . . . . 38
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
1
1 Introdução
Deste modo, pesquisas tem sido desenvolvidas com o objetivo de analisar o agru-
pamento com foco nas característica dos dados (LOPES; MACHADO; RABêLO, 2013;
MACHADO; RIBEIRO; RABêLO, 2015; IMPERES Filho et al., 2020; MOURA, 2020),
uma tarefa denominada Rotulação de Grupos. A rotulação sumariza as características
comuns dos elementos dos grupos em um rótulo, facilitando o entendimento e interpretação
sobre dados através dos valores apresentados pelas características mais importantes de
seus elementos (LOPES et al., 2016), podendo ser apresentado como uma ferramenta de
auxílio ao especialista.
O processo de construção dos rótulos faz uso de diferentes técnicas e/ou combinação
de técnicas de Inteligência Artificial (IA), que preparam, manipulam e processam os dados
dos grupos a fim de identificar o relacionamento entre eles, selecionando as informações
destacadas por esses relacionamentos como mais relevantes para formação dos grupos.
• garantir que a exclusão de qualquer porção das faixas de valores considere apenas os
elementos presentes nela.
2 Referencial Teórico
2.1 Agrupamento
A Aprendizagem de Máquina (AM) é um ramo da Inteligência Artificial (IA)
especializado no estudo e construção de sistemas que sejam capazes de aprender de forma
automatizada a partir de dados, melhorando em uma determinada tarefa por meio de
experiência (MITCHELL, 2004). Em suas aplicações, modelos de AM lidam com problemas
em que a própria máquina irá encontrar, após a aprendizagem, uma hipótese que melhor
define o problema em questão, utilizando-se de ferramentais de diversas áreas como
probabilidade, estatística, teoria da informação, complexidade computacional, psicologia,
neurobiologia, entre outras.
O processo de aprendizagem faz a identificação do padrão presente nos dados
generalizando uma função que o descreve, permitindo assim a inferência em novas situações.
Quando as informações disponíveis para aprendizagem são compostas apenas pelos próprios
dados, i.e. sem nenhum conhecimento prévio sobre como estes se relacionam, a aprendizagem
é feita por meio do agrupamento de dados.
Silva, Peres e Boscarioli (2016) definem agrupamento como o processo pelo qual se
estuda as relações de similaridade entre exemplares, determinando como estão organizados
em grupos. O autor descreve a tarefa de agrupamento como a busca por uma função G
capaz de mapear um conjunto X de vetores de entrada (exemplares) ~x ∈ E d para um
número finito de grupos que minimiza a distância (dist) entre elementos dentro do grupo.
A função G é definida como G : E d × W → C, em que d é a dimensão do espaço E, ou seja,
o número de coordenadas do vetor ~x, W é um espaço de parâmetros ajustáveis por meio
de um algoritmo de indução não supervisionada definido por W = arg_ minW dist(~xp , ~xq ),
sendo p e q os índices de dois exemplares quaisquer e distintos associados a um mesmo
grupo. Três condições são necessárias para definição de um agrupamento:
• I. Ck 6= ∅, k = 1, ..., c;
• II. Ck ∩ Cl = ∅, k, l = 1, ..., c e k 6= l.
• III. ∪ck=1 Ck = X;
tal que, a formação de um agrupamento preconiza a existência de grupos distintos (I), sem
interseções (II) e que abranjam todo o conjunto de dados (III). A Figura 1 apresenta o
agrupamento de três bases de dados (GIONIS; MANNILA; TSAPARAS, 2007; CHANG;
YEUNG, 2008). Apesar da variação nas características dos dados, como a distribuição e
6 Capítulo 2. Referencial Teórico
Estes índices são mensurados por critérios que podem ser externos, levando em
consideração algum conhecimento prévio sobre os dados, como por exemplo conjuntos de
dados com estruturas já conhecidas (HALKIDI; BATISTAKIS; VAZIRGIANNIS, 2001;
FACELI et al., 2011); internos, cujas métricas envolvem apenas os próprios dados dos grupos
(e.g. matriz de proximidade); ou relativos, onde o agrupamento avaliado é comparado com
outros esquemas de agrupamento, resultantes do mesmo algoritmo, mas com parâmetros
de entrada diferentes (HALKIDI; BATISTAKIS; VAZIRGIANNIS, 2001).
É importante ressaltar que quando se faz análise de agrupamento para de fato
explorar um determinado conjunto de dados e extrair conhecimento desse conjunto, nada
8 Capítulo 2. Referencial Teórico
se sabe sobre sua(s) estrutura(s) (FACELI et al., 2011), dificultando o uso adequado dos
índices de validação. Os critérios externos e internos, por exemplo, são baseados em testes
estatísticos e têm um alto custo computacional, tendo como principal objetivo confirmar
uma hipótese pré-especificada, o que requer o estabelecimento de uma população base ou
de referência (BERRY; LINOFF, 1996; FACELI et al., 2011). Por outro lado, os índices
relativos objetivam comparar o comportamento de algoritmos com respeito a variação dos
parâmetros de entrada e não podem ser utilizados como medidas absolutas de qualidade
do agrupamento.
onde:
• k é o número de grupos;
• gi é um grupo qualquer;
• m é a dimensão do problema;
• Grupo 1: grupo de plantas com Largura da Pétala (Petal Width - PW) entre 0,1 e
1,0 cm e Comprimento da Pétala (Petal Length - PL) entre 1,0 e 3,7 cm.
• Grupo 2: plantas com Comprimento da Pétala (Petal Length - PL) entre 3,7 e 5,1
cm.
• Grupo 3: plantas com Comprimento da Pétala (Petal Length - PL) entre 5,1 e 6,9
cm e Largura da Pétala (Petal Width - PW) entre 1,7 e 2,5 cm.
2004). Essa perda é calculada pelo método dos mínimos quadráticos que estima w0 e
w1 através da minimização da soma dos quadrados do erros de predição das amostras
(resíduos). Dada a função de perda quadrática 2.1, podemos encontrar o ajuste ideal do
modelo w∗ = argminw P (hw ) igualando a zero as derivadas parciais da função em relação
a w0 e w1 , como mostram as equações 2.2 e 2.3.
N
(yi − (w0 + w1 xj ))2
X
P (hw ) = (2.1)
j=1
N
∂ X
(yi − (w0 + w1 xj ))2 = 0 (2.2)
∂w0 j=1
N
∂ X
(yi − (w0 + w1 xj ))2 = 0 (2.3)
∂w1 j=1
yj − w1
P P
xj
w0 = (2.4)
N
N ( xj y j ) − xj y j
P P P
w1 = (2.5)
N ( x2j ) − ( xj )2
P P
Neste caso, o vetor de pesos w ajustado pode ser calculado analiticamente por
w = (X T X)−1 X T y, onde X é a matriz de dados, ou seja, a matriz de entradas com um
∗
exemplo n dimensional. Apesar de ser o mais comum, e também o mais simples, existem
outros métodos de estimação do vetor w∗ e da função h, como por exemplo, o método
implementado pelo algoritmo ε-SVR.
1
min kwk2 (2.6)
2
com as restrições:
y i − w · xi − b ≤ ε
(2.7)
w · x i + b − yi ≤ ε
n
1
kwk2 + C( ξi + ξ¯i )
X
min (2.8)
2 k=1
com as restrições:
yi − w · xi − b ≤ ε + ξ
w · xi + b − yi ≤ ε + ξ¯ (2.9)
ξi , ξ¯i ≥ 0
Figura 6 – Ajuste do modelo ε-SVR com uso de kernel RBF para regressão de dados não
linearmente distribuídos.
• Uma observação válida, mas excepcional, explicável por uma situação extraordinária
• Uma observação excepcional sem explicação convincente (quando faltam razões tanto
para manter quanto para excluir a amostra)
3 Trabalhos Relacionados
obtidos representaram entre 90% e 98,68% dos elementos dos grupos. Além disso, o TE é
de 57 elementos, considerando as três bases de dados utilizadas, gerando um erro médio
de 3,59%.
Os autores mencionam o fato de que, caso todos os atributos do conjunto de dados
possuam interseções entre os grupos para todos os valores de GS, nenhum atributo será
suficiente para distinguir os elementos de forma única, não sendo possível rotular os grupos.
Esta conclusão também se aplica ao modelo de Machado, Ribeiro e Rabêlo (2015).
Outra observação aplicável à ambos trabalhos é a de que o cálculo da pertinência
com base na distância ao centroide dos grupos ocasiona a seleção dos elementos de maneira
radial, ou seja, a medida que o GS é incrementado, os elementos vão sendo excluídos da
seleção em todas as direções, mesmo naquelas em que não há interseções.
O modelo de rotulação mais recente da literatura (CAIBAL - Cluster-Attribute
Interdependency Based Automatic Labeler) foi proposto por Moura (2020). Seu principal
objetivo é mitigar a perda de informação por dissociação de valores de alta frequência ad-
jacentes no processo de discretização durante a escolha dos pontos de corte – relacionando
seu trabalho com o modelo proposto por Lopes, Machado e Rabêlo (2013) que também
utiliza a etapa de discretização. Para isso, o autor faz uso do algoritmo de discretização
supervisionado CAIM (Class-Attribute Interdependency Maximization), utilizando a infor-
mação de grupo como classe, aliado a uma etapa prévia à discretização na qual somente
os valores de atributos com menor ocorrência na base de dados são selecionados como
possíveis pontos de corte.
A etapa de discretização do modelo estabelece os intervalos de valores dos atributos
que poderão compor os rótulos. Então, o modelo sugere dois métodos para escolha de quais
desses intervalos irão de fato para os rótulos. No primeiro, chamado de método padrão,
considera-se apenas o atributo cujo intervalo selecionado pela discretização apresenta
maior acurácia no grupo, dada pela razão entre a quantidade de elementos do grupo
pertencentes ao intervalo do atributo e o número total de elementos do grupo. A exceção
ocorre quando um mesmo par atributo-intervalo é escolhido para mais de um grupo, sendo
necessária a adição de outro componente ao rótulo. Esse método pode ser limitante quanto
a quantidade de informações evidenciadas pelos rótulos sobre os grupos, de modo que um
segundo método de seleção é proposto. Neste método, chamado de método alternativo,
o autor utiliza o mesmo parâmetro V apresentado em Lopes, Machado e Rabêlo (2013)
aplicado às acurácias dos intervalos dos atributos, selecionando um número maior de pares
para os rótulos.
O modelos é avaliado pela acurácia média dos intervalos dos atributos associados
aos rótulos ao rotular 5 bases de dados da literatura, obtendo acurácia média de 98,49%
com o método padrão e 97,33% utiizando o método alternativo, aplicado em 3 das 5
bases de dados. O método padrão, cujo desempenho supera o método alternativo, tem
20 Capítulo 3. Trabalhos Relacionados
sua limitação discutida pelo autor. Ao prezar pela quantidade mínima de elementos nos
rótulos – idealmente um par por rótulo de grupo, o método tende a fornecer informações
insuficientes para uma interpretação abrangente sobre os grupos. Por sua vez, o uso do
método alternativo é desencorajado quando os rótulos dos grupos apresentam muitos
pares atributo–intervalo em comum, mesmo que diferenciados por pelo menos um par,
permitindo a interpretação de que os grupos não possam apresentar característica em
comum, ou mesmo que estas características não sejam relevantes.
Além dos trabalhos que propõem modelos de rotulação, Araujo, Veras e Machado
(2019) utiliza os rótulos para o treinamento de um classificador baseado em Lógica Fuzzy
a fim de atribuir novas amostras aos grupos iniciais com base nas características extraídas
pelos rótulos.
Em todos os trabalhos relacionados, a avaliação dos rótulos é feita em relação
aos grupos para os quais os rótulos foram desenvolvidos. Porém, não há nos trabalhos
abordagens que mostrem que os rótulos não possam ser empregados a outros grupos, o que
violaria a definição do problema da rotulação que limita cada rótulo específico à expressão
do grupo associado.
21
4 Modelo Proposto
4.1.1 Regressão
Para determinar a relevância dos pares atributo-valor, a primeira etapa do modelo
de rotulação proposto utiliza um conjunto de m modelos de regressão M R = {M Rl }|m l=1 ,
onde m é o número de características do problema. Cada modelo é treinado para predição
de um atributo, utilizando os demais atributos como entrada.
Para evitar problemas relacionados ao uso de diferentes escalas entre os atributos,
os elementos são normalizados utilizando o método MinMax descrita na Equação 4.1 no
intervalo entre 0 e 1, onde a0j,l é o valor normalizado da componente aj,l de um elemento ~ej
do problema, referente ao atributo atrl ; minatrl é o valor mínimo e maxatrl o valor máximo
do atributo.
aj,l − minatrl
a0j,l = (4.1)
maxatrl − minatrl
Figura 8 – Modelos de regressão para predição dos atributos da base de dados Íris.
(g )
As médias calculadas compõem um vetor de erros médios ~atri l , segundo as Equações
4.2 e 4.3, onde:
(g ) (g )
• Datri l = {ad,l }|nd
d=1
i
é o conjunto de nd(gi) valores distintos de um atributo atrl no
grupo gi
• |aj,l 0 − apredj,l | é o módulo da diferença entre o valor esperado e o valor predito para
o atributo atrl na instância ~ej
(g ) (g )
~atri l = (ad ,l )∀ad,l ∈ Datri l (4.2)
N
1 X
ad,l = |a0 − apredj,l |, ∀ aj,l = ad,l (4.3)
N j=1 j,l
grupo1
No exemplo da Tabela 1, o Grupo 1 apresenta 6 valores distintos, tal que DCS =
grupo1
{4, 4, 4, 6, 4, 7, 4, 9, 5, 0, 5, 1, 5, 4}. Para cada valor em DCS , calcula-se a média do erro
de predição de acordo com a Equação 4.3, resultando no vetor ~grupo1 CS = (0,05, 0,09, 0,02,
0,05, 0,06, 0,02, 0,06).
Analogamente, o Grupo 2 apresenta 10 valores distintos que compõem o conjunto
grupo2
DCS = { 4,9, 5,2, 5,5, 5,7, 6,3, 6,4, 6,5, 6,6, 6,9, 7,0}, resultando no vetor ~grupo2
CS =
(0,02, 0,04, 0,10, 0,16, 0,06, 0,02, 0,15, 0,06, 0,08, 0,10). Por fim, para o Grupo 3, com 9
grupo3
valores distintos, tem-se DCS = { 4,9, 5,8, 6,3, 6,5, 6,7, 7,1, 7,2, 7,3, 7,6} e ~grupo3
CS =
(0,14, 0,03, 0,12, 0,01, 0,04, 0,10, 0,05, 0,07, 0,03).
A Figura 9 apresenta a distribuição gráfica do erro médio para cada ponto distinto
do atributo CS em cada grupo, dados pelos vetores ~grupo1
CS ,~grupo2
CS e ~grupo3
CS , com base nas
instâncias da Tabela 1.
Aplicando o mesmo processo a todas as instâncias da base de dados, obtém-se a
distribuição do erro médio em cada grupo descrita na Figura 10.
A função do erro pode então ser calculada para todo o domínio do atributo em
cada grupo através da interpolação polinomial (MULLER, 2006) dos pontos formados
(g ) (g )
pelos elementos de Datri l e os respectivos erros médios ~atri l associados: (x, y) = (ad,l , ad,l ).
O conjunto de funções aproximadas do erro médio de predição de um atributo atrl é dado
por Fatrl = {fgi }|ki=1 . A Figura 11 exemplifica o conjunto de funções FCS .
4.1. Etapa I - Definição dos pares atributo-intervalo 25
Figura 9 – Erro médio da predição do atributo Comprimento da Sépala por grupo para
amostra da Tabela 1.
Z b
ginter
i
= f gi (4.4)
a
Figura 11 – Aproximação polinomial das funções de erro médio das predições do atributo
Comprimento da Sépala por grupo.
início e fim das funções, e os pontos de intersecção entre elas. No exemplo do atributo CS,
esses limites são os pontos 4,3, 4,9, 5,46, 5,69, 5,8, 6,07, 7,0 e 7,9, como mostra a Figura
12. O conjunto de intervalos do atibuto é formado pela combinação de cada dois limites
consecutivos, tal que Iatrl = {interv }|Lv=1 , em que um intervalo é formado pelos limites
de mínimo e máximo interv = [minv , maxv ], e L é o número de intervalos do conjunto.
No exemplo do atributo CS, o conjunto de intervalos é dado por ICS ={[4,3, 4,9],[4,9,
5,46],[5,46, 5,69], [5,69, 5,8], [5,8, 6,07] ,[6,07, 7,0], [7,0, 7,9]}.
Para cada intervalo interv , calcula-se o erro estimado para todas as funções fgi
com domínio em interv , valor atribuído à variável ginter
i
v
, utilizando como limites os pontos
de mínimo e máximo do intervalo aplicados à Equação 4.4.
A partir dos erros estimados, determina-se quais intervalos podem ser relevantes
4.1. Etapa I - Definição dos pares atributo-intervalo 27
Tabela 2 – Intervalos associados a cada atributo por grupo na base de dados Íris.
(g )
n({~ej }|nj=1i |pl ≤ aj,l ≤ ql )
precisãoatrl ,gi = (4.6)
n(gi )
Para garantir que o rótulo rgi represente especificamente o grupo gi (restrição 2),
calcula-se também a representatividade do rótulo para os demais grupos (gi0 ), adicionando
tantos pares atributo-intervalo quanto necessário para que a representatividade de um rótulo
para qualquer grupo gi0 seja de até um threshold t, idealmente pequeno, fornecido como
parâmetro. A representatividade de um rótulo r pra um grupo g, ou Taxa de Concordância
n( g)
(T Cr,g ), é dada pela Equação 4.7, onde n({~ej }|j=1 |pl ≤ aj,l ≤ ql ∀(atrl , [pl , ql ]) ∈ r) é
o número de elementos ~ej do grupo g em que todas as componentes aj,l pertencem ao
4.2. Etapa II - seleção dos pares atributo–intervalo 29
(g)
n({~ej }|nj=1 |pl ≤ aj,l ≤ ql ∀(atrl , [pl , ql ]) ∈ r)
T Cr,g = (4.7)
n(g)
Tabela 3 – Precisão dos intervalos de cada atributo por grupo para a base de dados Íris.
Como mostra a T Crg2 ,g3 = 0, 32, o Grupo 3 também é representado pelo rótulo rg2 ,
ou seja, T Crg2 ,g3 ≥ t, fazendo-se necessário uma segunda iteração. Assim, na iteração 2,
adiciona-se o próximo par (LP, [1,0 - 1,8]), recalcula-se a Taxa de Concordância do rótulo
para todos os grupos e verifica-se a satisfação das restrições. O rótulo do Grupo 2 é então
definido por rg2 = {(CP, [3, 0 − 5, 1]), (LP, [1, 0 − 1, 8])}.
Para o Grupo 3 (g3) as restrições são satisfeitas na primeira iteração, como mostra
a Tabela 6, resultando no rótulo do grupo dado por rg3 = {(CP, [4, 85 − 6, 9])}.
4.3 Parâmetros
4.3.1 Parâmetro d: diferença máxima entre as curvas
O parâmetro d permite a identificação de intervalos relevantes para rotulação de
grupos distintos, limitando a diferença entre o erro estimado das predições em um intervalo
para que este possa ser atribuído a mais de um grupo. A ausência do parâmetro, ou d = 0,
implica na atribuição de cada intervalo a um único grupo, mesmo que o erro estimado
seja igual para grupos distintos.
Ao aumentar o valor do parâmetro, os intervalos tendem a ser atribuídos a mais
grupos. Por consequente, os intervalos finais tendem a ser mais longos, uma vez que
sequências maiores de intervalos iniciais serão concatenados. Isto implica em interseções
maiores entre os intervalos finais dos grupos, como mostra a Figura 14.
Interseções maiores ocasionam Taxas de Concordância maiores para os rótulos
nos demais grupos que não os seus, resultando na necessidade de um número maior de
pares atributo-intervalo por rótulo para distinguir os grupos. No pior cenário, para um
4.3. Parâmetros 31
5 Resultados e Discussão
5.1 Iris
O processo de rotulação desta base de dados foi utilizado como exemplo para
explicar o modelo proposo na Seção 4. A Tabela 7 exibe os resultados para rotulação
variando o parâmetro d. Como discutido na subseção 4.3, o aumento do parâmetro d
ocasiona o aumento do número de elementos necessários nos rótulos para distinguir os
grupos, o que pode ser visto na tabela.
Taxa de
No de pares
Concordância Taxa de
d por rótulo
por Grupo Concordância
G1 G2 G3 Média G1 G2 G3
0,1 1,0 1,0 0,94 0,98 1 2 1
0,2 - 0,3 1,0 1,0 0,90 0,97 1 2 2
0,4 1,0 1,0 0,86 0,95 1 2 3
0,5 - 0,6 1,0 1,0 0,88 0,96 1 2 3
0,7 - 1,0 1,0 1,0 0,90 0,97 1 2 3
Rótulo Taxa de
Grupo
Atributo Intervalo Concordância
1 CP [1,0 - 1,9] 1,0
CP [3,0 - 5,1]
2 1,0
LP [1,0 - 1,8]
3 CP [4,85 - 6,9] 0,94
Tabela 9 – Taxa de Concordância dos rótulos por grupo para base de dados Íris.
Além disso, a descrição fornecida por cada rótulo é específica para seu respectivo
grupo, ou seja, ao descrever um grupo através de um rótulo que não o seu, o acerto seria
de no máximo 0,16.
5.2 Sementes
Para a base de dados Sementes, o resultado da variação do parâmetro d na rotulação
dos grupos é exposto na Tabela 10. Em relação Taxa de Concordância, a melhor rotulação
dá-se para d = 1, 0, com uma média de acerto de 0, 97. Entretanto, o rótulo obtido utiliza
9 componentes, o que pode dificultar a interpretação do agrupamento.
Ao priorizar um número menor de elementos por rótulo, o melhor resultado é
obtido quando d = 0, 1, em que a rotulação utiliza apenas 6 componentes e a Taxa de
Concordância é de 0, 9, resultando em uma perda de 7, 22% na Concordância.
Os rótulos apresentados na Tabela 11 prezam pelo melhor desempenho do modelo
no critério de Taxa de Concordância e foram obtidos utilizando d = 1, 0. As Taxas de
Concordância dos rótulos dos grupos variam entre 0, 9 e 1, 0.
Para o atributo Área (A), presente no rótulo dos três grupos, é possível identificar
a interseção do intervalo atribuído ao Grupo 1 com os grupos 2 e 3, o que justifica a
necessidade de adição de mais elementos ao rótulo. É importante ressaltar que, apesar
de não aparecerem nos rótulos dos outros grupos, os demais pares (com exceção de CA)
também representam mais de 20% dos elementos de algum dos demais grupos, o que dá
continuidade a adição de elementos. Por fim, a adição do par do atributo CA especifica o
rótulo para o Grupo 1.
36 Capítulo 5. Resultados e Discussão
Taxa de
No de pares
Concordância Taxa de
d por rótulo
por Grupo Concordância
G1 G2 G3 Média G1 G2 G3
0,1 0,87 0,87 0,96 0,9 2 2 2
0,2 0,77 0,90 0,91 0,86 4 2 3
0,3 0,81 0,96 0,91 0,89 4 1 3
0,4 - 0,5 0,83 0,96 0,91 0,89 4 3 3
0,6 - 0,7 0,84 1,0 1,0 0,95 5 1 2
0,8 0,79 1,0 1,0 0,93 6 1 2
0,9 0,86 1,0 1,0 0,95 6 1 2
1,0 0,9 1,0 1,0 0,97 7 1 1
Rótulo Taxa de
Grupo
Atributo Intervalo Concordância
CS [2,85 - 3,68]
A [11,23 - 17,08]
LS [4,90 - 6,05]
1 CSS [4,52 - 5,88] 0,90
P [12,63 - 15,46]
D [0,85 - 0,92 ]
CA [0,77 - 4,16]
2 A [15,38 - 21,18] 1,0
3 A [10,59 - 13,37] 1,0
• No grupo 2, de sementes do tipo Rosa, 100% dos elementos têm área entre 15,38 e
21,18 cm.
• No grupo 3, de sementes do tipo Canadian, 100% dos elementos têm área entre 10,59
e 13,37 cm.
Com base nos resultados da Tabela 12 também pode-se afirmar que os rótulos são
específicos para os grupos, uma vez que o acerto ao descrever um grupo através de um
rótulo que não o seu é de no máximo 0,2.
Tabela 12 – Taxa de Concordância dos rótulos por grupo para base de dados Sementes.
Taxa de
No de pares
Concordância Taxa de
d por rótulo
por Grupo Concordância
G1 G2 Média G1 G2
0,1 0,98 0,73 0,85 3 2
0,2 - 0,3 0,98 0,91 0,94 3 2
0,4 0,98 0,91 0,94 4 2
0,5 - 0,8 0,98 0,96 0,97 4 2
0,9 - 1,0 0,98 0,96 0,97 5 3
Rótulo Taxa de
Grupo
Atributo Intervalo Concordância
UFC [1,0 - 8,0]
M [1,0 - 8,0]
1 0,98
ND [1,0 - 6,36]
EA [1,0 - 6,13]
M [1,0 - 10,0]
2 0,96
UFC [2,91 - 10,0]
Tabela 15 – Taxa de Concordância dos rótulos por grupo para base de dados Câncer de
Mama.
Por fim, o rótulo fornece uma interpretação dos grupos, tal que:
• O grupo 1, de amostras benígnas, é composto por elementos que, em 98% dos casos,
apresentam uniformidade do formato da célula entre 1,0 e 8,0, de 1,0 à 8,0 mitoses,
núcleo descoberto entre 1, e 6,36 e espessura do aglomerado entre 1,0 e 6,13.
(2016), Imperes Filho et al. (2020) e Moura (2020), considerando a concordância média dos
rótulos e o número de pares atributo-intervalo que os compõem. A Tabela 16 apresenta os
valores obtidos.
2020 2021
Atividades
OUT NOV DEZ JAN FEV MAR
Revisão bibliográfica X X X X X
Aplicação do modelo em bases
X X
de dados maiores
Verificação da hipótese de identificação
X X
de outliers com base na rotulação
Defesa da dissertação X
43
Referências
BACHE, K.; LICHMAN, M. (UCI) Machine Learning Repository. 2013. Disponível em:
<http://archive.ics.uci.edu/ml>. 21, 33
BERRY, M.; LINOFF, G. Data Mining Techniques For Marketing, Sales and Customer
Support. [S.l.]: John Wiley Sons, Inc., 1996. 7, 8
BHARILL, N.; TIWARI, A.; MALVIYA, A. Fuzzy based scalable clustering algorithms for
handling big data using apache spark. IEEE Transactions on Big Data, IEEE, v. 2, n. 4,
p. 339–352, 2016. 1
CHANG, H.; YEUNG, D.-Y. Robust path-based spectral clustering. Pattern Recognition,
v. 41, p. 191–203, 01 2008. 5
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. The kdd process for extracting
useful knowledge from volumes of data. Commun. ACM, Association for Computing
Machinery, New York, NY, USA, v. 39, n. 11, p. 27–34, nov. 1996. ISSN 0001-0782.
Disponível em: <https://doi.org/10.1145/240455.240464>. 1
GIONIS, A.; MANNILA, H.; TSAPARAS, P. Clustering aggregation. ACM Trans. Knowl.
Discov. Data, Association for Computing Machinery, New York, NY, USA, v. 1, n. 1, p. 4–es,
mar. 2007. ISSN 1556-4681. Disponível em: <https://doi.org/10.1145/1217299.1217303>.
5
HAIR, J. et al. Análise multivariada de dados - 6ed. Bookman, 2009. ISBN 9788577805341.
Disponível em: <https://books.google.com.br/books?id=oFQs\_zJI2GwC>. 6, 7, 11, 14
HAN, J.; KAMBER, M.; PEI, J. Data Mining: Concepts and Techniques. 3rd. ed. San
Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 2011. ISBN 0123814790. 1
HERBRICH, R. Learning kernel classifiers: theory and algorithms. [S.l.]: MIT press, 2001.
14
HSU, C.-W.; CHANG, C.-C.; LIN, C.-J. A Practical Guide to Support Vector Classification.
[S.l.], 2003. Disponível em: <http://www.csie.ntu.edu.tw/~cjlin/papers.html>. 14
HU, H. et al. Toward scalable systems for big data analytics: A technology tutorial. IEEE
access, IEEE, v. 2, p. 652–687, 2014. 1
IMPERES Filho, F. et al. Group labeling methodology using distance-based data grouping
algorithms. Revista de Informática Teórica e Aplicada, v. 27, n. 1, p. 48–61, 2020. 2, 10,
18, 39
JAIN, A. K. Data clustering: 50 years beyond k-means. Pattern Recognit. Lett., v. 31, p.
651–666, 2010. 1, 6
JAIN, A. K.; DUBES, R. C. Algorithms for Clustering Data. USA: Prentice-Hall, Inc.,
1988. ISBN 013022278X. 7
LOPES, L. et al. Automatic labelling of clusters of discrete and continuous data with
supervised machine learning. Knowledge-Based Systems, v. 106, 05 2016. 2, 17, 39
PATTERSON, J.; GIBSON, A. Deep Learning: A Practitioner’s Approach. 1st. ed. [S.l.]:
O’Reilly Media, Inc., 2017. ISBN 1491914254. 11
RUSSELL, S.; NORVIG, P. Artificial Intelligence: A Modern Approach. [S.l.: s.n.], 2004.
12
SOUSA, J. M. et al. Automatic labelling of clusters with discrete and continuous data
using supervised machine learning. In: IEEE. 2016 35th International Conference of the
Chilean Computer Science Society (SCCC). [S.l.], 2016. p. 1–10. 17