Qualificação

Universidade Federal do Piauí
Centro de Ciências da Natureza

Programa de Pós-Graduação em Ciência da Computação
Rotulação Automática de Grupos Baseada em

Análise de Erro de Regressão
Lúcia Emília Soares Silva
Número de Ordem PPGCC: M001

Teresina-PI, Setembro de 2020
Rotulação Automática de Grupos Baseada em Análise de

Erro de Regressão
Qualificação de Mestrado apresentada ao

Programa de Pós-Graduação em Ciência da
Computação da UFPI (área de concentração:
Sistemas de Computação), como parte dos re-
quisitos necessários para a obtenção do Título
de Mestre em Ciência da Computação.
Universidade Federal do Piauí – UFPI

Programa de Pós-Graduação em Ciência da Computação
Orientador: Vinicius Ponte Machado

Coorientador: Rodrigo de Melo Souza Veras
Teresina-PI
Setembro de 2020
Rotulação Automática de Grupos Baseada em Análise de Erro de Regressão /
Lúcia Emília Soares Silva. – Teresina-PI, Setembro de 2020-
45 p. : il. (algumas color.) ; 30 cm.
Orientador: Vinicius Ponte Machado
Qualificação (Mestrado) – Universidade Federal do Piauí – UFPI

Programa de Pós-Graduação em Ciência da Computação, Setembro de 2020.
1. Palavra-chave1. 2. Palavra-chave2. I. Orientador. II. Universidade xxx. III.
Faculdade de xxx. IV. Título
CDU 02:141:005.7
Rotulação Automática de Grupos Baseada em Análise de

Erro de Regressão
Qualificação de Mestrado apresentada ao

Programa de Pós-Graduação em Ciência da
Computação da UFPI (área de concentração:
Sistemas de Computação), como parte dos re-
quisitos necessários para a obtenção do Título
de Mestre em Ciência da Computação.
Trabalho aprovado. Teresina-PI, 25 de setembro de 2020:
Vinicius Ponte Machado

Orientador
Rodrigo de Melo Souza Veras

Co-Orientador
Ricardo de Andrade Lira Rabêlo

Examinador Interno
Teresina-PI
Setembro de 2020
Aos pesquisadores e pesquisadoras que tornaram esse trabalho possível; e àqueles a quem
este possa ajudar.
Resumo
Os Modelos de Rotulação de Grupos propõem a aplicação de técnicas de Inteligência
Artificial para extração das principais características dos grupos, a fim de fornecer uma
ferramenta para interpretação de agrupamentos oriundos dos mais diversos tipos de
algoritmos de clustering. Para isso, diferentes técnincas, como Aprendizagem de Máquina,
Lógica Fuzzy e discretização de dados são utilizadas na identificação dos atributos mais
relevantes para formação dos grupos e dos intervalos de valores associados a eles. Esse
trabalho apresenta um modelo de rotulação de grupos baseado no uso de regressão para
delimitação de intervalos de valores dos atributos que revelem os pares atributo-intervalo
que melhor resumem os grupos. A relevância de um atributo para o agrupamento é
determinada pelos intervalos de valores dos atributos em que o erro de predição da
regressão é mínimo, resultando em rótulos específicos e capazes de representar a maioria
dos elementos dos grupos. Os resultados obtidos nos experimentos mostram que o modelo
é eficaz em rotular os grupos, apresentando Taxas de Concordâncias entre 0,90 e 1,0 para
as bases de dados utilizadas, além de garantir rótulos exclusivos para cada grupo por meio
da análise da Taxa de Concordância dos rótulos em grupos distintos.
Palavras-chaves: Análise de agrupamento. Interpretação de grupos. Aprendizagem de

Máquina.
Abstract
Cluster Labeling Models apply Artificial Intelligence techniques to extract the main char-
acteristics of data partitioned into clusters, in order to provide a tool for the interpretation
of the clustering. For this, different techniques, such as Machine Learning, Fuzzy Logic,
and Data Discretization, are used to identify the most important attributes for forming
clusters and the ranges of values associated with them. This paper presents a Cluster
Labeling Model based on the use of regression to delimit the ranges of values of attributes
that reveal the attribute–range pairs that best summarize the groups. In the proposed
model, the importance of an attribute to the clustering is determined by the ranges of
the values of the attributes with which the prediction error of the regression is minimal,
resulting in specific labels and capable of representing the majority of the elements of
the groups. The results obtained in the experiments show that the model is effective,
providing labels that represent between 90% and 100% of the elements of the clusters for
the databases used, in addition to guaranteeing exclusive labels for each cluster.
Keywords: Clustering interpretation. Cluster analysis. Machine Learning.

Lista de ilustrações
Figura 1 – Exemplos de agrupamentos . . . . . . . . . . . . . . . . . . . . . . . . 6

Figura 2 – Representação gráfica de grupos com diferentes compacidades e separa-
bilidades. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Figura 3 – Ilustração de um rótulo. . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Figura 4 – Rotulação da base de dados Íris. . . . . . . . . . . . . . . . . . . . . . 10
Figura 5 – Exemplo de regressão usando Support Vector Regression . . . . . . . . 13
Figura 6 – Ajuste do modelo ε-SVR com uso de kernel RBF para regressão de
dados não linearmente distribuídos. . . . . . . . . . . . . . . . . . . . . 15
Figura 7 – Fluxograma do modelo proposto. . . . . . . . . . . . . . . . . . . . . . 21
Figura 8 – Modelos de regressão para predição dos atributos da base de dados Íris. 23
Figura 9 – Erro médio da predição do atributo Comprimento da Sépala por grupo
para amostra da Tabela 1. . . . . . . . . . . . . . . . . . . . . . . . . . 25
Figura 10 – Erro médio da predição do atributo Comprimento da Sépala por grupo. 25
Figura 11 – Aproximação polinomial das funções de erro médio das predições do
atributo Comprimento da Sépala por grupo. . . . . . . . . . . . . . . . 26
Figura 12 – Delimitação dos intervalos iniciais do atributo Comprimento da Sépala. 26
Figura 13 – Atribuição dos intervalos do atributo Comprimento da Sépala aos grupos. 27
Figura 14 – Atribuição dos intervalos do atributo Comprimento da Sépala aos grupos
conforme a variação do parâmetro d. . . . . . . . . . . . . . . . . . . . 31
Lista de tabelas
Tabela 1 – Predição do atributo Comprimento da Sépala. . . . . . . . . . . . . . . 23

Tabela 2 – Intervalos associados a cada atributo por grupo na base de dados Íris. 28
Tabela 3 – Precisão dos intervalos de cada atributo por grupo para a base de dados
Íris. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Tabela 4 – Rotulação do Grupo 1 da base de dados Íris. . . . . . . . . . . . . . . 29
Tabela 7 – Variação do parâmetro d na base de dados Íris. . . . . . . . . . . . . . 34
Tabela 8 – Rótulos dos grupos para base de dados Íris. . . . . . . . . . . . . . . . 34
Tabela 9 – Taxa de Concordância dos rótulos por grupo para base de dados Íris. . 35
Tabela 10 – Variação do parâmetro d na base de dados Sementes. . . . . . . . . . . 36
Tabela 11 – Rótulos dos grupos para base de dados Sementes. . . . . . . . . . . . . 36
Tabela 12 – Taxa de Concordância dos rótulos por grupo para base de dados Sementes. 37
Tabela 13 – Variação do parâmetro d na base de dados Câncer de Mama. . . . . . 37
Tabela 14 – Rótulos dos grupos para base de dados Câncer de Mama. . . . . . . . 38
Tabela 15 – Taxa de Concordância dos rótulos por grupo para base de dados Câncer
de Mama. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Tabela 16 – Comparativo entre os Modelos de Rotulação. . . . . . . . . . . . . . . 39
Tabela 17 – Cronograma de atividades. . . . . . . . . . . . . . . . . . . . . . . . . . 42
Sumário
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 Motivação e Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Estrutura do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 REFERENCIAL TEÓRICO . . . . . . . . . . . . . . . . . . . . . . . 5
2.1 Agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1 Validação de agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Rotulação de Grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Análise de Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3.1 Regressão linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3.2 Support Vector Regression . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.3 ε-SVR aplicado a problemas não lineares . . . . . . . . . . . . . . . . . . 14
2.3.4 Análise de resíduos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3 TRABALHOS RELACIONADOS . . . . . . . . . . . . . . . . . . . . 17
4 MODELO PROPOSTO . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.1 Etapa I - Definição dos pares atributo-intervalo . . . . . . . . . . . . 22
4.1.1 Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.1.2 Cálculo das funções de erro . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.1.3 Delimitação dos intervalos de valores . . . . . . . . . . . . . . . . . . . . . 25
4.2 Etapa II - seleção dos pares atributo–intervalo . . . . . . . . . . . . . 28
4.3 Parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.3.1 Parâmetro d: diferença máxima entre as curvas . . . . . . . . . . . . . . . 30
4.3.2 Parâmetro t: erro aceitável . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5 RESULTADOS E DISCUSSÃO . . . . . . . . . . . . . . . . . . . . . 33
5.1 Iris . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.2 Sementes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.3 Câncer de Mama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.4 Comparativo entre os modelos . . . . . . . . . . . . . . . . . . . . . . 38
6 CONCLUSÕES E CONTINUIDADE DA PESQUISA . . . . . . . . . 41

6.0.1 Continuidade da pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
1
1 Introdução
Em vista da grande quantidade de dados produzidos por empresas e serviços das

mais diversas áreas, a análise de dados tem sido um campo de estudo e pesquisas em
destaque nos últimos anos (HU et al., 2014). Isto porque a análise das características
presentes em um conjunto de dados permite a descoberta de padrões e tendências que
podem fornecer informações valiosas sobre os dados em questão (FAYYAD; PIATETSKY-
SHAPIRO; SMYTH, 1996), auxiliando a compreensão do processo que os gerou (FACELI
et al., 2011) e guiando as de tomadas de decisões associadas aos dados.
Diferentes métodos tem sido utilizados na análise de dados, muitos deles provenien-
tes da Aprendizagem de Máquina (AM). Neste cenário, o problema do agrupamento tem
sido considerado um dos mais relevantes dentre aqueles existentes na área de pesquisa da
aprendizagem não supervisionada, subárea da AM (BHARILL; TIWARI; MALVIYA, 2016),
considerando principalmente a prevalência de grandes volumes de dados não rotulados nas
aplicações reais (HALKIDI et al., 2008).
O agrupamento consiste no processo automático de separar um conjunto de dados
em subconjuntos menores, denominados grupos, de acordo com as características dos dados.
Desta forma, objetos com maior similaridade tendem a pertencer a um mesmo grupo,
enquanto objetos com características diferentes tendem a pertencer a grupos distintos
(JAIN, 2010). Os estudos sobre agrupamento discutem diferentes aspectos, tais como:
conceito, dimensionalidade, número de grupos, seleção de atributos, medidas de similaridade
(JAIN, 2010), representação do conhecimento, não-linearidade, ruídos, interpretabilidade e
usabilidade (HAN; KAMBER; PEI, 2011), entre outros.
Um dos mais importantes fatores a influenciarem um agrupamento é a representação
escolhida para os dados, ou seja, a seleção dos atributos envolvidos no agrupamento; de
modo que uma boa representação dos dados resulta em grupos isolados e compactos (JAIN,
2010). Estes dois aspectos são utilizados pelos algoritmos de validação de agrupamento
através de duas métricas: a similaridade dos dados dos grupos – quão compactos – e a
dissimilaridade de dados inter-grupos – quão isolados – com base em medidas de distância
e/ou estatísticas (SILVA; PERES; BOSCARIOLI, 2016).
Estas medidas, apesar de eficientes ao mesurar a qualidade do agrupamento, não
avaliam o conteúdo dos grupos e as características predominantes nos mesmos, fatores
diretamente relacionadas com a seleção de atributos destacada na literatura. Desse modo,
negligencia-se a compreensão dos grupos formados, ou seja, a interpretabilidade dos grupos
e usabilidade dos conhecimentos obtidos, o que é de fato o objetivo ao desempenhar um
agrupamento (HAN; KAMBER; PEI, 2011)
2 Capítulo 1. Introdução
Deste modo, pesquisas tem sido desenvolvidas com o objetivo de analisar o agru-
pamento com foco nas característica dos dados (LOPES; MACHADO; RABêLO, 2013;
MACHADO; RIBEIRO; RABêLO, 2015; IMPERES Filho et al., 2020; MOURA, 2020),
uma tarefa denominada Rotulação de Grupos. A rotulação sumariza as características
comuns dos elementos dos grupos em um rótulo, facilitando o entendimento e interpretação
sobre dados através dos valores apresentados pelas características mais importantes de
seus elementos (LOPES et al., 2016), podendo ser apresentado como uma ferramenta de
auxílio ao especialista.
O processo de construção dos rótulos faz uso de diferentes técnicas e/ou combinação
de técnicas de Inteligência Artificial (IA), que preparam, manipulam e processam os dados
dos grupos a fim de identificar o relacionamento entre eles, selecionando as informações
destacadas por esses relacionamentos como mais relevantes para formação dos grupos.
1.1 Motivação e Objetivos

Por ser uma área de pesquisa em desenvolvimento, diferentes modelos de rotulação
de grupos tem sido propostos observando a adaptabilidade e as limitações dos modelos da
literatura. Dentre os trabalhos relacionados destacam-se dois principais: o modelo proposto
por Lopes, Machado e Rabêlo (2013) e o modelo proposto por Machado, Ribeiro e Rabêlo
(2015) que utilizam classificação através de Redes Neurais Artificiais (RNA) e Lógica
Fuzzy, respectivamente, para seleção dos atributos que irão compor os rótulos. Os demais
trabalhos desenvolvidos são aperfeiçoamentos destes modelos.
O primeiro modelo, baseado em RNAs, necessita de uma etapa de discretização,
dada a peculiaridade da classificação, de modo que a adição desta etapa resulta em
uma significativa perda de informação. Além disso, a delimitação das faixas de valores
designadas aos rótulos também é consequência da discretização dos atributos de entrada,
o que levanta a discussão sobre a otimalidade destas faixas.
Nos trabalhos que utilizam como base para a rotulação a Lógica Fuzzy (MACHADO;
RIBEIRO; RABêLO, 2015; IMPERES Filho et al., 2020), as faixas de valores dos atributos
dos rótulos são construídas a partir da exclusão de elementos dos grupos de acordo com
o grau de pretinência dos mesmos, a fim de eliminar as interseções entre os grupos. A
principal limitação dessa abordagem está na exclusão de elementos que não estão sob
interseções, dado que o grau de pertinência é o mesmo para todos os elementos distantes a
um mesmo raio, independente da direção. Essas e outras peculiaridades de cada trabalho
são melhor discutidas no Capítulo 3.
Com base nesses aspectos, este trabalho tem como objetivo propor um modelo de
rotulação de grupos cuja seleção dos atributos e faixas de valores associados aos rótulos
sejam baseados na análise do erro produzido pela regressão destes atributos. Para isso,
1.2. Estrutura do Trabalho 3
define-se como objetivos específicos:
• dispensar a etapa de discretização de dados utilizando modelos de regressão;
• integrar a delimitação das faixas de valores à análise da relevância dos atributos;
• garantir que a exclusão de qualquer porção das faixas de valores considere apenas os
elementos presentes nela.
1.2 Estrutura do Trabalho

Além da introdução, este trabalho está organizado da seguinte forma: o Capítulo 2
traz uma explanação sobre o problema do agrupamento e a rotulação de grupos, bem
como abrange conceitos e métodos de Aprendizagem de Máquina utilizados no modelo
proposto. Os modelos de rotulação de grupos da literatura são abordados no Capítulo 3. O
modelo proposto é apresentado no Capítulo 4, seguido dos resultados experimentais para
a rotulação de bases de dados da literatura no Capítulo 5. Por fim, o Capítulo 6 discute
as conclusões resultantes dos experimentos e as próximas etapas da pesquisa.
5
2 Referencial Teórico
2.1 Agrupamento
A Aprendizagem de Máquina (AM) é um ramo da Inteligência Artificial (IA)
especializado no estudo e construção de sistemas que sejam capazes de aprender de forma
automatizada a partir de dados, melhorando em uma determinada tarefa por meio de
experiência (MITCHELL, 2004). Em suas aplicações, modelos de AM lidam com problemas
em que a própria máquina irá encontrar, após a aprendizagem, uma hipótese que melhor
define o problema em questão, utilizando-se de ferramentais de diversas áreas como
probabilidade, estatística, teoria da informação, complexidade computacional, psicologia,
neurobiologia, entre outras.
O processo de aprendizagem faz a identificação do padrão presente nos dados
generalizando uma função que o descreve, permitindo assim a inferência em novas situações.
Quando as informações disponíveis para aprendizagem são compostas apenas pelos próprios
dados, i.e. sem nenhum conhecimento prévio sobre como estes se relacionam, a aprendizagem
é feita por meio do agrupamento de dados.
Silva, Peres e Boscarioli (2016) definem agrupamento como o processo pelo qual se
estuda as relações de similaridade entre exemplares, determinando como estão organizados
em grupos. O autor descreve a tarefa de agrupamento como a busca por uma função G
capaz de mapear um conjunto X de vetores de entrada (exemplares) ~x ∈ E d para um
número finito de grupos que minimiza a distância (dist) entre elementos dentro do grupo.
A função G é definida como G : E d × W → C, em que d é a dimensão do espaço E, ou seja,
o número de coordenadas do vetor ~x, W é um espaço de parâmetros ajustáveis por meio
de um algoritmo de indução não supervisionada definido por W = arg_ minW dist(~xp , ~xq ),
sendo p e q os índices de dois exemplares quaisquer e distintos associados a um mesmo
grupo. Três condições são necessárias para definição de um agrupamento:
• I. Ck 6= ∅, k = 1, ..., c;
• II. Ck ∩ Cl = ∅, k, l = 1, ..., c e k 6= l.
• III. ∪ck=1 Ck = X;
tal que, a formação de um agrupamento preconiza a existência de grupos distintos (I), sem
interseções (II) e que abranjam todo o conjunto de dados (III). A Figura 1 apresenta o
agrupamento de três bases de dados (GIONIS; MANNILA; TSAPARAS, 2007; CHANG;
YEUNG, 2008). Apesar da variação nas características dos dados, como a distribuição e
6 Capítulo 2. Referencial Teórico
número de grupos, os agrupamentos são desempenhados de modo a seguir as condições

relacionadas acima.
Figura 1 – Exemplos de agrupamentos
A definição de agrupamento levanta três principais discussões: Como medir a

similaridade, Como formar os grupos e Quantos grupos devem ser formados (HAIR
et al., 2009). Para responder a estes esses questionamentos, centenas de algoritmos de
agrupamentos já foram propostos na literatura em diferentes áreas da ciência nas últimas
décadas (JAIN, 2010).
Em resposta ao primeiro questionamento, Hair et al. (2009) elenca três principais
medidas de similaridade: as medidas correlacionais, as medidas baseadas em distância e as
medidas de associação. Sendo as duas primeiras aplicáveis à dados numéricos e a última à
dados categóricos.
Quanto à formação dos grupos, algoritmos de agrupamento podem ser divididos
em duas principais categorias: hierárquicos e particionais. Os algoritmos hierárquicos
encontram recursivamente grupos aninhados, seja de forma aglomerativa (começando
com cada ponto de dados em seu próprio grupo e mesclando os pares mais semelhante
de grupos sucessivamente para formar uma hierarquica de grupos) ou no modo divisivo
(começando com todos os pontos de dados em um grupo e dividindo-o recursivamente
em grupos menores). Por outro lado, algoritmos particionais subdividem os dados em um
número de subgrupos sem que haja qualquer tipo de relacionamento hierárquico entre eles,
de acordo com um critério de particionamento. Então, iterativamente os exemplares são
realocados entre as partições de forma que o modelo de grupos mude e se ajuste melhor
ao objetivo de maximização da similaridade intragrupo (JAIN, 2010; HAIR et al., 2009;
SILVA; PERES; BOSCARIOLI, 2016).
Por fim, o terceiro questionamento aborda o número ideal de grupos em um
agrupamento e não possui uma resposta direta e padronizada, pois, em geral, esse número
não é conhecido. Por vezes, nenhuma informação sobre o conjunto de dados é fornecida
além dos próprios dados, de modo que a escolha no número de grupos é comumente
empírica. Existem heurísticas que guiam a escolha da quantidade de grupos baseada na
2.1. Agrupamento 7
estrutura do agrupamento formado, entretanto, para maioria dos métodos de agrupamento

este é um parâmetro de entrada (HAIR et al., 2009).
2.1.1 Validação de agrupamento

Uma vez formados os grupos, é necessário avaliar o desempenho do algoritmo e
parâmetros utilizados, verificando se o modelo foi capaz de delimitar os grupos, ou mesmo
se existe uma tendência de agrupamento nos dados, como destaca Smith e Jain (1984).
Essa tarefa é desempenhada pelos algoritmos de validação de agrupamento.
A validação de agrupamento refere-se a procedimentos formais de avaliação dos
grupos de maneira quantitativa e objetiva (JAIN; DUBES, 1988) por meio de índices que
computam os dois critérios de avaliação e seleção de modelos ótimos de agrupamento de
Berry e Linoff (1996): compacidade e separabilidade. A compacidade está relacionada ao
objetivo de encontrar subconjunto de exemplares que maximize a silimaridade intra-grupo,
uma medida comum para isso é a variância dos dados de um grupo, de forma que quanto
menor a variância, mais compactos (BERRY; LINOFF, 1996; FACELI et al., 2011). A
separabilidade determina que os grupos devem ser o mais espaçados possível, minimizando
a similaridade inter-grupo, e pode ser mensurada pela distância entre (i) os elementos mais
próximos dos grupos, (ii) os elementos mais distantes dos grupos ou (iii) os centróides
dos grupos. Exemplos de argupamentos com variadas compacidades e separabilidades são
apresentados na Figura 2.
Figura 2 – Representação gráfica de grupos com diferentes compacidades e separabilidades.
Estes índices são mensurados por critérios que podem ser externos, levando em
consideração algum conhecimento prévio sobre os dados, como por exemplo conjuntos de
dados com estruturas já conhecidas (HALKIDI; BATISTAKIS; VAZIRGIANNIS, 2001;
FACELI et al., 2011); internos, cujas métricas envolvem apenas os próprios dados dos grupos
(e.g. matriz de proximidade); ou relativos, onde o agrupamento avaliado é comparado com
outros esquemas de agrupamento, resultantes do mesmo algoritmo, mas com parâmetros
de entrada diferentes (HALKIDI; BATISTAKIS; VAZIRGIANNIS, 2001).
É importante ressaltar que quando se faz análise de agrupamento para de fato
explorar um determinado conjunto de dados e extrair conhecimento desse conjunto, nada
se sabe sobre sua(s) estrutura(s) (FACELI et al., 2011), dificultando o uso adequado dos
índices de validação. Os critérios externos e internos, por exemplo, são baseados em testes
estatísticos e têm um alto custo computacional, tendo como principal objetivo confirmar
uma hipótese pré-especificada, o que requer o estabelecimento de uma população base ou
de referência (BERRY; LINOFF, 1996; FACELI et al., 2011). Por outro lado, os índices
relativos objetivam comparar o comportamento de algoritmos com respeito a variação dos
parâmetros de entrada e não podem ser utilizados como medidas absolutas de qualidade
do agrupamento.
2.2 Rotulação de Grupos

Os índices de validação de agrupamento são ferramentas úteis para a identificação
da existência de grupos compactos e separáveis no conjunto de dados, porém não fornecem
informações quanto a interpretação dos grupos. Essa tarefa é comumente atribuída a um
especialista do campo em estudo que examina cada grupo com relação a seus objetos para
rotulá-los, descrevendo a natureza do grupo (FACELI et al., 2011). Este processo tende a
ser demasiadamente dispendioso em tempo e recursos, considerado a quantidade de dados
e subjetividade da tarefa.
Em vista disso, Lopes, Machado e Rabêlo (2013) propuseram uma ferramenta para
extração automática de características dos grupos, fornecendo ao especialista um rótulo
com a seleção das características mais relevantes dos elementos de cada grupo. Essas
características são compostas por intervalos de valores dos atributos dos dados, de modo
que o problema da rotulação é definido como:
Problema da Rotulação: Dado um conjunto de grupos G = {gi }|ki=1 , em que

(g )
cada grupo é formado por um conjunto de elementos gi = {~ej }|nj=1i representados
por um vetor de atributos definidos em Rm e expresso por ~e = (a1 , ..., am ), seja
gi ∩ gi0 = {∅} ∀ 1 ≤ i ≤ k e i = 6 i0 ; o objetivo consiste em apresentar um
conjunto de rótulos R = {rgi }|ki=1 no qual cada rótulo específico é dado por
um conjunto de pares formados por atributos e seus respectivos intervalos de
(gi )
valores, tal que rgi = {(atrl , [pl , ql ])}|m
l=1 capaz de melhor expressar o grupo gi
associado.
onde:
• k é o número de grupos;
• gi é um grupo qualquer;
• n(gi ) é o número de elementos do grupo gi ;
• ~ej é um elemento qualquer de gi ;

2.2. Rotulação de Grupos 9
• m é a dimensão do problema;
• rgi é o rótulo do grupo gi ;
• atrl é um atributo qualquer do problema;
• [pl , ql ] é o intervalo de valores do atributo atrl , em que pl é o limite inferior e ql o

limite superior;
• m(gi ) é o número de atributos no rótulo de gi .
A Figura 3 exemplifica a rotulação de um agrupamento com três grupos g1 , g2 e

g3 . O rótulo do grupo g1 é formado pelos atributos atr1 , atr2 e atr3 e seus respectivos
intervalos de valor. De mesmo modo, os grupos g2 e g3 têm seus rótulos compostos por
2 e 1 pares de atributos e intervalos associados: atr1 e atr3 ; e atr3 , respectivamente. É
importante ressaltar que os intervalos [pl , ql ] podem ou não ser os mesmos para diferentes
grupos. Na ilustração do rótulo, por exemplo, [p1 , q1 ] podem ter valores diferentes nos
grupos g1 e g2 , indicando apenas sua relação com o atributo atr1 . Porém, caso apresentem
o mesmo valor, revelando a importância desse intervalo na definição de ambos os grupos,
a diferenciação entre os rótulos é determinada pelos demais componentes, de modo que,
para grupos diferentes os rótulos devem apresentar pelo menos um par atributo–intervalo
distinto, tornando os rótulos específico para seus grupos.
Os rótulos obtidos são avaliados de acordo com a porcentagem de elementos dos
grupos representados por ele, ou seja, a porcentagem de elementos que apresentam valores
dentro do intervalo de cada atributo do rótulo. Quanto maior essa porcentagem (chamada
de acerto, taxa de acerto ou taxa de concordância), melhor é o rótulo obtido. Na Figura 3,
o acerto do rótulo de cada grupo é informado pela porcentagem em destaque abaixo dos
rótulos.
Figura 3 – Ilustração de um rótulo.

Ao final do processo de rotulação, tem-se a identificação dos elementos dos grupos

de forma resumida, de modo que é possível formar uma sentença descritiva sobre os grupos
com base em suas principais características. A Figura 4 apresenta um rótulo real, obtido
pelo modelo de rotulação de grupos de Lopes, Machado e Rabêlo (2013) para a base de
dados Íris (FISHER, 1936). A partir desse rótulo podemos descrever os grupos como:
• Grupo 1: grupo de plantas com Largura da Pétala (Petal Width - PW) entre 0,1 e
1,0 cm e Comprimento da Pétala (Petal Length - PL) entre 1,0 e 3,7 cm.
• Grupo 2: plantas com Comprimento da Pétala (Petal Length - PL) entre 3,7 e 5,1
cm.
• Grupo 3: plantas com Comprimento da Pétala (Petal Length - PL) entre 5,1 e 6,9
cm e Largura da Pétala (Petal Width - PW) entre 1,7 e 2,5 cm.
Figura 4 – Rotulação da base de dados Íris.

Adaptado de Lopes, Machado e Rabêlo (2013)
O cojunto de pares de atributos e intervalos relevantes para os grupos são extraídos

aplicando-se métodos de IA aos grupos. Lopes, Machado e Rabêlo (2013) definem como
atributo relevante para um determinado grupo aquele capaz de resumir as demais caracte-
rísticas do problema e utiliza como medida de relevância o acerto de uma RNA treinada
para predição do atributo. Nos modelos de Imperes Filho et al. (2020) e Machado, Ribeiro
e Rabêlo (2015) utiliza-se como medida de relevância a porção da faixa de valores que
abrange os elementos com maior pertinência em relação aos grupos – utilizando Lógica
Fuzzy – e torna o atributo, ou conjunto de atributos, suficente para distinguir os grupos.
Já para Moura (2020), a relevância é medida pela porcentagem de elementos dos grupos
representados por cada intervalo discretizado do atributo. A metodologia empregada nesses
trabalhos é discutida no Capítulo 3.
2.3. Análise de Regressão 11
2.3 Análise de Regressão

Quando os dados observados apresentam, além de suas características descritivas
(atributos), um atributo classe associado (rótulo1 ), é possível descobrir o relacionamento
existente entre os exemplares e seus rótulos através do processo de análise preditiva. O
rótulo pode ser representado de duas formas: (i) dentro de um número finito de classes
que compõem o domínio de análise ou (ii) como um número ao qual o evento está
associado, dentro de um conjunto contínuo de valores possíveis para essa associação. A
primeira forma de apresentação dos rótulos define uma situação para a análise preditiva
do tipo classificação (ou predição categórica), e a segunda, uma situação para análise
preditiva do tipo regressão (ou predição numérica) (SILVA; PERES; BOSCARIOLI, 2016).
Considerando a continuidade do domínio dos atributos, neste trabalho faremos uso de
modelos de regressão.
A regressão refere-se a funções que tentam prever uma saída de valor real (PATTER-
SON; GIBSON, 2017), representada pela variável dependente, a partir do conhecimento
de uma ou mais variáveis independentes. Quando o problema envolve uma única variável
independente, a técninca estatística é chamada de regressão simples. Quando o problema
envolve duas ou mais variáveis independentes, chama-se regressão multivariada (HAIR et
al., 2009).
Os modelos de regressão podem também podem ser divididos quanto a função
aplicada sob os dados para generalização, podendo ser linear ou não linear: uma função
que representa a equação da reta ou do plano se aplica a regressão linear, enquanto
para regressão não linear aplica-se funções diferentes, como exponenciais, logaritmicas,
trigonométricas, entre outras. Assim, os modelos de regressão podem ser divididos em:
linear simples ou multivariado; ou não linear simples ou multivariado (SILVA; PERES;
BOSCARIOLI, 2016).
2.3.1 Regressão linear

A regressão linear simples consiste um uma análise estatística que envolve duas
variáveis: a de resposta, explicada, dependente, ou rótulo; e a preditora, explicativa,
independente, ou conjunto de atributos descritivos (SILVA; PERES; BOSCARIOLI, 2016).
Uma função linear simples tem a forma y = w0 + w1 x, em que x é o valor de
entrada, y a saída estimada e w = [w0 , w1 ] é o vetor de coeficientes de valores reais a serem
aprendidos, que especificam o intercepto do eixo y e a inclinação da reta, respectivamente.
A regressão linear tem então como objetivo encontrar os valores dos pesos [w0 , w1 ] que
melhor ajuste a função hw (x) = y, minimizando a perda empírica (RUSSELL; NORVIG,
1
O termo rótulo utilizado aqui refere-se à uma informação presente nos dados, sendo diferente do rótulo
produzido pelos modelos de rotulação.
2004). Essa perda é calculada pelo método dos mínimos quadráticos que estima w0 e
w1 através da minimização da soma dos quadrados do erros de predição das amostras
(resíduos). Dada a função de perda quadrática 2.1, podemos encontrar o ajuste ideal do
modelo w∗ = argminw P (hw ) igualando a zero as derivadas parciais da função em relação
a w0 e w1 , como mostram as equações 2.2 e 2.3.
N
(yi − (w0 + w1 xj ))2
X
P (hw ) = (2.1)
j=1
N
∂ X
(yi − (w0 + w1 xj ))2 = 0 (2.2)
∂w0 j=1
N
∂ X
(yi − (w0 + w1 xj ))2 = 0 (2.3)
∂w1 j=1
Assim, w0 e w1 são definidos pelas equações 2.4 e 2.5.
yj − w1
P P
xj
w0 = (2.4)
N
N ( xj y j ) − xj y j
P P P
w1 = (2.5)
N ( x2j ) − ( xj )2
P P
Quando o espaço das amostras x é muldimensional, ou seja, a entrada é agora um

conjunto de características descritas por um vetor ~x, utiliza-se a regressão multivariada.
Assim, podemos estender o problema da regressão linear considerando entradas de tamanho
n, tal que a y passa a ser definido por y = w0 + ni wi xj,i .
P
Neste caso, o vetor de pesos w ajustado pode ser calculado analiticamente por
w = (X T X)−1 X T y, onde X é a matriz de dados, ou seja, a matriz de entradas com um
∗
exemplo n dimensional. Apesar de ser o mais comum, e também o mais simples, existem
outros métodos de estimação do vetor w∗ e da função h, como por exemplo, o método
implementado pelo algoritmo ε-SVR.
2.3.2 Support Vector Regression

O algoritmo ε-SVR (support vector regression) (CORTES; VAPNIK, 1995) é
utilizado no problema da regressão tendo como objetivo encontrar a função hw (x) que
produza saídas contínuas para os dados, desviando no máximo ε da saída desejada, ou seja,
limitando o erro de predição a um valor aceitável ε. Assim, o algoritmo cria uma região ao
redor da função hw tal que os dados fiquem no seu interior, como mostra a Figura 5.
Figura 5 – Exemplo de regressão usando Support Vector Regression
Assim, tem-se o problema de encontrar um vetor de pesos w que solucione o

problema:
1
min kwk2 (2.6)
2
com as restrições:
y i − w · xi − b ≤ ε
(2.7)
w · x i + b − yi ≤ ε
Em situações reais, é difícil encontrar aplicações cujos dados sejam linearmente

separáveis. Isso se deve a diversos fatores, entre eles a presença de ruídos e outliers nos
objetos ou à própria natureza do problema, que pode não ser linear (FACELI et al., 2011).
Para lidar com problemas mais gerais,o ε-SVR permite que alguns objetos possam violar
as restrições impostas, ficando fora da região delimitada, introduzindo variáveis de folga
ξi . Tem-se então:
n
1
kwk2 + C( ξi + ξ¯i )
X
min (2.8)
2 k=1
com as restrições:
yi − w · xi − b ≤ ε + ξ
w · xi + b − yi ≤ ε + ξ¯ (2.9)
ξi , ξ¯i ≥ 0
A constante C impõe um trade-off entre a regularidade da função e o quanto os

desvios são tolarados (FACELI et al., 2011). À medida que C aumenta, a tolerância para
pontos fora da região traçada também aumenta. Conforme C se aproxima de 0, a tolerância

se aproxima de 0 e a equação se iguala à simplificada.
2.3.3 ε-SVR aplicado a problemas não lineares

A ε-SVR discutida até aqui é eficaz na regressão de conjuntos de dados que possuam
uma distribuição aproximadamente linear, tolerando ruídos e outliers com a forma relaxada
do problema. Porém, em muitos casos, um hiperplano não é suficiente para generalização
dos dados, como foi discutido na introdução desta seção. A ε-SVR lida com problemas
não lineares mapeando o conjunto de dados de seu espaço original para um novo espaço
de maior dimensão, denominado espaço de características (HEASRT et al., 1998). Esse
mapeamento faz com que os dados no novo espaço sejam separáveis por uma ε-SVR linear.
A medida em que se aumenta o espaço da dimensão do problema, também aumenta a
probabilidade desse problema se tornar linearmente separável (HAYKIN, 2007).
O mapeamento entre os espaços de características é desempenhado pelas funções
kernel (K), que recebem dois pontos xi e xj no espaço de entradas e calculam o produto
escalar desses objetos no espaço de características (HERBRICH, 2001). Um dos kernels mais
utilizados na prática é o de função de base radial (radial basis function - RBF)(FACELI
et al., 2011). Isso porque o kernel linear o comportamento de outros kernels podem ser
obtidos através do RBF (HSU; CHANG; LIN, 2003). O RBF é definido pela Equação 2.10,
onde σ é um parâmetro livre e kxi − xj k2 é a distância entre dois exemplares do conjunto
de dados.
K(xi , xj ) = exp(−σ kxi − xj k2 ) (2.10)
A Figura 6 exemplifica o efeito da aplicação do kernel RBF em uma ε-SVR para

regressão de um conjunto de dados não linear, permitindo o ajuste da função aos dados.
2.3.4 Análise de resíduos

A principal medida de erro de para a variável estatística, isto é, a variável dependente
nos modelos de regressão, é o resíduo - a diferença entre os valores observados e previstos
pelo modelo (HAIR et al., 2009). Por meio da análise de resíduos é possível identificar, após
a estimação do modelos, a qualidade da estimação e se são necessárias ações corretivas a fim
de aprimorar os resultados. Por exemplo, a necessidade de transformação, padronização ou
limpeza nos dados, bem como mudança na seleção dos atributos de entrada para modelos
multivaridos.
A análise de resíduos também direciona a identificação de obeservações influentes,
que, no sentido mais amplo incluem todas as observações que têm um efeito desproporcional
sobre os resultados da regressão (HAIR et al., 2009), sejam bons, enfatizando os resultados,
Figura 6 – Ajuste do modelo ε-SVR com uso de kernel RBF para regressão de dados não
linearmente distribuídos.
ou ruins, significamente mudando os resultados. Essas observações são baseadas em pelo

menos uma de quatro condições:
• Um erro em observações ou entrada de dados
• Uma observação válida, mas excepcional, explicável por uma situação extraordinária
• Uma observação excepcional sem explicação convincente (quando faltam razões tanto
para manter quanto para excluir a amostra)
• Uma observação comum quanto as características individuais, mas extraordinária

considerando a combinação delas.
Nessas situação, o ideal é a eliminação de observações verdadeiramente excepcionais,

evitando a exclusão daquelas que, apesar de diferentes, são representativas na população.
No modelo proposto nesse trabalho, a análise de resíduos tenta identificar os intervalos dos
atributos em que a existência de observações influentes seja a menor possível, atribuíndo a
estes intervalos relevância para formação dos grupos e, consequentemente, para composição
dos rótulos, como discutido na Seção 2.2.
17
3 Trabalhos Relacionados
O probema da rotulação foi apresentado pela primeira vez em Lopes, Machado

e Rabêlo (2013) e define como principal objetivo fornecer ao especialista uma clara
identificação dos grupos através de rótulos que descrevam as características comuns de seus
elementos. Os autores propuseram a identificação de atributos relevantes para composição
de cada grupo e os valores associados a estes por meio de uma combinação de discretização
de dados e aprendizagem supervisionada.
O modelo proposto pelos autores (Modelo de Rotulação Automática - MRA)
discretiza as bases de dados contínuas permitindo a delimitação de faixas de valores para
os atributos. Paralelamente, a base não discretizada é agrupada pelo algoritmo K-means. A
base discretizada é então submetida a um conjunto de Multilayer Perceptrons (MLP), para
identificação de relacionamentos entre os atributos. Cada MLP é treinada para predição de
um atributo por grupo, utilizando como entrada os demais atributos. Para cada grupo, os
atributos são ranqueados de acordo com o acerto das MLPs. Assim, os atributos com maior
acerto são considerados mais relevantes para o agrupamento. Para definir os atributos de
cada rótulo, o MRA utiliza um parâmetro V , expresso em porcentagem, que seleciona
todos os atributos que possuem até uma diferença V em relação ao atributo com maior
acerto e descarta os demais. Por fim, o intervalo de cada um desses atributos é definido
pela faixa de valores associada ao valor discreto mais frequente para o atributo naquele
grupo.
Os rótulos produzidos são avaliados pela porcentagem de dados dos grupos repre-
sentados por cada elemento dos rótulo. Ou seja, para cada atributo e intervalo associado
pertencente ao rótulo de um grupo, calcula-se a porcentagem de amostras do grupo em
que o atributo assume valor naquele intervalo. Cada atributo é então associados às faixas
de valores relativas ao valor discreto mais frequente para o atributo por grupo, formando
os pares de atributos e intervalos que irão compor os rótulos.
Os experimentos realizados com o MRA obtiveram resultados satisfatórios em que
os elementos dos rótulos representaram em média 90% das amostras dos grupos. Além
destes experimentos, o MRA foi aplicado à diferentes problemas (MACHADO; RABêLO;
LOPES, 2013; LOPES; MACHADO; RABêLO, 2014; LIMA; MACHADO; LOPES, 2015;
LOPES et al., 2016), obtendo resultados satisfatórios em todos eles.
Os autores destacam ainda que, apesar das escolhas das técnicas de discretização,
aprendizagem supervisionada e não supervisionada feitas no trabalho, estas podem ser
substituídas por outras similares, como pode ser visto em Araujo et al. (2018) e Sousa et
al. (2016). Estes trabalhos subtitiuem o K-means pelos algoritmos DAMICORE e Cobweb,
18 Capítulo 3. Trabalhos Relacionados
respectivamente e discutem o impacto da qualidade do agrupamento na formação dos

rótulos, sobretudo da similaridade intra-grupo, uma vez que grupos com características
mais claras e homegêneas resultam em rótulos mais representativos.
Apesar de eficiente, o MRA possui limitações, como a utilização de faixas de
valores previamente estabelecidas para composição dos rótulos, resultantes do processo de
discretizaçao; bem como a complexidade e o custo computacional atrelados ao uso de uma
MLP para cada atributo por grupo.
Como alternativas ao MRA, outros modelos de rotulação de grupos podem ser
encontrados na literatura. Um segundo modelo de rotulação de grupos, proposto por
Machado, Ribeiro e Rabêlo (2015), utiliza a saída do algoritmo Fuzzy C-means para
delimitação de faixas de valores dos atributos. O Fuzzy C-means atribui um grau de
pertinência para cada elemento à cada grupo formado diretamente proporcional a distância
dos elementos para os centroides dos grupos, de modo que elementos mais próximos dos
centroides apresentam maior grau de pertinência.
Dado o parâmetro de entrada Grau de Seleção (GS), seleciona-se apenas os elementos
cujo grau de pertinência sejam maior ou igual a GS, ou seja, os elementos mais próximos
aos centroides dos grupos. Identifica-se a faixa de valor de cada atributo por grupo que
abrange os elementos selecionados e, então, verifica-se a existência de interseções entre
faixas de mesmo atributo e grupos distintos. O processo é repetido incrementando o GS
até que haja pelo menos um atributo com faixa valores sem interseção em cada grupo.
As faixas obtidas para os atributos são atribuídas aos rótulos, de modo que cada
rótulo identifique unicamente um grupo através de faixas de valores únicas para os atributos,
evitando ambiguidade na interpretação dos grupos.
A avaliação do modelo foi feita pela porcentagem de elementos dos grupos que
podem ser representados pelos seus respectivos rótulos. Diferentemente do MRA, a avaliação
considerou a satisfação das restrições definidas por todos os componentes do rótulo para
considerar um elemento representado por este. Os rótulos produzidos pelo modelo foram
capazes de representar 92,7% dos elementos dos grupos no experimento realizado com a
base de dados Íris.
A principal limitação do modelo deve-se a dependência ao algoritmo Fuzzy C-means
que fornece o grau de pertinência dos elementos. Em vista disso, o modelo de rotulação em
Imperes Filho et al. (2020) inclui em sua metodologia um método para calcular o grau de
pertinência dos elementos baseando-se na distância para o centroide dos grupos, aplicável
a qualquer algoritmo de agrupamento baseado em distância.
O modelo foi avaliado através da porcentagem de elementos representados pelos
rótulos dos seus respectivos grupos (Média da Taxa de Acerto - MTA) e pelo número de
elementos que fugiram aos rótulos (Total de Erros - TE). Nos experimentos, os rótulos
19
obtidos representaram entre 90% e 98,68% dos elementos dos grupos. Além disso, o TE é
de 57 elementos, considerando as três bases de dados utilizadas, gerando um erro médio
de 3,59%.
Os autores mencionam o fato de que, caso todos os atributos do conjunto de dados
possuam interseções entre os grupos para todos os valores de GS, nenhum atributo será
suficiente para distinguir os elementos de forma única, não sendo possível rotular os grupos.
Esta conclusão também se aplica ao modelo de Machado, Ribeiro e Rabêlo (2015).
Outra observação aplicável à ambos trabalhos é a de que o cálculo da pertinência
com base na distância ao centroide dos grupos ocasiona a seleção dos elementos de maneira
radial, ou seja, a medida que o GS é incrementado, os elementos vão sendo excluídos da
seleção em todas as direções, mesmo naquelas em que não há interseções.
O modelo de rotulação mais recente da literatura (CAIBAL - Cluster-Attribute
Interdependency Based Automatic Labeler) foi proposto por Moura (2020). Seu principal
objetivo é mitigar a perda de informação por dissociação de valores de alta frequência ad-
jacentes no processo de discretização durante a escolha dos pontos de corte – relacionando
seu trabalho com o modelo proposto por Lopes, Machado e Rabêlo (2013) que também
utiliza a etapa de discretização. Para isso, o autor faz uso do algoritmo de discretização
supervisionado CAIM (Class-Attribute Interdependency Maximization), utilizando a infor-
mação de grupo como classe, aliado a uma etapa prévia à discretização na qual somente
os valores de atributos com menor ocorrência na base de dados são selecionados como
possíveis pontos de corte.
A etapa de discretização do modelo estabelece os intervalos de valores dos atributos
que poderão compor os rótulos. Então, o modelo sugere dois métodos para escolha de quais
desses intervalos irão de fato para os rótulos. No primeiro, chamado de método padrão,
considera-se apenas o atributo cujo intervalo selecionado pela discretização apresenta
maior acurácia no grupo, dada pela razão entre a quantidade de elementos do grupo
pertencentes ao intervalo do atributo e o número total de elementos do grupo. A exceção
ocorre quando um mesmo par atributo-intervalo é escolhido para mais de um grupo, sendo
necessária a adição de outro componente ao rótulo. Esse método pode ser limitante quanto
a quantidade de informações evidenciadas pelos rótulos sobre os grupos, de modo que um
segundo método de seleção é proposto. Neste método, chamado de método alternativo,
o autor utiliza o mesmo parâmetro V apresentado em Lopes, Machado e Rabêlo (2013)
aplicado às acurácias dos intervalos dos atributos, selecionando um número maior de pares
para os rótulos.
O modelos é avaliado pela acurácia média dos intervalos dos atributos associados
aos rótulos ao rotular 5 bases de dados da literatura, obtendo acurácia média de 98,49%
com o método padrão e 97,33% utiizando o método alternativo, aplicado em 3 das 5
bases de dados. O método padrão, cujo desempenho supera o método alternativo, tem
20 Capítulo 3. Trabalhos Relacionados
sua limitação discutida pelo autor. Ao prezar pela quantidade mínima de elementos nos
rótulos – idealmente um par por rótulo de grupo, o método tende a fornecer informações
insuficientes para uma interpretação abrangente sobre os grupos. Por sua vez, o uso do
método alternativo é desencorajado quando os rótulos dos grupos apresentam muitos
pares atributo–intervalo em comum, mesmo que diferenciados por pelo menos um par,
permitindo a interpretação de que os grupos não possam apresentar característica em
comum, ou mesmo que estas características não sejam relevantes.
Além dos trabalhos que propõem modelos de rotulação, Araujo, Veras e Machado
(2019) utiliza os rótulos para o treinamento de um classificador baseado em Lógica Fuzzy
a fim de atribuir novas amostras aos grupos iniciais com base nas características extraídas
pelos rótulos.
Em todos os trabalhos relacionados, a avaliação dos rótulos é feita em relação
aos grupos para os quais os rótulos foram desenvolvidos. Porém, não há nos trabalhos
abordagens que mostrem que os rótulos não possam ser empregados a outros grupos, o que
violaria a definição do problema da rotulação que limita cada rótulo específico à expressão
do grupo associado.
21
4 Modelo Proposto
Um rótulo é formado pela seleção dos atributos mais relevantes de um grupo e

seus respectivos intervalos de valores, capazes de melhor descrever os elementos do grupo
(LOPES; MACHADO; RABêLO, 2013). Isto posto, o processo de rotulação pode ser
dividido em duas etapas: (I) definição dos pares atributo-intervalo e (II) seleção dos pares
que melhor representam os grupos.
O modelo de rotulação proposto neste trabalho, ilustrado na Figura 7, faz uso de
regressão na Etapa I para obter a função que descreve o erro de predição dos atributos
em seus respectivos domínios por grupo. Assim, é possível delimitar intervalo em que o
erro de predição é o menor possível para cada atributo de cada grupo. Na Etapa II, são
selecionados os pares atributo-intervalo obtidos na Etapa I que representem a maioria dos
elementos dos grupos para composição dos rótulos.
Figura 7 – Fluxograma do modelo proposto.
A fim de exemplificar o processo de rotulação, utilizaremos a base de dados Íris

(FISHER, 1936), bem difundida na literatura e disponível no repositório UCI (BACHE;
LICHMAN, 2013). Esta base é composta por 150 instâncias descritas por 4 atributos:
Comprimento da Sépala (CS), Comprimento da Pétala (CP), Largura da Sépala (LS)
e Largura da Pétala (LP), além do atributo Classe que definirá o agrupamento e será,
portanto, referenciado como Grupo.
22 Capítulo 4. Modelo Proposto
4.1 Etapa I - Definição dos pares atributo-intervalo

Para o modelo de rotulação que utiliza aprendizagem de máquina (LOPES; MA-
CHADO; RABêLO, 2013), um atributo é considerado relevante quando este pode ser
predito a partir dos demais atributos. Neste caso, quanto melhor a acurácia, maior sua
relevância para o grupo.
O uso da acurácia como medida de avaliação do atributo considera o acerto em
todas as classes do problema, e não apenas naquela cujo intervalo é atribuído ao rótulo.
Entretanto, a sumarização realizada pelo rótulo de um grupo e, consequentemente, a
capacidade de interpretação de um grupo através deste rótulo, se deve aos intervalos de
valor assumido pelos atributos que o compõem, de modo que a relevância de um atributo
em um grupo deve ser consequência do intervalo de valor assumido por ele.
Portanto, faz-se necessário a análise do acerto da predição dos atributos em cada
intervalo de valor, fazendo com que a relevância atribuída à um elemento do rótulo seja
relativa ao par atributo-intervalo e não ao atributo apenas.
Para determinar os intervalos que devem ser associados aos atributos dos rótulos,
utilizou-se modelos de regressão, capazes de avaliar dados contínuos sem a necessidade de
discretização dos mesmos.
4.1.1 Regressão
Para determinar a relevância dos pares atributo-valor, a primeira etapa do modelo
de rotulação proposto utiliza um conjunto de m modelos de regressão M R = {M Rl }|m l=1 ,
onde m é o número de características do problema. Cada modelo é treinado para predição
de um atributo, utilizando os demais atributos como entrada.
Para evitar problemas relacionados ao uso de diferentes escalas entre os atributos,
os elementos são normalizados utilizando o método MinMax descrita na Equação 4.1 no
intervalo entre 0 e 1, onde a0j,l é o valor normalizado da componente aj,l de um elemento ~ej
do problema, referente ao atributo atrl ; minatrl é o valor mínimo e maxatrl o valor máximo
do atributo.
aj,l − minatrl
a0j,l = (4.1)
maxatrl − minatrl
A Figura 8 exemplifica o conjunto M R para a base de dados Íris, onde as entradas

correspondem aos atributos CS, CP, LS e LP normalizados.
Como resultado da regressão, tem-se um conjunto de valores preditos para cada
atributo dado por Atrperd = {apredj,l }|nj=0 , sendo n o número de elementos do problema e
apredj,l o valor obtido pelo M Ratrl para o elemento ~ej . A Tabela 1 apresenta o resultado da
4.1. Etapa I - Definição dos pares atributo-intervalo 23
Figura 8 – Modelos de regressão para predição dos atributos da base de dados Íris.
regressão para o atributo Comprimento da Sépala (CS) em uma amostra de 10 elementos

de cada grupo.
Tabela 1 – Predição do atributo Comprimento da Sépala.

# CS CS’ CSpred Grupo # CS CS’ CSpred Grupo # CS CS’ CSpred Grupo
0 5,1 0,22 0,2 1 50 7,0 0,75 0,61 2 100 6,3 0,56 0,7 3
1 4,9 0,17 0,12 1 51 6,4 0,58 0,55 2 101 5,8 0,42 0,52 3
2 4,7 0,11 0,13 1 52 6,9 0,72 0,61 2 102 7,1 0,78 0,7 3
3 4,6 0,08 0,16 1 53 5,5 0,33 0,33 2 103 6,3 0,56 0,67 3
4 5,0 0,19 0,22 1 54 6,5 0,61 0,5 2 104 6,5 0,61 0,65 3
5 5,4 0,31 0,3 1 55 5,7 0,39 0,52 2 105 7,6 0,92 0,84 3
6 4,6 0,08 0,17 1 56 6,3 0,56 0,59 2 106 4,9 0,17 0,4 3
7 5,0 0,19 0,2 1 57 4,9 0,17 0,25 2 107 7,3 0,83 0,82 3
8 4,4 0,03 0,1 1 58 6,6 0,64 0,56 2 108 6,7 0,67 0,64 3
9 4,9 0,17 0,17 1 59 5,2 0,25 0,37 2 109 7,2 0,81 0,78 3
CS: valor real do atributo, CS’: valor normalizado do atributo, CSpred : valor predito pela regressão para o atributo.
4.1.2 Cálculo das funções de erro

O objetivo neste etapa é encontrar as funções que descrevem a distribuição dos
erros de predição (resíduos) dos atributos por grupo. Para isso, utiliza-se a informação do
grupo para particionar os elementos e o conjunto de predições – como na Tabela 1. Então,
calcula-se o resíduo médio para os possíveis valores dos atributos em cada grupo, aos quais
será aplicado uma interpolação polinomial que encontrará as funções de erro.
Considerando que para cada valor esperado pode-se obter diferentes valores preditos
e, consequentemente, diferentes resíduos (vide os elementos 1 e 9 da Tabela 1, por exemplo,
com saída esperada 0,17 e obtidas 0,11 e 0,15), o erro médio para cada ponto (ou valor
distinto) do atributo atrl no grupo gi dá-se pela média dos resíduos associados àquele
ponto. Por exemplo, o erro médio para o ponto 4,9 do atributo CS no grupo 1 seria 0,04.
(g )
As médias calculadas compõem um vetor de erros médios ~atri l , segundo as Equações
4.2 e 4.3, onde:
(g ) (g )
• Datri l = {ad,l }|nd
d=1
i
é o conjunto de nd(gi) valores distintos de um atributo atrl no
grupo gi
• ad,l é a média dos resíduos obtidos quando a saída esperada é ad,l
• N é o número de elementos de gi em que aj,l = ad,l
• |aj,l 0 − apredj,l | é o módulo da diferença entre o valor esperado e o valor predito para
o atributo atrl na instância ~ej
(g ) (g )
~atri l = (ad ,l )∀ad,l ∈ Datri l (4.2)
N
1 X
ad,l = |a0 − apredj,l |, ∀ aj,l = ad,l (4.3)
N j=1 j,l
grupo1
No exemplo da Tabela 1, o Grupo 1 apresenta 6 valores distintos, tal que DCS =
grupo1
{4, 4, 4, 6, 4, 7, 4, 9, 5, 0, 5, 1, 5, 4}. Para cada valor em DCS , calcula-se a média do erro
de predição de acordo com a Equação 4.3, resultando no vetor ~grupo1 CS = (0,05, 0,09, 0,02,
0,05, 0,06, 0,02, 0,06).
Analogamente, o Grupo 2 apresenta 10 valores distintos que compõem o conjunto
grupo2
DCS = { 4,9, 5,2, 5,5, 5,7, 6,3, 6,4, 6,5, 6,6, 6,9, 7,0}, resultando no vetor ~grupo2
CS =
(0,02, 0,04, 0,10, 0,16, 0,06, 0,02, 0,15, 0,06, 0,08, 0,10). Por fim, para o Grupo 3, com 9
grupo3
valores distintos, tem-se DCS = { 4,9, 5,8, 6,3, 6,5, 6,7, 7,1, 7,2, 7,3, 7,6} e ~grupo3
CS =
(0,14, 0,03, 0,12, 0,01, 0,04, 0,10, 0,05, 0,07, 0,03).
A Figura 9 apresenta a distribuição gráfica do erro médio para cada ponto distinto
do atributo CS em cada grupo, dados pelos vetores ~grupo1
CS ,~grupo2
CS e ~grupo3
CS , com base nas
instâncias da Tabela 1.
Aplicando o mesmo processo a todas as instâncias da base de dados, obtém-se a
distribuição do erro médio em cada grupo descrita na Figura 10.
A função do erro pode então ser calculada para todo o domínio do atributo em
cada grupo através da interpolação polinomial (MULLER, 2006) dos pontos formados
(g ) (g )
pelos elementos de Datri l e os respectivos erros médios ~atri l associados: (x, y) = (ad,l , ad,l ).
O conjunto de funções aproximadas do erro médio de predição de um atributo atrl é dado
por Fatrl = {fgi }|ki=1 . A Figura 11 exemplifica o conjunto de funções FCS .
Figura 9 – Erro médio da predição do atributo Comprimento da Sépala por grupo para
amostra da Tabela 1.
Figura 10 – Erro médio da predição do atributo Comprimento da Sépala por grupo.
4.1.3 Delimitação dos intervalos de valores

A partir das funções polinomiais de erro, pode-se estimar o erro de predição em
um intervalo qualquer inter = [a, b] pela área sob a curva (ASC) dada pela integração da
função fgi nos limites [a, b], como mostra a Equação 4.4. O objetivo é a identificação dos
intervalos dos atributos em que o erro de predição estimado seja o menor possível.
Z b
ginter
i
= f gi (4.4)
a
A priori são determinados intervalos iniciais utilizando como limites os pontos de

Figura 11 – Aproximação polinomial das funções de erro médio das predições do atributo
Comprimento da Sépala por grupo.
início e fim das funções, e os pontos de intersecção entre elas. No exemplo do atributo CS,
esses limites são os pontos 4,3, 4,9, 5,46, 5,69, 5,8, 6,07, 7,0 e 7,9, como mostra a Figura
12. O conjunto de intervalos do atibuto é formado pela combinação de cada dois limites
consecutivos, tal que Iatrl = {interv }|Lv=1 , em que um intervalo é formado pelos limites
de mínimo e máximo interv = [minv , maxv ], e L é o número de intervalos do conjunto.
No exemplo do atributo CS, o conjunto de intervalos é dado por ICS ={[4,3, 4,9],[4,9,
5,46],[5,46, 5,69], [5,69, 5,8], [5,8, 6,07] ,[6,07, 7,0], [7,0, 7,9]}.
Figura 12 – Delimitação dos intervalos iniciais do atributo Comprimento da Sépala.
Para cada intervalo interv , calcula-se o erro estimado para todas as funções fgi
com domínio em interv , valor atribuído à variável ginter
i
v
, utilizando como limites os pontos
de mínimo e máximo do intervalo aplicados à Equação 4.4.
A partir dos erros estimados, determina-se quais intervalos podem ser relevantes
para identificação de cada grupo, selecionando aqueles em que a função associada ao

grupo produz o menor erro estimado no intervalo. Cada intervalo é inicialmente atribuído
ao grupo de menor ginter i
v
e, caso intervalos consecutivos sejam atribuídos a um mesmo
grupo, estes são concatenados formando intervalos maiores. Assim, atribui-se a cada grupo
um conjunto de pares atributo–intervalo potencialmente relevantes para identificação
do grupo, representado por rg0 i = {(atrl , [pl , ql ])}|m l=1 , composto por m pares atributo–
intervalo (atrl , [pl , ql ]). A Figura 13 resulta da atribuição dos intervalos do atributo CS
aos grupos do problema. Assim, os intervalos [4, 3, 5, 46], [5, 46, 6, 07] e [6, 07, 7, 9] são
0
atribuídos aos Grupos 1, 2 e 3, respectivamente, de modo que rgrupo1 ⊃ (CS, [4, 3, 5, 46]),
0 0
rgrupo2 ⊃ (CS, [5, 46, 6, 07]) e rgrupo3 ⊃ (CS, [6, 07, 7, 9]).
Um intervalo pode ser relevante para a definição de mais um um grupo, dado que a
diferença entre os erros produzidos pelas funções no intervalo pode ser pequena ou mesmo
zero, a exemplo do intervalo [5,42 - 5,51] atribuído aos grupos 1 e 2 na Figura 13. Neste
caso, um parâmetro d, expresso em porcentagem, limita a diferença entre os erros das
funções, de modo que o intervalo seja atribuído a todos os grupos com erro máximo d%
superior ao mínimo naquele intervalo.
O parâmetro d também permite estender os intervalos a partir dos pontos de
inteseção enquanto a condição imposta pelo parâmetro for verdadeira, de modo a não
restringir os intervalos aos limites estabelecidos inicialmente. Dessa forma, a cada grupo gi
associa-se um conjunto de pares atributo-intervalo rg0 i = {(atrl , [pl , ql ])}|m
l=1 , em que o erro
gi
estimado [pl ,ql ] é limitado segundo a Equação 4.5.
g[pil ,ql ] ≤ min({g[pil ,ql ] }) + d ∗ min({g[pil ,ql ] }) (4.5)
Figura 13 – Atribuição dos intervalos do atributo Comprimento da Sépala aos grupos.
Ao fim desta etapa, tem-se um conjunto R0 = {rg0 i }|ki=0 de pares atributo-intervalo

associados a cada grupo gi . A Tabela 2 apresenta os intervalos associados a cada atributo

por grupo para a base de dados Íris, compondo o conjunto R0 do problema.
Tabela 2 – Intervalos associados a cada atributo por grupo na base de dados Íris.
Grupo Atributo Intervalo

CS 4,3 - 5,51
CP 1,0 - 1,9
1
LS 2,97 - 4,4
LP 0,1 - 0,6
CS 5,42 - 6,15
CP 3,0 - 5,1
2
LS 2,0 - 2,2
LS 2,54 – 3,03
LP 1,0 - 1,8
CS 5,98 - 7,9
CP 4,85 - 6,9
3
LS 2,2 - 2,83
LP 1,8 - 2,5
4.2 Etapa II - seleção dos pares atributo–intervalo

A Etapa II da rotulação consiste em selecionar os pares atributo-intervalo para
composição do rótulo dos grupos de modo a satisfazer duas restrições: (1) representar o
maior número possível de elementos do grupo e (2) garantir que cada rótulo represente
unicamente um grupo.
Para isso, os pares são adicionados ao rótulo dos grupos iterativamente utilizando
como critério de escolha a porcentagem de elementos ~ej do grupo gi contidos no intervalo
[pl , ql ] do atributo atrl , denominada precisãoatrl ,gi , dada pela Equação 4.6; maximizando o
número de elementos representados pelo rótulo (restrição 1).
(g )
n({~ej }|nj=1i |pl ≤ aj,l ≤ ql )
precisãoatrl ,gi = (4.6)
n(gi )
Para garantir que o rótulo rgi represente especificamente o grupo gi (restrição 2),
calcula-se também a representatividade do rótulo para os demais grupos (gi0 ), adicionando
tantos pares atributo-intervalo quanto necessário para que a representatividade de um rótulo
para qualquer grupo gi0 seja de até um threshold t, idealmente pequeno, fornecido como
parâmetro. A representatividade de um rótulo r pra um grupo g, ou Taxa de Concordância
n( g)
(T Cr,g ), é dada pela Equação 4.7, onde n({~ej }|j=1 |pl ≤ aj,l ≤ ql ∀(atrl , [pl , ql ]) ∈ r) é
o número de elementos ~ej do grupo g em que todas as componentes aj,l pertencem ao
4.2. Etapa II - seleção dos pares atributo–intervalo 29
respectivo intervalo [pl , ql ] do rótulo r e n(g) é o número de elementos do grupo.
(g)
n({~ej }|nj=1 |pl ≤ aj,l ≤ ql ∀(atrl , [pl , ql ]) ∈ r)
T Cr,g = (4.7)
n(g)
No exemplo da base de dados Íris, a precisão dos pares atributo-intervalo em cada

grupo, apresentada na Tabela 3, determina a ordem de inserção dos pares nos rótulos.
Tabela 3 – Precisão dos intervalos de cada atributo por grupo para a base de dados Íris.
Grupo Atributo Intervalo Precisão

CP 1,0 - 1,9 1,0
LP 0,1 - 0,6 1,0
1
LS 2,97 - 4,40 0,96
CS 4,30 - 5,51 0,94
CP 3,0 - 5,1 1,0
LP 1,0 - 1,8 1,0
2
LS 2,54 – 3,03 0,58
CS 5,42 - 6,15 0,56
LS 2,0 - 2,2 0,06
CP 4,85 - 6,9 0,94
LP 1,8 - 2,5 0,9
3
CS 5,98 - 7,9 0,86
LS 2,2 - 2,83 0,38
Caso haja mais de um par atributo-intervalo com mesma precisão, seleciona-se

aquele cuja inserção no rótulo produza a menor Taxa de Concordância nos demais grupos,
De modo que, na primeira iteração da rotulação do Grupo 1, avalia-se a adição dos pares
de maior precisão: (CP, [1,0, 1,9]) e (LP, [0,1 - 0,6]) em relação a Taxa de Concordância
que o rótulo resultante da adição dos pares teria, como mostra a Tabela 4.
Tabela 4 – Rotulação do Grupo 1 da base de dados Íris.
Iteração rg1 T Crg1 ,g1 T Crg1 ,g2 T Crg1 ,g3

1 (CP, [1,0 - 1,9]) 1,0 0,0 0,0
1 (LP, [0,1 - 0,6]) 1,0 0,0 0,0
Utilizando t = 0, 2, têm-se que ambos possíveis rótulos satisfazem as restrições 1 e

2, podendo qualquer dos intervalos compor o rótulo sem que seja necesária a adição de
nenhum outro componente. Optou-se pelo primeiro par atributo-intervalo, tal que o rótulo
do Grupo 1 é dado por rg1 = {(CP, [1, 0, 1, 9])}.
A rotulação do Grupo 2 considera a adição dos pares (CP, [3,0 - 5,1]) ou (LP, [1,0 -
1,8]) na primeira iteração, de acordo a Tabela 3. Como ambos produzem a mesma Taxa
de Concordância nos três grupos: 0,0, 0,0 e 0,32, respectivamente, optou-se pela adição do
par (CP, [3,0 - 5,1]).
Como mostra a T Crg2 ,g3 = 0, 32, o Grupo 3 também é representado pelo rótulo rg2 ,
ou seja, T Crg2 ,g3 ≥ t, fazendo-se necessário uma segunda iteração. Assim, na iteração 2,
adiciona-se o próximo par (LP, [1,0 - 1,8]), recalcula-se a Taxa de Concordância do rótulo
para todos os grupos e verifica-se a satisfação das restrições. O rótulo do Grupo 2 é então
definido por rg2 = {(CP, [3, 0 − 5, 1]), (LP, [1, 0 − 1, 8])}.

1 (CP, [3,0 - 5,1]) 0,0 1,0 0,32
(CP, [3,0 - 5,1])
2 0,0 1,00 0,16
(LP, [1,0 - 1,8])
Para o Grupo 3 (g3) as restrições são satisfeitas na primeira iteração, como mostra
a Tabela 6, resultando no rótulo do grupo dado por rg3 = {(CP, [4, 85 − 6, 9])}.

1 (CP, [4,85 - 6,9]) 0,0 0,08 0,94
Ao fim da segunda etapa, o modelo de rotulação proposto produz como resul-

(gi )
tado um conjunto de rótulos R = {rgi }|ki=1 , tal que rgi = {(atrl , [pl , ql ])}|m l=1 capaz
de melhor expressar o grupo gi associado. Para a base de dados Íris tem-se R =
{{(CP, [1, 0, 1, 9])},{(CP, [3, 0 − 5, 1]), (LP, [1 − 1, 8])}, {(CP, [4, 85 − 6, 9])}}.
4.3 Parâmetros
4.3.1 Parâmetro d: diferença máxima entre as curvas
O parâmetro d permite a identificação de intervalos relevantes para rotulação de
grupos distintos, limitando a diferença entre o erro estimado das predições em um intervalo
para que este possa ser atribuído a mais de um grupo. A ausência do parâmetro, ou d = 0,
implica na atribuição de cada intervalo a um único grupo, mesmo que o erro estimado
seja igual para grupos distintos.
Ao aumentar o valor do parâmetro, os intervalos tendem a ser atribuídos a mais
grupos. Por consequente, os intervalos finais tendem a ser mais longos, uma vez que
sequências maiores de intervalos iniciais serão concatenados. Isto implica em interseções
maiores entre os intervalos finais dos grupos, como mostra a Figura 14.
Interseções maiores ocasionam Taxas de Concordância maiores para os rótulos
nos demais grupos que não os seus, resultando na necessidade de um número maior de
pares atributo-intervalo por rótulo para distinguir os grupos. No pior cenário, para um
4.3. Parâmetros 31
(a) d = 0, 0 (b) d = 0, 1 (c) d = 0, 2
(d) d = 0, 3 (e) d = 0, 4 (f) d = 0, 5
(g) d = 0, 6 (h) d = 0, 6 (i) d = [0, 8 − 1, 0]
Figura 14 – Atribuição dos intervalos do atributo Comprimento da Sépala aos grupos

conforme a variação do parâmetro d.
d suficientemente grande, todos os pares atributo-intervalo seriam atribuídos aos grupos

sem que as restrições da subseção 4.2 fossem satisfeitas.
4.3.2 Parâmetro t: erro aceitável

O parâmetro t determina a porcentagem máxima de elementos de cada um dos
demais grupos representados por rgi para que este ainda seja considerado específico para gi .
Quanto menor o valor de t, mais pares atributo-intervalo serão necessários para distinguir
os grupos. Por sua vez, o aumento do número de pares em um rótulo tende a diminuir a
Taxa de Concordância, visto que a Taxa de Concordância acumula o erro de precisão de
todos os pares do rótulo.
Assim como para o parâmetro d, para um t suficientemente pequeno, todos os
pares atributo-intervalo seriam atribuídos aos grupos sem que as restrições da subseção
4.2 fossem satisfeitas.
O Capítulo 5 a seguir discute os resultados obtidos na aplicação do modelo proposto
em bases de dados da literatura.
33
5 Resultados e Discussão
Esta seção descreve os experimentos realizados para avaliação e validação do

modelo proposto. Nos experimentos, 3 bases de dados da literatura foram utilizadas:
Íris(FISHER, 1936), Sementes(KULCZYCKI; CHARYTANOWICZ, 2011) e Câncer de
Mama, disponíveis no repositório UCI (BACHE; LICHMAN, 2013). A escolha das bases
de dados deu-se pela presença em pelo menos um dos trabalhos relacionados, permitindo
a comparação do desempenho do modelo proposto com a literatura. Para todas as bases
o agrupamento é determinado pelas classes fornecidas. A seguir, têm-se a descrição das
bases de dados utilizadas:
• Íris: identifica 3 tipos de plantas: Iris-setosa, Iris-versicolor e Iris-virginica; com

base nas características Comprimento sa Sépala (CS), Comprimento da Pétala (CP),
Largura da Pétala (LP) e Largura da Sépala (LS). A base contém 150 instâncias,
sendo 50 de cada classe.
• Sementes: descreve 210 amostras de 3 tipos de sementes de trigo: 70 do tipo Kama, 70

do tipo Rosa e 70 do tipo Canadian. As amostras são descritas por 7 características
geométricas: Área (A), Perímetro (P), Densidade (D), Comprimento da Semente
(CS), Largura da Semente (LS), Coeficiente de Assimetria (CA) e Comprimento do
Sulco da Semente (CSS).
• Câncer de Mama: contém 699 amostras de diagnósticos de câncer de mama coletadas

nos Hospitais da Universidade de Wisconsis (Madison, USA). Dessas amostras, 16
foram desconsideradas por apresentarem valores nulos, restando 683 amostras descri-
tas por 9 atributos: Espessura do Aglomerado (EA), Uniformidade do Tamanho da
Célula (UTC), Uniformidade da Forma da Célula (UFC), Aderência Marginal (AM),
Tamanho Único da Célula Epitelial (TUCE), Núcleo Descoberto (ND), Cromatina
Suave (CS), Nucleulus Normais (NN), Mitoses (M). As amostras são divididas em
duas classes: benigna, com 444 instâncias, e malígna, com 239.
A regressão da Etapa I foi desempenhada por um Support Vector Regression de

kernel RBF. Para avaliar o parâmetro d em cada problema, variou-se-o entre 0,1 e 1,
considerando como melhor valor para o parâmetro aquele cujo experimento apresentou
rótulos com maior Taxa de Concordância média e menor número de pares atributo-
intervalo na composição dos rótulos. Para o parâmetro t, configurou-se t = 0, 2 em todos
os experimentos.
34 Capítulo 5. Resultados e Discussão
5.1 Iris
O processo de rotulação desta base de dados foi utilizado como exemplo para
explicar o modelo proposo na Seção 4. A Tabela 7 exibe os resultados para rotulação
variando o parâmetro d. Como discutido na subseção 4.3, o aumento do parâmetro d
ocasiona o aumento do número de elementos necessários nos rótulos para distinguir os
grupos, o que pode ser visto na tabela.
Tabela 7 – Variação do parâmetro d na base de dados Íris.
Taxa de
No de pares
Concordância Taxa de
d por rótulo
por Grupo Concordância
G1 G2 G3 Média G1 G2 G3
0,1 1,0 1,0 0,94 0,98 1 2 1
0,2 - 0,3 1,0 1,0 0,90 0,97 1 2 2
0,4 1,0 1,0 0,86 0,95 1 2 3
0,5 - 0,6 1,0 1,0 0,88 0,96 1 2 3
0,7 - 1,0 1,0 1,0 0,90 0,97 1 2 3
Considerando a Taxa de Concordância e o número de elementos nos rótulos,

determinou-se melhor resultado a rotulação para d = 0, 1, com Taxa de Concordância
média para os rótulos dos grupos de 0, 98 e um total de 4 pares atributo-intervalo. Os
rótulos obtidos neste experimento são apresentados na Tabela 8.
Tabela 8 – Rótulos dos grupos para base de dados Íris.
Rótulo Taxa de
Grupo
Atributo Intervalo Concordância
1 CP [1,0 - 1,9] 1,0
CP [3,0 - 5,1]
2 1,0
LP [1,0 - 1,8]
3 CP [4,85 - 6,9] 0,94
O rótulos representam satisfatoriamente os grupos, com Taxa de Concordância

mínima de 0, 94, para o grupo 3, e máxima de 1, 0, nos demais grupos. Quanto a composição
dos rótulos, os grupos 1 e 3 são representados por apenas um elemento, enquanto o
Grupo 2 necessitou de dois pares atributo-intervalo dado a interseção do primeiro par
(CP, [3, 0 − 5, 1]) com o rótulo do Grupo 3, em que o mesmo atributo assume um intervalo
de valores que contém o intervalo atribuído ao Grupo 2.
Em relação à Taxa de Concordância dos rótulos nos demais grupos, que não os
seus, obteve-se o máximo de 0, 16 para T Crg2 ,g3 , como descereve a Tabela 9.
O rótulo obtido fornece, como auxílio para o especialista, a interpretação de que:
5.2. Sementes 35
Tabela 9 – Taxa de Concordância dos rótulos por grupo para base de dados Íris.
Taxa de Taxa de Taxa de

Rótulo Concordância Concordância Concordância
no Grupo 1 no Grupo 2 no Grupo 3
rg1 1,0 0,0 0,0
rg2 0,0 1,0 0,16
rg3 0,0 0,08 0,94
• O grupo 1, de Iris-setosa, é composto por plantas cujo comprimento da pétala varia

entre 1,0 cm e 1,9 cm;
• O grupo 2, de Iris-versicolor, é composto por plantas cujo comprimento da pétala

varia entre 3,0 cm e 5,1 cm e a largura da pétala varia entre 1,0 cm e 1,8 cm;
• E o grupo 3, de Iris-virginica, é composto por elementos que, em 94% dos casos,

apresentam comprimento da pétala entre 4,85 cm e 6,9 cm.
Além disso, a descrição fornecida por cada rótulo é específica para seu respectivo
grupo, ou seja, ao descrever um grupo através de um rótulo que não o seu, o acerto seria
de no máximo 0,16.
5.2 Sementes
Para a base de dados Sementes, o resultado da variação do parâmetro d na rotulação
dos grupos é exposto na Tabela 10. Em relação Taxa de Concordância, a melhor rotulação
dá-se para d = 1, 0, com uma média de acerto de 0, 97. Entretanto, o rótulo obtido utiliza
9 componentes, o que pode dificultar a interpretação do agrupamento.
Ao priorizar um número menor de elementos por rótulo, o melhor resultado é
obtido quando d = 0, 1, em que a rotulação utiliza apenas 6 componentes e a Taxa de
Concordância é de 0, 9, resultando em uma perda de 7, 22% na Concordância.
Os rótulos apresentados na Tabela 11 prezam pelo melhor desempenho do modelo
no critério de Taxa de Concordância e foram obtidos utilizando d = 1, 0. As Taxas de
Concordância dos rótulos dos grupos variam entre 0, 9 e 1, 0.
Para o atributo Área (A), presente no rótulo dos três grupos, é possível identificar
a interseção do intervalo atribuído ao Grupo 1 com os grupos 2 e 3, o que justifica a
necessidade de adição de mais elementos ao rótulo. É importante ressaltar que, apesar
de não aparecerem nos rótulos dos outros grupos, os demais pares (com exceção de CA)
também representam mais de 20% dos elementos de algum dos demais grupos, o que dá
continuidade a adição de elementos. Por fim, a adição do par do atributo CA especifica o
rótulo para o Grupo 1.
Tabela 10 – Variação do parâmetro d na base de dados Sementes.
Taxa de
No de pares
d por rótulo
G1 G2 G3 Média G1 G2 G3
0,1 0,87 0,87 0,96 0,9 2 2 2
0,2 0,77 0,90 0,91 0,86 4 2 3
0,3 0,81 0,96 0,91 0,89 4 1 3
0,4 - 0,5 0,83 0,96 0,91 0,89 4 3 3
0,6 - 0,7 0,84 1,0 1,0 0,95 5 1 2
0,8 0,79 1,0 1,0 0,93 6 1 2
0,9 0,86 1,0 1,0 0,95 6 1 2
1,0 0,9 1,0 1,0 0,97 7 1 1
Tabela 11 – Rótulos dos grupos para base de dados Sementes.
Rótulo Taxa de
Grupo
CS [2,85 - 3,68]
A [11,23 - 17,08]
LS [4,90 - 6,05]
1 CSS [4,52 - 5,88] 0,90
P [12,63 - 15,46]
D [0,85 - 0,92 ]
CA [0,77 - 4,16]
2 A [15,38 - 21,18] 1,0
3 A [10,59 - 13,37] 1,0
Como discutido na subseção 4.3, o aumento do número de elementos por rótulo

tende diminuir a Taxa de Concordância, uma vez que os pares atributo-intervalo atuam
como restrições a serem satisfeitas. De modo que, o Grupo 1, com maior número de
componentes no rótulo, apresenta a menor Taxa de Concordância que os demais grupos,
para os quais o número de elementos diminui e a Taxa de Concordância aumenta. As
seguintes interpretações podem ser extraídas a partir dos rótulos dos grupos do problema:
• No grupo 1, de sementes do tipo Kama, 90% dos elementos têm:
– comprimento da semente entre 2,85 e 3,68 cm,

– área entre 11,23 e 17,08 cm,
– largura da semente entre 4,9 e 6,05 cm,
– comprimento do sulco da semente 4,52 e 5,88 cm,
– perímetro entre 12,63 e 15,46 cm,
– densidade entre 0,85 e 0,92,
5.3. Câncer de Mama 37
– coeficiente de assimetria entre 0,77 e 4,16
• No grupo 2, de sementes do tipo Rosa, 100% dos elementos têm área entre 15,38 e
21,18 cm.
• No grupo 3, de sementes do tipo Canadian, 100% dos elementos têm área entre 10,59
e 13,37 cm.
Com base nos resultados da Tabela 12 também pode-se afirmar que os rótulos são
específicos para os grupos, uma vez que o acerto ao descrever um grupo através de um
rótulo que não o seu é de no máximo 0,2.
Tabela 12 – Taxa de Concordância dos rótulos por grupo para base de dados Sementes.
Taxa de Taxa de Taxa de

Rótulo Concordância Concordância Concordância
no Grupo 1 no Grupo 2 no Grupo 3
rg1 0,9 0,04 0,14
rg2 0,19 1,0 0,0
rg3 0,2 0,0 1,0
5.3 Câncer de Mama

No problema da identificação de Câncer de Mama repetiu-se os experimentos
variando o parâmetro d. Os resultados obtidos, apresentados na Tabela 13, apontam
como melhor valor para o parâmetro o intervalo entre 0, 5 e 0, 8, para o qual os rótulos
balanceiam o número de componentes e a Taxa de Concordância, totalizando 6 pares
atributo-intervalo que representam uma média de 97% dos elementos dos grupos.
Tabela 13 – Variação do parâmetro d na base de dados Câncer de Mama.
Taxa de
No de pares
d por rótulo
G1 G2 Média G1 G2
0,1 0,98 0,73 0,85 3 2
0,2 - 0,3 0,98 0,91 0,94 3 2
0,4 0,98 0,91 0,94 4 2
0,5 - 0,8 0,98 0,96 0,97 4 2
0,9 - 1,0 0,98 0,96 0,97 5 3
A Tabela 14 descreve os rótulos dos grupos deste experimento, para os quais

obteve-se Taxas de Concordância de 0, 98 e 0, 96.
O grupo 1, de amostras benígnas, é descrito por 4 pares atributo-valor. O número
maior de componentes no rótulo se deve a interseção entre os intervalos dos pares dos
Tabela 14 – Rótulos dos grupos para base de dados Câncer de Mama.
Rótulo Taxa de
Grupo
UFC [1,0 - 8,0]
M [1,0 - 8,0]
1 0,98
ND [1,0 - 6,36]
EA [1,0 - 6,13]
M [1,0 - 10,0]
2 0,96
UFC [2,91 - 10,0]
atributos Mitoses (M) e Uniformidade do formato da célula (UFC) atribuídos à mabos

grupos.
Apesar da quantidade de elementos, o rótulo do Grupo 1 apresenta Taxa de
Concordância maior que o do Grupo 2. Isso acontece devido a precisão dos elementos
do rótulo de g2. Enquanto os 4 elementos do rótulo do Grupo 1 acumulam um erro de
0, 02, o segundo elemento de g2 apresenta precisão de 0, 96, o que determina a Taxa de
Concordância do rótulo, dado que a precisão do primeiro componente é 1, 0.
A Tabela 15 mostra ainda que a Taxa de Concordância dos rótulos para grupo
oposto é de no máximo 0,08, ou seja, menos de 10% dos elementos tem as características
semelhantes descritas pelos rótulos dos dois grupos.
Tabela 15 – Taxa de Concordância dos rótulos por grupo para base de dados Câncer de
Mama.
Taxa de Concordância Taxa de Concordância

Rótulo
no Grupo 1 no Grupo 2
rg1 0,98 0,08
rg2 0,02 0,74
Por fim, o rótulo fornece uma interpretação dos grupos, tal que:
• O grupo 1, de amostras benígnas, é composto por elementos que, em 98% dos casos,
apresentam uniformidade do formato da célula entre 1,0 e 8,0, de 1,0 à 8,0 mitoses,
núcleo descoberto entre 1, e 6,36 e espessura do aglomerado entre 1,0 e 6,13.
• o grupo 2, de amostras malígnas, apresenta, para 96% dos casos, 1 à 10 mitoses e

uniformidade do formato da célula entre 2,91 e 10,0.
5.4 Comparativo entre os modelos

Os resultados obtidos pela rotulação dos grupos das bases de dados foram compa-
rados com os dos modelos propostos por Machado, Ribeiro e Rabêlo (2015), Lopes et al.
5.4. Comparativo entre os modelos 39
(2016), Imperes Filho et al. (2020) e Moura (2020), considerando a concordância média dos
rótulos e o número de pares atributo-intervalo que os compõem. A Tabela 16 apresenta os
valores obtidos.
Tabela 16 – Comparativo entre os Modelos de Rotulação.

Íris Sementes Câncer de Mama
Modelo
No de No de No de
Concordância Concordância Concordância
pares pares pares
Média Média Média
no rótulo no róluto no rótulo
Ribeiro, 2015 0,92 4 - - - -
Lopes, 2016 (MRA) 0,94 7 0,89 10 - -
Imperes, 2020 0,95 4 - - 0,93 6
Método
Moura, 2020 0,96 3 0,97 3 - -
padrão
(CAIBAL)
Método
0,97 9 0,96 12 - -
alternativo
Modelo Proposto 0,98 4 0,97 9 0,97 6
Para base de dados Íris, presente em todos os trabalhos citados, a concordância

média supera 0, 9 para todos os modelos. Destaca-se o desempenho do modelo proposto,
alcançando concodância média de 0,98 para rotulação com 4 pares atributo-intervalo
distribuídos nos rótulos, sendo esta a quantidade de pares utilizados pela maioria dos
modelos. As exceções são os modelos de Lopes, Machado e Rabêlo (2013), que utiliza mais
pares atributo-intervalo, totalizando 7, e o método padrão do modelo de Moura (2020)
que utiliza 3 pares. Nesse método o modelo preza pela quantidade mínima de pares nos
rótulos, como discutido no Capítulo 2.
Através do modelo proposto, os rótulos obtidos para a base de dados Semente
representam uma média de 97% dos elementos, desempenho semenlhante ao método padrão
do modelo CAIBAL, enquanto o MRA obteve concordância média de 0,89. Além disso, o
modelo proposto rotula com menor quantidade de pares nos rótulos quando comparado ao
RMA e ao método alternativo do CAIBAL. Já o método padrão do CAIBAL rotula com
um número menor de pares atributo–intervalo.
Por fim, a base Câncer de Mama, quando utilizada por Imperes Filho et al. (2020),
foi rotulada com concordância média de 0,93, e, quando rotulada pelo modelo proposto, a
concordância atingiu 0,97. Em ambos trabalhos os rótulos são formados por um total de 6
pares atributo-intervalo.
De forma geral, o modelo proposto obteve melhores resultados que os modelos de ro-
tulação da literatura, fornecendo rótulos mais representativos e coesos, e, consequentemente,
interpretações mais acertivas sobres os grupos.
41
6 Conclusões e Continuidade da Pesquisa
A interpretação dos dados de um agrupamento, usualmente, depende da análise

um especialista a fim de identificar padrões nos dados que expliquem a formação dos
grupos, um processo que despende de tempo e recursos. Em vista disso, os Modelos de
Rotulação de Grupos são ferramentas que fornecem auxílio ao especialista na interpretação
do agrupamento por meio de uma definição resumida das principais características dos
grupos.
Os modelos de rotulação propostos na literatura baseaiam-se no uso de diferentes
técnicas de inteligência artificial como discretização de dados, Redes Neurais Artificiais e
Lógica Fuzzy para determinação dos atributos mais relevantes para formação dos grupos
e os intervalos de valores associados a eles. Este trabalho oferece um modelo alternativo
para o rotulação de grupos baseado em AM e se diferencia principalmente pelo uso de
regressão, técnica que dispensa a discrestização de dados e os efeitos provocados por ela.
Além disso, o modelo proposto incorpora a delimitação das faixas de valores
ao processo de seleção dos pares atributo-intervalo, atribuindo relevância aos atributos
associados aos intervalos em que o erro de predição da regressão é mínimo, resultando em
rótulos específicos capazes de representar a maioria dos elementos dos grupos.
Os resultados obtidos nos experimentos mostram que o modelo é eficaz em rotular
os grupos, apresentando Taxa de Concordância média entre 0,97 e 0,98 para as bases de
dados utilizadas, superando os resultados da literatura. Além disso, o modelo garante a
especificidade dos rótulos, ou seja, todos os rótulos obtidos são exclusivos para os seus
grupos.
6.0.1 Continuidade da pesquisa

Considerando os resultados obtidos nos experimentos, alguns melhoramentos podem
ser feitos no modelo, tais como a aplicação do modelo em bases de dados com maior número
de atributos e o estudo da aplicabilidade de métodos para redução de características ou
seleção de atributos, com base em medidas estatíscas relacionadas aos modelos de regressão,
como etapa prévia à aplicação do modelo. Além disso, predente-se verificar a existência
de uma relação entre rotulação e a identificação de outliers nos grupos. Dado que alguns
elementos dos grupos não são representados pelos rótulos, uma hipótese levantada durante
os experimentos é o que de estes podem ser outliers. Uma forma de testar essa hipótese
seria verificando o impacto da exclusão desses elementos nos índices de validação de
agrupamento. A Tabela 17 organiza o desenvolvimento dessas atividades no próximos
meses.
42 Capítulo 6. Conclusões e Continuidade da Pesquisa
Tabela 17 – Cronograma de atividades.
2020 2021
Atividades
OUT NOV DEZ JAN FEV MAR
Revisão bibliográfica X X X X X
Aplicação do modelo em bases
X X
de dados maiores
Verificação da hipótese de identificação
X X
de outliers com base na rotulação
Defesa da dissertação X
43
Referências
ARAUJO, F. N. C. et al. Automatic cluster labeling based on phylogram analysis. 2018

International Joint Conference on Neural Networks (IJCNN), p. 1–8, 2018. 17
ARAUJO, S.; VERAS, R.; MACHADO, V. P. Modelo de classificação de grupos baseado

em rotulação e lógica fuzzy. 01 2019. 20
BACHE, K.; LICHMAN, M. (UCI) Machine Learning Repository. 2013. Disponível em:
<http://archive.ics.uci.edu/ml>. 21, 33
BERRY, M.; LINOFF, G. Data Mining Techniques For Marketing, Sales and Customer
Support. [S.l.]: John Wiley Sons, Inc., 1996. 7, 8
BHARILL, N.; TIWARI, A.; MALVIYA, A. Fuzzy based scalable clustering algorithms for
handling big data using apache spark. IEEE Transactions on Big Data, IEEE, v. 2, n. 4,
p. 339–352, 2016. 1
CHANG, H.; YEUNG, D.-Y. Robust path-based spectral clustering. Pattern Recognition,
v. 41, p. 191–203, 01 2008. 5
CORTES, C.; VAPNIK, V. Support-vector networks. Machine learning, Springer, v. 20,

n. 3, p. 273–297, 1995. 12
FACELI, K. et al. Inteligência Artificial: Uma Abordagem de Aprendizado de Máquina.

[S.l.]: Rio de Janeiro, 2011. 1, 7, 8, 13, 14
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. The kdd process for extracting
useful knowledge from volumes of data. Commun. ACM, Association for Computing
Machinery, New York, NY, USA, v. 39, n. 11, p. 27–34, nov. 1996. ISSN 0001-0782.
Disponível em: <https://doi.org/10.1145/240455.240464>. 1
FISHER, R. A. The use of multiple measurements in taxonomic problems. Annals of

Eugenics, v. 7, n. 7, p. 179–188, 1936. 10, 21, 33
GIONIS, A.; MANNILA, H.; TSAPARAS, P. Clustering aggregation. ACM Trans. Knowl.
Discov. Data, Association for Computing Machinery, New York, NY, USA, v. 1, n. 1, p. 4–es,
mar. 2007. ISSN 1556-4681. Disponível em: <https://doi.org/10.1145/1217299.1217303>.
5
HAIR, J. et al. Análise multivariada de dados - 6ed. Bookman, 2009. ISBN 9788577805341.
Disponível em: <https://books.google.com.br/books?id=oFQs\_zJI2GwC>. 6, 7, 11, 14
HALKIDI, M.; BATISTAKIS, Y.; VAZIRGIANNIS, M. On clustering validation

techniques. Journal of Intelligent Information Systems, v. 17, 2001. 7
HALKIDI, M. et al. A clustering framework based on subjective and objective

validity criteria. ACM Trans. Knowl. Discov. Data, Association for Computing
Machinery, New York, NY, USA, v. 1, n. 4, fev. 2008. ISSN 1556-4681. Disponível em:
<https://doi.org/10.1145/1324172.1324176>. 1
44 Referências
HAN, J.; KAMBER, M.; PEI, J. Data Mining: Concepts and Techniques. 3rd. ed. San
Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 2011. ISBN 0123814790. 1
HAYKIN, S. Neural networks: a comprehensive foundation. [S.l.]: Prentice-Hall, Inc., 2007.

14
HEASRT, M. et al. Trends and controversies-support vector machines. IEEE Intelligent

Systems, v. 13, n. 4, p. 18–28, 1998. 14
HERBRICH, R. Learning kernel classifiers: theory and algorithms. [S.l.]: MIT press, 2001.
14
HSU, C.-W.; CHANG, C.-C.; LIN, C.-J. A Practical Guide to Support Vector Classification.
[S.l.], 2003. Disponível em: <http://www.csie.ntu.edu.tw/~cjlin/papers.html>. 14
HU, H. et al. Toward scalable systems for big data analytics: A technology tutorial. IEEE
access, IEEE, v. 2, p. 652–687, 2014. 1
IMPERES Filho, F. et al. Group labeling methodology using distance-based data grouping
algorithms. Revista de Informática Teórica e Aplicada, v. 27, n. 1, p. 48–61, 2020. 2, 10,
18, 39
JAIN, A. K. Data clustering: 50 years beyond k-means. Pattern Recognit. Lett., v. 31, p.
651–666, 2010. 1, 6
JAIN, A. K.; DUBES, R. C. Algorithms for Clustering Data. USA: Prentice-Hall, Inc.,
1988. ISBN 013022278X. 7
KULCZYCKI, P.; CHARYTANOWICZ, M. A complete gradient clustering algorithm.

International Conference on Artificial Intelligence and Computational Intelligence, p.
497–504, 2011. 33
LIMA, B. V. A.; MACHADO, V. P.; LOPES, L. A. Automatic labeling of social network

users scientia.net through the machine learning supervised application. Soc. Netw. Anal.
Min., 2015. 17
LOPES, L. et al. Automatic labelling of clusters of discrete and continuous data with
supervised machine learning. Knowledge-Based Systems, v. 106, 05 2016. 2, 17, 39
LOPES, L. A.; MACHADO, V. P.; RABêLO, R. A. L. Automatic labeling of groupings

through supervised machine learning. Encontro Nacional de Inteligência Artificial e
Computacional - ENIAC, 2013. 2, 8, 10, 17, 19, 21, 22, 39
LOPES, L. A.; MACHADO, V. P.; RABêLO, R. A. L. Automatic cluster labeling

through artificial neural networks. International Joint Conference on Artificial Neural
Networks(IJCNN), p. 762–769, 2014. 17
MACHADO, V. P.; RABêLO, R. A. L.; LOPES, L. A. Cluster labeling through multi-layer

perceptron algorithm. Simpósio Brasileiro de Automação Inteligente - SBAI, 2013. 17
MACHADO, V. P.; RIBEIRO, V. P.; RABêLO, R. A. L. Rotulacao de grupos utilizando

conjuntos fuzzy. In: XII Simposio Brasileiro de Automacao Inteligente-SBAI. [S.l.: s.n.],
2015. p. 355–360. 2, 10, 18, 19, 38
Referências 45
MITCHELL, T. M. The role of unlabeled data in supervised learning. In: LARRAZABAL,

J. M.; MIRANDA, L. A. P. (Ed.). Language, Knowledge, and Representation. Dordrecht:
Springer Netherlands, 2004. p. 103–111. ISBN 978-1-4020-2783-3. 5
MOURA, M. R. d. S. CAIBAL - Cluster-Attribute Interdependency Based Automatic

Labeler. Dissertação (Mestrado) — Universidade Federal do Piauí - UFPI, 3 2020. 2, 10,
19, 39
MULLER, J. M. Elementary functions. [S.l.]: Springer, 2006. 24
PATTERSON, J.; GIBSON, A. Deep Learning: A Practitioner’s Approach. 1st. ed. [S.l.]:
O’Reilly Media, Inc., 2017. ISBN 1491914254. 11
RUSSELL, S.; NORVIG, P. Artificial Intelligence: A Modern Approach. [S.l.: s.n.], 2004.
12
SILVA, L. A.; PERES, S. M.; BOSCARIOLI, C. Introdução à mineração de dados: com

aplicações em R. 1. ed. [S.l.: s.n.], 2016. 1, 5, 6, 11
Smith, S. P.; Jain, A. K. Testing for uniformity in multidimensional data. IEEE

Transactions on Pattern Analysis and Machine Intelligence, PAMI-6, n. 1, p. 73–81, 1984.
7
SOUSA, J. M. et al. Automatic labelling of clusters with discrete and continuous data
using supervised machine learning. In: IEEE. 2016 35th International Conference of the
Chilean Computer Science Society (SCCC). [S.l.], 2016. p. 1–10. 17

Qualificação

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Qualificação

Enviado por

Direitos autorais:

Formatos disponíveis

Universidade Federal do Piauí

Centro de Ciências da Natureza

Rotulação Automática de Grupos Baseada em

Lúcia Emília Soares Silva

Número de Ordem PPGCC: M001

Rotulação Automática de Grupos Baseada em Análise de

Qualificação de Mestrado apresentada ao

Universidade Federal do Piauí – UFPI

Orientador: Vinicius Ponte Machado

Orientador: Vinicius Ponte Machado

Qualificação (Mestrado) – Universidade Federal do Piauí – UFPI

Rotulação Automática de Grupos Baseada em Análise de

Qualificação de Mestrado apresentada ao

Trabalho aprovado. Teresina-PI, 25 de setembro de 2020:

Vinicius Ponte Machado

Rodrigo de Melo Souza Veras

Ricardo de Andrade Lira Rabêlo

Palavras-chaves: Análise de agrupamento. Interpretação de grupos. Aprendizagem de

Keywords: Clustering interpretation. Cluster analysis. Machine Learning.

Figura 1 – Exemplos de agrupamentos . . . . . . . . . . . . . . . . . . . . . . . . 6

Tabela 1 – Predição do atributo Comprimento da Sépala. . . . . . . . . . . . . . . 23

6 CONCLUSÕES E CONTINUIDADE DA PESQUISA . . . . . . . . . 41

Em vista da grande quantidade de dados produzidos por empresas e serviços das

1.1 Motivação e Objetivos

define-se como objetivos específicos:

• dispensar a etapa de discretização de dados utilizando modelos de regressão;

• integrar a delimitação das faixas de valores à análise da relevância dos atributos;

1.2 Estrutura do Trabalho

número de grupos, os agrupamentos são desempenhados de modo a seguir as condições

Figura 1 – Exemplos de agrupamentos

A definição de agrupamento levanta três principais discussões: Como medir a

estrutura do agrupamento formado, entretanto, para maioria dos métodos de agrupamento

2.1.1 Validação de agrupamento

Figura 2 – Representação gráfica de grupos com diferentes compacidades e separabilidades.

2.2 Rotulação de Grupos

Problema da Rotulação: Dado um conjunto de grupos G = {gi }|ki=1 , em que

• n(gi ) é o número de elementos do grupo gi ;

• ~ej é um elemento qualquer de gi ;

• rgi é o rótulo do grupo gi ;

• atrl é um atributo qualquer do problema;

• [pl , ql ] é o intervalo de valores do atributo atrl , em que pl é o limite inferior e ql o

• m(gi ) é o número de atributos no rótulo de gi .

A Figura 3 exemplifica a rotulação de um agrupamento com três grupos g1 , g2 e

Figura 3 – Ilustração de um rótulo.

Ao final do processo de rotulação, tem-se a identificação dos elementos dos grupos

Figura 4 – Rotulação da base de dados Íris.

O cojunto de pares de atributos e intervalos relevantes para os grupos são extraídos

2.3 Análise de Regressão

2.3.1 Regressão linear

Assim, w0 e w1 são definidos pelas equações 2.4 e 2.5.

Quando o espaço das amostras x é muldimensional, ou seja, a entrada é agora um

2.3.2 Support Vector Regression

Figura 5 – Exemplo de regressão usando Support Vector Regression

Assim, tem-se o problema de encontrar um vetor de pesos w que solucione o

Em situações reais, é difícil encontrar aplicações cujos dados sejam linearmente

A constante C impõe um trade-off entre a regularidade da função e o quanto os

pontos fora da região traçada também aumenta. Conforme C se aproxima de 0, a tolerância

2.3.3 ε-SVR aplicado a problemas não lineares

K(xi , xj ) = exp(−σ kxi − xj k2 ) (2.10)

A Figura 6 exemplifica o efeito da aplicação do kernel RBF em uma ε-SVR para

2.3.4 Análise de resíduos

ou ruins, significamente mudando os resultados. Essas observações são baseadas em pelo

• Um erro em observações ou entrada de dados

• ad,l é a média dos resíduos obtidos quando a saída esperada é ad,l

g[pil ,ql ] ≤ min({g[pil ,ql ] }) + d ∗ min({g[pil ,ql ] }) (4.5)