Estratificação de dados em aprendizado semissupervisionado

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
CENTRO DE ENSINO SUPERIOR DO SERIDÓ

DEPARTAMENTO DE COMPUTAÇÃO E TECNOLOGIA
BACHARELADO EM SISTEMAS DE INFORMAÇÃO
UMA PROPOSTA DE ESTRATIFICAÇÃO DE DADOS PARA SELEÇÃO DE

INSTÂNCIAS EM APRENDIZADO DE MÁQUINA
SEMISSUPERVISIONADO.
CAINAN TEIXEIRA ALVES
Caicó - RN
2021
CAINAN TEIXEIRA ALVES
UMA PROPOSTA DE ESTRATIFICAÇÃO DE DADOS PARA SELEÇÃO DE

INSTÂNCIAS EM APRENDIZADO DE MÁQUINA
SEMISSUPERVISIONADO.
Trabalho de Conclusão de Curso II, apresentado

ao Curso de Bacharelado em Sistemas de Informação
da Universidade Federal do Rio Grande do Norte,
como parte dos requisitos para obtenção do grau de
Bacharel em Sistemas de Informação.
Orientador(a): MSc. Amarildo Jeiele Ferreira de

Lucena.
Co-orientador(a): MSc. Karliane Medeiros Ovidio
Vale.
Caicó - RN
2021
Agradecimentos
Primeiramente, agradeço a minha família por todo o apoio, especialmente minha mãe,
Maria Nair Teixeira Neta, e minha avó, Maria Salete Teixeira de Souza, por serem minhas
principais referências em educação e integridade pessoal. São as pessoas que me mostraram o
verdadeiro sentido de ser coerente com meus princípios e valores morais.
Agradeço também aos meus amigos, por terem sido meu refúgio do estresse através
dos momentos de zoeira e descontração, por estarem presentes durante as fases difíceis e
principalmente por não falharem na tarefa denominada amizade. Em especial aos colegas do
Laboratório de Inteligência Computacional Aplicada a Negócios, por dividirem comigo as
manhãs de LabCoffee e os períodos em que obtive grande parte do conhecimento adquirido
durante a graduação.
Ao meu orientador, Prof. MSc. Amarildo Jeiele Ferreira de Lucena, por ter acreditado
na minha capacidade e me aceitado como seu orientando, oferecendo sempre ensinamentos e
colaborações durante a pesquisa.
A minha co-orientadora, Profa. MSc. Karliane Medeiros Ovidio Vale, por ter influência
direta nesta pesquisa, me proporcionando grande parte do aprendizado obtido nesta fase tão
importante da minha graduação e consequentemente da vida.
Aos docentes Prof. Dr. Flavius da Luz e Gorgônio, Profa. Dra. Anne Magaly de Paula
Canuto, Prof. Dr. Araken de Medeiros Santos e Prof. Dr. João Paulo de Souza Medeiros, por
fazerem parte deste estudo por meio de importantes contribuições.
Resumo
Algoritmos e métodos capazes de aprender por meio de poucos exemplos rotulados são de
grande necessidade em aplicações reais, devido a dificuldade para conseguir conjuntos com
dados relevantes e corretamente rotulados para a tarefa de classificação. Estes algoritmos
normalmente complementam suas bases de dados com uma quantidade maior de instâncias
até então sem rótulo, de forma que os classificadores possam gerar predições mais precisas.
Contudo, é necessário que haja uma automatização do processo de rotulação dos exemplos
sem rótulo. O Flexible Confidence with Classifier (FlexCon-C), método baseado no algoritmo
self-training, utiliza um limiar flexível que rotula de acordo com a confiança das instâncias
previstas. No entanto, a escolha dos rótulos se concentra apenas na confiabilidade pertinente
aos exemplos, demonstrando uma falta de controle com relação as classes inseridas. Com
base nisso, este estudo teve como objetivo adaptar o FlexCon-C para o uso de estratificação
durante a inclusão dos exemplos no conjunto de treinamento. Para a realização de experimentos,
a fim de obter resultados propícios a uma avaliação, foram elencadas trinta e uma bases de
dados e atribuídas cinco configurações para dados rotulados inicialmente, onde foram aplicados
quatro classificadores para obtenção de resultados relacionados ao desempenho. Os resultados
mostraram que o método proposto obteve melhor desempenho quando os experimentos foram
aplicados a poucos dos dados rotulados inicialmente, evidenciando que a estratificação é mais
eficaz quando se tem pouquíssimos exemplos rotulados.
Palavras-chave: Aprendizado semissupervisionado; FlexCon-C; Estratificação de dados.
Abstract
Algorithms and methods capable of learning throught a few labeled examples are of great
necessity in real applications, as there is a difficulty in achieving sets with relevant and correctly
labeled data for the classification task. These algorithms usually complement their databases with
a larger number of unlabeled instances so that classifiers can generate more accurate predictions.
However, there is a need to automate the labeling process of the unlabeled examples. The flexible
Confidence with Classifier (FlexCon-C), a method based on the self-training algorithm, uses
a flexible threshold that labels according to the predicted instances trust. However, the labels
are chosen based only on the confidence degree of the examples, which demonstrates a lack of
control over the inserted classes. With this, the objective of this study was to adapt FlexCon-C
to the use of data stratification during the inclusion of examples in the training set. To perform
the experiments to obtain favorable results for evaluation, thirty one databases were assigned
and five settings were assigned to initially labeled data, where four classifiers were applied to
obtain performance-related results. The findings showed that the proposed method performed
better when the experiments were applied to a few of the initially labeled data, showing that
stratification is more effective when there are few labeled examples.
Keywords: Semi-supervised learning; FlexCon-C; Data stratification.
LISTA DE FIGURAS
Figura 1 – Hierarquia do aprendizado indutivo. . . . . . . . . . . . . . . . . . . . . . 20

Figura 2 – Aprendizado semissupervisionado. . . . . . . . . . . . . . . . . . . . . . . 21
Figura 3 – Árvore de Decisão. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Figura 4 – Decisão estruturada em árvore. . . . . . . . . . . . . . . . . . . . . . . . . 25
Figura 5 – Representação do KNN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Figura 6 – Estratificação de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Figura 7 – Desempenho Geral dos Métodos . . . . . . . . . . . . . . . . . . . . . . . 41
Figura 8 – Ranking Geral dos Métodos . . . . . . . . . . . . . . . . . . . . . . . . . . 42
LISTA DE TABELAS
Tabela 1 – Bases de Dados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

Tabela 2 – Desempenho médio utilizando o classificador Naive Bayes . . . . . . . . . 35
Tabela 3 – Desempenho médio utilizando o classificador Árvore de decisão . . . . . . 36
Tabela 4 – Desempenho médio utilizando o classificador Ripper . . . . . . . . . . . . 37
Tabela 5 – Desempenho médio utilizando o classificador k-NN . . . . . . . . . . . . . 37
Tabela 6 – Ranking de desempenho utilizando o classificador Naive Bayes . . . . . . . 38
Tabela 7 – Ranking de desempenho utilizando o classificador Árvore de decisão . . . . 39
Tabela 8 – Ranking de desempenho utilizando o classificador Ripper . . . . . . . . . . 39
Tabela 9 – Ranking de desempenho utilizando o classificador k-NN . . . . . . . . . . . 40
Tabela 10 – Resultados do teste de Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . 43
Tabela 11 – Resultados do FlexCon-C1S (soma) com Árvore de decisão . . . . . . . . . 51
Tabela 12 – Resultados do FlexCon-C1S (soma) com Naïve Bayes . . . . . . . . . . . . 52
Tabela 13 – Resultados do FlexCon-C1S (soma) com Ripper . . . . . . . . . . . . . . . 53
Tabela 14 – Resultados do FlexCon-C1S (soma) com k-NN . . . . . . . . . . . . . . . . 54
Tabela 15 – Resultados do FlexCon-C1S (votação) com Árvore de decisão . . . . . . . . 56
Tabela 16 – Resultados do FlexCon-C1S (votação) com Naïve Bayes . . . . . . . . . . 57
Tabela 17 – Resultados do FlexCon-C1S (votação) com Ripper . . . . . . . . . . . . . . 58
Tabela 18 – Resultados do FlexCon-C1S (votação) com k-NN . . . . . . . . . . . . . . 59
Tabela 19 – Resultados do FlexCon-C2S com Árvore de decisão . . . . . . . . . . . . . 61
Tabela 20 – Resultados do FlexCon-C2S com Naïve Bayes . . . . . . . . . . . . . . . . 62
Tabela 21 – Resultados do FlexCon-C2S com Ripper . . . . . . . . . . . . . . . . . . . 63
Tabela 22 – Resultados do FlexCon-C2S com k-NN . . . . . . . . . . . . . . . . . . . . 64
Tabela 23 – Resultados do FlexCon-C1 (soma) com Árvore de decisão . . . . . . . . . . 66
Tabela 24 – Resultados do FlexCon-C1 (soma) com Naïve Bayes . . . . . . . . . . . . 67
Tabela 25 – Resultados do FlexCon-C1 (soma) com Ripper . . . . . . . . . . . . . . . . 68
Tabela 26 – Resultados do FlexCon-C1 (soma) com k-NN . . . . . . . . . . . . . . . . 69
Tabela 27 – Resultados do FlexCon-C1 (votação) com Árvore de decisão . . . . . . . . 71
Tabela 28 – Resultados do FlexCon-C1 (votação) com Naïve Bayes . . . . . . . . . . . 72
Tabela 29 – Resultados do FlexCon-C1 (votação) com Ripper . . . . . . . . . . . . . . 73
Tabela 30 – Resultados do FlexCon-C1 (votação) com k-NN . . . . . . . . . . . . . . . 74
Tabela 31 – Resultados do FlexCon-C2 com Árvore de decisão . . . . . . . . . . . . . . 76
Tabela 32 – Resultados do FlexCon-C2 com Naïve Bayes . . . . . . . . . . . . . . . . . 77
Tabela 33 – Resultados do FlexCon-C2 com Ripper . . . . . . . . . . . . . . . . . . . . 78
Tabela 34 – Resultados do FlexCon-C2 com k-NN . . . . . . . . . . . . . . . . . . . . 79
LISTA DE ABREVIATURAS E SIGLAS
AD Árvore de Decisão
AM Aprendizado de Máquina
IA Inteligência Artificial
IBL Instance-Based Learning (Aprendizagem Baseada em Instância)
k-NN K-Nearest Neighbor (k-vizinho mais próximo)
NB Naive Bayes
SSL Semi-Supervised Learning (Aprendizado Semissupervisionado)

LISTA DE SÍMBOLOS
Dr Conjunto de instâncias rotuladas
Dn Conjunto de instâncias não rotuladas
CL Classificador
S Subconjunto de instâncias selecionadas para inclusão no conjunto de treina-

mento
LISTA DE ALGORITMOS
1 Self-Training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2 FlexCon-C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3 FlexCon-CS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
SUMÁRIO
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.1 Contextualização e Problema . . . . . . . . . . . . . . . . . . . . . . 13
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2.1 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2.2 Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3 Delimitação do Estudo . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5 Apresentação do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . 15
2 FUNDAMENTAÇÃO TEÓRICA . . . . . . . . . . . . . . . . . . . . . 16
2.1 Inteligência Artificial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Aprendizado de Máquina . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.1 Aprendizado Indutivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.2 Tipos de aprendizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.3 Aprendizado Semissupervisionado . . . . . . . . . . . . . . . . . . . . 20
2.2.3.1 Self-training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.3.2 Flexible Confidence with Classifier . . . . . . . . . . . . . . . . . . . . . . 22
2.3 Classificação de dados . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3.1 Árvore de Decisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3.2 Aprendizagem bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3.3 Aprendizagem baseada em instâncias . . . . . . . . . . . . . . . . . . 26
2.3.4 Aprendizagem baseada em regras . . . . . . . . . . . . . . . . . . . . 28
2.4 Estratificação de dados . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5 Trabalhos relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.1 Proposta Metodológica . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2 Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4 RESULTADOS E DISCUSSÕES . . . . . . . . . . . . . . . . . . . . 35
4.1 Análise de Desempenho . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2 Análise de Ranking . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.3 Análise Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.4 Validação da Proposta . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.1 Discussão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.2 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
APÊNDICE A – RESULTADOS DO FLEXCON-C1S (SOMA) PARA

CADA CLASSIFICADOR . . . . . . . . . . . . . . . 50
APÊNDICE B – RESULTADOS DO FLEXCON-C1S (VOTAÇÃO) PARA

APÊNDICE C – RESULTADOS DO FLEXCON-C2S PARA CADA

CLASSIFICADOR . . . . . . . . . . . . . . . . . . . 60
APÊNDICE D – RESULTADOS DO FLEXCON-C1 (SOMA) PARA

APÊNDICE E – RESULTADOS DO FLEXCON-C1 (VOTAÇÃO) PARA

APÊNDICE F – RESULTADOS DO FLEXCON-C2 PARA CADA CLAS-

SIFICADOR . . . . . . . . . . . . . . . . . . . . . . 75
12
1 Introdução
A compreensão da mente humana tem sido objeto de estudo de diversos pesquisadores

ao redor do mundo, e foi através de estudos sobre este assunto que surgiu, logo após a segunda
guerra mundial, a área de pesquisa denominada Inteligência Artificial (IA). Além de buscar
o entendimento a respeito da mente, seu foco também é voltado para a construção de agentes
inteligentes. Segundo Norvig e Russell (2013), para ser possível dizer que um programa tem
a capacidade de pensar, é necessário antes saber definir como os seres humanos pensam. De
maneira análoga ao pensamento humano, as máquinas utilizam dados previamente coletados
como fonte de aprendizado.
Com o avanço das pesquisas em IA e sabendo que dados são elementos fundamentais
para o funcionamento de máquinas capazes de aprender, emergiu um conceito importante em
meio às demais descobertas tecnológicas, o Aprendizado de Máquina (AM). Este subcampo
da IA baseia-se na capacidade que o cérebro humano possui de aprender através de experi-
ências passadas (MITCHELL, 1997). Para Lantz (2015), o AM é um campo de interesse no
desenvolvimento de algoritmos que transformam dados em ações inteligentes.
Algumas atividades do mundo real fazem uso de técnicas baseadas em aprendizado de
máquina, tais como: resultados de pesquisas na Web, reconhecimento de padrões em imagens
e anúncios em tempo real em páginas Web. A forma como estas aplicações são utilizadas
dependem de um conjunto, razoavelmente grande, de dados para que o algoritmo seja capaz de
aprender. Ainda, é necessário uma certa imposição de responsabilidade quanto a forma que os
dados serão distribuídos em relação a relevância das suas características.
Dentro do conceito de aprendizado de máquina, há tipos de abordagens para o processo
de aprendizagem, o aprendizado supervisionado, no qual um algoritmo aprende com base em
dados previamente rotulados e o não supervisionado, onde o aprendizado se dá por meio de
dados sem rótulo (GOLLAPUDI, 2016). Posteriormente, uma terceira forma de aprendizado
surgiu a partir dos estudos sobre as abordagens anteriores, o denominado aprendizado semissu-
pervisionado. Nesta abordagem, uma parcela do conjunto de dados utilizado para classificação é
rotulada e a outra parte sem rótulo.
O self-training (YAROWSKY, 1995) é um exemplo de algoritmo que faz uso desta
forma de aprendizagem. Zhu e Goldberg (2009) explicam que o self-training utiliza suas próprias
previsões para classificar exemplos que não possuem rótulos na sua base de dados, na qual estes
dados previstos possuem um valor de confiança agregado. Assim, a forma como o self-training
adiciona os exemplos no conjunto é baseado nas classes com maior grau de confiabilidade.
13
1.1 Contextualização e Problema

O critério de qualidade em um conjunto de dados pode ser obtido através de diversos
fatores, desde atributos relevantes, que caracterizam fortemente o objeto classificado, até a
rotulação correta das instâncias. Dessa forma, uma base de dados qualificada é um fator essencial
para o aprendizado de máquina, visto que a classificação é feita a partir dos padrões encontrados
nas características contidas nas instâncias.
Contudo, para se obter uma base de dados relevante, é necessário um esforço maior
devido a dificuldade de se obter instâncias rotuladas (BIANCHINI; MAGGINI; JAIN, 2013). À
vista disso, faz-se necessário o uso de técnicas que automatizem o trabalho de rotulação, usando
exemplos não rotulados para complementar os dados já rotulados. Sendo assim, é preciso que
o conjunto de instâncias não rotuladas seja relativamente numeroso, compensando a falta de
rótulos, para que as predições sejam de fato precisas (CHAPELLE; SCHÖLKOPF; ZIEN, 2006).
Alguns autores propõem métodos que modificam a estrutura do self-training visando
melhorar o desempenho dos classificadores, para que o processo de classificação seja cada vez
mais eficaz. O método Flexible Confidence with Classifier (FlexCon-C) proposto por Vale et
al. (2018) modifica o algoritmo de maneira que a escolha dos rótulos seja feita por meio de
um limiar flexível, que varia conforme a mudança na precisão da classificação. O método foi
proposto com duas variações, o FlexCon-C1, que utiliza um comitê de classificadores para
auxiliar o processo de rotulação dos exemplos e o FlexCon-C2, que usa os rótulos preditos pelo
classificador da primeira iteração.
A utilização do FlexCon-C para incluir os dados com base nas instâncias mais confiá-
veis de suas predições é uma maneira eficiente de conseguir um bom conjunto de dados para
treinamento. Entretanto, esta forma de inclusão se concentra apenas no grau de confiabilidade,
percebendo-se uma falta de controle a respeito de quantas e quais classes estão sendo incluídas
no conjunto de treinamento, podendo ocasionar um certo desbalanceamento entre elas. Castro e
Braga (2011) explicam que, nestas ocasiões, há um favorecimento à classe majoritária na geração
dos modelos de classificação, tornando menor a taxa de reconhecimento da classe minoritária.
Tendo em vista os problemas citados acima, surge a hipótese de que seja possível
obter um melhoramento no desempenho dos classificadores, através do controle das classes no
processo de inclusão dos exemplos no conjunto de treinamento. Sendo assim, este trabalho
tem como proposta o desenvolvimento de um método, baseado na estratificação de dados, que
busca manter um melhor aproveitamento no processo de inclusão de novos exemplos, a fim de
conseguir um aumento na precisão da classificação.
1.2 Objetivos
A seguir, serão apresentados de forma geral e específica os objetivos deste trabalho.
14
1.2.1 Objetivo Geral

Aumentar o desempenho dos classificadores através de um método, baseado na estratifi-
cação de dados, para inclusão automática de instâncias em conjuntos de dados distintos.
1.2.2 Objetivos Específicos

i. Análise e definição de critérios para estratificação dos dados no momento da inclusão dos
exemplos no conjunto dos rotulados;
ii. Desenvolvimento do método de estratificação das classes baseado no critério definido no

tópico anterior;
iii. Adaptação do algoritmo FlexCon-C para a utilização do método de estratificação;
iv. Análise do desempenho obtido comparando os resultados com os métodos FlexCon-C1 e

FlexCon-C2 sem o uso da estratificação.
1.3 Delimitação do Estudo

O estudo em questão concentrou-se na pesquisa a respeito de Aprendizado de Máquina
e delimitou-se nos conceitos relacionados ao aprendizado semissupervisionado, buscando com-
preender as principais ideias referentes a esta abordagem. Dentre os algoritmos de aprendizado
semissupervisionado encontrados na literatura, este trabalho fez uso do self-training como base,
e mais especificamente o método FlexCon-C. Este foi adaptado para o uso da estratificação de
dados. A pesquisa limita-se exclusivamente ao estudo da forma de inclusão de novos exemplos
no conjunto de dados para treinamento dos classificadores, dessa forma, as demais partes do
algoritmo passíveis de mudança, são sugeridas como trabalhos futuros.
1.4 Justificativa
O uso do aprendizado de máquina em uma aplicação necessita que o conjunto de
dados utilizado para classificação possua exemplos qualificados para o treinamento, isto inclui a
rotulação correta dos mesmos. Portanto, há um interesse em propostas de algoritmos que façam
o trabalho de rotulação de maneira eficiente. Além disso, o desenvolvimento de algoritmos
que possam obter uma boa generalização dos dados a partir de poucos exemplos rotulados no
conjunto de treinamento, é um aspecto a ser levado em consideração em relação a relevância da
pesquisa realizada.
Ainda, a garantia da representatividade de cada uma das classes no conjunto de treina-
mento e o maior grau de confiabilidade possível dos exemplos são importantes em problemas de
classificação. Desta forma, a utilização do método de estratificação como recurso de qualidade
15
produz benefícios significativos com relação à distribuição das classes, causando possivelmente
o melhoramento do desempenho de classificadores.
Estes motivos justificam a realização deste trabalho, que visa o estudo de um método
para auxiliar o processo de inclusão de instâncias, no qual serão aplicadas técnicas de proporção
para calcular a distribuição no procedimento de estratificação das classes.
1.5 Apresentação do Trabalho

Este documento encontra-se estruturado em cinco capítulos: Introdução, Fundamenta-
ção Teórica, Metodologia, Resultados e Discussões e Conclusão. O primeiro capítulo preocupa-se
em apresentar o trabalho com o intuito de contextualizar a pesquisa de maneira geral, mostrando
os principais objetivos, problema de pesquisa, delimitação do estudo e sua justificativa.
O capítulo dois consiste na divisão em seções de embasamento teórico, nas quais são
apresentados conceitos relacionados a inteligência artificial e aprendizado de máquina. Os
conteúdos apresentados por meio destes subtópicos são imprescindíveis para a compreensão
deste trabalho, pois tratam dos principais conceitos aplicados a esta pesquisa, tais como os tipos
de aprendizado, que delimitam-se no AM semissupervisionado e abordam o funcionamento do
self-training. Ao final do capítulo, são dispostos alguns trabalhos relacionados.
O terceiro capítulo apresenta detalhes da pesquisa, e de todo o processo metodológico
para a realização do estudo, por meio da subseção Proposta Metodológica. Ainda, é mostrado o
procedimento para a elaboração do método, através das subseções Processo de Estratificação e
Experimentos, mostrando todo o escopo da solução proposta para o problema da pesquisa.
No capítulo quatro são expostos todos os resultados encontrados ao realizar os ex-
perimentos, exibindo os resultados obtidos e apresentando uma discussão geral a respeito do
desempenho atingido. Ainda, uma análise estatística foi conduzida a fim de validar os resultados
alcançados.
Por fim, no capítulo cinco apresenta-se uma conclusão de forma geral, trazendo uma
discussão a respeito de todo o estudo envolvido e sugerindo ideias para que trabalhos futuros
possam dar continuidade a esta pesquisa.
16
2 Fundamentação Teórica
2.1 Inteligência Artificial

A Inteligência Artificial (IA) é um campo da tecnologia cujas pesquisas foram iniciadas
logo após a segunda guerra mundial. Dentre os precursores da IA destaca-se Minsky (1988), que
contribuiu com suas pesquisas sobre o funcionamento da mente, uma delas relatada em sua obra
"The Society of Mind". Este trabalho foi de fundamental importância para os estudos iniciais da
IA, uma vez que descreve os processos do pensamento humano e sua replicação nas máquinas.
Além das pesquisas realizadas por Minsky (1988), outra que contribuiu com esta área,
foi a do matemático britânico Alan Turing, que desenvolveu um método intitulado "Teste de
Turing" (TURING; COPELAND, 2004). Segundo ele, uma máquina será dotada de inteligência
caso a aplicação do seu teste seja bem sucedida. Neste teste, um interrogador humano fará
perguntas a dois indivíduos anônimos, um destes é humano e o outro simulado por uma máquina.
A comunicação será feita através do teclado, e o interrogador tentará descobrir qual dos dois
indivíduos trata-se de um humano, se o mesmo não for capaz de distinguir conclui-se que a
máquina é capaz de pensar.
Com o aumento das pesquisas em IA, inúmeras possibilidades de estudo, em diversos
campos, foram abertas, desde os mais gerais como os de aprendizagem e percepção, até os que
realizam tarefas mais específicas como desenvolvimento de teoremas matemáticos e diagnósticos
de doenças (NORVIG; RUSSELL, 2013).
Segundo Teixeira (1990), o desenvolvimento de algo como "máquinas capazes de
pensar"ou uma IA paralela à nossa, é um projeto suficientemente ambicioso, onde há espaço
para especialistas de vários campos de estudo do conhecimento humano, tais como: linguística,
psicologia, filosofia, ciência da computação, dentre outras áreas.
McClelland (2017) afirma que para alcançar a inteligência artificial seria necessário
milhões de linhas de código, com regras complexas e árvores de decisão, porém um conceito
importante resolveria este problema, a capacidade de aprendizagem por parte das máquinas.
2.2 Aprendizado de Máquina

A capacidade de aprender é essencial dentro do conceito geral de inteligência, visto
que esta é uma maneira de obter informações novas, ampliando o conhecimento acumulado e
consequentemente melhorando o comportamento inteligente de um indivíduo. Esta ideia pode
ser aplicada no âmbito computacional, tornando real a possibilidade de aprendizagem por parte
17
dos computadores.
Segundo Nilsson (1996), a aprendizagem das máquinas geralmente se refere às mudan-
ças nos sistemas que realizam tarefas associadas à inteligência artificial. Essas mudanças podem
ser aprimoramentos para sistemas já executados. De acordo com o autor, uma máquina aprende
sempre que altera sua estrutura, programa ou dado (com base em suas entradas ou em resposta a
informações externas) de tal forma que haja um melhoramento no seu comportamento futuro.
Aprendizado de Máquina (AM) também pode ser definido como métodos computacio-
nais que usam a experiência para fazer previsões precisas ou melhorar o desempenho delas, na
qual a qualidade e o tamanho do conjunto de dados são fatores essenciais para o treinamento
e consequentemente o sucesso das predições (MOHRI; ROSTAMIZADEH; TALWALKAR,
2012).
A fim de provocar uma melhor compreensão a respeito do assunto, Shwartz e David
(2014) fazem uma associação entre a maneira como ratos aprendem a evitar veneno e como as
máquinas realizam a detecção de spams em emails. Segundo os autores, quando ratos encontram
alimentos, eles primeiro comem quantidades pequenas e a alimentação subsequente dependerá
do sabor do alimento e de seu efeito fisiológico. Se a substância produzir um resultado negativo,
as próximas refeições serão frequentemente associadas a doença e, posteriormente, os ratos não
comerão.
Percebe-se então um mecanismo de aprendizagem - o animal usou experiência anterior
com a ingestão de um alimento para adquirir conhecimento e poder utilizá-lo para detectar
a segurança nas próximas alimentações. Uma solução semelhante é utilizada na detecção de
spams, onde a máquina simplesmente memoriza todos os e-mails anteriores que foram marcados
como spam pelo usuário humano, a fim de otimizar a defesa contra novos spams (SHWARTZ;
DAVID, 2014). Há diversas formas de aplicar estes conceitos em problemas reais do cotidiano.
Assistentes virtuais, recomendações de produtos feitas por aplicações web e aplicativos de
tradução são exemplos de utilização desta abordagem.
Quando se trata de um conceito no qual as máquinas aprendem a partir de experiências
anteriores, é normal pensar em como esse conhecimento é armazenado. Segundo Gollapudi
(2016), os dados - que juntos são a representação para a experiência das máquinas - são a
principal fonte para o processo de aprendizagem, eles podem ser recebidos em qualquer formato,
tamanho ou frequência.
Uma das abordagens de aprendizagem de máquina encontrada na literatura é o aprendi-
zado indutivo, que será discutido na próxima seção.
18
2.2.1 Aprendizado Indutivo

De acordo com Monard e Baranauskas (2003) o aprendizado por indução consiste em
um modo de se obter conclusões genéricas a partir de um conjunto de exemplos. Trata-se da
capacidade de formar um modelo a partir de um padrão identificado ao analisar regras distintas,
ou ainda, o conhecimento generalizado que excede aquele contido nos fatos, na qual este pode
ou não ser válido (SANCHES, 2003).
Em sua pesquisa, Sanches (2003) afirma que sua aplicação é usada para derivar co-
nhecimento novo e prever eventos futuros, e por isso este método é responsável por inúmeras
descobertas da humanidade. Alguns conceitos apresentados por Monard e Baranauskas (2003)
são utilizados para mencionar detalhes específicos da abordagem, como:
i. Exemplo: Também denominado instância, registro ou dado, representa um objeto especí-

fico. Consiste em uma tupla composta por características específicas sobre este.
ii. Atributos: São características referentes aos exemplos. Existem dois tipos, nominal e
contínuo. O primeiro é usado quando não existe uma ordem entre os valores (por exemplo,
cor: vermelho, verde, azul) enquanto o segundo é utilizado em uma ordem linear nos
valores (por exemplo, peso ∈ R, um número real).
iii. Rótulo ou Classe: Consiste em um atributo especial que descreve o fenômeno de interesse,
ou seja, é a atribuição de uma marcação ao exemplo dado.
iv. Distribuição de classes: Dado um conjunto E(e1 , e2 ...en ) de exemplos, é possível calcular
a sua distribuição de classes dividindo a quantidade de classes Cj pelo número n de
instâncias rotuladas através da fórmula
n
1X
distr(Cj ) = kyi = Cj ||
n i=1
onde yi é o rótulo de cada exemplo.
v. Classificador: É utilizado para realizar previsões de classes com a maior precisão possível
de acordo com os exemplos do conjunto de dados para treinamento.
Pode-se afirmar que o método indutivo é dividido em aprendizado supervisionado e não

supervisionado, o qual será detalhado na seção seguinte.
2.2.2 Tipos de aprendizado

De acordo com Cánepa (2016), com base na metodologia de treinamento e tendo em
vista os dados fornecidos, os tipos de aprendizado podem ser divididos em:
19
1. Aprendizado supervisionado;
2. Aprendizado não supervisionado;
Sobre o aprendizado supervisionado, Gollapudi (2016) afirma que consiste em operar

com uma expectativa conhecida, na qual os conjuntos de dados de entrada neste contexto são
chamados de conjuntos dos rotulados. Os algoritmos de aprendizado supervisionado exigem
uma grande quantidade de dados de treinamento para construir modelos com alto desempenho
de previsão (BIANCHINI; MAGGINI; JAIN, 2013).
Zhu e Goldberg (2009) explicam que as amostras de treinamento são organizadas em
pares, contendo uma instância x e um rótulo y, como mostrado na Fórmula (1). Pode-se pensar
em y como sendo a classe dada ao conjunto de características pertinentes ao exemplo x, onde n
equivale ao número de instâncias representadas no conjunto de dados.
{(xi , yi )}ni=1 (1)
Cánepa (2016) explica que o objetivo da máquina é aprender a relação instância/rótulo

e com base nos conhecimentos adquiridos através do treinamento, ser capaz de realizar previsões
de comportamento ou tomadas de decisão. O autor ainda afirma que para obter boas previsões,
é importante que os dados sejam de qualidade, isto é, corretamente rotulados. No entanto, o
processo de rotulagem dos dados é bastante caro, tedioso e demorado, uma vez que é preciso
ser realizado por humanos ou através de aplicações cuja intenção seja obter dados do usuário
(BIANCHINI; MAGGINI; JAIN, 2013).
O aprendizado não supervisionado é utilizado quando não se tem um alvo específico,
isto é, não há um rótulo inerente às características dadas no exemplo (GOLLAPUDI, 2016).
Neste caso o objetivo é agrupar os exemplos através da semelhança entre os atributos. Este
tipo de abordagem geralmente é utilizada em problemas onde a aprendizagem é baseada na
equivalência entre as instâncias, isto é, há uma busca pelo padrão de características intrínsecas
aos exemplos dados.
{xi }ni=1 (2)
Os algoritmos de aprendizagem não supervisionados funcionam em um espaço amostral

de treinamento com n instâncias, como mostrado na Fórmula (2). Não possui um rótulo que
forneça supervisão quanto ao modo como as instâncias individuais devem ser tratadas (ZHU;
GOLDBERG, 2009).
A Figura 1 representa a hierarquia do método indutivo e seus tipos de aprendizado.
20
Figura 1 – Hierarquia do aprendizado indutivo.
Fonte: Adaptado de Monard e Baranauskas (2003)
Na Figura 1 são mostradas duas subcategorias do aprendizado supervisionado, classifi-

cação e regressão de dados. Kantardzic (2011) as define como:
i. Classificação: "Descoberta de uma função de aprendizado preditivo que classi-

fica um item de dados em uma das várias classes predefinidas";
ii. Regressão: "Descoberta de uma função de aprendizado preditivo que mapeia
um item de dados para uma variável de previsão de valor real".
Neste trabalho, será aplicada a classificação de dados. Sendo assim, este conceito será
detalhadamente abordado nas seções seguintes.
É razoável afirmar a existência de uma categoria de aprendizagem que utiliza ca-
racterísticas presentes nos dois tipos mencionados anteriormente, intitulado de Aprendizado
Semissupervisionado.
2.2.3 Aprendizado Semissupervisionado

O Semi-Supervised Learning (Aprendizado Semissupervisionado) (SSL) trata-se de um
meio termo entre aprendizagem supervisionada e não supervisionada, como exibido na Figura 2.
A maioria das estratégias para este tipo de aprendizagem baseiam-se na extensão do treinamento
supervisionado ou não supervisionado para incluir informações adicionais (ZHU; GOLDBERG,
2009). De certa forma, o SSL surge como uma maneira de se aproximar progressivamente da
capacidade de aprendizagem humana, na qual as experiências passadas são utilizadas junto à
habilidade de raciocinar, a fim de aprender em ocasiões cuja situação nunca fora apresentada
anteriormente.
Chapelle, Schölkopf e Zien (2006) questionam se o aprendizado semissupervisionado
é mesmo significativo, e se ao realizar uma comparação entre um algoritmo que utiliza SSL e
21
outro que faz uso da aprendizagem supervisionada pode-se esperar uma previsão mais precisa
levando em consideração os pontos não marcados. De acordo com os estudos realizados pelos
autores, isto pode ser esperado.
Figura 2 – Aprendizado semissupervisionado.
Fonte: Adaptado de Chen e Zhang (2015)
Seguindo este contexto, Zhu e Goldberg (2009) complementam afirmando que, de

uma perspectiva diferente, o aprendizado semissupervisionado pode atingir o mesmo nível
de desempenho do supervisionado, utilizando um número menor de exemplos rotulados e
consequentemente um custo também reduzido. Contudo, existe a necessidade de que os exemplos
não rotulados sejam de fato relevantes. Uma vez que os dados não supervisionados trazem menos
informações do que os rotulados, eles são necessariamente exigidos em grandes quantidades,
a fim de aumentar significativamente a precisão da predição. Isso implica a imposição de
algoritmos rápidos e eficientes (CHAPELLE; SCHÖLKOPF; ZIEN, 2006).
Dentro desta abordagem existem dois cenários com objetivos levemente distintos, co-
nhecidos como aprendizado semissupervisionado de forma indutiva e transdutiva, a diferença
depende da natureza de um preditor. O primeiro se ocupa em prever os rótulos nos dados de teste
futuros, enquanto o segundo exerce o papel de rotular as instâncias não marcadas na amostra
de treinamento (ZHU; GOLDBERG, 2009). Algoritmos foram desenvolvidos aplicando estes
conceitos, dentre os mais eminentes, destaca-se o self-training.
2.2.3.1 Self-training
O self-training é um algoritmo que trabalha de forma incremental, iniciando com apenas

um classificador que utiliza uma quantidade reduzida de dados rotulados. De forma iterativa, ele
prediz as classes das instâncias sem rótulo e atribui um valor de confiança em suas previsões,
adicionando os exemplos mais confiáveis ao conjunto inicial de treinamento. Feito isso, o mesmo
treina novamente o classificador com o conjunto expandido. Este processo é realizado diversas
vezes até que atinja um determinado número de iterações ou que alguma regra de parada seja
satisfeita. É de extrema importância que as inclusões no conjunto de treinamento sejam efetuadas
corretamente, para que haja de fato uma melhoria na precisão da classificação (BIANCHINI;
MAGGINI; JAIN, 2013). Seguindo este raciocínio, conclui-se que o self-training utiliza suas
22
próprias previsões para obter melhores resultados nas etapas seguintes, e por isso o termo self-
teaching também é uma definição válida para esse algoritmo (ZHU; GOLDBERG, 2009). O
pseudocódigo apresentado no Algoritmo 1 simula o funcionamento do algoritmo descrito.
Algoritmo 1: Self-Training
Entrada: dados rotulados {(xi , yi )}li=1 , dados não rotulados {xj }l+u
j=l+1
início
Primeiramente, Dr = {(xi , yi )}li=1 e Dn = {xj }l+u
j=l+1
repita
Treinar um classificador CL usando aprendizado supervisionado
Classificar as instâncias não rotuladas em Dn
Separar um subconjunto S de Dn
Adicionar {(x, CL(x))|x ∈ S} a Dr
até Dn = ∅;
fim
Fonte: Adaptado de Zhu e Goldberg (2009)
Alguns autores modificam a estrutura do self-training buscando obter um melhor

desempenho dos classificadores, para que possam atingir melhores resultados nas classificações.
O método FlexCon-C (VALE et al., 2018) é um exemplo de modificação deste algoritmo, cujo
trabalho serve com base para este estudo.
2.2.3.2 Flexible Confidence with Classifier
O Flexible Confidence with Classifier (FlexCon-C), desenvolvido no trabalho de Vale

et al. (2018), baseia-se no algoritmo self-training do aprendizado semissupervisionado. Este
método faz o uso de um limiar para a separação dos maiores índices de confiança relacionados às
classes da predição, o qual seja flexível para utilização com bases de dados distintas. A equação
para o ajuste da taxa de confiança é dada pela Fórmula 3.



 conf (ti ) − cr, se acc ≥ mp + e

conf (ti+1 ) = conf (ti ), se mp − e < acc < mp + e (3)


 conf (t ) + cr, se acc ≤ mp − e

i
A equação pode ser descrita da seguinte forma: conf (ti ) é o valor de confiança da
iteração corrente; mp pode ser entendido como uma precisão mínima aceitável; cr é a taxa de
mudança (o valor definido no trabalho é 0.05); e corresponde a uma variação permitida para
23
definir uma estabilização na precisão e acc a precisão da classificação, entendida como uma taxa
de acerto ou acurácia.
Desse modo, se a acurácia for maior ou igual ao valor de precisão mínima adicionado à
variação de precisão, há uma diminuição do limiar de confiança por uma taxa de variação, mas
se a acurácia for menor ou igual a precisão mínima decrementada da variação de precisão, o
limiar é aumentado pela taxa de variação. Caso ela esteja na faixa permitida do valor de precisão
mínima, o limiar permanecerá o mesmo (VALE et al., 2018).
Este método é utilizado para selecionar os rótulos adequados para inclusão na base
a partir das maiores taxas de confiança associadas às classes. Dessa forma, a flexibilidade do
limiar é aplicada no sentido de favorecer as próximas predições através do melhoramento no
desempenho do classificador. O Algoritimo 2 mostra o funcionamento do FlexCon-C.
Algoritmo 2: FlexCon-C
j=l+1
início
j=l+1
repita
Definir um novo valor de confiança (limiar)
Separar um subconjunto S = {s1 , s2 , ..., sn } de Dn, de forma que a taxa de
confiança em CL(x) seja igual ou superior ao limiar para incluir novos exemplos
Adicionar {(x, CL(x))|x ∈ S} a Dn
até Dn = ∅;
fim
Fonte: Adaptado de Vale et al. (2018)
Inicialmente, um classificador CL é treinado a partir de instâncias rotuladas, para

então prever os rótulos das instâncias não rotuladas. Logo após, é feito um cálculo para o
novo limiar de confiança. Feito isso, um subconjunto S das instâncias não rotuladas é obtido
juntamente com seus rótulos preditos, estes são selecionados para inclusão no conjunto dos
dados rotulados para treinamento. Os dados em S consistem em instâncias com as previsões de
maior grau de confiabilidade, escolhidas a partir do limiar de confiança. O classificador então é
treinado novamente, dessa vez com um conjunto maior de dados rotulados. Este processo é feito
repetidamente até que o conjunto de dados não rotulados esteja completamente rotulado.
Ainda, o método descrito acima possui duas variações. A primeira, o FlexCon-C1, usa
um comitê de classificadores como forma adicional para a escolha de rótulos, cuja composição
consiste em classificadores construídos durante cada iteração. Este conjunto possui duas versões:
24
soma e votação. A soma se caracteriza pelo somatório das taxas de confiança de cada rótulo
classificado em todas as iterações, enquanto a votação consiste no armazenamento do voto
referente à classe com maior taxa de confiança das iterações. A segunda, o FlexCon-C2, utiliza
apenas os rótulos que foram preditos na primeira iteração como forma adicional para rotulação.
2.3 Classificação de dados

A classificação pode ser definida como uma tarefa da aprendizagem supervisionada
cuja função é prever a classe a qual um exemplo pertence (LANTZ, 2015). Este processo é
feito a partir de uma técnica que organiza os dados de um conjunto de forma que os atributos
selecionados pertençam à mesma classe (GOLLAPUDI, 2016). É de certa forma frequente sua
utilização em várias aplicações do cotidiano, alguns exemplos são:
• Identificação de spams;
• Movimentos em um jogo de computador;
• Diagnósticos de doenças.
Diversos algoritmos de classificação foram criados usando diferentes métodos para

realizar as tarefas descritas acima, alguns são demonstrados através dos tópicos subsequentes.
2.3.1 Árvore de Decisão

A Árvore de Decisão (AD) é amplamente utilizada em aprendizado de máquina, sendo
uma das mais poderosas técnicas de modelagem. Ela naturalmente induz regras que podem ser
usadas na classificação e previsão de dados (GOLLAPUDI, 2016).
Sua estrutura ao ser traduzida para a linguagem humana, pode ser representada como
um conjunto de regras if-then-else. De acordo com Mitchell (1997), é um método para aproximar
funções de valor discreto e ao mesmo tempo robusto para dados ruidosos e capaz de aprender
expressões disjuntivas.
A Figura 3 mostra um exemplo de como funciona uma árvore, cuja função é atribuir
um número de classe a um determinado padrão de entrada, este é filtrado através de testes onde
possuem resultados mutuamente exclusivos e exaustivos. Por exemplo, o teste T2 da Figura 3
possui três resultados; de acordo com o padrão de entrada, a classe resultante da folha esquerda
é 3, o do meio envia o padrão de entrada para o teste T4, enquanto a folha direita atribui à classe
1 (NILSSON, 1996).
25
Figura 3 – Árvore de Decisão.
Fonte: Adaptado de Nilsson (1996)
Utiliza-se uma estrutura em árvore para cada exemplo num conjunto de instâncias,
iniciando pela raiz e percorrendo até a última folha. Cada nó indica um teste de atributo, os
ramos são os valores que este pode assumir e suas folhas as possíveis classificações (MITCHELL,
1997).
Para uma melhor compreensão, a Figura 4 apresenta um exemplo de estrutura em árvore
que classifica manhãs de sábado como sendo propícias ou não para um jogo de tênis.
Figura 4 – Decisão estruturada em árvore.
Fonte: Adaptado de Mitchell (1997)
Observa-se que se o tempo estiver nublado, o jogo certamente acontecerá, entretanto os

demais (ensolarado e chuvoso) possuem uma dependência de outros atributos (umidade e vento)
para ser capaz de classificar a ocorrência ou não do jogo.
26
2.3.2 Aprendizagem bayesiana

Segundo Mitchell (1997), o critério bayesiano apresenta uma abordagem probabilística
para a inferência. Ele baseia-se na hipótese de que os rótulos são gerados através de distribuições
de probabilidade. O autor aponta que os métodos bayesianos são de fato relevantes para o estudo
de aprendizado de máquina por dois motivos. O primeiro está relacionado à praticidade que
estes algoritmos possuem em certos problemas de aprendizagem, devido ao cálculo explícito de
probabilidades para suas hipóteses. A segunda justificativa refere-se ao fato de que eles podem
oferecer uma perspectiva útil para a compreensão de muitos algoritmos que não manipulam
probabilidades.
O Naive Bayes (NB) é um classificador probabilístico baseado no teorema de Bayes, e
como o nome sugere, ele é considerado de certa forma ingênuo em relação a sua classificação.
Isto se deve ao fato de seus atributos serem considerados de forma independente em seus cálculos,
ou seja, não há correlação alguma de cada atributo com os demais (GOLLAPUDI, 2016). Por
exemplo, uma pessoa pode ser considerada bonita se ela possui olhos claros, cabelos lisos e
dentes brancos. O NB considera que cada característica contribui de forma isolada para que esta
pessoa seja classificada como "bonita". O cálculo bayesiano para geração de hipóteses é descrito
por
P (D|h)P (h)
P (h|D) =
P (D)
Considerando P(h) como sendo a probabilidade inicial de que possa existir uma hipótese
h, e P(D) de forma similar, tal que D representa o conjunto de dados para treinamento. Utiliza-se
P(D|h) para denotar a probabilidade de observar os dados D baseado na validade da hipótese h, e
de forma contraposta, P(h|D) é chamada de probabilidade posterior de h, pois espera-se que a
hipótese se mantenha válida após a observação dos dados de treinamento D (MITCHELL, 1997).
2.3.3 Aprendizagem baseada em instâncias

A aprendizagem nestes algoritmos constitui-se simplesmente em guardar os dados de
treinamento rotulados, até que uma nova instância de consulta seja encontrada. Então, um
conjunto de exemplos semelhantes relacionados é recuperado da memória e utilizado para
classificar a nova instância (MITCHELL, 1997).
Existem algumas variações de algoritmos que utilizam desse conceito, tais como K-
Nearest Neighbor (k-vizinho mais próximo) (k-NN) e a família de algoritmos Instance-Based
Learning (Aprendizagem Baseada em Instância) (IBL). O primeiro é tratado com mais frequência
entre diversos autores, tais como Mitchell (1997), Lantz (2013), Aha, Kibler e Albert (1991),
Cover e Hart (1967), SANTOS et al. (2009), Suguna e Thanushkodi (2010), Dangeti (2017).
27
O k-NN é um algoritmo da abordagem supervisionada do aprendizado de máquina,

aplicado à classificação de dados e considerado um dos métodos mais antigos e simples segundo
Cover e Hart (1967). Sua função é prever a categoria da amostra de teste de acordo com os
exemplos de treinamento K (que são os vizinhos mais próximos da amostra de teste) e julgar
aquela que possui a maior possibilidade de classificação (SUGUNA; THANUSHKODI, 2010).
Aha, Kibler e Albert (1991) descrevem ’categoria’ como sendo o conjunto de todas as instâncias
em um espaço que possuem o mesmo valor para seu atributo de categoria.
Na primeira de suas obras, Lantz (2013) afirma que este algoritmo é considerado
um classificador lento, já que há uma necessidade de calcular a distância entre o ponto a ser
descoberto e todos os outros já identificados. Para cada registro no dataset de teste, o k-NN
identifica os k registros nos dados de treinamento que são os "mais próximos", utilizando o
cálculo para medir a distância, em relação a similaridade, onde k é um inteiro especificado
antecipadamente. A instância de teste não rotulada é atribuída à classe da maioria dos vizinhos
mais próximos. A Figura 5 traz uma representação para o funcionamento do k-NN.
Figura 5 – Representação do KNN.
Fonte: Adaptado de Pacheco (2017)
Observa-se na Figura 5 que ao utilizar o parâmetro k com os inteiros 3 ou 7, o algoritmo

certamente definirá o novo rótulo (o ponto no centro da figura) como sendo da classe B, porém
ao usar o k com o número 11, o k-NN marcará como pertencente à classe A.
O cálculo mais utilizado para encontrar o intervalo entre o ponto alvo e os vizinhos é a
medida de distância euclidiana, dada por
v
u n
p uX
D(P, Q) = (p1 − q1 )2 + · · · + (pn − qn )2 = t (pi − qi )2
i=1
28
onde P = (p1 , · · · , pn ) e Q = (q1 , · · · , qn ) são dois pontos n-dimensionais e D é a

função distância entre eles (PACHECO, 2017).
2.3.4 Aprendizagem baseada em regras

O aprendizado baseado em regras utiliza o reconhecimento de padrões, associações e
operações frequentes que podem ser usados como premissas para classificação e predição de
dados. Com base na ocorrência de ações, o classificador gera um conjunto de regras através
de padrões encontrados e as utiliza para prever o acontecimento de outros itens. As regras de
associação normalmente utilizam a sintaxe ’se... então’ para relacionar os conjuntos de dados
(GOLLAPUDI, 2016).
Dentre os algoritmos desenvolvidos para esta abordagem, o JRip, comumente chamado
por Ripper, é utilizado com maior frequência (RAJPUT et al., 2011). Segundo Oliveira (2016), o
Ripper é a evolução do IREP, que consiste em um algoritmo para indução de regras. Ele utiliza
a técnica de cobertura sequencial para gerar regras. Esta técnica se caracteriza por iniciar com
uma lista de regras vazia, e então é chamada uma função para extrair uma regra que cubra o
máximo de amostras de treinamento positivas e o mínimo de amostras negativas. A regra é então
adicionada à lista e o processo se repete até que todas as amostras do conjunto de treinamento
tenham sido analisadas.
O diferencial do Ripper é que ele utiliza um conjunto de dados de validação para realizar
a poda das regras, e quando há duas classes no conjunto de treinamento, o algoritmo escolhe
a que dispõe de um número maior de amostras como sendo a classe padrão e define novas
regras para detectar a classe com quantidade reduzida de amostras. Assim, o Ripper é adequado
para os casos de desbalanceamento de classes ou para casos de ocorrência de ruídos nos dados
(OLIVEIRA, 2016).
2.4 Estratificação de dados

Segundo Witten, Frank e Hall (2011), a estratificação de dados normalmente é utilizada
para garantir que todas as classes de uma base de dados estejam devidamente representadas
em seus conjuntos de treinamento e teste. A representação das classes é feita com base na
proporção dos exemplos de cada uma delas no seu conjunto original (GOLDSCHMIDT; PASSOS;
BEZERRA, 2015). Assim, se uma base de dados contém as classes A, B e C, e as mesmas
representam respectivamente 20%, 50% e 30% do número total de classes, esta proporção deve
ser mantida para os conjuntos de treinamento e teste.
Neste estudo, a estratificação também é utilizada no sentido de incluir novas instâncias
no conjunto de exemplos rotulados, para que a base de dados possa crescer de forma proporcional,
até que não haja mais exemplos sem rótulo.
29
2.5 Trabalhos relacionados

Foi possível elencar alguns trabalhos que possuem relação com este. Dentre eles, alguns
utilizam o aprendizado semissupervisionado para investigação de problemas em classificação
multirrótulos, enquanto os outros alteram a forma como o self-training trabalha, oferecendo
novos métodos para resolução de problemas.
O estudo realizado por Rodrigues, Santos e Canuto (2013) possibilitou a proposta de
três métodos semissupervisionados, os quais utilizam um limiar de confiança para a aplicação
em problemas de classificação de multirrótulos. O trabalho teve como objetivo analisar o
desempenho dos três métodos semissupervisionados sugeridos comparando ao trabalho realizado
por Santos et al. (2012), que não utilizou o parâmetro de confiança em suas aplicações. As
técnicas sugeridas foram validadas por meio da utilização de cinco conjuntos de dados, de
diferentes domínios de aplicação, usando seis métricas de avaliação. As abordagens propostas
obtiveram melhor desempenho em 72% dos casos (65 de 90).
Os problemas investigados no trabalho de Rodrigues, Canuto e Santos (2014) são consi-
derados importantes em algoritmos de classificação multirrótulo, que são: o número de instâncias
rotuladas e a alta dimensionalidade dos exemplos. Esse trabalho levanta um questionamento
sobre a capacidade de generalizar de maneira eficiente, sendo necessário o uso de um alto
número de instâncias. Dessa forma, optaram por utilizar o aprendizado semissupervisionado para
combinar exemplos rotulados e não rotulados a fim de automatizar o processo de inclusão dos
rótulos. Portanto, foram propostos pelos autores quatro métodos para a classificação multirrótulo,
atentando-se em um parâmetro de confiança no processo de rotulação. Para viabilizar os métodos,
foi feita uma análise empírica utilizando conjuntos de dados de alta dimensão, e para a análise
do desempenho, uma comparação com os métodos propostos nos trabalhos de Rodrigues, Santos
e Canuto (2013) e SpolaôR et al. (2013). Os autores concluíram que o fator de confiança obteve
efeito positivo ao comparar com métodos multirrótulos existentes.
Os autores Tao et al. (2018) propuseram um novo algoritmo baseado no self-training, o
qual utiliza exemplos rotulados e não rotulados para auxiliar na rotulação e seleção de dados
não rotulados para expandir o conjunto de treinamento. Para tal, duas medidas foram aplicadas
para diminuir o efeito de ruídos no conjunto de treinamento: um método transdutivo baseado
em um grafo aleatório foi usado para gerar previsões confiáveis de dados não rotulados; e um
mecanismo foi adotado para expandir o conjunto de treinamento. Os resultados mostraram que o
método proposto apresentou efetivamente um aumento no desempenho da classificação.
No trabalho de Vale et al. (2018) foram sugeridas três propostas distintas para o ajuste
automático do parâmetro de confiança usado no algoritmo self-training. O objetivo é eleger
o valor mais adequado para conjuntos de dados específicos e que este seja variável durante
o processo de inclusão dos rótulos. A fim de validar a viabilidade dos métodos propostos,
foi realizada uma análise empírica utilizando vinte bases de dados distintas com diferentes
30
porcentagens para dados inicialmente rotulados, testados com classificadores variados. O

trabalho mostrou que os três modelos apresentados obtiveram melhor desempenho quando
comparados ao self-training original.
31
3 Metodologia
O propósito da pesquisa exploratória é a descoberta de fenômenos ou a explicação dos

que não eram aceitos apesar de evidentes (GONÇALVES, 2005). Nesse sentido, este trabalho
pode ser considerado de caráter exploratório, uma vez que este estabelece critérios, métodos e
técnicas para a elaboração de uma pesquisa e visa oferecer informações sobre o objeto desta e
orientar a formulação de hipóteses (SILVA; BERVIAN; CERVO, 2006).
O levantamento bibliográfico se deu através de pesquisas em livros, artigos científicos,
dissertações de mestrado e páginas web com o objetivo de obter o maior nível de esclarecimento
possível a respeito de assuntos relacionados ao aprendizado de máquina, com ênfase em con-
teúdos sobre aprendizagem semissupervisionada. Os resultados são de natureza quantitativa,
os quais são usados em comparações e análises para conclusões a respeito do desempenho do
método proposto.
3.1 Proposta Metodológica

Esse trabalho consiste na elaboração de um método para a inclusão automática de
instâncias de forma estratificada, adaptando o método Flexible Confidence with Classifier
(FlexCon-C) que foi desenvolvido durante o estudo realizado por Vale et al. (2018).
A ideia para a proposta de estratificação, no momento da inclusão de novas instâncias
no conjunto de treinamento, é manter a proporção inicial dos dados rotulados da base, cujo
processo é feito a cada iteração do algoritmo. O procedimento se dá perante a execução de três
etapas:
1. Tratamento das classes: os dados do subconjunto S são analisados para verificar se

todas as classes estão sendo representadas com no mínimo uma instância, desta forma
pretende-se garantir a representatividade de todas as classes no momento da inclusão das
instâncias. Caso alguma classe não faça parte do subconjunto S devido a aplicação do
limiar, haverá uma redução deste através de uma taxa de perda de confiança (definida
neste trabalho em 0.2), até que pelo menos uma instância desta classe seja incluída no
subconjunto S, para que haja garantia de sua representatividade;
2. Cálculo da distribuição: calcula-se a distribuição das classes do conjunto dos dados

rotulados inicialmente, de forma que a mesma proporção seja mantida para a inclusão de
novas instâncias. O cálculo de distribuição de classes ( distr(Cj ) = n1 ni=1 kyi = Cj k ) é
P
aplicado nesta etapa. Com base nos valores percentuais obtidos, é calculada a quantidade
de instâncias selecionadas que serão separadas para a inclusão.
32
3. Separação dos exemplos: seguindo os percentuais estabelecidos anteriormente, uma

quantidade de instâncias por classe é atribuída para a inclusão no conjunto dos dados
rotulados, sendo elas as que possuem as maiores taxas de confiança do subconjunto S.
A Figura 6 representa uma visão geral da estratificação de dados.
Figura 6 – Estratificação de dados
Fonte: Elaborado pelo autor.
As classes A,B e C, recebem um número referente a quantidade de exemplos que serão

separados para o processo de inclusão, os quais são representados respectivamente por x,y e z.
Os exemplos que serão incluídos são ordenados com base nas maiores taxas de confiança.
Diante do método apresentado, esta pesquisa busca, com o pseudocódigo do Algoritimo
3, representar o funcionamento do FlexCon-C adaptado no sentido de complementar a forma de
inclusão dos exemplos através da estratificação dos dados, cuja alteração se encontra destacada.
O método proposto foi denominado FlexCon-C Stratified, ou FlexCon-CS.
Algoritmo 3: FlexCon-CS
j=l+1
início
j=l+1
repita
Definir um novo valor de confiança (limiar)
Separar um subconjunto S = {s1 , s2 , ..., sn } de Dn, de forma que a taxa de
confiança em CL(x) seja igual ou superior ao limiar para incluir novos exemplos
Aplicar estratificação em S, mantendo as proporções iniciais de rotulação
Adicionar {(x, CL(x))|x ∈ S} a Dr
até Dn = ∅;
fim
Fonte: Adaptado de Vale et al. (2018)
33
Sendo assim, as instâncias em S com maior taxa de confiança na predição são submeti-
das ao processo de estratificação, cuja divisão de classes segue a mesma proporção do conjunto
de dados inicialmente rotulados.
3.2 Experimentos
Os métodos FlexCon-C1S e FlexCon-C2S estudados por Vale et al. (2018) foram
conduzidos em experimentos para geração de resultados, que foram utilizados em análises
posteriormente. Durante os experimentos, trinta e uma bases de dados, dentre a maioria delas
disponíveis no repositório de conjuntos de dados para aprendizado de máquina UCI, foram
utilizadas. A Tabela 1 apresenta os conjuntos de dados selecionados, juntamente com os dados
referentes ao número de instâncias, atributos, classes e o(s) tipo(s) dos dados respectivamente.
Para avaliar a capacidade de generalização dos modelos construídos, foi implementada
a técnica de validação cruzada (do inglês, cross-validation). Esta técnica envolve a escolha
de uma amostra do conjunto de dados, a qual servirá como teste para o modelo construído a
partir do restante do conjunto, denominado conjunto de treinamento (RAY, 2015). Existem
vários métodos utilizados para a realização da validação cruzada, como Leave-one-out, k-fold
e stratified k-fold. Para este estudo, o método stratified k-fold, uma variação do k-fold, foi
implementado. Seu funcionamento se dá perante a realização do processo de treinamento e teste
k vezes, onde cada iteração consiste em um subconjunto distinto para teste e o restante para
treinamento. Neste caso, as k (neste trabalho, k foi definido em 10) amostras de teste possuem
aproximadamente a mesma porcentagem de instâncias de cada classe do conjunto de dados
completo (SCIKIT-LEARN, 2007).
34
Tabela 1 – Bases de Dados.
Base Exemplos Atributos Classes Tipo(s)

Balance Scale 625 4 3 I
BTSC1 748 5 2 R
Bupa 345 7 2 C,I,R
Car Evaluation 1728 6 4 C,I
Cnae-9 1080 857 9 I
Connectionist Bench 208 60 2 R
Haberman 306 4 2 I
Hill-Valley 606 101 2 R
ILPD2 583 10 6 C
Image Segmentation 2310 19 7 R
Íris 150 5 3 R
Kr-vs-Kp3 3196 36 2 C
Leukemia 100 50 2 I,R
Mammographic Mass 961 6 2 I
Multiple Features Karhunen 2000 64 10 I,R
Mushroom 8124 22 2 C
Musk 6598 168 2 I
Ozone Level Detection 2536 73 2 R
Pen Digits4 10992 16 10 I
Phishing Website 2456 30 3 I
Pima 768 9 2 I,R
Planning Relax 182 13 2 R
Seeds 210 7 3 R
Semeion 1593 256 10 I
Solar Flare 1389 10 6 C
SPECTF Heart 267 44 2 I
Tic-Tac-Toe Endgame 958 9 2 C
Twonorm 7400 21 2 R
Vehicle 946 18 4 I
Waveform 5000 40 3 R
Wilt 4839 6 2 R
1 2
Blood Transfusion Service Center. Indian Liver Patient Dataset. 3 King-Rock vs King-Pawn. 4
Pen-Based
Recognition of Handwritten Digits.
Para os exemplos usados no treinamento, foram aplicadas cinco configurações diferentes

para instâncias inicialmente rotuladas: 5%, 10%, 15%, 20% e 25%. Em seguida, quatro
algoritmos de classificação foram selecionados para o treinamento dos dados: Naive Bayes
(NB), Árvore de Decisão (AD), Ripper e k-Nearest Neighbor (k-NN). Os classificadores foram
escolhidos com base no trabalho ao qual este se estende, com exceção do k-NN, que foi uma
adição para analisar o desempenho com classificador baseado na similaridade entre instâncias.
35
4 Resultados e Discussões
Neste capítulo são apresentados os resultados obtidos através dos experimentos com as
31 bases de dados listadas na Tabela 1, a fim de avaliar o desempenho do método FlexCon-CS (1
e 2). Conforme explicado anteriormente, o desempenho deste método foi comparado com o do
FlexCon-C (1 e 2) proposto por (VALE et al., 2018). A diferença entre os dois métodos é que o
FlexCon-C não faz uso da estratificação de dados para inclusão de novas instâncias no conjunto
de dados rotulados. Enquanto o FlexCon-CS incluí no conjunto de dados apenas as instâncias
cujo novo conjunto de treinamento permaneça com a mesma distribuição das classes do início
até o final do treinamento.
As seções subsequentes são responsáveis por expor os detalhes relacionados aos resul-
tados de desempenho dos métodos, divididas em quatro tabelas separadas por classificador. A
primeira seção apresenta as médias das acurácias e o desvio padrão de todas as bases de dados
apresentadas na Tabela 1. A segunda exibe o ranking médio de desempenho dos métodos, sendo
a primeira colocação destinada ao método que atingiu o maior desempenho e a segunda (e última)
ao que obteve o menor desempenho. É importante ressaltar que as comparações em todas as
tabelas são feitas entre os métodos estratificados e suas versões sem uso da estratificação.
A organização dos dados está distribuída da seguinte maneira: a primeira coluna
apresenta o nome do método seguido da técnica de combinação utilizada para definição dos
rótulos, (s) para soma e (v) para votação; as colunas de 2 a 6, mostram os resultados obtidos com
cada método, de acordo com o percentual de dados rotulados inicialmente (5%, 10%, 15%, 20%,
25%). Os valores em negrito representam os melhores resultados de desempenho entre cada
comparação realizada.
4.1 Análise de Desempenho

A Tabela 2 apresenta a média e o desvio padrão dos resultados obtidos nos experimentos
realizados com o classificador Naïve Bayes.
Tabela 2 – Desempenho médio utilizando o classificador Naive Bayes
% de dados inicialmente rotulados

Métodos
5% 10% 15% 20% 25%
FlexCon-C1S(s) 72.82 ± 16.58 73.30 ± 17.72 74.21 ± 17.30 73.91 ± 17.75 74.07 ± 18.01
FlexCon-C1(s) 71.85 ± 16.75 72.70 ± 17.48 73.54 ± 17.35 74.05 ± 18.37 74.93 ± 17.65
FlexCon-C1S(v) 71.70 ± 16.91 72.44 ± 17.91 73.53 ± 17.20 73.98 ± 17.83 74.88 ± 17.82
FlexCon-C1(v) 71.37 ± 16.60 72.59 ± 17.13 74.30 ± 17.33 73.73 ± 17.93 74.10 ± 18.60
FlexCon-C2S 71.68 ± 16.51 73.03 ± 17.33 73.69 ± 17.24 73.45 ± 18.03 74.34 ± 18.21
FlexCon-C2 71.30 ± 16.37 72.65 ± 17.51 74.14 ± 17.93 73.98 ± 17.87 74.47 ± 17.77
36
O método FlexCon-C1S, em relação ao FlexCon-C1, ambos usando soma, atingiu

melhor desempenho quando foram aplicados 5%, 10% e 15%, o que significa 60% (3 de 5)
dos percentuais estabelecidos para dados inicialmente rotulados. Ao utilizar votação como
técnica de escolha de rótulos, o FlexCon-C1S obteve melhores resultados utilizando 5%, 20% e
25% dos exemplos inicialmente rotulados. Em outras palavras, o FlexCon-C1S obteve melhor
desempenho do que o FlexCon-C1 em 60% (3 de 5) dos casos. O método FlexCon-C2S,
comparado ao FlexCon-C2, se mostrou mais eficaz ao utilizar 5% e 10%, o que corresponde
a 40% (2 de 5) dos casos. Analisando de um modo geral, os métodos estratificados atingiram
melhor desempenho em 53% (8 de 15) das comparações realizadas. Portanto, o método FlexCon-
C1S se mostrou melhor do que os demais, apresentando desempenho superior em 60% (3 de 5)
dos casos tanto utilizando soma quanto votação.
realizados com Árvore de Decisão.
Tabela 3 – Desempenho médio utilizando o classificador Árvore de decisão

Métodos
5% 10% 15% 20% 25%
FlexCon-C1S(s) 69.55 ± 17.99 74.99 ± 14.62 76.76 ± 14.45 77.96 ± 13.89 78.77 ± 13.75
FlexCon-C1(s) 69.08 ± 17.94 75.19 ± 14.70 76.92 ± 13.93 77.94 ± 14.08 78.97 ± 13.43
FlexCon-C1S(v) 69.51 ± 17.65 75.25 ± 14.78 76.87 ± 14.52 78.15 ± 13.71 79.03 ± 13.31
FlexCon-C1(v) 68.94 ± 18.41 75.47 ± 14.49 77.66 ± 13.71 77.89 ± 14.50 79.09 ± 13.63
FlexCon-C2S 69.39 ± 18.17 75.30 ± 14.63 77.18 ± 14.33 78.60 ± 13.68 79.08 ± 13.46
FlexCon-C2 69.64 ± 17.69 75.63 ± 14.48 77.09 ± 13.73 78.59 ± 13.18 79.15 ± 13.57
Os três métodos estratificados apresentaram melhor desempenho em 40% (2 de 5) dos

percentuais estabelecidos para dados inicialmente rotulados. O FlexCon-C1S, tanto com soma
quanto com voto, resultou em desempenho superior, em relação ao FlexCon-C1, quando foram
aplicados 5% e 20% dos dados inicialmente rotulados. Já o método FlexCon-C2S, comparado ao
FlexCon-C2, se mostrou mais eficaz ao utilizar 15% e 20%. Assim, os métodos estratificados
atingiram melhor desempenho em 40% (6 de 15) das comparações realizadas. Os métodos que
fizeram uso de estratificação não foram tão eficazes ao utilizar AD.
37
A Tabela 4 informa a média e o desvio padrão dos resultados obtidos com o classificador
Ripper.
Tabela 4 – Desempenho médio utilizando o classificador Ripper

Métodos
5% 10% 15% 20% 25%
FlexCon-C1S(s) 68.71 ± 16.41 72.15 ± 14.74 74.53 ± 14.54 77.01 ± 13.66 77.60 ± 13.15
FlexCon-C1(s) 68.44 ± 16.62 72.20 ± 14.59 74.49 ± 14.62 76.76 ± 13.78 77.48 ± 13.92
FlexCon-C1S(v) 68.26 ± 16.32 72.78 ± 14.21 75.39 ± 13.66 76.03 ± 14.08 77.48 ± 14.07
FlexCon-C1(v) 68.36 ± 16.78 72.87 ± 14.87 75.57 ± 13.89 76.72 ± 13.54 77.99 ± 13.45
FlexCon-C2S 68.93 ± 16.33 73.16 ± 14.45 75.19 ± 14.08 76.61 ± 13.35 77.53 ± 13.68
FlexCon-C2 68.59 ± 15.98 72.58 ± 14.80 75.52 ± 13.62 76.27 ± 14.13 78.07 ± 13.18
O FlexCon-C1S usando soma, conseguiu obter melhores resultados, em relação ao

FlexCon-C1, quando foram aplicados 5%, 15%, 20% e 25% dos dados inicialmente rotulados,
que significa 80% (4 de 5) dos casos. Utilizando votação, o método sem estratificação apresentou
melhor desempenho em todos os casos quando comparado ao FlexCon-C1S. O método FlexCon-
C2S, comparado ao FlexCon-C2, se mostrou mais eficaz quando aplicados 5%, 10% e 20%, o
que representa 60% (3 de 5) dos casos. Deste modo, os métodos estratificados atingiram melhor
desempenho em 46% (7 de 15) das comparações realizadas. O método FlexCon-C1 usando
votação se mostrou mais eficaz em relação aos demais, obtendo melhor desempenho em 100%
(5 de 5) dos casos. Contudo, o método FlexCon-C1S usando soma também se destacou, obtendo
desempenho superior em 80% (4 de 5) dos casos.
realizados com o classificador k-NN.
Tabela 5 – Desempenho médio utilizando o classificador k-NN

Métodos
5% 10% 15% 20% 25%
FlexCon-C1S(s) 74.84 ± 14.97 78.31 ± 13.65 79.65 ± 13.41 80.26 ± 13.55 81.06 ± 13.45
FlexCon-C1(s) 75.73 ± 14.20 78.67 ± 13.67 79.95 ± 13.51 81.01 ± 13.12 81.14 ± 13.08
FlexCon-C1S(v) 75.18 ± 14.39 78.04 ± 14.13 79.59 ± 13.60 80.39 ± 13.71 81.22 ± 13.44
FlexCon-C1(v) 74.99 ± 14.47 78.41 ± 13.24 79.41 ± 13.83 80.97 ± 13.14 81.48 ± 13.19
FlexCon-C2S 75.63 ± 13.96 78.01 ± 14.38 79.89 ± 12.85 80.65 ± 13.57 81.83 ± 12.97
FlexCon-C2 75.02 ± 14.70 78.31 ± 13.78 79.59 ± 13.34 81.02 ± 12.93 81.54 ± 13.23
O método FlexCon-C1 usando soma, em relação ao FlexCon-C1S, apresentou os

melhores resultados em 100% (5 de 5) dos casos. Ao ser utilizado com votação, o FlexCon-C1S
mostrou melhor desempenho ao aplicar 5% e 15% dos dados inicialmente rotulados, significando
40% (2 de 5) dos casos. O método FlexCon-C2S, em relação ao FlexCon-C2, alcançou melhores
acurácias ao fazer uso de 5%, 15% e 25% dos exemplos inicialmente rotulados, o que corresponde
a 60% (3 de 5) dos casos. Deste modo, os métodos estratificados atingiram melhor desempenho
em 33% (7 de 15) das comparações realizadas. Conclui-se que, o método FlexCon-C1 se mostrou
38
mais eficaz ao utilizar o classificador k-NN, obtendo melhor desempenho em 100% (5 de 5) dos
casos.
Por meio dos resultados apresentados, observa-se que a estratificação de dados obteve
as melhores acurácias em 43.33% (26 de 60) de todas as comparações realizadas com os quatro
algoritmos de classificação. Dentro deste percentual, os melhores resultados foram obtidos com
5% dos dados inicialmente rotulados, o equivalente a 75% (9 de 12) de todos os casos. Logo,
percebe-se que a estratificação conseguiu se adaptar melhor quando poucos dados haviam sido
rotulados inicialmente.
4.2 Análise de Ranking

A análise de ranking foi realizada para informar a classificação de cada método com
as bases de dados usadas nos experimentos. Conforme explicado anteriormente, a primeira
colocação é destinada ao método que obteve o melhor desempenho, enquanto a segunda (e
última) ao que atingiu o menor desempenho. Frisando ainda que, as comparações em todas as
tabelas são realizadas entre os métodos estratificados e suas versões sem estratificação.
A Tabela 6 apresenta a comparação, por meio de um ranking, entre os métodos estratifi-
cados e suas versões sem o uso da estratificação utilizando o classificador Naïve Bayes.
Tabela 6 – Ranking de desempenho utilizando o classificador Naive Bayes

Métodos
5% 10% 15% 20% 25%
FlexCon-C1S(s) 1.37 1.50 1.35 1.45 1.71
FlexCon-C1(s) 1.63 1.50 1.65 1.55 1.29
FlexCon-C1S(v) 1.52 1.52 1.55 1.47 1.42
FlexCon-C1(v) 1.48 1.48 1.45 1.53 1.58
FlexCon-C2S 1.42 1.61 1.61 1.61 1.53
FlexCon-C2 1.58 1.39 1.39 1.39 1.47
Observa-se que o FlexCon-C1S utilizando soma, em comparação com o FlexCon-C1,

obteve melhores posições de classificação ao utilizar 5%, 15% e 20% dos dados inicialmente
rotulados, o que representa 60% (3 de 5) dos casos, e empatou ao aplicar 10%. Ao utilizar votação,
o FlexCon-C1S mostrou melhor desempenho do que o FlexCon-C1 aplicando 20% e 25% dos
dados rotulados inicialmente, o que significa 40% (2 de 5) dos casos. O FlexCon-C2S, em
relação ao FlexCon-C2, obteve melhor classificação ao fazer uso de 5% dos dados inicialmente
rotulados, representando 20% (1 de 5) dos casos. Os métodos estratificados obtiveram primeira
colocação em 40% (6 de 15) das comparações. O método FlexCon-C2 atingiu as melhores
posições em relação aos demais, obtendo melhores classificações em 80% (4 de 5) dos casos.
Entretanto, o FlexCon-C1S usando soma se destacou entre os métodos estratificados, alcançando
39
a primeira colocação em 60% (3 de 5) dos casos e obtendo empate ao aplicar 10% dos dados
inicialmente rotulados.
A Tabela 7 apresenta um ranking, comparando os métodos estratificados e suas versões
sem o uso da estratificação, utilizando Árvore de Decisão.
Tabela 7 – Ranking de desempenho utilizando o classificador Árvore de decisão

Métodos
5% 10% 15% 20% 25%
FlexCon-C1S(s) 1.45 1.60 1.47 1.44 1.52
FlexCon-C1(s) 1.55 1.40 1.53 1.56 1.48
FlexCon-C1S(v) 1.31 1.56 1.61 1.35 1.52
FlexCon-C1(v) 1.69 1.44 1.39 1.65 1.48
FlexCon-C2S 1.50 1.55 1.52 1.53 1.50
FlexCon-C2 1.50 1.45 1.48 1.47 1.50
O FlexCon-C1S com soma, em comparação com o FlexCon-C1, obteve melhor clas-

sificação ao utilizar 5%, 15% e 20% dos dados inicialmente rotulados, o que representa 60%
(3 de 5) dos casos. Ao utilizar votação, o FlexCon-C1S mostrou melhor desempenho do que
o FlexCon-C1 ao aplicar 5% e 20% dos dados rotulados inicialmente, equivalente a 40% (2
de 5) dos percentuais estipulados. Houve empate entre o FlexCon-C2S e o FlexCon-C2 ao
fazer uso de 5% e 25% dos dados inicialmente rotulados. Os métodos que fizeram uso da
estratificação obtiveram melhores resultados em 33% (5 de 15) das comparações realizadas. O
método FlexCon-C2 mostrou-se mais eficaz, obtendo melhores posições em 60% (3 de 5) e
empatando em 20% (2 de 5) dos casos. Contudo, o FlexCon-C1S usando soma destacou-se em
relação aos métodos estratificados, atingindo a primeira colocação em 60% (3 de 5) dos casos.
A Tabela 8 apresenta, por meio de um ranking, a classificação obtida dos métodos estra-
tificados em comparação com os que não fazem uso da estratificação, utilizando o classificador
Ripper.
Tabela 8 – Ranking de desempenho utilizando o classificador Ripper

Métodos
5% 10% 15% 20% 25%
FlexCon-C1S(s) 1.40 1.55 1.39 1.58 1.52
FlexCon-C1(s) 1.60 1.45 1.61 1.42 1.48
FlexCon-C1S(v) 1.60 1.52 1.40 1.61 1.56
FlexCon-C1(v) 1.40 1.48 1.60 1.39 1.44
FlexCon-C2S 1.52 1.35 1.55 1.42 1.58
FlexCon-C2 1.48 1.65 1.45 1.58 1.42
O FlexCon-C1S fazendo uso de soma, em comparação com o FlexCon-C1, obteve

melhores posições de classificação ao utilizar 5% e 15% dos dados inicialmente rotulados,
40
representando 40% (2 de 5) dos casos. Ao usar votação como técnica, o FlexCon-C1S se

classificou melhor do que o FlexCon-C1 ao aplicar 15% dos dados rotulados inicialmente, que
representa 20% (1 de 5) dos casos. O FlexCon-C2S, em comparação ao FlexCon-C2, obteve
melhor classificação de desempenho ao fazer uso de 10% e 20% dos dados inicialmente rotulados,
equivalente a 40% (2 de 5) dos percentuais estabelecidos. A estratificação atingiu melhores
classificações em 33% (5 de 15) das comparações realizadas. O método FlexCon-C1 utilizando
votação se destacou em relação aos demais, obtendo as melhores posições em 80% (4 de 5) dos
casos.
A Tabela 9 mostra a comparação, por meio de um ranking, entre os métodos estratifica-
dos e suas versões sem o uso da estratificação, utilizando o classificador k-NN.
Tabela 9 – Ranking de desempenho utilizando o classificador k-NN

Métodos
5% 10% 15% 20% 25%
FlexCon-C1S(s) 1.58 1.50 1.65 1.68 1.45
FlexCon-C1(s) 1.42 1.50 1.35 1.32 1.55
FlexCon-C1S(v) 1.45 1.50 1.52 1.65 1.47
FlexCon-C1(v) 1.55 1.50 1.48 1.35 1.53
FlexCon-C2S 1.55 1.61 1.42 1.53 1.47
FlexCon-C2 1.45 1.39 1.58 1.47 1.53
Observa-se que o FlexCon-C1S utilizando soma, em comparação com o FlexCon-C1,

obteve melhor posição de classificação ao utilizar 25% dos dados inicialmente rotulados, o
que corresponde a 20% (1 de 5) dos casos, e empatou ao aplicar 10%. Comparando-se o
FlexCon-C1S ao FlexCon-C1, ambos usando votação, o FlexCon-C1S mostrou melhor posição
de classificação ao utilizar 5% e 25% dos dados rotulados inicialmente, o equivalente a 40% (2
de 5) dos casos, e empatou ao aplicar 10%. O FlexCon-C2S, em relação ao FlexCon-C2, obteve
melhor classificação de desempenho utilizando 15% e 25% dos dados inicialmente rotulados,
que significa 40% (2 de 5) dos percentuais estabelecidos. Os métodos estratificados obtiveram
melhores classificações em 33% (5 de 15) das comparações. O método FlexCon-C1 utilizando
soma se mostrou mais eficaz, atingindo melhores posições de classificação em 60% (3 de 5) dos
casos e empatando ao utilizar 10% dos dados inicialmente rotulados.
Os resultados acima mostram que a estratificação de dados ocupou as melhores posições
de classificação em 35% (21 de 60) de todas as comparações realizadas. Neste percentual, as
melhores classificações foram obtidas pelos métodos que utilizaram 5% dos dados rotulados
inicialmente, que significa 50% (6 de 12) das comparações realizadas.
41
4.3 Análise Geral

Diante dos resultados apresentados, é possível perceber em quais classificadores os
métodos que fizeram uso da estratificação se adaptam melhor. O método FlexCon-C1S, usando
soma como técnica de combinação para escolha de rótulos, atingiu melhores resultados quando
submetido aos experimentos usando os classificadores Naïve Bayes e Ripper. Utilizando votação,
o FlexCon-C1S mostrou melhor desempenho com Naïve Bayes. Já o FlexCon-C2S, atingiu os
melhores resultados com Ripper e k-NN. Os resultados também mostraram que o classificador
que melhor se adaptou aos métodos estratificados foi o Naïve Bayes, especialmente ao aplicar
5% dos dados rotulados inicialmente.
As Figuras 7 e 8 apresentam gráficos que expõem os resultados dos métodos FlexCon-C
e FlexCon-CS, evidenciando em qual configuração de dados inicialmente rotulados os métodos
mostraram melhor desempenho. Os gráficos apresentam a quantidade de vezes em que os
métodos atingiram melhor desempenho, sendo que os resultados expostos consideram a aplicação
de todos os métodos, em todas as bases de dados experimentadas e utilizando os quatro algoritmos
de classificação.
Figura 7 – Desempenho Geral dos Métodos
Como mostrado na Figura 7, os métodos que fizeram uso da estratificação obtiveram

os melhores resultados ao aplicar 5% dos dados inicialmente rotulados. Com isso, evidencia-se
que para casos em que há poucos exemplos que possuem rótulo inicialmente, a estratificação
42
consegue melhorar o desempenho dos classificadores. Ainda, ao aplicar 20% dos exemplos
inicialmente rotulados, houve um empate no desempenho geral entre os métodos estratificados e
os que não fizeram uso da estratificação.
Figura 8 – Ranking Geral dos Métodos
Considerando que o ranking é feito com base nos resultados individuais com cada
base de dados, a Figura 8 mostra que os métodos que fizeram uso da estratificação de dados
encontraram melhores posições de classificação ao utilizar 5% para os exemplos rotulados
inicialmente.
4.4 Validação da Proposta

Para que seja feita uma avaliação mais precisa dos resultados obtidos com esta pesquisa,
foi realizado um teste estatístico para analisar a significância do método proposto. Para tal,
foi aplicado o teste de postos de sinal de Wilcoxon (WILCOXON, 1945). Este é um método
não-paramétrico para comparação entre duas amostras pareadas, usado para testar diferenças nas
distribuições populacionais. Este teste baseia-se na hipótese de que as duas amostras derivam de
populações com a mesma distribuição (DERRICK; WHITE, 2017).
Primeiramente é calculada a diferença numérica entre cada par de dados das amostras,
onde estes podem cair em três situações: aumento, diminuição ou igualdade. Estes valores são
43
ordenados pelo seu valor absoluto, e em seguida substituídos pelo posto em que ocupam após
ordenados (WOOLSON, 2007).
A Tabela 10 apresenta as comparações realizadas entre as amostras de dados de cada

método estratificado e sua versão sem o uso da estratificação, separadas por classificador. Ao
serem comparadas, um valor p é recebido, e caso este seja abaixo do alpha (definido como 0.05
neste trabalho), a hipótese nula poderá ser rejeitada, aceitando a hipótese alternativa de que os
valores comparados possuem diferença significativa na distribuição dos dados. Caso contrário,
não há evidência suficiente para que a hipótese nula seja rejeitada (WOOLSON, 2007).
Tabela 10 – Resultados do teste de Wilcoxon

Classificador Método
5% 10% 15% 20% 25%
FlexCon-C1S(s) <0.0001 <0.0001 <0.0001 <0.0001 <0.0001
Árvore de Decisão FlexCon-C1S(v) <0.0001 <0.0001 <0.0001 <0.0001 <0.0001
FlexCon-C2S <0.0001 <0.0001 <0.0001 <0.0001 <0.0001
FlexCon-C1S(s) <0.0001 <0.0001 <0.0001 <0.0001 <0.0001
Naïve Bayes FlexCon-C1S(v) <0.0001 <0.0001 <0.0001 <0.0001 <0.0001
FlexCon-C2S <0.0001 <0.0001 <0.0001 <0.0001 <0.0001
FlexCon-C1S(s) <0.0001 <0.0001 <0.0001 <0.0001 <0.0001
Ripper FlexCon-C1S(v) <0.0001 <0.0001 <0.0001 <0.0001 <0.0001
FlexCon-C2S <0.0001 <0.0001 <0.0001 <0.0001 <0.0001
FlexCon-C1S(s) <0.0001 <0.0001 <0.0001 <0.0001 <0.0001
k-NN FlexCon-C1S(v) <0.0001 <0.0001 <0.0001 <0.0001 <0.0001
FlexCon-C2S <0.0001 <0.0001 <0.0001 <0.0001 <0.0001
Observa-se que em todos os casos, o valor de p obtido encontra-se abaixo do alpha,

evidenciando que a hipótese nula fora rejeitada para cada caso, provando que os resultados destes
grupos não foram encontrados ao acaso, ou seja, possuem diferença significante entre os pares
comparados.
44
5 Conclusão
5.1 Discussão
Este trabalho teve como base o método FlexCon-C, que faz o uso de um limiar flexível
para separar instâncias com taxas de confiança mais altas. Por meio deste, buscou-se adaptá-lo
através do desenvolvimento de um método que fosse capaz de controlar as classes pertinentes
aos exemplos selecionados para inclusão. Para isso, a estratificação foi utilizada para que
houvesse uma garantia da representatividade de cada classe no conjunto de dados. A ideia para o
procedimento da estratificação foi conservar a distribuição de classes das instâncias inicialmente
rotuladas, para que a proporção fosse mantida até o fim do processo.
Por meio deste estudo, foi possível perceber que ao aplicar 5% dos dados inicialmente
rotulados, os classificadores demonstraram aumento significativo no desempenho. Isto implica
que o fator de proporção, mantido durante a estratificação dos dados, se sobressaiu em relação a
perca da confiabilidade das instâncias, fazendo com que os algoritmos de classificação pudessem
generalizar melhor os dados. Esta observação deve ser levada em consideração devido a impor-
tância de algoritmos que necessitam cada vez mais de técnicas e métodos eficientes quando se
tem cada vez menos dados rotulados no conjunto de treinamento.
No entanto, ao experimentar a estratificação com percentuais maiores para dados
inicialmente rotulados, os resultados foram similares ou menores aos métodos que não fazem uso
da mesma. Esta observação pode ser justificada ao analisar o processo de estratificação dos dados.
O fato é que o controle das classes pode garantir a representatividade de todas elas no conjunto de
treinamento, deixando-o com a mesma proporção do início ao fim do procedimento de inclusão
dos dados. Por outro lado, o processo para estratificação exige, em algumas ocasiões, que as
instâncias selecionadas para inclusão possuam uma taxa de confiança abaixo do limiar, devido
a necessidade de incluir classes que não passaram inicialmente por este. Tendo isso em vista,
conclui-se que há uma probabilidade maior de que cada exemplo que possua a confiança abaixo
do limiar, esteja sendo rotulado de maneira errada, influenciando negativamente o aprendizado
do classificador.
Portanto, em uma análise geral da pesquisa, proporcionou-se um direcionamento para
trabalhos posteriores a este. Como forma de orientação, este estudo sugere que trabalhos futuros
possam realizar novos experimentos, com a finalidade de analisar o desempenho da estratificação
em outras condições de tratamento para os parâmetros fixados durante o decorrer deste.
45
5.2 Trabalhos Futuros

Este trabalho se empenhou em fazer experiências usando diferentes configurações para
exemplos rotulados inicialmente, e o melhor resultado foi encontrado ao se utilizar 5%. Para
trabalhos futuros, sugere-se que: i) valores distintos sejam testados, essencialmente os menores
que 5%; ii) outros algoritmos de classificação sejam utilizados para a realização da avaliação de
desempenho; iii) outras bases de dados possam ser usadas nos experimentos, pois os resultados
também podem depender dos perfis (número de instâncias, número de classes, dimensionalidade
e tipo de dados) de cada conjunto de dados; iv) experimentos com valores diferentes para a
taxa de perda de confiança (definido como sendo 0.2 nesta pesquisa) sejam testados durante o
processo de estratificação (3.1), para garantir a representatividade das classes.
46
Referências
AHA, D. W.; KIBLER, D.; ALBERT, M. K. Instance-based learning algorithms. Machine

learning, Springer, v. 6, n. 1, p. 37–66, 1991. Citado 8 vezes nas páginas 26 e 27.
BIANCHINI, M.; MAGGINI, M.; JAIN, L. C. Handbook on Neural Information Processing.

[S.l.]: Springer, 2013. Citado 4 vezes nas páginas 13, 19 e 21.
CASTRO, C. L. de; BRAGA, A. P. Aprendizado supervisionado com conjuntos de dados

desbalanceados. Revista Controle e Automação, 2011. Citado na página 13.
CHAPELLE, O.; SCHÖLKOPF, B.; ZIEN, A. Semi-Supervised Learning. Cambridge, Mass:

MIT Press, 2006. (Adaptive computation and machine learning). Citado 3 vezes nas páginas 13,
20 e 21.
CHEN, W.; ZHANG, M. Semi-Supervised Dependency Parsing. 1. ed. [S.l.]: Springer-Verlag

Singapur, 2015. ISBN 978-981-287-551-8,978-981-287-552-5. Citado na página 21.
COVER, T.; HART, P. Nearest neighbor pattern classification. IEEE transactions on information
theory, IEEE, v. 13, n. 1, p. 21–27, 1967. Citado 8 vezes nas páginas 26 e 27.
CáNEPA, G. What You Need to Know about Machine Learning. [S.l.]: Packt Publishing, 2016.
Citado 2 vezes nas páginas 18 e 19.
DANGETI, P. Statistics for Machine Learning: Techniques for exploring supervised, unsupervi-
sed, and reinforcement learning models with Python and R. 1. ed. [S.l.]: Packt Publishing, 2017.
Citado na página 26.
DERRICK, B.; WHITE, P. Comparing two samples from an individual likert question. Inter-
national Journal of Mathematics and Statistics, Ceser, v. 18, n. 3, 2017. Citado na página
42.
GOLDSCHMIDT, R.; PASSOS, E.; BEZERRA, E. Data Mining: Conceitos, técnicas, algorit-
mos, orientações e aplicações. [S.l.]: Elsevier, 2015. Citado na página 28.
GOLLAPUDI, S. Practical Machine Learning. [S.l.]: Packt Publishing, 2016. Citado 8 vezes
nas páginas 12, 17, 19, 24, 26 e 28.
GONÇALVES, H. de A. Manual de metodologia da pesquisa científica. [S.l.]: Avercamp, 2005.

KANTARDZIC, M. Data Mining: Concepts, Models, Methods, and Algorithms. [S.l.]: Wiley,
2011. ISBN 978-0-470-89045-5,978-1-118-02914-5,978-1-118-02912-1,978-1-118-02913-8.
LANTZ, B. Machine learning with R. 1. ed. [S.l.]: Packt Publishing, 2013. (Community expe-
rience distilled). ISBN 1782162143,9781782162148,1782162151,9781782162155. Citado 8
vezes nas páginas 26 e 27.
Referências 47
LANTZ, B. Machine Learning with R. 2. ed. [S.l.]: Packt Publishing, 2015. (Community
experience distilled). ISBN 1784393908,9781784393908,1784394521,9781784394523. Citado
2 vezes nas páginas 12 e 24.
MCCLELLAND, C. The Difference Between Artificial Intelligence, Machine Le-

arning, and Deep Learning. 2017. Disponível em: <https://www.iotforall.com/
the-difference-between-artificial-intelligence-machine-learning-and-deep-learning/>. Citado
na página 16.
MINSKY, M. The society of mind. Pages bent. [S.l.]: Simon & Schuster, 1988. ISBN
9780671657130,0671657135. Citado na página 16.
MITCHELL, T. M. Machine Learning. 1. ed. [S.l.]: McGraw-Hill, 1997. (McGraw-Hill series in

computer science). ISBN 9780070428072,0070428077. Citado 14 vezes nas páginas 12, 24, 25
e 26.
MOHRI, M.; ROSTAMIZADEH, A.; TALWALKAR, A. Foundations of Machine Learning.

[S.l.]: The MIT Press, 2012. Citado na página 17.
MONARD, M. C.; BARANAUSKAS, J. A. Sistemas Inteligentes. [S.l.: s.n.], 2003. Citado 3

vezes nas páginas 18 e 20.
NILSSON, N. J. Introduction to machine learning. [S.l.: s.n.], 1996. Citado 3 vezes nas páginas
17, 24 e 25.
NORVIG, P.; RUSSELL, S. Inteligência Artificial. 3. ed. [S.l.]: Elsevier, 2013. ISBN
8535237011,9788535237016,9788535251418. Citado 2 vezes nas páginas 12 e 16.
OLIVEIRA, P. H. M. A. Detecção de fraudes em cartões: um classificador baseado em regras de

associação e regressão logística. Tese (Doutorado) — Universidade de São Paulo, 2016. Citado
na página 28.
PACHECO, A. K vizinhos mais próximos – KNN. 2017. Disponível em: <http://www.

computacaointeligente.com.br/algoritmos/knn-k-vizinhos-mais-proximos/>. Citado 2 vezes nas
páginas 27 e 28.
RAJPUT, A.; AHARWAL, R. P.; DUBEY, M.; SAXENA, S.; RAGHUVANSHI, M. J48 and jrip
rules for e-governance data. International Journal of Computer Science and Security (IJCSS),
2011. Citado na página 28.
RAY, S. Improve Your Model Performance using Cross Validation (in Python
and R). 2015. Disponível em: <https://www.analyticsvidhya.com/blog/2018/05/
improve-model-performance-cross-validation-in-python-r/>. Citado na página 33.
RODRIGUES, F. M.; CANUTO, A. M. P.; SANTOS, A. de M. Confidence factor and feature

selection for semi-supervised multi-label classification methods. In: IEEE. Neural Networks
(IJCNN), 2014 International Joint Conference on. [S.l.], 2014. Citado na página 29.
RODRIGUES, F. M.; SANTOS, A. de M.; CANUTO, A. M. P. Using confidence values in

multi-label classification problems with semi-supervised learning. In: IEEE. Neural Networks
(IJCNN), The 2013 International Joint Conference on. [S.l.], 2013. Citado na página 29.
Referências 48
SANCHES, M. K. Aprendizado de máquina semi-supervisionado: proposta de um algoritmo

para rotular exemplos a partir de poucos exemplos rotulados. Tese (Doutorado) — Universidade
de São Paulo, 2003. Citado na página 18.
SANTOS; M, A.; CANUTO; MP, A. Using semi-supervised learning in multi-label classification

problems. In: IEEE. Neural Networks (IJCNN), The 2012 International Joint Conference on.
[S.l.], 2012. p. 1–8. Citado na página 29.
SANTOS, F. C. et al. Variações do método kNN e suas aplicações na classificação automática de

textos. Tese (Doutorado) — Dissertação de Mestrado, Programa de Pós-Graduação do Instituto
de Informática da Universidade Federal de Goiás, Universidade Federal de Goiás, Goiânia,
Brasil, 2009. Citado na página 26.
SCIKIT-LEARN. Cross-validation: evaluating estimator performance. 2007. Disponível em:

<http://scikit-learn.org/stable/modules/cross_validation.html#stratified-k-fold>. Citado na pá-
gina 33.
SHWARTZ, S.; DAVID, B. Understanding Machine Learning: From Theory to Algorithms.

[S.l.]: CUP, 2014. Citado na página 17.
SILVA, R. D.; BERVIAN, P. A.; CERVO, A. L. Metodologia científica. [S.l.]: São Paulo: Pearson
Prentice Hall, 2006. Citado na página 31.
SPOLAÔR, N.; CHERMAN, E. A.; MONARD, M. C.; LEE, H. D. A comparison of multi-

label feature selection methods using the problem transformation approach. Electronic Notes in
Theoretical Computer Science, Elsevier, 2013. Citado na página 29.
SUGUNA, N.; THANUSHKODI, K. An improved k-nearest neighbor classification using genetic

algorithm. International Journal of Computer Science Issues, v. 7, n. 2, 2010. Citado 8 vezes
nas páginas 26 e 27.
TAO, Y.; ZHANG, D.; CHENG, S.; TANG, X. Improving semi-supervised self-training with
embedded manifold transduction. Transactions of the Institute of Measurement and Control,
SAGE Publications Sage UK: London, England, v. 40, n. 2, p. 363–374, 2018. Citado na página
29.
TEIXEIRA, J. de F. O Que É Inteligência Artificial. [S.l.]: Brasiliense, 1990. (Coleção Primeiros

Passos, 230). Citado na página 16.
TURING, A. M.; COPELAND, B. J. The essential Turing: seminal writings in

computing, logic, philosophy, artificial intelligence, and artificial life, plus the se-
crets of Enigma. [S.l.]: Clarendon Press; Oxford University Press, 2004. ISBN
9780198250791,9780198250807,9781429421522,0198250797,0198250800. Citado na pá-
gina 16.
VALE, K. M. O.; CANUT, A. M. de P.; SANTOS, A. de M.; GORGONIO, F. da Luz e;

TAVARES, A. de M.; GORGONIO, A. C.; ALVES, C. T. Automatic adjustment of confidence
values in self-training semi-supervised method. 2018. Citado 10 vezes nas páginas 13, 22, 23,
29, 31, 32, 33 e 35.
WILCOXON, F. Individual comparisons by ranking methods. Biometrics bulletin, JSTOR, v. 1,

n. 6, p. 80–83, 1945. Citado na página 42.
Referências 49
WITTEN, I. H.; FRANK, E.; HALL, M. A. Data Mining: Practical Machine Learning Tools
and Techniques. 3rd. ed. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 2011.
ISBN 0123748569, 9780123748560. Citado na página 28.
WOOLSON, R. Wilcoxon signed-rank test. Wiley encyclopedia of clinical trials, Wiley Online
Library, p. 1–3, 2007. Citado na página 43.
YAROWSKY, D. Unsupervised word sense disambiguation rivaling supervised methods. In: Pro-
ceedings of the 33rd Annual Meeting on Association for Computational Linguistics. Stroudsburg,
PA, USA: Association for Computational Linguistics, 1995. (ACL ’95), p. 189–196. Disponível
em: <https://doi.org/10.3115/981658.981684>. Citado na página 12.
ZHU, X.; GOLDBERG, A. B. Introduction to Semi-supervised Learning (Synthesis Lectures on

Artificial Intelligence and Machine Learning). [S.l.: s.n.], 2009. Citado 8 vezes nas páginas 12,
19, 20, 21 e 22.
50
APÊNDICE A – Resultados do
FlexCon-C1S (soma) para cada
classificador
As tabelas abaixo apresentam os valores de acurácia obtidos ao utilizar o método

FlexCon-C1S (soma) aplicado aos referidos algoritmos de classificação, com cada base de
dados e diferentes configurações para instâncias inicialmente rotuladas. Lembrando que, cada
valor foi obtido através da média das acurácias resultantes do treinamento com a técnica de
cross-validation stratified k-fold, utilizando 10 para o valor de k.
APÊNDICE A. Resultados do FlexCon-C1S (soma) para cada classificador 51
Tabela 11 – Resultados do FlexCon-C1S (soma) com Árvore de decisão

Bases
5% 10% 15% 20% 25%
iris 33.33 83.33 92.67 93.33 94.67
bupa 57.98 56.22 62.36 61.75 57.44
segment 86.80 87.66 90.65 92.55 91.56
waveform-5000 68.36 70.30 72.06 73.98 73.48
phishingData 80.64 81.16 81.60 83.68 83.01
haberman 73.85 72.86 73.53 72.24 73.53
mushroom 99.01 99.48 99.77 99.80 99.78
pima 67.59 68.74 70.84 70.83 73.30
vehicle 47.96 57.54 60.29 62.41 62.20
wilt 95.33 97.19 97.33 97.04 97.42
kr-vs-kp 92.84 95.53 96.15 96.28 96.97
blood-transfusion-service 73.94 76.21 76.21 76.21 75.14
cnae-9 53.33 65.46 69.26 73.89 76.76
connectionist-mines-vs-rocks 57.67 60.64 64.36 62.98 63.98
flare 69.39 72.28 72.35 71.99 72.93
indian-liver-patient 69.83 70.16 70.51 71.36 71.36
leukemia-haslinger 48.99 62.12 60.99 59.99 57.72
mammographic-mass 81.68 79.60 80.96 81.58 82.10
mfeat-karhunen 56.80 62.15 67.80 70.40 72.35
musk 96.68 98.59 98.98 99.23 99.39
ozone-onehr 97.12 97.12 97.12 97.12 97.12
pendigits 82.61 86.85 89.05 90.88 92.08
planning-relax 71.46 71.46 71.46 71.46 71.46
seeds 37.62 80.48 79.52 85.71 84.76
semeion 45.70 52.17 54.93 59.45 63.78
spectf-heart 72.23 71.36 71.33 72.50 74.21
tic-tac-toe 65.25 66.79 70.76 71.79 82.57
twonorm 76.35 78.58 80.42 80.73 81.03
hill-valley-with-noise 51.40 50.25 48.92 52.15 53.39
Tabela 12 – Resultados do FlexCon-C1S (soma) com Naïve Bayes

Bases
5% 10% 15% 20% 25%
iris 82.67 95.33 96.00 94.67 94.67
bupa 53.08 52.50 53.89 48.69 54.22
segment 78.40 76.75 79.61 78.44 80.56
waveform-5000 79.68 79.98 79.70 79.98 80.12
phishingData 81.67 83.75 83.67 84.11 83.30
haberman 67.96 65.32 70.52 71.51 74.47
mushroom 94.33 94.21 94.33 94.35 94.55
pima 68.50 71.50 72.93 73.98 74.87
vehicle 47.16 46.55 44.09 47.99 45.73
wilt 90.62 91.88 91.53 88.86 87.00
kr-vs-kp 83.01 84.83 85.64 85.30 85.98
cnae-9 34.91 27.78 30.93 21.76 20.19
flare 42.27 46.84 44.37 47.76 49.31
mfeat-karhunen 82.85 89.50 90.70 91.50 91.90
musk 82.68 83.86 84.81 85.19 84.63
ozone-onehr 95.66 78.35 76.07 74.68 74.41
pendigits 84.18 83.99 85.22 85.37 85.23
planning-relax 69.36 62.60 64.12 60.96 55.53
seeds 82.38 88.10 90.95 90.95 89.52
semeion 58.50 57.63 65.04 67.72 69.81
spectf-heart 75.42 76.47 74.53 75.07 73.34
tic-tac-toe 64.93 67.22 69.21 70.24 69.52
twonorm 97.57 97.77 97.66 97.64 97.66
Tabela 13 – Resultados do FlexCon-C1S (soma) com Ripper

Bases
5% 10% 15% 20% 25%
iris 53.33 72.00 84.00 88.00 86.00
bupa 57.99 55.94 54.79 60.03 61.48
segment 76.28 81.65 88.27 89.22 89.74
waveform-5000 70.18 72.28 75.04 75.56 76.40
phishingData 76.87 81.60 83.74 84.86 85.37
haberman 70.66 71.30 71.24 73.54 68.72
mushroom 86.45 82.85 82.22 82.24 81.79
pima 67.84 70.45 72.64 73.43 72.39
vehicle 44.55 51.29 57.42 62.64 62.64
wilt 96.49 96.57 97.31 97.27 97.58
kr-vs-kp 93.49 94.99 95.87 95.43 96.43
cnae-9 52.50 66.02 68.52 73.89 75.65
flare 65.90 62.29 67.39 68.03 67.25
mfeat-karhunen 49.05 58.25 63.75 68.05 70.75
musk 89.82 92.17 94.88 96.27 96.91
ozone-onehr 96.61 95.90 96.33 96.29 96.25
pendigits 81.36 86.11 89.30 90.79 91.67
planning-relax 72.02 67.11 68.13 63.68 68.83
seeds 68.10 71.90 78.57 82.38 81.43
semeion 34.01 43.74 49.27 53.66 58.55
spectf-heart 70.41 63.77 70.59 71.05 71.29
tic-tac-toe 65.45 68.88 74.84 89.87 89.96
twonorm 80.57 83.12 85.26 86.51 87.09
Tabela 14 – Resultados do FlexCon-C1S (soma) com k-NN

Bases
5% 10% 15% 20% 25%
iris 81.33 90.67 91.33 91.33 92.67
bupa 51.83 51.33 58.82 54.55 56.79
segment 84.98 89.35 92.25 92.08 92.73
waveform-5000 78.80 82.26 83.98 83.34 84.02
phishingData 80.72 82.85 83.59 84.41 85.96
haberman 73.18 71.27 69.01 70.55 69.90
mushroom 83.37 83.95 83.74 83.64 84.05
pima 67.06 67.97 69.13 70.44 70.32
vehicle 52.22 61.11 59.86 59.21 60.64
wilt 94.01 94.21 94.26 94.34 94.25
kr-vs-kp 77.57 83.20 85.29 87.11 90.05
cnae-9 50.74 61.57 65.00 66.85 68.70
flare 67.66 68.55 68.40 71.43 71.36
mfeat-karhunen 82.35 88.30 89.40 91.40 92.40
musk 92.39 94.32 96.04 96.77 97.24
ozone-onehr 96.96 97.12 96.88 97.16 97.00
pendigits 96.03 97.76 98.22 98.30 98.77
planning-relax 70.38 69.82 68.68 67.22 64.80
seeds 88.57 86.19 89.05 90.95 90.95
semeion 66.68 75.97 79.79 81.92 84.25
spectf-heart 70.51 70.51 73.73 72.21 75.07
tic-tac-toe 70.18 78.39 84.35 86.43 89.87
twonorm 97.27 97.09 97.49 97.55 97.30
55
APÊNDICE B – Resultados do
FlexCon-C1S (votação) para cada
classificador

FlexCon-C1S (votação) aplicado aos referidos algoritmos de classificação, com cada base de
APÊNDICE B. Resultados do FlexCon-C1S (votação) para cada classificador 56
Tabela 15 – Resultados do FlexCon-C1S (votação) com Árvore de decisão

Bases
5% 10% 15% 20% 25%
iris 33.33 86.00 92.67 88.67 96.00
bupa 59.72 55.69 56.54 62.60 62.94
segment 84.68 89.09 91.39 91.47 91.77
waveform-5000 69.20 71.94 73.44 74.76 74.16
phishingData 80.86 81.90 82.04 82.04 83.67
haberman 72.56 70.90 73.53 72.86 73.55
mushroom 98.86 99.47 99.59 99.85 99.80
pima 66.66 68.11 70.72 72.66 71.35
vehicle 47.37 52.59 62.30 62.44 63.98
wilt 95.31 96.51 97.02 97.40 97.42
kr-vs-kp 93.18 94.80 96.40 96.09 96.75
cnae-9 56.57 65.46 70.93 74.91 76.11
flare 70.92 73.15 70.99 72.72 72.72
mfeat-karhunen 58.25 64.60 67.30 70.10 72.30
musk 96.45 98.20 98.95 99.44 99.50
ozone-onehr 97.12 97.12 97.12 97.12 97.04
pendigits 82.47 87.05 89.35 91.46 91.19
planning-relax 71.46 71.46 70.35 70.41 71.46
seeds 36.67 82.86 85.24 85.71 86.67
semeion 46.29 53.80 56.43 60.32 61.72
spectf-heart 71.07 72.79 68.50 71.68 72.54
tic-tac-toe 64.93 71.50 74.31 79.12 81.22
twonorm 76.36 79.22 79.55 80.57 80.74
Tabela 16 – Resultados do FlexCon-C1S (votação) com Naïve Bayes

Bases
5% 10% 15% 20% 25%
iris 78.67 88.67 91.33 93.33 95.33
bupa 54.76 54.18 54.87 50.70 49.88
segment 77.58 77.71 78.01 78.31 79.26
waveform-5000 80.60 80.08 79.64 79.98 80.18
phishingData 81.29 83.44 84.04 84.11 83.45
haberman 67.55 68.01 70.21 74.14 75.49
mushroom 94.09 94.12 94.08 94.70 94.22
pima 70.84 73.96 73.05 73.58 73.45
vehicle 46.67 46.48 46.57 45.40 48.00
wilt 91.30 90.00 89.50 89.83 88.92
kr-vs-kp 83.04 84.61 85.36 85.95 86.26
cnae-9 35.93 27.13 26.11 20.09 18.80
flare 37.64 40.96 49.68 49.97 54.42
mfeat-karhunen 81.25 89.50 90.05 91.70 92.30
musk 83.63 84.16 83.57 84.15 85.40
ozone-onehr 93.22 78.27 77.44 72.51 72.24
pendigits 83.69 85.09 85.13 85.25 85.15
planning-relax 70.38 53.33 59.39 58.92 61.08
seeds 80.48 89.52 87.62 90.48 91.90
semeion 58.16 56.24 62.83 68.55 74.58
spectf-heart 77.93 75.39 76.55 73.15 73.97
tic-tac-toe 63.27 68.49 68.38 69.73 68.59
twonorm 97.50 97.78 97.74 97.65 97.74
Tabela 17 – Resultados do FlexCon-C1S (votação) com Ripper

Bases
5% 10% 15% 20% 25%
iris 49.33 73.33 82.00 91.33 88.00
bupa 53.07 62.03 62.34 61.16 56.50
segment 76.71 82.86 86.93 87.79 89.52
waveform-5000 70.66 73.72 74.52 74.84 77.24
phishingData 75.24 81.67 82.11 84.19 86.55
haberman 70.87 72.53 73.16 70.60 75.11
mushroom 83.59 84.34 82.88 82.52 81.88
pima 69.92 69.66 68.49 69.02 70.69
vehicle 50.81 54.74 57.46 58.05 61.95
wilt 96.38 96.96 97.23 96.92 97.66
kr-vs-kp 92.30 95.06 95.93 96.24 96.75
cnae-9 49.07 61.39 70.37 73.98 76.76
flare 66.03 66.67 65.94 70.63 67.68
mfeat-karhunen 49.60 60.80 64.85 66.65 68.60
musk 89.97 93.19 94.83 95.32 96.98
ozone-onehr 96.49 95.07 96.18 95.70 96.26
pendigits 81.46 85.72 88.36 91.06 91.56
planning-relax 61.05 61.61 71.46 67.66 67.54
seeds 65.71 80.95 82.38 83.33 86.19
semeion 37.55 46.46 50.15 55.06 58.95
spectf-heart 70.76 68.78 73.65 71.71 77.11
tic-tac-toe 63.78 69.72 78.71 81.30 92.57
twonorm 80.05 83.58 85.90 87.26 86.85
Tabela 18 – Resultados do FlexCon-C1S (votação) com k-NN

Bases
5% 10% 15% 20% 25%
iris 84.00 90.00 94.00 90.67 95.33
bupa 54.51 55.98 55.12 55.96 58.00
segment 84.94 90.22 92.16 92.73 93.16
waveform-5000 79.94 81.80 83.08 83.92 84.02
phishingData 80.94 82.41 83.23 83.75 84.92
haberman 71.91 71.86 72.20 71.92 73.17
mushroom 83.20 83.75 84.01 84.02 83.65
pima 66.00 70.31 69.79 70.70 69.79
vehicle 52.73 56.13 56.42 59.10 61.36
wilt 93.99 94.46 94.03 94.17 94.30
kr-vs-kp 78.76 83.26 86.20 88.14 89.42
cnae-9 50.74 61.11 65.56 66.39 70.00
flare 64.93 67.47 71.41 71.49 71.56
mfeat-karhunen 83.10 88.05 89.25 91.35 92.70
musk 92.51 94.95 95.36 96.36 97.17
ozone-onehr 97.00 97.20 96.96 97.00 97.08
pendigits 96.05 97.49 98.10 98.37 98.84
planning-relax 67.11 60.47 70.32 68.13 67.57
seeds 84.76 88.57 90.00 92.38 91.90
semeion 69.17 75.64 78.84 82.56 83.75
spectf-heart 68.72 67.55 70.20 77.34 71.30
tic-tac-toe 70.15 79.31 84.04 88.31 91.12
twonorm 97.23 97.14 97.51 97.34 97.62
60
APÊNDICE C – Resultados do
FlexCon-C2S para cada classificador

FlexCon-C2S aplicado aos referidos algoritmos de classificação, com cada base de dados e
diferentes configurações para instâncias inicialmente rotuladas. Lembrando que, cada valor
foi obtido através da média das acurácias resultantes do treinamento com a técnica de cross-
validation stratified k-fold, utilizando 10 para o valor de k.
APÊNDICE C. Resultados do FlexCon-C2S para cada classificador 61
Tabela 19 – Resultados do FlexCon-C2S com Árvore de decisão

Bases
5% 10% 15% 20% 25%
iris 33.33 86.00 91.33 95.33 92.00
bupa 55.04 57.10 59.70 59.13 61.78
segment 85.45 88.35 90.22 91.00 92.29
waveform-5000 69.84 71.16 72.66 73.56 75.02
phishingData 80.86 81.60 81.82 82.64 82.86
haberman 72.24 72.24 72.57 73.20 70.95
mushroom 99.03 99.61 99.74 99.78 99.86
pima 67.31 67.85 70.98 72.53 72.79
vehicle 47.75 54.57 59.21 65.45 62.54
wilt 96.07 96.32 96.92 97.25 96.90
kr-vs-kp 92.68 94.62 96.09 96.87 97.12
cnae-9 51.85 64.91 68.24 73.33 77.13
flare 69.18 72.36 72.72 73.51 72.28
mfeat-karhunen 57.40 63.35 68.05 68.60 73.00
musk 96.47 98.65 98.97 99.47 99.42
ozone-onehr 96.96 97.12 97.12 97.12 97.12
pendigits 83.08 87.41 89.48 90.61 91.97
planning-relax 71.46 71.46 71.46 70.94 71.46
seeds 41.43 83.33 83.33 84.29 86.67
semeion 43.32 48.96 57.02 59.28 64.35
spectf-heart 71.07 71.67 73.10 74.18 74.25
tic-tac-toe 65.98 68.55 74.67 81.23 82.37
twonorm 77.39 79.82 79.01 81.57 81.07
Tabela 20 – Resultados do FlexCon-C2S com Naïve Bayes

Bases
5% 10% 15% 20% 25%
iris 86.67 92.00 89.33 92.67 96.00
bupa 49.22 51.64 57.05 58.00 52.14
segment 77.36 77.62 77.62 78.79 79.91
waveform-5000 79.16 80.36 80.14 79.84 79.96
phishingData 81.15 83.15 82.63 84.92 83.96
haberman 64.87 66.78 71.30 69.36 71.58
mushroom 94.08 94.26 94.02 94.56 94.37
pima 72.26 72.91 75.25 74.87 74.60
vehicle 47.18 49.52 46.92 45.97 44.07
wilt 89.59 87.46 89.61 88.55 89.58
kr-vs-kp 82.54 84.89 86.01 85.98 85.86
cnae-9 39.17 31.67 26.48 25.09 20.28
flare 47.03 42.41 45.97 42.55 49.39
mfeat-karhunen 82.80 88.75 90.40 91.75 91.80
musk 81.56 83.45 83.74 84.01 85.18
ozone-onehr 92.31 79.38 75.12 75.59 74.01
pendigits 82.59 84.88 85.33 85.52 85.31
planning-relax 70.91 57.25 56.55 54.36 55.12
seeds 72.86 86.67 90.48 89.05 90.95
semeion 57.68 59.68 61.75 67.66 73.45
spectf-heart 76.76 73.03 75.32 72.79 74.19
tic-tac-toe 63.88 69.73 70.05 68.57 69.74
twonorm 97.47 97.59 97.72 97.70 97.80
Tabela 21 – Resultados do FlexCon-C2S com Ripper

Bases
5% 10% 15% 20% 25%
iris 45.33 80.00 86.67 88.00 86.00
bupa 56.00 58.03 57.97 63.76 60.08
segment 77.49 83.20 87.66 90.39 90.43
waveform-5000 71.68 73.22 73.62 75.74 76.18
phishingData 75.03 81.09 83.45 85.07 85.96
haberman 72.55 70.57 71.20 69.30 70.29
mushroom 83.99 83.58 82.48 82.24 81.81
pima 68.63 67.70 72.14 72.52 71.09
vehicle 48.78 56.51 60.04 57.80 62.19
wilt 96.36 96.49 97.15 97.31 97.60
kr-vs-kp 93.21 94.43 96.37 96.31 96.87
cnae-9 51.02 60.93 65.65 72.59 76.76
flare 68.81 67.61 69.40 69.10 67.17
mfeat-karhunen 52.65 56.85 62.65 68.85 68.70
musk 88.83 94.03 94.92 95.39 96.82
ozone-onehr 96.13 95.90 96.06 96.45 96.02
pendigits 81.23 86.42 88.92 90.86 92.59
planning-relax 63.25 67.72 67.19 69.30 68.74
seeds 79.05 83.81 79.05 80.00 82.38
semeion 34.34 45.08 49.90 53.81 58.32
spectf-heart 73.89 72.16 73.60 70.17 73.33
tic-tac-toe 65.78 67.64 75.56 81.33 94.89
twonorm 80.97 84.19 85.46 86.35 87.09
Tabela 22 – Resultados do FlexCon-C2S com k-NN

Bases
5% 10% 15% 20% 25%
iris 86.00 91.33 91.33 94.67 94.00
bupa 53.33 49.28 57.97 55.57 58.51
segment 85.02 89.05 91.60 92.81 94.16
waveform-5000 80.62 82.80 82.90 84.12 84.52
phishingData 79.84 82.64 84.85 84.77 84.26
haberman 71.22 69.92 71.92 68.02 73.50
mushroom 84.03 83.35 83.62 83.95 83.86
pima 68.76 71.89 71.49 71.62 70.45
vehicle 55.44 56.14 61.21 64.29 64.54
wilt 93.80 94.65 94.81 94.98 94.13
kr-vs-kp 78.79 82.51 85.57 87.61 88.67
cnae-9 54.63 61.20 69.81 67.50 70.83
flare 69.19 70.27 70.79 70.42 71.34
mfeat-karhunen 83.20 88.05 90.05 92.25 93.20
musk 92.33 94.88 95.70 96.44 97.39
ozone-onehr 96.57 96.85 96.73 97.20 96.92
pendigits 95.99 97.35 98.11 98.37 98.83
planning-relax 68.10 67.57 69.85 65.94 66.43
seeds 87.14 87.14 88.10 90.95 91.90
semeion 68.92 75.25 80.67 83.55 85.19
spectf-heart 69.40 69.90 69.89 73.57 74.71
tic-tac-toe 68.04 75.58 82.17 88.73 91.44
twonorm 97.05 97.39 97.43 97.41 97.37
65
APÊNDICE D – Resultados do
FlexCon-C1 (soma) para cada
classificador

FlexCon-C1 (soma) aplicado aos referidos algoritmos de classificação, com cada base de dados
e diferentes configurações para instâncias inicialmente rotuladas. Lembrando que, cada valor
APÊNDICE D. Resultados do FlexCon-C1 (soma) para cada classificador 66
Tabela 23 – Resultados do FlexCon-C1 (soma) com Árvore de decisão

Bases
5% 10% 15% 20% 25%
iris 33.33 85.33 92.67 92.00 91.33
bupa 57.12 58.25 57.63 58.00 59.40
segment 85.54 90.04 90.00 91.77 93.16
waveform-5000 68.66 70.72 73.52 74.04 74.56
phishingData 81.53 81.09 81.97 83.16 81.60
haberman 73.53 73.53 73.53 71.27 72.86
mushroom 99.05 99.54 99.54 99.77 99.84
pima 66.66 68.11 69.39 70.45 72.14
vehicle 46.47 57.78 63.84 62.63 64.76
wilt 95.89 96.59 96.53 96.98 97.52
kr-vs-kp 92.12 95.06 97.00 97.21 97.25
cnae-9 55.56 66.39 71.48 73.06 74.35
flare 69.26 72.29 71.92 72.35 72.64
mfeat-karhunen 55.55 64.55 66.75 68.70 73.10
musk 97.18 98.30 98.91 99.39 99.51
ozone-onehr 97.12 97.12 97.12 97.12 97.12
pendigits 81.65 86.93 89.64 91.05 91.89
planning-relax 71.46 67.66 71.46 71.46 71.46
seeds 37.14 79.05 82.86 85.71 87.14
semeion 45.83 51.65 56.05 58.85 61.89
spectf-heart 70.57 72.23 73.35 71.40 72.53
tic-tac-toe 66.70 68.38 66.50 77.05 80.62
twonorm 76.88 79.42 79.82 81.53 81.58
Tabela 24 – Resultados do FlexCon-C1 (soma) com Naïve Bayes

Bases
5% 10% 15% 20% 25%
iris 84.00 89.33 94.00 94.00 94.00
bupa 52.94 49.24 52.24 56.24 55.03
segment 74.89 77.49 78.10 79.31 79.78
waveform-5000 79.52 79.96 79.68 79.90 80.24
phishingData 81.38 83.09 83.82 84.56 84.19
haberman 67.33 69.88 68.00 74.49 69.96
mushroom 94.31 94.58 94.12 94.58 94.34
pima 69.26 72.26 73.95 73.69 75.51
vehicle 48.31 47.79 48.31 43.96 48.94
wilt 89.54 89.73 91.90 91.34 89.07
kr-vs-kp 80.94 84.26 85.14 86.67 85.89
cnae-9 37.31 28.89 29.26 19.07 20.46
flare 44.12 41.47 47.93 43.43 50.05
mfeat-karhunen 82.25 87.95 91.40 91.40 91.65
musk 82.71 83.65 83.06 85.21 85.68
ozone-onehr 94.92 78.90 75.79 75.79 75.00
pendigits 84.48 84.77 85.16 85.75 85.33
planning-relax 69.85 61.49 57.22 63.65 64.33
seeds 81.90 89.05 88.57 86.67 90.95
semeion 55.74 59.70 62.07 68.48 74.49
spectf-heart 76.79 75.55 74.80 74.25 71.58
tic-tac-toe 62.41 67.96 68.06 67.33 71.08
twonorm 97.57 97.80 97.73 97.59 97.77
Tabela 25 – Resultados do FlexCon-C1 (soma) com Ripper

Bases
5% 10% 15% 20% 25%
iris 52.00 68.67 82.00 86.67 89.33
bupa 55.97 59.12 60.02 61.10 61.79
segment 78.14 84.55 87.71 87.36 89.96
waveform-5000 69.52 73.12 73.68 76.32 76.12
phishingData 74.50 80.49 81.89 85.90 85.59
haberman 73.19 72.85 67.57 70.16 71.18
mushroom 85.46 81.84 81.88 81.80 81.88
pima 67.71 68.36 71.60 70.96 71.08
vehicle 42.42 51.55 55.44 58.37 61.25
wilt 96.18 96.76 97.17 97.58 97.38
kr-vs-kp 93.08 94.81 95.78 95.78 96.93
cnae-9 48.43 57.22 67.87 75.09 75.46
flare 66.02 66.55 67.27 68.34 67.96
mfeat-karhunen 48.25 58.10 63.45 66.80 69.65
musk 89.47 93.15 95.07 95.97 96.77
ozone-onehr 95.54 94.84 96.85 95.74 95.86
pendigits 82.10 86.68 88.81 90.90 91.69
planning-relax 67.02 64.88 70.35 64.47 68.13
seeds 72.86 76.19 79.52 80.95 88.57
semeion 35.17 45.95 49.30 57.40 57.80
spectf-heart 71.93 72.79 73.61 73.67 75.03
tic-tac-toe 61.58 65.25 78.99 88.54 87.99
twonorm 80.85 83.61 85.89 87.07 87.11
Tabela 26 – Resultados do FlexCon-C1 (soma) com k-NN

Bases
5% 10% 15% 20% 25%
iris 83.33 94.00 95.33 96.00 96.00
bupa 53.55 57.93 54.51 56.76 57.40
segment 85.58 90.91 90.61 92.55 93.81
waveform-5000 79.84 81.10 83.20 83.14 83.62
phishingData 80.11 83.08 83.52 83.97 83.81
haberman 70.94 70.90 73.19 73.51 71.90
mushroom 82.84 83.69 83.79 83.99 83.47
pima 69.65 68.23 69.27 69.80 69.54
vehicle 51.31 57.69 62.88 62.30 66.07
wilt 94.48 94.11 94.30 94.83 94.98
kr-vs-kp 78.44 82.57 85.05 87.77 89.46
cnae-9 54.44 61.67 67.04 69.26 69.17
flare 67.95 68.40 70.04 71.77 71.57
mfeat-karhunen 82.30 87.30 91.00 91.60 92.10
musk 92.36 94.79 96.45 96.79 97.14
ozone-onehr 97.08 96.89 96.77 96.96 96.89
pendigits 96.02 97.57 98.27 98.57 98.69
planning-relax 68.13 65.91 67.57 70.91 68.77
seeds 85.71 89.52 92.38 93.81 89.52
semeion 69.56 77.46 80.54 82.93 82.11
spectf-heart 67.64 72.49 69.91 70.98 74.17
tic-tac-toe 68.49 79.84 84.44 88.83 91.86
twonorm 97.01 97.41 97.34 97.47 97.65
70
APÊNDICE E – Resultados do
FlexCon-C1 (votação) para cada
classificador

FlexCon-C1 (votação) aplicado aos referidos algoritmos de classificação, com cada base de
APÊNDICE E. Resultados do FlexCon-C1 (votação) para cada classificador 71
Tabela 27 – Resultados do FlexCon-C1 (votação) com Árvore de decisão

Bases
5% 10% 15% 20% 25%
iris 33.33 80.00 94.67 94.67 92.00
bupa 57.08 56.51 56.81 59.48 60.31
segment 87.10 88.01 90.48 90.91 92.99
waveform-5000 69.20 72.72 72.24 73.52 74.40
phishingData 81.30 81.82 81.89 81.74 82.71
haberman 73.53 72.24 72.55 74.53 72.23
mushroom 98.98 99.54 99.70 99.75 99.80
pima 66.66 71.34 72.14 72.77 71.10
vehicle 43.99 56.15 63.47 59.42 66.09
wilt 94.57 96.38 96.94 96.98 97.69
kr-vs-kp 93.12 95.12 96.06 96.50 97.22
cnae-9 56.57 67.59 71.48 73.33 75.28
flare 69.40 71.63 72.64 72.71 73.57
mfeat-karhunen 54.55 64.05 67.35 70.05 71.55
musk 96.21 98.45 98.95 99.39 99.41
ozone-onehr 97.12 97.12 97.12 97.12 97.12
pendigits 82.39 87.94 90.05 90.55 92.20
planning-relax 71.46 68.13 71.46 71.46 71.46
seeds 33.33 85.24 83.81 85.71 87.14
semeion 41.98 52.27 60.27 59.27 61.71
spectf-heart 72.18 73.36 73.97 71.05 73.38
tic-tac-toe 63.46 67.97 72.12 76.21 83.29
twonorm 77.16 79.31 79.72 81.23 81.96
Tabela 28 – Resultados do FlexCon-C1 (votação) com Naïve Bayes

Bases
5% 10% 15% 20% 25%
iris 84.00 88.67 95.33 94.00 96.00
bupa 54.18 54.18 56.21 49.91 51.58
segment 76.84 77.92 78.53 78.53 78.87
waveform-5000 79.50 79.94 79.86 80.20 79.78
phishingData 81.74 83.38 83.96 83.96 84.18
haberman 67.28 65.70 72.89 69.89 71.86
mushroom 94.34 94.28 94.49 94.53 94.40
pima 70.97 72.67 74.22 72.79 74.49
vehicle 48.68 46.66 45.96 47.18 43.60
wilt 87.27 87.99 90.10 91.26 89.34
kr-vs-kp 81.10 84.45 86.08 85.86 86.14
cnae-9 38.89 30.37 25.74 24.91 19.72
flare 41.44 43.10 47.89 43.33 44.11
mfeat-karhunen 81.65 89.15 90.80 91.30 91.80
musk 81.12 83.03 83.53 83.86 85.50
ozone-onehr 94.08 79.67 78.12 73.03 75.12
pendigits 84.58 83.94 85.03 85.47 85.56
planning-relax 67.51 54.47 63.22 58.83 56.11
seeds 75.71 87.14 91.90 90.00 89.52
semeion 59.20 59.32 62.59 66.22 73.12
spectf-heart 73.66 78.20 74.21 71.66 74.78
tic-tac-toe 65.24 66.49 68.26 67.31 70.15
twonorm 97.68 97.59 97.72 97.72 97.73
Tabela 29 – Resultados do FlexCon-C1 (votação) com Ripper

Bases
5% 10% 15% 20% 25%
iris 50.00 72.67 87.33 88.00 86.00
bupa 52.42 59.15 59.76 62.60 64.03
segment 72.99 83.94 88.44 88.70 89.13
waveform-5000 70.50 73.32 74.58 75.96 75.24
phishingData 78.64 80.20 81.00 83.82 85.89
haberman 72.85 70.95 71.22 71.22 72.17
mushroom 83.67 83.57 82.27 82.11 81.88
pima 68.35 70.32 72.41 71.48 73.56
vehicle 46.54 54.13 56.14 60.63 62.18
wilt 96.57 97.11 96.98 97.17 97.60
kr-vs-kp 92.52 94.34 95.18 96.18 97.06
cnae-9 47.69 61.57 71.76 74.35 74.91
flare 63.13 68.47 68.47 66.51 68.25
mfeat-karhunen 46.70 56.75 63.15 66.40 71.75
musk 89.12 92.06 94.68 96.30 96.83
ozone-onehr 96.77 95.94 96.18 96.10 96.41
pendigits 81.47 86.98 88.36 90.87 92.42
planning-relax 63.77 65.38 71.46 70.91 70.41
seeds 75.71 81.43 83.33 83.81 83.33
semeion 33.85 42.31 48.21 56.19 61.01
spectf-heart 70.79 72.54 70.24 72.50 71.38
tic-tac-toe 67.24 66.72 78.61 87.18 90.84
twonorm 80.78 83.72 85.11 86.66 87.08
Tabela 30 – Resultados do FlexCon-C1 (votação) com k-NN

Bases
5% 10% 15% 20% 25%
iris 80.67 91.33 94.67 96.00 95.33
bupa 57.34 58.21 58.50 57.36 56.20
segment 85.45 89.96 91.86 92.47 93.68
waveform-5000 81.38 82.56 83.18 83.18 83.44
phishingData 81.82 83.23 84.25 83.07 84.78
haberman 64.67 72.85 73.20 70.30 71.89
mushroom 83.06 83.20 83.63 83.41 83.41
pima 68.23 70.19 71.75 72.01 73.56
vehicle 52.01 53.09 59.82 61.83 65.48
wilt 94.56 94.25 94.34 94.65 94.50
kr-vs-kp 76.72 83.14 86.48 87.99 89.64
cnae-9 53.24 67.78 64.26 69.91 72.31
flare 63.99 71.14 70.57 70.49 72.79
mfeat-karhunen 83.65 87.60 90.15 91.70 91.90
musk 92.68 95.01 96.26 97.20 96.88
ozone-onehr 96.85 96.77 96.92 96.92 97.04
pendigits 95.88 97.62 98.05 98.38 98.58
planning-relax 65.41 63.74 66.46 69.24 67.63
seeds 88.10 88.10 89.52 91.90 91.43
semeion 68.05 76.34 80.16 82.93 84.87
spectf-heart 69.65 70.20 68.25 71.88 70.59
tic-tac-toe 68.17 79.02 86.42 89.26 92.28
twonorm 97.27 97.39 97.22 97.68 97.47
75
APÊNDICE F – Resultados do
FlexCon-C2 para cada classificador

FlexCon-C2 aplicado aos referidos algoritmos de classificação, com cada base de dados e
diferentes configurações para instâncias inicialmente rotuladas. Lembrando que, cada valor
APÊNDICE F. Resultados do FlexCon-C2 para cada classificador 76
Tabela 31 – Resultados do FlexCon-C2 com Árvore de decisão

Bases
5% 10% 15% 20% 25%
iris 33.33 88.00 92.67 89.33 94.00
bupa 59.16 55.05 59.71 61.19 61.21
segment 87.10 89.83 90.61 91.90 92.64
waveform-5000 68.36 72.24 72.44 74.72 74.12
phishingData 81.97 81.37 81.67 83.00 84.11
haberman 74.20 73.53 73.53 72.86 73.20
mushroom 99.06 99.61 99.69 99.84 99.89
pima 68.75 70.06 70.05 71.48 71.87
vehicle 51.42 56.26 60.76 61.46 60.97
wilt 95.89 96.67 97.04 97.23 97.15
kr-vs-kp 92.24 95.02 95.40 96.34 97.09
cnae-9 56.30 62.96 69.81 75.93 75.28
flare 70.24 71.19 72.71 72.85 71.63
mfeat-karhunen 57.25 65.80 67.40 71.95 71.00
musk 95.98 98.76 99.06 99.23 99.45
ozone-onehr 97.12 97.12 97.12 97.12 97.12
pendigits 82.53 87.40 89.66 90.76 91.72
planning-relax 71.46 70.35 71.46 71.46 71.46
seeds 37.14 80.00 81.43 84.76 86.67
semeion 47.21 53.03 58.63 61.41 61.52
spectf-heart 67.28 72.79 72.50 73.92 74.74
tic-tac-toe 64.29 68.37 73.27 77.03 84.55
twonorm 77.38 79.47 80.26 81.80 81.65
Tabela 32 – Resultados do FlexCon-C2 com Naïve Bayes

Bases
5% 10% 15% 20% 25%
iris 82.00 89.33 97.33 93.33 96.00
bupa 53.92 52.18 53.06 49.61 54.56
segment 76.97 77.84 77.84 79.70 79.05
waveform-5000 80.42 79.32 80.20 80.12 80.36
phishingData 82.25 83.59 84.11 83.29 83.07
haberman 60.78 68.93 70.66 71.93 72.57
mushroom 94.45 94.52 94.39 94.62 94.25
pima 71.48 73.31 74.61 72.79 74.22
vehicle 46.44 49.17 45.99 44.81 45.87
wilt 88.33 87.99 90.89 89.96 90.43
kr-vs-kp 81.85 85.04 84.85 86.26 86.95
cnae-9 37.22 27.69 23.89 24.07 22.87
flare 44.89 41.44 46.84 47.10 47.29
mfeat-karhunen 81.80 89.75 90.75 91.40 92.30
musk 81.40 83.65 86.27 83.37 84.43
ozone-onehr 91.43 76.79 75.47 74.64 72.43
pendigits 85.05 85.36 85.29 85.10 85.66
planning-relax 68.80 59.27 59.88 61.55 60.00
seeds 74.76 88.10 91.90 91.43 90.00
semeion 58.31 57.62 63.47 70.19 73.44
spectf-heart 72.47 77.15 74.57 73.38 72.80
tic-tac-toe 66.48 68.16 68.78 70.14 70.97
twonorm 97.45 97.74 97.86 97.82 97.81
Tabela 33 – Resultados do FlexCon-C2 com Ripper

Bases
5% 10% 15% 20% 25%
iris 50.00 74.67 87.33 87.33 84.00
bupa 55.61 58.28 62.85 53.04 65.18
segment 76.19 82.03 87.75 88.61 89.78
waveform-5000 70.20 73.12 74.90 75.42 75.96
phishingData 75.92 83.30 83.09 83.67 85.59
haberman 69.29 70.54 71.58 71.25 72.55
mushroom 81.63 83.06 82.43 82.25 81.88
pima 68.87 71.09 71.23 72.13 71.74
vehicle 49.64 52.59 56.87 60.41 61.12
wilt 96.36 97.29 97.13 96.98 97.52
kr-vs-kp 93.05 94.09 95.65 96.56 97.34
cnae-9 47.50 64.44 68.98 74.26 72.41
flare 63.20 65.31 67.47 67.32 69.05
mfeat-karhunen 48.75 60.50 64.90 69.05 70.60
musk 87.13 93.92 94.41 96.18 97.24
ozone-onehr 96.89 95.62 95.70 95.82 96.10
pendigits 81.42 87.38 89.30 90.36 92.38
planning-relax 68.13 63.68 69.24 68.65 69.80
seeds 68.57 75.24 81.43 77.62 85.24
semeion 34.75 42.62 53.63 53.78 61.45
spectf-heart 68.44 72.52 69.30 70.81 76.80
tic-tac-toe 70.36 65.88 76.11 89.87 93.51
twonorm 81.23 83.43 85.15 87.01 87.24
Tabela 34 – Resultados do FlexCon-C2 com k-NN

Bases
5% 10% 15% 20% 25%
iris 82.67 88.00 94.67 94.67 92.00
bupa 55.66 55.34 55.67 54.55 57.93
segment 85.54 90.00 91.04 93.29 94.24
waveform-5000 80.04 82.44 82.86 83.60 83.70
phishingData 79.74 82.77 83.30 85.00 84.70
haberman 71.26 71.95 68.96 72.91 74.84
mushroom 83.46 84.29 83.81 84.45 83.75
pima 68.88 67.84 71.36 70.19 71.34
vehicle 48.67 58.39 60.89 63.22 62.88
wilt 94.48 94.30 95.08 94.44 94.85
kr-vs-kp 78.85 83.04 85.73 87.98 88.86
cnae-9 51.11 61.30 63.52 69.17 71.02
flare 64.96 68.68 69.19 70.49 70.35
mfeat-karhunen 81.65 87.60 89.75 91.20 92.20
musk 92.21 94.91 95.73 96.92 97.47
ozone-onehr 97.00 97.08 96.77 97.08 97.04
pendigits 96.28 97.50 98.08 98.59 98.67
planning-relax 64.36 64.77 68.19 71.46 69.80
seeds 81.90 91.43 89.05 89.52 90.48
semeion 68.05 78.28 79.72 82.30 82.61
spectf-heart 69.33 73.34 71.30 71.28 74.19
tic-tac-toe 68.27 77.86 84.34 86.96 90.82
twonorm 97.15 97.40 97.39 97.46 97.41

Estratificação de dados em aprendizado semissupervisionado

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Estratificação de dados em aprendizado semissupervisionado

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE

CENTRO DE ENSINO SUPERIOR DO SERIDÓ

UMA PROPOSTA DE ESTRATIFICAÇÃO DE DADOS PARA SELEÇÃO DE

CAINAN TEIXEIRA ALVES

UMA PROPOSTA DE ESTRATIFICAÇÃO DE DADOS PARA SELEÇÃO DE

Trabalho de Conclusão de Curso II, apresentado

Orientador(a): MSc. Amarildo Jeiele Ferreira de

Figura 1 – Hierarquia do aprendizado indutivo. . . . . . . . . . . . . . . . . . . . . . 20

Tabela 1 – Bases de Dados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

IBL Instance-Based Learning (Aprendizagem Baseada em Instância)

k-NN K-Nearest Neighbor (k-vizinho mais próximo)

SSL Semi-Supervised Learning (Aprendizado Semissupervisionado)

Dr Conjunto de instâncias rotuladas

Dn Conjunto de instâncias não rotuladas

S Subconjunto de instâncias selecionadas para inclusão no conjunto de treina-

APÊNDICE A – RESULTADOS DO FLEXCON-C1S (SOMA) PARA

APÊNDICE B – RESULTADOS DO FLEXCON-C1S (VOTAÇÃO) PARA

APÊNDICE C – RESULTADOS DO FLEXCON-C2S PARA CADA

APÊNDICE D – RESULTADOS DO FLEXCON-C1 (SOMA) PARA

APÊNDICE E – RESULTADOS DO FLEXCON-C1 (VOTAÇÃO) PARA

APÊNDICE F – RESULTADOS DO FLEXCON-C2 PARA CADA CLAS-

A compreensão da mente humana tem sido objeto de estudo de diversos pesquisadores

1.1 Contextualização e Problema

1.2.1 Objetivo Geral

1.2.2 Objetivos Específicos

ii. Desenvolvimento do método de estratificação das classes baseado no critério definido no

iii. Adaptação do algoritmo FlexCon-C para a utilização do método de estratificação;

iv. Análise do desempenho obtido comparando os resultados com os métodos FlexCon-C1 e

1.3 Delimitação do Estudo

1.5 Apresentação do Trabalho

2.1 Inteligência Artificial

2.2 Aprendizado de Máquina

2.2.1 Aprendizado Indutivo

i. Exemplo: Também denominado instância, registro ou dado, representa um objeto especí-

onde yi é o rótulo de cada exemplo.

Pode-se afirmar que o método indutivo é dividido em aprendizado supervisionado e não

2.2.2 Tipos de aprendizado

2. Aprendizado não supervisionado;

Sobre o aprendizado supervisionado, Gollapudi (2016) afirma que consiste em operar

{(xi , yi )}ni=1 (1)

Cánepa (2016) explica que o objetivo da máquina é aprender a relação instância/rótulo

{xi }ni=1 (2)

Os algoritmos de aprendizagem não supervisionados funcionam em um espaço amostral

Figura 1 – Hierarquia do aprendizado indutivo.

Fonte: Adaptado de Monard e Baranauskas (2003)

Na Figura 1 são mostradas duas subcategorias do aprendizado supervisionado, classifi-

i. Classificação: "Descoberta de uma função de aprendizado preditivo que classi-

2.2.3 Aprendizado Semissupervisionado

Fonte: Adaptado de Chen e Zhang (2015)

Seguindo este contexto, Zhu e Goldberg (2009) complementam afirmando que, de

O self-training é um algoritmo que trabalha de forma incremental, iniciando com apenas

Alguns autores modificam a estrutura do self-training buscando obter um melhor

2.2.3.2 Flexible Confidence with Classifier

O Flexible Confidence with Classifier (FlexCon-C), desenvolvido no trabalho de Vale

Inicialmente, um classificador CL é treinado a partir de instâncias rotuladas, para

2.3 Classificação de dados

• Movimentos em um jogo de computador;

Diversos algoritmos de classificação foram criados usando diferentes métodos para

2.3.1 Árvore de Decisão

Figura 3 – Árvore de Decisão.

Fonte: Adaptado de Nilsson (1996)

Fonte: Adaptado de Mitchell (1997)