Escolar Documentos
Profissional Documentos
Cultura Documentos
Caicó - RN
2021
CAINAN TEIXEIRA ALVES
Caicó - RN
2021
Agradecimentos
Primeiramente, agradeço a minha família por todo o apoio, especialmente minha mãe,
Maria Nair Teixeira Neta, e minha avó, Maria Salete Teixeira de Souza, por serem minhas
principais referências em educação e integridade pessoal. São as pessoas que me mostraram o
verdadeiro sentido de ser coerente com meus princípios e valores morais.
Agradeço também aos meus amigos, por terem sido meu refúgio do estresse através
dos momentos de zoeira e descontração, por estarem presentes durante as fases difíceis e
principalmente por não falharem na tarefa denominada amizade. Em especial aos colegas do
Laboratório de Inteligência Computacional Aplicada a Negócios, por dividirem comigo as
manhãs de LabCoffee e os períodos em que obtive grande parte do conhecimento adquirido
durante a graduação.
Ao meu orientador, Prof. MSc. Amarildo Jeiele Ferreira de Lucena, por ter acreditado
na minha capacidade e me aceitado como seu orientando, oferecendo sempre ensinamentos e
colaborações durante a pesquisa.
A minha co-orientadora, Profa. MSc. Karliane Medeiros Ovidio Vale, por ter influência
direta nesta pesquisa, me proporcionando grande parte do aprendizado obtido nesta fase tão
importante da minha graduação e consequentemente da vida.
Aos docentes Prof. Dr. Flavius da Luz e Gorgônio, Profa. Dra. Anne Magaly de Paula
Canuto, Prof. Dr. Araken de Medeiros Santos e Prof. Dr. João Paulo de Souza Medeiros, por
fazerem parte deste estudo por meio de importantes contribuições.
Resumo
Algoritmos e métodos capazes de aprender por meio de poucos exemplos rotulados são de
grande necessidade em aplicações reais, devido a dificuldade para conseguir conjuntos com
dados relevantes e corretamente rotulados para a tarefa de classificação. Estes algoritmos
normalmente complementam suas bases de dados com uma quantidade maior de instâncias
até então sem rótulo, de forma que os classificadores possam gerar predições mais precisas.
Contudo, é necessário que haja uma automatização do processo de rotulação dos exemplos
sem rótulo. O Flexible Confidence with Classifier (FlexCon-C), método baseado no algoritmo
self-training, utiliza um limiar flexível que rotula de acordo com a confiança das instâncias
previstas. No entanto, a escolha dos rótulos se concentra apenas na confiabilidade pertinente
aos exemplos, demonstrando uma falta de controle com relação as classes inseridas. Com
base nisso, este estudo teve como objetivo adaptar o FlexCon-C para o uso de estratificação
durante a inclusão dos exemplos no conjunto de treinamento. Para a realização de experimentos,
a fim de obter resultados propícios a uma avaliação, foram elencadas trinta e uma bases de
dados e atribuídas cinco configurações para dados rotulados inicialmente, onde foram aplicados
quatro classificadores para obtenção de resultados relacionados ao desempenho. Os resultados
mostraram que o método proposto obteve melhor desempenho quando os experimentos foram
aplicados a poucos dos dados rotulados inicialmente, evidenciando que a estratificação é mais
eficaz quando se tem pouquíssimos exemplos rotulados.
Palavras-chave: Aprendizado semissupervisionado; FlexCon-C; Estratificação de dados.
Abstract
Algorithms and methods capable of learning throught a few labeled examples are of great
necessity in real applications, as there is a difficulty in achieving sets with relevant and correctly
labeled data for the classification task. These algorithms usually complement their databases with
a larger number of unlabeled instances so that classifiers can generate more accurate predictions.
However, there is a need to automate the labeling process of the unlabeled examples. The flexible
Confidence with Classifier (FlexCon-C), a method based on the self-training algorithm, uses
a flexible threshold that labels according to the predicted instances trust. However, the labels
are chosen based only on the confidence degree of the examples, which demonstrates a lack of
control over the inserted classes. With this, the objective of this study was to adapt FlexCon-C
to the use of data stratification during the inclusion of examples in the training set. To perform
the experiments to obtain favorable results for evaluation, thirty one databases were assigned
and five settings were assigned to initially labeled data, where four classifiers were applied to
obtain performance-related results. The findings showed that the proposed method performed
better when the experiments were applied to a few of the initially labeled data, showing that
stratification is more effective when there are few labeled examples.
Keywords: Semi-supervised learning; FlexCon-C; Data stratification.
LISTA DE FIGURAS
AD Árvore de Decisão
AM Aprendizado de Máquina
IA Inteligência Artificial
NB Naive Bayes
CL Classificador
1 Self-Training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2 FlexCon-C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3 FlexCon-CS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
SUMÁRIO
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.1 Contextualização e Problema . . . . . . . . . . . . . . . . . . . . . . 13
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2.1 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2.2 Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3 Delimitação do Estudo . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5 Apresentação do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . 15
2 FUNDAMENTAÇÃO TEÓRICA . . . . . . . . . . . . . . . . . . . . . 16
2.1 Inteligência Artificial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Aprendizado de Máquina . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.1 Aprendizado Indutivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.2 Tipos de aprendizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.3 Aprendizado Semissupervisionado . . . . . . . . . . . . . . . . . . . . 20
2.2.3.1 Self-training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.3.2 Flexible Confidence with Classifier . . . . . . . . . . . . . . . . . . . . . . 22
2.3 Classificação de dados . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3.1 Árvore de Decisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3.2 Aprendizagem bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3.3 Aprendizagem baseada em instâncias . . . . . . . . . . . . . . . . . . 26
2.3.4 Aprendizagem baseada em regras . . . . . . . . . . . . . . . . . . . . 28
2.4 Estratificação de dados . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5 Trabalhos relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.1 Proposta Metodológica . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2 Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4 RESULTADOS E DISCUSSÕES . . . . . . . . . . . . . . . . . . . . 35
4.1 Análise de Desempenho . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2 Análise de Ranking . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.3 Análise Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.4 Validação da Proposta . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.1 Discussão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.2 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
1 Introdução
1.2 Objetivos
A seguir, serão apresentados de forma geral e específica os objetivos deste trabalho.
14
1.4 Justificativa
O uso do aprendizado de máquina em uma aplicação necessita que o conjunto de
dados utilizado para classificação possua exemplos qualificados para o treinamento, isto inclui a
rotulação correta dos mesmos. Portanto, há um interesse em propostas de algoritmos que façam
o trabalho de rotulação de maneira eficiente. Além disso, o desenvolvimento de algoritmos
que possam obter uma boa generalização dos dados a partir de poucos exemplos rotulados no
conjunto de treinamento, é um aspecto a ser levado em consideração em relação a relevância da
pesquisa realizada.
Ainda, a garantia da representatividade de cada uma das classes no conjunto de treina-
mento e o maior grau de confiabilidade possível dos exemplos são importantes em problemas de
classificação. Desta forma, a utilização do método de estratificação como recurso de qualidade
15
produz benefícios significativos com relação à distribuição das classes, causando possivelmente
o melhoramento do desempenho de classificadores.
Estes motivos justificam a realização deste trabalho, que visa o estudo de um método
para auxiliar o processo de inclusão de instâncias, no qual serão aplicadas técnicas de proporção
para calcular a distribuição no procedimento de estratificação das classes.
2 Fundamentação Teórica
dos computadores.
Segundo Nilsson (1996), a aprendizagem das máquinas geralmente se refere às mudan-
ças nos sistemas que realizam tarefas associadas à inteligência artificial. Essas mudanças podem
ser aprimoramentos para sistemas já executados. De acordo com o autor, uma máquina aprende
sempre que altera sua estrutura, programa ou dado (com base em suas entradas ou em resposta a
informações externas) de tal forma que haja um melhoramento no seu comportamento futuro.
Aprendizado de Máquina (AM) também pode ser definido como métodos computacio-
nais que usam a experiência para fazer previsões precisas ou melhorar o desempenho delas, na
qual a qualidade e o tamanho do conjunto de dados são fatores essenciais para o treinamento
e consequentemente o sucesso das predições (MOHRI; ROSTAMIZADEH; TALWALKAR,
2012).
A fim de provocar uma melhor compreensão a respeito do assunto, Shwartz e David
(2014) fazem uma associação entre a maneira como ratos aprendem a evitar veneno e como as
máquinas realizam a detecção de spams em emails. Segundo os autores, quando ratos encontram
alimentos, eles primeiro comem quantidades pequenas e a alimentação subsequente dependerá
do sabor do alimento e de seu efeito fisiológico. Se a substância produzir um resultado negativo,
as próximas refeições serão frequentemente associadas a doença e, posteriormente, os ratos não
comerão.
Percebe-se então um mecanismo de aprendizagem - o animal usou experiência anterior
com a ingestão de um alimento para adquirir conhecimento e poder utilizá-lo para detectar
a segurança nas próximas alimentações. Uma solução semelhante é utilizada na detecção de
spams, onde a máquina simplesmente memoriza todos os e-mails anteriores que foram marcados
como spam pelo usuário humano, a fim de otimizar a defesa contra novos spams (SHWARTZ;
DAVID, 2014). Há diversas formas de aplicar estes conceitos em problemas reais do cotidiano.
Assistentes virtuais, recomendações de produtos feitas por aplicações web e aplicativos de
tradução são exemplos de utilização desta abordagem.
Quando se trata de um conceito no qual as máquinas aprendem a partir de experiências
anteriores, é normal pensar em como esse conhecimento é armazenado. Segundo Gollapudi
(2016), os dados - que juntos são a representação para a experiência das máquinas - são a
principal fonte para o processo de aprendizagem, eles podem ser recebidos em qualquer formato,
tamanho ou frequência.
Uma das abordagens de aprendizagem de máquina encontrada na literatura é o aprendi-
zado indutivo, que será discutido na próxima seção.
18
ii. Atributos: São características referentes aos exemplos. Existem dois tipos, nominal e
contínuo. O primeiro é usado quando não existe uma ordem entre os valores (por exemplo,
cor: vermelho, verde, azul) enquanto o segundo é utilizado em uma ordem linear nos
valores (por exemplo, peso ∈ R, um número real).
iii. Rótulo ou Classe: Consiste em um atributo especial que descreve o fenômeno de interesse,
ou seja, é a atribuição de uma marcação ao exemplo dado.
iv. Distribuição de classes: Dado um conjunto E(e1 , e2 ...en ) de exemplos, é possível calcular
a sua distribuição de classes dividindo a quantidade de classes Cj pelo número n de
instâncias rotuladas através da fórmula
n
1X
distr(Cj ) = kyi = Cj ||
n i=1
v. Classificador: É utilizado para realizar previsões de classes com a maior precisão possível
de acordo com os exemplos do conjunto de dados para treinamento.
1. Aprendizado supervisionado;
Neste trabalho, será aplicada a classificação de dados. Sendo assim, este conceito será
detalhadamente abordado nas seções seguintes.
É razoável afirmar a existência de uma categoria de aprendizagem que utiliza ca-
racterísticas presentes nos dois tipos mencionados anteriormente, intitulado de Aprendizado
Semissupervisionado.
outro que faz uso da aprendizagem supervisionada pode-se esperar uma previsão mais precisa
levando em consideração os pontos não marcados. De acordo com os estudos realizados pelos
autores, isto pode ser esperado.
Figura 2 – Aprendizado semissupervisionado.
2.2.3.1 Self-training
próprias previsões para obter melhores resultados nas etapas seguintes, e por isso o termo self-
teaching também é uma definição válida para esse algoritmo (ZHU; GOLDBERG, 2009). O
pseudocódigo apresentado no Algoritmo 1 simula o funcionamento do algoritmo descrito.
Algoritmo 1: Self-Training
Entrada: dados rotulados {(xi , yi )}li=1 , dados não rotulados {xj }l+u
j=l+1
início
Primeiramente, Dr = {(xi , yi )}li=1 e Dn = {xj }l+u
j=l+1
repita
Treinar um classificador CL usando aprendizado supervisionado
Classificar as instâncias não rotuladas em Dn
Separar um subconjunto S de Dn
Adicionar {(x, CL(x))|x ∈ S} a Dr
até Dn = ∅;
fim
Fonte: Adaptado de Zhu e Goldberg (2009)
conf (ti ) − cr, se acc ≥ mp + e
conf (ti+1 ) = conf (ti ), se mp − e < acc < mp + e (3)
conf (t ) + cr, se acc ≤ mp − e
i
A equação pode ser descrita da seguinte forma: conf (ti ) é o valor de confiança da
iteração corrente; mp pode ser entendido como uma precisão mínima aceitável; cr é a taxa de
mudança (o valor definido no trabalho é 0.05); e corresponde a uma variação permitida para
23
definir uma estabilização na precisão e acc a precisão da classificação, entendida como uma taxa
de acerto ou acurácia.
Desse modo, se a acurácia for maior ou igual ao valor de precisão mínima adicionado à
variação de precisão, há uma diminuição do limiar de confiança por uma taxa de variação, mas
se a acurácia for menor ou igual a precisão mínima decrementada da variação de precisão, o
limiar é aumentado pela taxa de variação. Caso ela esteja na faixa permitida do valor de precisão
mínima, o limiar permanecerá o mesmo (VALE et al., 2018).
Este método é utilizado para selecionar os rótulos adequados para inclusão na base
a partir das maiores taxas de confiança associadas às classes. Dessa forma, a flexibilidade do
limiar é aplicada no sentido de favorecer as próximas predições através do melhoramento no
desempenho do classificador. O Algoritimo 2 mostra o funcionamento do FlexCon-C.
Algoritmo 2: FlexCon-C
Entrada: dados rotulados {(xi , yi )}li=1 , dados não rotulados {xj }l+u
j=l+1
início
Primeiramente, Dr = {(xi , yi )}li=1 e Dn = {xj }l+u
j=l+1
repita
Treinar um classificador CL usando aprendizado supervisionado
Classificar as instâncias não rotuladas em Dn
Definir um novo valor de confiança (limiar)
Separar um subconjunto S = {s1 , s2 , ..., sn } de Dn, de forma que a taxa de
confiança em CL(x) seja igual ou superior ao limiar para incluir novos exemplos
Adicionar {(x, CL(x))|x ∈ S} a Dn
até Dn = ∅;
fim
Fonte: Adaptado de Vale et al. (2018)
soma e votação. A soma se caracteriza pelo somatório das taxas de confiança de cada rótulo
classificado em todas as iterações, enquanto a votação consiste no armazenamento do voto
referente à classe com maior taxa de confiança das iterações. A segunda, o FlexCon-C2, utiliza
apenas os rótulos que foram preditos na primeira iteração como forma adicional para rotulação.
• Identificação de spams;
• Diagnósticos de doenças.
Utiliza-se uma estrutura em árvore para cada exemplo num conjunto de instâncias,
iniciando pela raiz e percorrendo até a última folha. Cada nó indica um teste de atributo, os
ramos são os valores que este pode assumir e suas folhas as possíveis classificações (MITCHELL,
1997).
Para uma melhor compreensão, a Figura 4 apresenta um exemplo de estrutura em árvore
que classifica manhãs de sábado como sendo propícias ou não para um jogo de tênis.
Figura 4 – Decisão estruturada em árvore.
P (D|h)P (h)
P (h|D) =
P (D)
Considerando P(h) como sendo a probabilidade inicial de que possa existir uma hipótese
h, e P(D) de forma similar, tal que D representa o conjunto de dados para treinamento. Utiliza-se
P(D|h) para denotar a probabilidade de observar os dados D baseado na validade da hipótese h, e
de forma contraposta, P(h|D) é chamada de probabilidade posterior de h, pois espera-se que a
hipótese se mantenha válida após a observação dos dados de treinamento D (MITCHELL, 1997).
v
u n
p uX
D(P, Q) = (p1 − q1 )2 + · · · + (pn − qn )2 = t (pi − qi )2
i=1
28
3 Metodologia
aplicado nesta etapa. Com base nos valores percentuais obtidos, é calculada a quantidade
de instâncias selecionadas que serão separadas para a inclusão.
32
Sendo assim, as instâncias em S com maior taxa de confiança na predição são submeti-
das ao processo de estratificação, cuja divisão de classes segue a mesma proporção do conjunto
de dados inicialmente rotulados.
3.2 Experimentos
Os métodos FlexCon-C1S e FlexCon-C2S estudados por Vale et al. (2018) foram
conduzidos em experimentos para geração de resultados, que foram utilizados em análises
posteriormente. Durante os experimentos, trinta e uma bases de dados, dentre a maioria delas
disponíveis no repositório de conjuntos de dados para aprendizado de máquina UCI, foram
utilizadas. A Tabela 1 apresenta os conjuntos de dados selecionados, juntamente com os dados
referentes ao número de instâncias, atributos, classes e o(s) tipo(s) dos dados respectivamente.
Para avaliar a capacidade de generalização dos modelos construídos, foi implementada
a técnica de validação cruzada (do inglês, cross-validation). Esta técnica envolve a escolha
de uma amostra do conjunto de dados, a qual servirá como teste para o modelo construído a
partir do restante do conjunto, denominado conjunto de treinamento (RAY, 2015). Existem
vários métodos utilizados para a realização da validação cruzada, como Leave-one-out, k-fold
e stratified k-fold. Para este estudo, o método stratified k-fold, uma variação do k-fold, foi
implementado. Seu funcionamento se dá perante a realização do processo de treinamento e teste
k vezes, onde cada iteração consiste em um subconjunto distinto para teste e o restante para
treinamento. Neste caso, as k (neste trabalho, k foi definido em 10) amostras de teste possuem
aproximadamente a mesma porcentagem de instâncias de cada classe do conjunto de dados
completo (SCIKIT-LEARN, 2007).
34
4 Resultados e Discussões
Neste capítulo são apresentados os resultados obtidos através dos experimentos com as
31 bases de dados listadas na Tabela 1, a fim de avaliar o desempenho do método FlexCon-CS (1
e 2). Conforme explicado anteriormente, o desempenho deste método foi comparado com o do
FlexCon-C (1 e 2) proposto por (VALE et al., 2018). A diferença entre os dois métodos é que o
FlexCon-C não faz uso da estratificação de dados para inclusão de novas instâncias no conjunto
de dados rotulados. Enquanto o FlexCon-CS incluí no conjunto de dados apenas as instâncias
cujo novo conjunto de treinamento permaneça com a mesma distribuição das classes do início
até o final do treinamento.
As seções subsequentes são responsáveis por expor os detalhes relacionados aos resul-
tados de desempenho dos métodos, divididas em quatro tabelas separadas por classificador. A
primeira seção apresenta as médias das acurácias e o desvio padrão de todas as bases de dados
apresentadas na Tabela 1. A segunda exibe o ranking médio de desempenho dos métodos, sendo
a primeira colocação destinada ao método que atingiu o maior desempenho e a segunda (e última)
ao que obteve o menor desempenho. É importante ressaltar que as comparações em todas as
tabelas são feitas entre os métodos estratificados e suas versões sem uso da estratificação.
A organização dos dados está distribuída da seguinte maneira: a primeira coluna
apresenta o nome do método seguido da técnica de combinação utilizada para definição dos
rótulos, (s) para soma e (v) para votação; as colunas de 2 a 6, mostram os resultados obtidos com
cada método, de acordo com o percentual de dados rotulados inicialmente (5%, 10%, 15%, 20%,
25%). Os valores em negrito representam os melhores resultados de desempenho entre cada
comparação realizada.
A Tabela 4 informa a média e o desvio padrão dos resultados obtidos com o classificador
Ripper.
mais eficaz ao utilizar o classificador k-NN, obtendo melhor desempenho em 100% (5 de 5) dos
casos.
Por meio dos resultados apresentados, observa-se que a estratificação de dados obteve
as melhores acurácias em 43.33% (26 de 60) de todas as comparações realizadas com os quatro
algoritmos de classificação. Dentro deste percentual, os melhores resultados foram obtidos com
5% dos dados inicialmente rotulados, o equivalente a 75% (9 de 12) de todos os casos. Logo,
percebe-se que a estratificação conseguiu se adaptar melhor quando poucos dados haviam sido
rotulados inicialmente.
a primeira colocação em 60% (3 de 5) dos casos e obtendo empate ao aplicar 10% dos dados
inicialmente rotulados.
A Tabela 7 apresenta um ranking, comparando os métodos estratificados e suas versões
sem o uso da estratificação, utilizando Árvore de Decisão.
consegue melhorar o desempenho dos classificadores. Ainda, ao aplicar 20% dos exemplos
inicialmente rotulados, houve um empate no desempenho geral entre os métodos estratificados e
os que não fizeram uso da estratificação.
Considerando que o ranking é feito com base nos resultados individuais com cada
base de dados, a Figura 8 mostra que os métodos que fizeram uso da estratificação de dados
encontraram melhores posições de classificação ao utilizar 5% para os exemplos rotulados
inicialmente.
ordenados pelo seu valor absoluto, e em seguida substituídos pelo posto em que ocupam após
ordenados (WOOLSON, 2007).
5 Conclusão
5.1 Discussão
Este trabalho teve como base o método FlexCon-C, que faz o uso de um limiar flexível
para separar instâncias com taxas de confiança mais altas. Por meio deste, buscou-se adaptá-lo
através do desenvolvimento de um método que fosse capaz de controlar as classes pertinentes
aos exemplos selecionados para inclusão. Para isso, a estratificação foi utilizada para que
houvesse uma garantia da representatividade de cada classe no conjunto de dados. A ideia para o
procedimento da estratificação foi conservar a distribuição de classes das instâncias inicialmente
rotuladas, para que a proporção fosse mantida até o fim do processo.
Por meio deste estudo, foi possível perceber que ao aplicar 5% dos dados inicialmente
rotulados, os classificadores demonstraram aumento significativo no desempenho. Isto implica
que o fator de proporção, mantido durante a estratificação dos dados, se sobressaiu em relação a
perca da confiabilidade das instâncias, fazendo com que os algoritmos de classificação pudessem
generalizar melhor os dados. Esta observação deve ser levada em consideração devido a impor-
tância de algoritmos que necessitam cada vez mais de técnicas e métodos eficientes quando se
tem cada vez menos dados rotulados no conjunto de treinamento.
No entanto, ao experimentar a estratificação com percentuais maiores para dados
inicialmente rotulados, os resultados foram similares ou menores aos métodos que não fazem uso
da mesma. Esta observação pode ser justificada ao analisar o processo de estratificação dos dados.
O fato é que o controle das classes pode garantir a representatividade de todas elas no conjunto de
treinamento, deixando-o com a mesma proporção do início ao fim do procedimento de inclusão
dos dados. Por outro lado, o processo para estratificação exige, em algumas ocasiões, que as
instâncias selecionadas para inclusão possuam uma taxa de confiança abaixo do limiar, devido
a necessidade de incluir classes que não passaram inicialmente por este. Tendo isso em vista,
conclui-se que há uma probabilidade maior de que cada exemplo que possua a confiança abaixo
do limiar, esteja sendo rotulado de maneira errada, influenciando negativamente o aprendizado
do classificador.
Portanto, em uma análise geral da pesquisa, proporcionou-se um direcionamento para
trabalhos posteriores a este. Como forma de orientação, este estudo sugere que trabalhos futuros
possam realizar novos experimentos, com a finalidade de analisar o desempenho da estratificação
em outras condições de tratamento para os parâmetros fixados durante o decorrer deste.
45
Referências
COVER, T.; HART, P. Nearest neighbor pattern classification. IEEE transactions on information
theory, IEEE, v. 13, n. 1, p. 21–27, 1967. Citado 8 vezes nas páginas 26 e 27.
CáNEPA, G. What You Need to Know about Machine Learning. [S.l.]: Packt Publishing, 2016.
Citado 2 vezes nas páginas 18 e 19.
DANGETI, P. Statistics for Machine Learning: Techniques for exploring supervised, unsupervi-
sed, and reinforcement learning models with Python and R. 1. ed. [S.l.]: Packt Publishing, 2017.
Citado na página 26.
DERRICK, B.; WHITE, P. Comparing two samples from an individual likert question. Inter-
national Journal of Mathematics and Statistics, Ceser, v. 18, n. 3, 2017. Citado na página
42.
GOLDSCHMIDT, R.; PASSOS, E.; BEZERRA, E. Data Mining: Conceitos, técnicas, algorit-
mos, orientações e aplicações. [S.l.]: Elsevier, 2015. Citado na página 28.
GOLLAPUDI, S. Practical Machine Learning. [S.l.]: Packt Publishing, 2016. Citado 8 vezes
nas páginas 12, 17, 19, 24, 26 e 28.
KANTARDZIC, M. Data Mining: Concepts, Models, Methods, and Algorithms. [S.l.]: Wiley,
2011. ISBN 978-0-470-89045-5,978-1-118-02914-5,978-1-118-02912-1,978-1-118-02913-8.
Citado na página 20.
LANTZ, B. Machine learning with R. 1. ed. [S.l.]: Packt Publishing, 2013. (Community expe-
rience distilled). ISBN 1782162143,9781782162148,1782162151,9781782162155. Citado 8
vezes nas páginas 26 e 27.
Referências 47
LANTZ, B. Machine Learning with R. 2. ed. [S.l.]: Packt Publishing, 2015. (Community
experience distilled). ISBN 1784393908,9781784393908,1784394521,9781784394523. Citado
2 vezes nas páginas 12 e 24.
MINSKY, M. The society of mind. Pages bent. [S.l.]: Simon & Schuster, 1988. ISBN
9780671657130,0671657135. Citado na página 16.
NILSSON, N. J. Introduction to machine learning. [S.l.: s.n.], 1996. Citado 3 vezes nas páginas
17, 24 e 25.
NORVIG, P.; RUSSELL, S. Inteligência Artificial. 3. ed. [S.l.]: Elsevier, 2013. ISBN
8535237011,9788535237016,9788535251418. Citado 2 vezes nas páginas 12 e 16.
RAJPUT, A.; AHARWAL, R. P.; DUBEY, M.; SAXENA, S.; RAGHUVANSHI, M. J48 and jrip
rules for e-governance data. International Journal of Computer Science and Security (IJCSS),
2011. Citado na página 28.
RAY, S. Improve Your Model Performance using Cross Validation (in Python
and R). 2015. Disponível em: <https://www.analyticsvidhya.com/blog/2018/05/
improve-model-performance-cross-validation-in-python-r/>. Citado na página 33.
SILVA, R. D.; BERVIAN, P. A.; CERVO, A. L. Metodologia científica. [S.l.]: São Paulo: Pearson
Prentice Hall, 2006. Citado na página 31.
TAO, Y.; ZHANG, D.; CHENG, S.; TANG, X. Improving semi-supervised self-training with
embedded manifold transduction. Transactions of the Institute of Measurement and Control,
SAGE Publications Sage UK: London, England, v. 40, n. 2, p. 363–374, 2018. Citado na página
29.
WITTEN, I. H.; FRANK, E.; HALL, M. A. Data Mining: Practical Machine Learning Tools
and Techniques. 3rd. ed. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 2011.
ISBN 0123748569, 9780123748560. Citado na página 28.
WOOLSON, R. Wilcoxon signed-rank test. Wiley encyclopedia of clinical trials, Wiley Online
Library, p. 1–3, 2007. Citado na página 43.
YAROWSKY, D. Unsupervised word sense disambiguation rivaling supervised methods. In: Pro-
ceedings of the 33rd Annual Meeting on Association for Computational Linguistics. Stroudsburg,
PA, USA: Association for Computational Linguistics, 1995. (ACL ’95), p. 189–196. Disponível
em: <https://doi.org/10.3115/981658.981684>. Citado na página 12.
APÊNDICE A – Resultados do
FlexCon-C1S (soma) para cada
classificador
APÊNDICE B – Resultados do
FlexCon-C1S (votação) para cada
classificador
APÊNDICE C – Resultados do
FlexCon-C2S para cada classificador
APÊNDICE D – Resultados do
FlexCon-C1 (soma) para cada
classificador
APÊNDICE E – Resultados do
FlexCon-C1 (votação) para cada
classificador
APÊNDICE F – Resultados do
FlexCon-C2 para cada classificador