Você está na página 1de 37

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ

DEPARTAMENTO ACADÊMICO DE COMPUTAÇÃO


CURSO DE ENGENHARIA DE SOFTWARE

DANIEL GONÇALVES DA SILVA

EXTRAÇÃO E ANÁLISE DE META-CARACTERÍSTICAS EM


CONJUNTOS DE DADOS PARA PROBLEMAS DE
CLASSIFICAÇÃO

TRABALHO DE CONCLUSÃO DE CURSO

CORNÉLIO PROCÓPIO
2023
DANIEL GONÇALVES DA SILVA

EXTRAÇÃO E ANÁLISE DE META-CARACTERÍSTICAS EM


CONJUNTOS DE DADOS PARA PROBLEMAS DE
CLASSIFICAÇÃO

Trabalho de Conclusão de Curso apresentado ao Curso de


Engenharia de Software da Universidade Tecnológica Federal
do Paraná, como requisito parcial para a obtenção do tı́tulo
de Bacharel.

Orientador: Adriano Rivolli da Silva

CORNÉLIO PROCÓPIO
2023
Esta licença permite remixe, adaptação e criação a partir do trabalho para fins não comerciais,
desde que sejam atribuı́dos créditos ao(s) autor(es) e que licenciem as novas criações sob
termos idênticos. Conteúdos elaborados por terceiros, citados e referenciados nesta obra não
4.0 Internacional são cobertos pela licença.
UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ
DEPARTAMENTO ACADÊMICO DE COMPUTAÇÃO
CURSO DE ENGENHARIA DE SOFTWARE

TERMO DE APROVAÇÃO

Extração e Análise de meta-caracterı́sticas em conjuntos de dados


para problemas de classificação

por

Daniel Gonçalves da Silva

Este Trabalho de Conclusão de Curso de graduação foi julgado adequado para obtenção
do Tı́tulo de “Bacharel” e aprovado em sua forma final pelo Programa de Curso de Engenharia
de Software da Universidade Tecnológica Federal do Paraná.

Cornélio Procópio, seis de dezembro de 2023

Prof. Dr. Adriano Rivoli

Profa. Dr. Rogério Santos Pozza

Prof. Dr. Cleber Gimenez Correa

“A Folha de Aprovação assinada encontra-se na Coordenação do Curso”


RESUMO

GONÇALVES, Daniel. Extração e Análise de meta-caracterı́sticas em conjuntos de dados para


problemas de classificação. 2023. 27 f. Trabalho de Conclusão de Curso – Curso de Engenharia
de Software, Universidade Tecnológica Federal do Paraná. Cornélio Procópio, 2023.
Em aprendizado de máquina, um conjunto de dados é uma coleção que representa os fenômemos
que se deseja aprender por meio de um processo indutivo. A caracterização destes conjuntos
é frequentemente utilizada para a compreensão de suas caracterı́sticas e também para o uso
em estudos de meta-aprendizado, por isso os valores que caracterizam um conjunto de dados
são chamados de meta-caracterı́sticas. Este trabalho reporta a investigação realizada visando
compreender o comportamento das meta-caracterı́sticas em conjuntos de dados de classificação
quando os conjuntos são reduzidos. A partir desse objetivo foi desenvolvido um software que
realiza reduções aleatórias dos conjuntos, submete-os ao processo de caracterização utilizando
a ferramenta Meta Feature Extractor (MFE), salva os resultados e gera gráficos que permite
realizar uma análise do comportamento das medidas após as reduções realizadas. O sistema
permite a comparação das medidas em relação a sua variabilidade e tamanho de redução,
além de listar as medidas que não se alteram com as perturbações realizadas. A análise
do comportamento das meta-caracterı́sticas com os conjuntos de dados reduzidos, permite
identificar a escolha de medidas de caracterização apropriadas para problemas em aprendizado
de máquina e meta-aprendizado, proporcionando uma possı́vel redução do custo computacional
no processo de meta-apresendizado.
Palavras-chave: Meta-caracterı́sticas. Meta-aprendizado. Conjunto de dados.
ABSTRACT

GONÇALVES, Daniel. Analysis and extraction of meta-features in classification problems.


2023. 27 f. Trabalho de Conclusão de Curso – Curso de Engenharia de Software, Universidade
Tecnológica Federal do Paraná. Cornélio Procópio, 2023.

In machine learning, a dataset is a collection that represents the phenomena you want to
learn about through an inductive process. The characterization of these sets is often used
to understand their characteristics and so for use in meta-learning studies, which is why the
values that characterize a data set are called meta-features. This paper reports on research to
understand meta-feature behavior in classification data sets when the sets are reduced. With
this objective in mind, a software was developed that performs random reductions of the sets,
submits them to the characterization process using the Meta Feature Extractor (MFE) tool,
saves the results and generates graphs to analyze the behavior of the measurements after
the reductions have been made. The system allows the measures to be compared in terms of
their variability and reduction size, as well as listing the measures that do not change with the
perturbations made. The analysis of the behavior of the meta-features when the data sets are
reduced makes it possible to identify the choice of appropriate characterization measures for
problems in machine learning and meta-learning.
Keywords: Meta-features. Meta-learning. Dataset.
LISTA DE FIGURAS

Figura 1 –
Diagrama de caso de uso. . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Figura 2 –
T ela inicial da aplicação. . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Figura 3 –
T ela Gerar experimento. . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Figura 4 –
Listar experimento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Figura 5 –
Tela visualizar experimento. . . . . . . . . . . . . . . . . . . . . . . . . . 14
Figura 6 –
T ela vizualizar graficos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Figura 7 –
T ela vizualizar graficos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Figura 8 –
T ela vizualizar graficos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Figura 9 T ela de vizualização do Ranking das 25 menores coeficientes de variação

das medidas por conjunto de dados. . . . . . . . . . . . . . . . . . . . . . 17
Figura 10 – T ela de vizualização do Ranking das medidas que não tiverem variações em
relação ao conjunto de dados sem redução de tamanho. . . . . . . . . . . 17
Figura 11 – T ela de vizualização do Ranking das 25 menores coeficientes de variação
das medidas por conjunto de dados e redução. . . . . . . . . . . . . . . . 18
Figura 12 – T ela de vizualização do Ranking geral de variações de medidas por tamanho
de redução com todos os conjunto de dados. . . . . . . . . . . . . . . . . 18
LISTA DE TABELAS

Tabela 1 – Dados do Experimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19


Tabela 2 – Ranking com os 25 menores coefientes de variação para o conjunto de dados
Iris. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Tabela 3 – Ranking com os 25 maiores coefientes de variação entre as medidas para o
conjunto de dados Iris. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Tabela 4 – A tabela 4 mostra o Ranking das 25 primeiras medidas de caracterização
que permaneceram constantes após as reduções para o conjunto de dados
Iris. Foram consideradas medidas constantes as medidas de caracterização
que após as reduções apresentaram os mesmos valores das medidas de
caracterizações dos conjuntos de dados originais que não passaram por
redução. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
SUMÁRIO

1 – INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 CONTEXTO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 PROBLEMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.3 JUSTIFICATIVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4 OBJETIVOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4.1 OBJETIVOS GERAIS . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4.2 OBJETIVOS ESPECÍFICOS . . . . . . . . . . . . . . . . . . . . . . 2
1.5 ORGANIZAÇAO DO TRABALHO . . . . . . . . . . . . . . . . . . . . . . 3

2 – REVISÃO DE LITERATURA . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1 MFE: EXTRATOR DE META-CARACTERÍSTICAS . . . . . . . . . . . . . 5

3 – DESENVOLVIMENTO DO PROJETO . . . . . . . . . . . . . . . . . . . . 7
3.1 RECURSOS UTILIZADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.3 REQUISITOS FUNCIONAIS . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.4 DIAGRAMA DE CASO DE USO . . . . . . . . . . . . . . . . . . . . . . . 11
3.5 PROTÓTIPOS DE TELAS DA APLICAÇÃO . . . . . . . . . . . . . . . . . 12

4 – RESULTADOS GERADOS EM UM EXPERIMENTO . . . . . . . . . . . 19


4.1 PARÂMETROS DO EXPERIMENTO . . . . . . . . . . . . . . . . . . . . . 19
4.2 RESULTADOS DO EXPERIMENTO . . . . . . . . . . . . . . . . . . . . . 19

5 – CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.1 CONSIDERAÇÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.2 TRABALHOS FUTUROS . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

Anexos 26

ANEXO A–Lista de Conjuntos de dados . . . . . . . . . . . . . . . . . . . . 27


1

1 INTRODUÇÃO

Dentro da área de inteligência artificial, destaca-se o aprendizado de máquina, que


é uma área de pesquisa que visa o desenvolvimento de programas de computador com a
capacidade de aprender a executar uma dada tarefa por meio de experiências passadas (??).

1.1 CONTEXTO

O aprendizado de máquina busca apresentar uma solução de software que utiliza as


experiências adquiridas anteriormente para realizar o treinamento que pode ser reconhecer,
diferenciar e classificar caracterı́sticas de objetos e seres. Esse processo assemelha-se ao processo
de aprendizagem dos seres humanos, pois o sistema aprende a diferenciar essas variedades de
caracterı́sticas observando o seu próprio conhecimento acumulado (??).
Esse conhecimento acumulado também é utilizado na área de meta-aprendizado que
investiga como os sistemas de aprendizado de máquina podem melhorar sua eficácia a partir
da experiência. Seu principal objetivo é automatizar o aprendizado para que ele seja capaz de
se adaptar dinamicamente a diferentes domı́nios ou tarefas (??).
Representar adequadamente os problemas é parte fundamental do sucesso de meta-
aprendizado e este, está relacionado diretamente com a performance dos meta-modelos, ou
seja, o modelo preditivo utilizado para realizar as recomendações em nı́vel meta (??). Assim,
as meta-caracterı́sticas podem ser relevantes para a construção de sistemas de recomendação
por meio de meta-aprendizado (??).

1.2 PROBLEMA

As meta-caracterı́sticas são medidas organizadas em grupos, que definem de um modo


geral, a abordagem de extração e caracterı́sticas principais (??). Como exemplo desses grupos,
é possı́vel citar: as medidas simples, medidas estatı́sticas, medidas baseadas em teoria da
informação, e medidas baseadas em modelos.
Em uma revisão da literatura, (??), encontraram lacunas para serem exploradas acerca
das medidas de caracterização tradicionais. Assim, é importante buscar responder essas questões,
no intuito de confirmar e validar práticas tradicionais. Uma dessas lacunas é a respeito da
aplicação das meta-caracterı́sticas, que de forma geral são aplicadas utilizando todo o conjunto
de dados, e isso demanda um certo custo computacional.
Neste sentido, este trabalho visa compreender a variabilidade das medidas de carac-
terização e a viabilidade de diminuir o custo computacional de caracterização, por meio da
redução do tamanho do conjunto de dados.
Este trabalho busca explorar quais são os limites aceitáveis de redução do conjunto
de dados, tendo em consideração que uma medida ainda continue fazendo sentido. Este tipo
Capı́tulo 1. INTRODUÇÃO 2

de pesquisa pode elucidar as questões em relação às meta-caracterı́sticas e sua utilização em


aplicações de meta-aprendizado e análise de resultados.

1.3 JUSTIFICATIVA

Um desafio para pesquisadores e desenvolvedores tem sido tratar os dados de forma a


prepará-los para construir modelos de aprendizado de máquina. Pensando nisso, este trabalho
busca contribuir com o entendimento do funcionamento das meta-caracterı́sticas e explorar
quais os limites de redução aceitáveis para que as meta-caracterı́stica continuem fazendo
sentido.
De acordo com (??), em geral, as meta-caracterı́sticas das bases de dados devem
conter informações relevantes para determinar o desempenho relativo entre os algoritmos de
classificação e assim poder diminuir o custo computacional das soluções por meio da construção
de sistemas de recomendação.

1.4 OBJETIVOS

A seguir são apresentados os objetivos gerais e especı́ficos definidos para o presente


trabalho.

1.4.1 OBJETIVOS GERAIS

Pretende-se neste trabalho desenvolver um sistema para extrair meta-caracterı́sticas


em conjuntos de dados, com o objetivo de analisar como as medidas de caracterização se
comportam a partir de variações de redução de tamanho do conjunto de dados. Busca-se
observar a variabilidade das medidas, conforme a redução dos conjuntos de dados, o que
permitirá identificar as caracterı́sticas mais e menos robustas a este tipo de perturbação dos
dados.

1.4.2 OBJETIVOS ESPECÍFICOS

Os objetivos especı́ficos a serem alcançados são:

• Desenvolver um sistema que fará a redução aleatória das instâncias dos conjuntos de
dados
• Realizar a extração das meta-caracterı́sticas nos conjuntos de dados.
• Analisar as meta-caracterı́sticas extraı́das dos conjuntos de dados originais.
• Analisar as meta-caracterı́sticas extraı́das dos conjuntos de dados após a redução do
conjunto de dados gerado pelo sistema desenvolvido.
• Analisar e comparar resultados obtidos a partir da execução de um estudo empı́rico
utilizando o sistema desenvolvido.
Capı́tulo 1. INTRODUÇÃO 3

1.5 ORGANIZAÇAO DO TRABALHO

Além deste capı́tulo introdutório, o presente trabalho conta com os seguintes capı́tulos:

• Capı́tulo 2: REVISÃO DE LITERATURA


Esse capı́tulo revisa conceitos essenciais sobre aprendizado de máquina, apresenta a
importância do meta-aprendizado e descreve a ferramenta MFE: Meta-Feature Extractor
como uma solução para a extração de meta-caracterı́sticas de conjuntos de dados.

• Capı́tulo 3: DESENVOLVIMENTO DO PROJETO


Nesse capı́tulo é apresentado as seções que descrevem os processos realizados neste
projeto e as atividades que direcionam o desenvolvimento da aplicação. Também há
uma descrição das ferramentas utilizadas, metodologias e atividades automatizadas pela
aplicação. Por fim o capı́tulo traz as seções com os requisitos funcionais, diagramas e
protótipos de telas da aplicação desenvolvida.

• Capı́tulo 4: RESULTADOS GERADOS EM UM EXPERIMENTO


Esse capı́tulo apresenta os resultados de um experimento realizado usando a aplicação
desenvolvida. Esses resultados foram classificados em oito Rankings, que contemplam
agregações de dados organizdas pelas medidas que variaram por conjunto de dados e
por tamanho de redução, pelas medidas que se mantiveram constantes a pertubação de
redução dos conjuntos de dados e apenas por redução do conjuntos de dados.

• Capı́tulo 5: CONCLUSÃO
Neste capı́tulo encontra-se as considerações finais sobre o trabalho e aponta possı́veis
trabalhos futuros.
4

2 REVISÃO DE LITERATURA

O aprendizado de máquina é um ramo de estudo da Inteligência artificial que assemelha-


se ao processo de aprendizagem dos seres humanos, pois o sistema usa o seu conhecimento
acumulado para aprender a diferenciar as variedades das caracterı́sticas observadas (??).
O aprendizado de máquina pode ser organizado em dois grandes grupos, os problemas
descritivos e preditivos. Nas questões descritivas, uma das principais tarefas é o agrupamento
de dados, que busca separar os dados de maneira que dados semelhantes fiquem em um mesmo
grupo (??).
As tarefas preditivas podem ser divididas em tarefas de classificação e tarefas de
regressão. Nas tarefas de classificação, busca-se atribuir categorias predefinidas a dados. Nas
tarefas de regressão, pretende-se prever o valor de uma variável numérica (atributo de saı́da),
dadas outras variáveis (atributos de entrada). Assim, no lugar de encontrar uma classe associada,
como na classificação, deve-se encontrar uma função que mapeie um exemplo para um número.
Diversos algoritmos de aprendizado de máquina podem ser aplicados para resolver um
problema de classificação. Considerando que cada algoritmo tem suas particularidades, cada
algoritmo se adequará melhor a um determinado tipo de problema ou distribuição de dados.
Dessa forma, não é possı́vel que um único algoritmo seja sempre melhor que os demais, pois o
desempenho dos algoritmos depende das propriedades dos dados disponı́veis (??).
Pesquisadores possuem diferentes visões sobre o significado do termo meta-aprendizado.
Mas o que todas as definições têm em comum é que são fundamentadas no teorema No Free
Lunch (NFL), em que nenhum algoritmo de aprendizado pode ser melhor que os demais para
todos os problemas, ou seja, não existe uma solução ótima e genérica para todos os problemas
(??).
De forma geral, o meta-aprendizado tem como foco a relação entre domı́nios ou tarefas,
e estratégias de aprendizado. Uma das principais aplicações de métodos de meta-aprendizado
é a geração de regras capazes de relacionar o desempenho de algoritmos de aprendizado de
máquina com as propriedades das bases de dados. Essa abordagem mostra-se de grande ajuda
na criação de sistemas que forneçam ao usuário sugestões sobre que algoritmos utilizar em
determinadas situações (??).
A caracterização das bases de dados ocorre por meio do uso das meta-caracterı́sticas,
pois elas visam extrair de um conjunto de dados caracterı́sticas que possam ter influência no
desempenho dos algoritmos de aprendizado. Essas meta-caracterı́sticas posteriormente podem
ser usadas para melhorar a recomendação dos algoritmos de aprendizado mais promissores
para um determinado conjunto de dados. Diversas meta-caracterı́sticas diferentes têm sido
estudadas para caracterização direta de dados (??).
É possı́vel citar que um dos principais desafios da área de meta-aprendizado está relaci-
onado a como encontrar as meta-caracterı́sticas adequadas que representem as particularidades
Capı́tulo 2. REVISÃO DE LITERATURA 5

dos problemas investigados e, consequentemente, possibilite que o aprendizado a partir da


experiência possa ocorrer (??). As caracterı́sticas devem ser representativas e o cálculo de cada
uma das medidas não pode gerar um alto custo computacional.
As meta-caracterı́sticas podem ser organizadas em três grupos (??): Caracterização
direta, Baseadas nos modelos e Baseadas em avaliação do desempenho de modelos.
As medidas de caracterização direta podem ser divididas em três grupos: (i) Geral:
também conhecidas como medidas simples, extraem informações gerais relacionadas ao conjunto
de dados, como número de instâncias, atributos e classes; (ii) Estatı́stica: são as medidas
estatı́sticas padrão para descrever as propriedades numéricas de uma distribuição de dados; (iii)
Teoria da informação: descreve atributos discretos (categóricos) e sua relação com as classes.
As medidas baseadas nos modelos são obtidas a partir da indução de modelos de
aprendizado (??). Por exemplo, a partir da indução de uma árvore de decisão é possı́vel utilizar
informações da árvore gerada para caracterizar o conjunto de dados. As medidas compreendem,
por exemplo, o número de nós, folhas, profundidade da árvore, entre outras (??).
Medidas de landmarking correspondem aos resultados do desempenho preditivo e de
performance computacional obtidos pela aplicação de algoritmos de aprendizado simples e
rápidos, como por exemplo, Naive Bayes (NB) ou K Nearest Neighbors (KNN), utilizando
k = 1 (??). Além dessas medidas existem outras medidas como as de complexidade, que
permitem a caracterização da separabilidade e distribuição dos dados sob diferentes perspectivas,
capturando a complexidade dos mesmos.
Para extrair as meta-caracterı́sticas de um conjunto de dados a ferramenta MFE:
Meta-Feature Extractor(MFE) segue a padronização proposta em (??), que implementa em sua
totalidade as meta-caracterı́sticas pertencentes aos grupos mencionados anteriormente, incluindo
mais de 90 medidas e 12 funções de sumarização. As meta-caracterı́sticas implementadas e a
sua classificação taxonômica e definições matemáticas são apresentadas em (??).

2.1 MFE: EXTRATOR DE META-CARACTERÍSTICAS

O pymfe (Python Meta-Feature Extractor) é uma ferramenta dedicada à extração de


meta-caracterı́sticas de conjuntos de dados, proporcionando suporte essencial para o desenvol-
vimento de sistemas de recomendação baseados em meta-aprendizado. As meta-caracterı́sticas,
também conhecidas como medidas de caracterização, desempenham um papel crucial ao
fornecer insights sobre a complexidade dos conjuntos de dados e estimativas de desempe-
nho de algoritmos. Este pacote não apenas abrange as medidas tradicionais, mas também
incorpora medidas mais recentes de caracterização, garantindo uma abordagem abrangente na
caracterização de dados.
A versão Python desta ferramenta utiliza bibliotecas de código-fonte aberto, como
numpy e scipy. A implementação pymfe, inspirada em sklearn, oferece dois métodos principais: (i)
mef.fit, responsável por calcular todas as transformações de dados e pré-computações necessárias
para as meta-caracterı́sticas selecionadas; e (ii) mfe.extract, que extrai e aplica as medidas de
Capı́tulo 2. REVISÃO DE LITERATURA 6

caracterização, seguidas de sumarização, resultando nas valiosas meta-caracterı́sticas.


Este pacote proporciona uma gama extensa de funções de extração de meta-caracterı́sticas,
permitindo uma caracterização abrangente de dados. O pymfe não apenas disponibiliza medidas
padrão, mas também incorpora aquelas mais recentes na literatura, mantendo-se atualizado com
as tendências e avanços mais recentes. A utilização de métodos consolidados e a capacidade de
extrair meta-caracterı́sticas especı́ficas ou aplicar intervalos de confiança utilizando bootstrap
são caracterı́sticas distintivas desta ferramenta.
Ao possibilitar a extração sistemática de meta-caracterı́sticas, a arquitetura do pymfe
visa gerar conjuntos robustos de meta-caracterı́sticas. Sua flexibilidade permite a definição de
diferentes medidas e funções de resumo, juntamente com a medição automática do tempo decor-
rido. Além disso, o pymfe segue as diretrizes recentes na formalização de meta-caracterı́sticas,
promovendo a reprodutibilidade nas tarefas de meta-aprendizado.
Em resumo, o pymfe oferece uma solução abrangente para a extração de meta-
caracterı́sticas, desempenhando um papel fundamental na caracterização e compreensão de
conjuntos de dados, contribuindo assim para o avanço da meta-aprendizagem e AutoML em
geral.
A ferramenta MFE: Meta-Feature Extractor pode ser encontrada no Github nas versões
em Python e R, nos respectivos respositórios:

• A biblioteca pymfe1 é uma ferramenta útil para extrair caracterı́sticas de dados em


Python.
• A biblioteca mfe2 é outra opção para extração de caracterı́sticas.

1
<https://github.com/ealcobaca/pymfe>
2
<https://github.com/rivolli/mfe>
7

3 DESENVOLVIMENTO DO PROJETO

Com o objetivo de observar o comportamento das meta-caracterı́sticas em relação


à variabilidade das medidas, foi conduzido um experimento utilizando 40 conjuntos de dados
públicos, que são frequentemente utilizados para aprendizado de máquina. A análise feita
observa o comportamento das medidas de caracterização conforme é realizada a redução das
instâncias dos conjuntos de dados analisados. Para tanto, foi desenvolvido um sistema que
automatiza o processo de extração das meta-caracteristicas utilizando a ferramenta MFE. O
sistema reduz de forma aleatória as instâncias de cada conjunto de dados e gera a vizualização
dos resultados por meio da ordenação das medidas das maiores até as menores variações
obtidas. Também possibilita a vizualização do gráfico individual de cada medida, mostrando o
seu comportamento conforme o tamanho da redução do conjunto de dados aumenta.
O repositório com o código fonte e os conjuntos de dados utilizados no projeto pode
ser acessado em:
<https://github.com/danielsilva83/tcc >.

3.1 RECURSOS UTILIZADOS

Nesta seção é apresentada uma sucinta descrição das ferramentas que foram utilizadas
no desenvolvimento deste projeto:
• JavaScript versão ECMAScript 6 : tecnologia escolhida para linguagem de desenvolvimento
front-end da aplicação, Pode ser usada para projetar e programar o comportamento de
uma página web a partir da ocorrência de um evento. O JavaScript é uma linguagem
baseada em protótipos, multi-paradigma e dinâmica, suportando estilos de orientação a
objetos, imperativos e declarativos (como por exemplo a programação funcional) ( MDN
CONTRIBUTORS,2021)
• AmCharts 4.0: é uma biblioteca com suporte para JavaScript e TypeScript: e foi usada
para criação de gráficos a partir dos dados gerados.
• SQLite 3.0: é uma biblioteca em linguagem C que implementa uma base de dados
SQL embutida. Foi usado para armazenar os dados relacionados aos experimentos e as
meta-caracterı́scticas extraı́das.
• Python 3 : linguagem de programação de alto nı́vel, interpretada de script, imperativa,
orientada a objetos, funcional, de tipagem dinâmica e forte. Esta linguagem foi escolhida
porque propicia o uso do pacote MFE Meta-Feature de forma nativa.
• Django 3.2: Um f ramework para desenvolvimento rápido para web, escrito em Python,
que utiliza o padrão model-template-view. Framework escolhido pela necessidade do
desenvolvimento emPython.
Capı́tulo 3. DESENVOLVIMENTO DO PROJETO 8

• API Django Rest Framework: A estrutura Django REST é um kit de ferramentas


poderoso e flexı́vel para construir APIs da Web.
• Pandas: uma biblioteca usada como ferramenta de análise e manipulação de dados de
código aberto rápida, poderosa, flexı́vel construı́da sobre a linguagem de programação
Python.
• Github: plataforma de hospedagem de código-fonte e arquivos com controle de versão
usando o Git (sistema de controle de versões distribuı́do). A plataforma foi usada para
armazenar e compartilhar o código fonte do projeto.
• MFE : fornece um conjunto abrangente de meta-caracterı́sticas implementadas em Python.
A arquitetura do MFE foi pensada para fazer a extração de forma sistêmica, o que pode
produzir um conjunto robusto de medidas utilizadas para caracterizar conjuntos de dados
utilizados em problemas de aprendizado de máquina.

3.2 METODOLOGIA

Neste trabalho foi usada a metodologia de pesquisa bibliográfica juntamente com


a condução de uma pesquisa experimental, que consiste em manipular e controlar variáveis,
com o objetivo de identificar qual é a variável independente que determina a causa variável do
fenômeno em estudo (??).
As atividades desenvolvidas ao longo do experimento compreendem as atividades
inerentes ao usuário da aplicação, as atividades realizadas pela aplicação e a atividade realizada
pelo pacote MFE.
O usuário da aplicação inı́cia o experimento, após fazer o upload dos arquivos contendo
os conjuntos de dados escolhidos. Com os arquivos carregados, cria-se um experimento ao
informar os parâmetros para esse experimento: nome do experimento, o número de vezes que
o experimento irá se repetir, o tamanho das reduções que serão realizadas nos conjuntos de
dados, e iniciar o processo.
A aplicação faz a leitura e armazenamento desses conjuntos de dados, e gera um
objeto DataFrame para cada conjunto de dados, esses Dataframes passam pelas reduções
informadas pelo usuário, assim aplica uma amostragem em cada um dos Dataframes. Para
cada tamanho de redução informado o sistema irá repetir essa redução o número de vezes
informado pelo usuário. Ao final deste passo a aplicação terá todas as meta-caracterı́sticas
necessárias para as análises.
Assim para cada repetição (RP) será realizada (Ns) reduções de tamanho (RT), onde
(NRTs) é a quatidade de reduções de tamanho. E RP x NRTs é o número de conjunto de
dados gerados para cada conjunto de dados(CD) do experimento, Assim (RP x NRTs x CD) é a
quantidade total de iterações de redução que irão passar pela extração das meta-caracterı́sticas.
Exemplo: Experimento com RP=30 e RT=[0.10,0.11,0.12,0.13,0.14,0.15, 0.16, 0.17,
0.18, 0.19, 0.20] e com 40 conjuntos de dados(CD), tem-se NRTs=11, portanto serão gerados
ao todo (RD x NRTs x CD) conjuntos, ou seja,(30 x 11 x 40) = 13.200 iterações de redução
Capı́tulo 3. DESENVOLVIMENTO DO PROJETO 9

nos conjuntos de dados que foram reduzidos e caracterizados.


Após o processo de caracterização pode-se visualizar os resultados individuais de cada
medida de caracterização por meio dos gráficos das medidas. O gráfico da medida mostra
em seu eixo X os tamanhos de redução e no eixo Y os valores da medida. Sendo o ponto
de intersecção entre os eixos X e Y o valor da medida de caracterização para o determinado
valor de diminuição. Esse gráfico possibilita visualizar o comportamento da medida conforme a
dimininuição do conjunto de dados acontece.
Outra visualização dos dados disponivel na aplicação são os Rankings das medidas
de caracterização, que organiza as medidas pelos maiores e menores scores. Os scores são
caculados com base no coeficiente de variação das medidas, que é a divisão entre o desvio
padrão e a média aritmética do conjunto das medidas. As medidas podem ser visualizadas de
três maneiras:
• Por conjunto de dados (não leva o tamanho de redução em consideração)
• Por conjunto de dados e tamanho de redução
• Por tamanho de redução (união dos resultados de todos os conjunto de dados)
Capı́tulo 3. DESENVOLVIMENTO DO PROJETO 10

3.3 REQUISITOS FUNCIONAIS

Os requisitos funcionais(RF) para a aplicação estão listados a seguir:

• RF01: Carregar conjunto de dados em formato CSV


Possibilitar o carregamento dos conjuntos de dados por upload de arquivos CSVs.

• RF02: Criar experimento


Possibilitar a criação de um experimento com nome, numero de repetições do experimento,
e os tamanhos de redução que serão realizados.

• RF03: Caracterizar os conjuntos de dados originais


Enviar os conjuntos de dados sem reduções para o MFE e manter as meta-caracterı́sticas
extraı́das de cada conjunto de dados.

• RF04: Realizar reduções aleatórias nos conjuntos de dados


Realizar reduções de instâncias em cada conjunto de dados carregados.

• RF05: Caracterizar os conjuntos de dados reduzidos


Enviar os conjutnos de dados para o MFE e manter as meta-caracterı́sticas extraı́das de
cada conjunto de dados.

• RF06: Exportar as metas-caracterı́sticas em CSV para download


Possibilitar a exportação das metas-caracterı́sticas em formato CSV.

• RF07: Visualizar o Gráfico de cada medida do experimento


Possibilitar a visulização do gráfico da medida após as reduções.

• RF08: Mostrar o ranking ds medidas de caracterização


Exibir o ranking das medidas de caracterização por conjunto de dados e tamanhos de
redução.
Capı́tulo 3. DESENVOLVIMENTO DO PROJETO 11

3.4 DIAGRAMA DE CASO DE USO

Segue nesta seção os casos de uso geral do sistema desenvolvido, criado a partir dos
requisitos funcionais:
• Carregar conjuntos de dados:
O usuário irá carregar arquivos no formato CSV com os conjutos de dados.
• Visualizar resultados em tabelas:
O usuário irá visualizar os resultados obtidos das medidas de caracterização após as
extrações em tabelas com rankings das medidas.
• Download dos conjuntos de dados:
O usuário irá pode realizar o download com dos resultados em formato CSV.
• Visualizar os resultados em gráficos:
O usuário podera visualizar os resultados de cada medida atraz de gráficos.

O diagrama com os casos de uso descritos estão presentes a seguir:


Capı́tulo 3. DESENVOLVIMENTO DO PROJETO 12

Figura 1 – Diagrama de caso de uso.

Fonte: Autoria Própria.

3.5 PROTÓTIPOS DE TELAS DA APLICAÇÃO

Esta seção traz as imagens das tela desenvolvidas e uma breve descrição sobre elas.
Devido a questão experimental do desenvolvimento não foi necessário focar na parte visual de
estilização das telas apresentadas.
A Figura 2 apresenta a tela inicial da aplicação, nesta tela inicial é possı́vel visualizar os
arquivos já carregados, escolher novos arquivos para carregar e carrega-los no sistema. Também
é possı́vel iniciar um experimento clicando em Gerar Experimento ou Listar Experimentos já
realizados. Outro acesso possı́vel nesta tela é o acesso a área do administrador.
Capı́tulo 3. DESENVOLVIMENTO DO PROJETO 13

Figura 2 – T ela inicial da aplicação.

Fonte: Autoria Própria.

Na representação gráfica apresentada na Figura 3, observa-se a interface que viabiliza


a concepção de um experimento. Nesse contexto, o usuário é incumbido de atribuir um nome
ao experimento, indicar o número de repetições a serem efetuadas e especificar os tamanhos
de redução a serem aplicados nos conjuntos de dados.

Figura 3 – T ela Gerar experimento.

Fonte: Autoria Própria.


Capı́tulo 3. DESENVOLVIMENTO DO PROJETO 14

A Figura 4 apresenta a tela que lista os resultados dos experimentos e possibilita


vizualizar as medidas em nı́vel individual, agrupadas por conjunto de dados, por conjunto de
dados e redução, e apenas por redução do conjunto de dados.

Figura 4 – Listar experimento.

Fonte: Autoria Própria.

A Figura 5 apresenta a tela que mostra as caracterı́sticas do experiemto e a lista de


botões com as todas as medidas de caracterização extraı́das.

Figura 5 – Tela visualizar experimento.

Fonte: Autoria Própria.


Capı́tulo 3. DESENVOLVIMENTO DO PROJETO 15

Por fim, nas Figuras 7, 8, 9 são apresentadas as telas para vizualização do gráfico.
O gráfico é orientado pelo valor da medida no eixo vertical (y) e o tamanho da redução no
conjunto de dados no eixo (x), onde cada ponto de intersecção entre os eixo representa o valor
da medida em cada uma das repetições realizada.
O gráfico da figura 6 apresenta os resultados obtidos da medida de caracterização
attr-concad e mostra as porcentagens de redução aplicadas aos conjunto de dados no eixo x, e
no eixo y o valor da medida para cada redução realizada. Neste gráfico a medida attr-concad
revelou-se ser uma medida que sofre alterações de valores com as repetições e alterações de
tamanho no conjunto de dados, pois o valores da medida variam entre todos os tamanhos de
reduções realizadas.
O gráfico Figura 7 apresenta a medida attri-ent.sd que revelou-se ser uma medida
que sofre poucas alterações de valores com as repetições e alterações de tamanho no conjunto
de dados, visto que a variação de valores desta medida passa a ocorrer apenas entre 18 a 20
por cento de redução.
O gráfico da Figura 8 apresenta a medida attri-conc.max e revelou-se ser uma medida
que não sofre alterações de valores com as repetições e alterações de tamanho no conjunto de
dados, visto que a não há variação de valores entre as repetições e as reduções realizadas.

Figura 6 – T ela vizualizar graficos.

Fonte: Autoria Própria.


Capı́tulo 3. DESENVOLVIMENTO DO PROJETO 16

Figura 7 – T ela vizualizar graficos.

Fonte: Autoria Própria.

Figura 8 – T ela vizualizar graficos.

Fonte: Autoria Própria.


Capı́tulo 3. DESENVOLVIMENTO DO PROJETO 17

Figura 9 – T ela de vizualização do Ranking das 25 menores coeficientes de variação das


medidas por conjunto de dados.

Fonte: Autoria Própria.

Figura 10 – T ela de vizualização do Ranking das medidas que não tiverem variações em relação
ao conjunto de dados sem redução de tamanho.

Fonte: Autoria Própria.


Capı́tulo 3. DESENVOLVIMENTO DO PROJETO 18

Figura 11 – T ela de vizualização do Ranking das 25 menores coeficientes de variação das


medidas por conjunto de dados e redução.

Fonte: Autoria Própria.

Figura 12 – T ela de vizualização do Ranking geral de variações de medidas por tamanho de


redução com todos os conjunto de dados.

Fonte: Autoria Própria.


19

4 RESULTADOS GERADOS EM UM EXPERIMENTO

Neste capı́tulo são apresentados os resultados gerados a partir de um experimento


realizado com a ferramenta desenvolvida. O experimento objetiva observar o comportamento
das meta-caracterı́sticas extraı́das de quarenta diferentes conjuntos de dados públicos para
aprendizado de máquina, retirados do repositório Irvine Machine Learning Repository e pode
ser encontrado no endereço <https://archive.ics.uci.edu/>, a lista dos conjunto de dados
utilizado encontra-se na seção Anexo A.

4.1 PARÂMETROS DO EXPERIMENTO

Os parâmetros usados no experimento foram aplicados a todos os conjuntos de dados,


os valores de número de repetições e número de conjuntos de dados foram definidos empirica-
mente e também foi considerada as limitações de hardware disponı́vel para o processamento.

Tabela 1 – Dados do Experimento


Campo Valor
Nome do Experimento experimento1
Número de Repetições 30
Número de Conjuntos de Dados 40
[0.10, 0.11, 0.12, 0.13, 0.14, 0.15
Tamanhos de Redução nos Conjuntos de Dados
, 0.16, 0.17, 0.18, 0.19, 0.20]

4.2 RESULTADOS DO EXPERIMENTO

Na presente seção, são apresentados os resultados obtidos no decorrer do experimento


conduzido. Ao total, foram realizadas 13.200 iterações de redução nos conjuntos de dados,
utilizando 40 conjuntos de dados distintos.
A análise efetuada permitiu destinguir as medidas de caracterização que apresentaram
variação em decorrência da redução do tamanho dos conjuntos de dados e aquelas que se
mantiveram invariáveis frente a tal redução.
O resultado da análise culminou na elaboração de textitrankings com base no coeficiente
de variação (CV) das medidas, foi escolhidaa a média por ser uma medida de centralidade
sensı́vel a valores extremos no conjunto de dados e o coeficiente de variação (CV), calculado
como o desvio padrão dividido pela média, fornece uma medida relativa de dispersão. Isso é
útil para comparar a variabilidade entre conjuntos de dados que têm médias diferentes.
Inicialmente, calculou-se o desvio padrão ( std) de cada medida de caracterização
utilizando a função std() no DataFrame que incorpora as referidas medidas. Esse desvio padrão
reflete a variabilidade dos dados.
Capı́tulo 4. RESULTADOS GERADOS EM UM EXPERIMENTO 20

Posteriormente, o coeficiente de variação foi calculado pela divisão do desvio padrão


pela média da medida, multiplicado por 100 para expressar o resultado em percentagem. O
cálculo é formulado da seguinte maneira:

CV=(std/média-medida)×100

Por fim, o coeficiente de variação foi arredondado para duas casas decimais e organizado
em ordem de classificação com base nos valores obtidos.
Esse procedimento metodológico visa fornecer uma compreensão mais aprofundada
acerca da variabilidade das medidas analisadas, permitindo a identificação das tendências
observadas com relação à redução do conjunto de dados.
O coeficiente de variação mede a variabilidade relativa de um conjunto de dados em
relação à sua média, sendo expresso como a razão entre o desvio padrão e a média. Construir
um ranking dos 25 menores e maiores coeficientes de variação para o conjunto de dados Iris
permite identificar as variáveis mais consistentes e menos sujeitas a flutuações, priorizando
aquelas com menor dispersão em relação às médias.
Para ilustrar os resultados as tabelas 1,2 e 3 a seguir trazem os ranks gerados para o
conjunto de dados Íris.
Capı́tulo 4. RESULTADOS GERADOS EM UM EXPERIMENTO 21

Tabela 2 – Ranking com os 25 menores coefientes de variação para o conjunto de dados Iris.

Rank Dataset Medida Redução Std Medida CV (%) Rank CV


0 Iris skewness.max 0.12 4.516810e-16 [0.0] 2.5
1 Iris var.median 0.10 3.350153e-17 [0.0] 2.5
2 Iris cor.median 0.14 2.061632e-17 [0.0] 2.5
3 Iris var.min 0.18 1.771422e-17 [0.0] 2.5
4 Iris sparsity.sd 0.19 8.777950e-04 [1.0] 9.5
5 Iris sparsity.sd 0.11 1.552239e-03 [1.0] 9.5
6 Iris sparsity.sd 0.12 1.535703e-03 [1.0] 9.5
7 Iris sparsity.sd 0.20 1.088009e-03 [1.0] 9.5
8 Iris sparsity.sd 0.18 8.471495e-04 [1.0] 9.5
9 Iris sparsity.sd 0.13 1.218007e-03 [1.0] 9.5
10 Iris sparsity.sd 0.14 1.399418e-03 [1.0] 9.5
11 Iris sparsity.sd 0.15 1.306239e-03 [1.0] 9.5
12 Iris sparsity.sd 0.17 1.205359e-03 [1.0] 9.5
13 Iris sparsity.sd 0.16 1.014464e-03 [1.0] 9.5
14 Iris cor.sd 0.19 3.098669e-03 [2.0] 24.0
15 Iris skewness.mean 0.18 8.066000e-02 [2.0] 24.0
16 Iris attr ent.mean 0.16 6.682692e-02 [2.0] 24.0
17 Iris attr ent.mean 0.18 5.853809e-02 [2.0] 24.0
18 Iris attr ent.mean 0.19 5.535870e-02 [2.0] 24.0
19 Iris sparsity.sd 0.10 1.741661e-03 [2.0] 24.0
20 Iris cor.sd 0.20 3.429114e-03 [2.0] 24.0
21 Iris cor.sd 0.12 3.858465e-03 [2.0] 24.0
22 Iris cor.sd 0.14 3.848367e-03 [2.0] 24.0
23 Iris cor.sd 0.15 2.757639e-03 [2.0] 24.0
24 Iris cor.sd 0.16 3.372988e-03 [2.0] 24.0
Capı́tulo 4. RESULTADOS GERADOS EM UM EXPERIMENTO 22

Tabela 3 – Ranking com os 25 maiores coefientes de variação entre as medidas para o conjunto
de dados Iris.
Rank Dataset Medida Redução Std Medida CV (%) Rank CV
758 Iris min.sd 0.13 7.316116e-01 [79.0] 758.0
759 Iris cov.min 0.12 1.523175e-03 [83.0] 760.0
760 Iris min.sd 0.19 7.821355e-01 [84.0] 761.0
761 Iris min.max 0.12 5.865935e+00 [85.0] 762.0
762 Iris min.sd 0.12 8.008101e-01 [86.0] 763.0
763 Iris min.mean 0.12 1.097687e-01 [87.0] 764.0
764 Iris min.max 0.19 6.328552e+00 [91.0] 765.0
765 Iris cor.min 0.17 6.733840e-03 [93.0] 766.0
766 Iris min.max 0.10 6.816225e+00 [98.0] 767.0
767 Iris cov.min 0.10 1.804995e-03 [99.0] 768.0
768 Iris cor.min 0.15 7.407877e-03 [102.0] 769.5
769 Iris cor.min 0.16 7.409640e-03 [102.0] 769.5
770 Iris min.sd 0.10 1.015293e+00 [109.0] 771.0
771 Iris eigenvalues.median 0.20 3.861207e-17 [111.0] 772.0
772 Iris min.mean 0.10 1.514364e-01 [120.0] 773.0
773 Iris min.mean 0.15 1.542580e-01 [123.0] 774.0
774 Iris min.sd 0.15 1.162934e+00 [125.0] 775.0
775 Iris min.max 0.15 8.780595e+00 [127.0] 776.0
776 Iris min.max 0.11 1.001407e+01 [144.0] 777.0
777 Iris cor.min 0.13 1.133713e-02 [156.0] 778.0
778 Iris min.sd 0.11 1.483393e+00 [159.0] 779.5
779 Iris cor.min 0.12 7.255829e-03 1.154610e-02 779.5
780 Iris min.mean 0.11 2.204153e-01 [175.0] 781.0
781 Iris cor.min 0.11 1.366439e-02 [188.0] 782.0
782 Iris cor.min 0.10 1.550308e-02 [214.0] 783.0
Capı́tulo 4. RESULTADOS GERADOS EM UM EXPERIMENTO 23

Tabela 4 – A tabela 4 mostra o Ranking das 25 primeiras medidas de caracterização que


permaneceram constantes após as reduções para o conjunto de dados Iris. Foram
consideradas medidas constantes as medidas de caracterização que após as reduções
apresentaram os mesmos valores das medidas de caracterizações dos conjuntos de
dados originais que não passaram por redução.

Posição do Rank Dataset Medida Valor da Medida Redução


0 Iris median.median 0.0 0.15
1 Iris h mean.min 0.0 0.15
2 Iris h mean.min 0.0 0.16
3 Iris h mean.min 0.0 0.17
4 Iris h mean.min 0.0 0.18
5 Iris h mean.min 0.0 0.19
6 Iris h mean.min 0.0 0.20
7 Iris iq range.median 0.0 0.10
8 Iris iq range.median 0.0 0.11
9 Iris h mean.min 0.0 0.14
10 Iris iq range.median 0.0 0.12
11 Iris iq range.median 0.0 0.13
12 Iris h mean.median 0.0 0.12
13 Iris h mean.median 0.0 0.10
14 Iris g mean.median 0.0 0.12
15 Iris g mean.median 0.0 0.13
16 Iris g mean.median 0.0 0.14
17 Iris g mean.median 0.0 0.15
18 Iris g mean.median 0.0 0.16
19 Iris h mean.median 0.0 0.13
20 Iris g mean.median 0.0 0.17
21 Iris h mean.min 0.0 0.13
22 Iris h mean.min 0.0 0.11
23 Iris sparsity.min 0.0 0.10
24 Iris sparsity.min 0.0 0.11
24

5 CONCLUSÃO

5.1 CONSIDERAÇÕES FINAIS

Este trabalho buscou obter resultados estatı́sticos sobre o comportamento das medidas
de caracterização em conjuntos de dados conforme acontece a redução do número de instâncias
desses conjuntos. Para isto foi desenvolvido um sistema web que automatiza os experimentos,
realiza as reduções nos conjuntos de dados, e faz as extrações das medidas de caracterização
para cada redução de tamanho informada, depois repete o processo pelo número de vezes
informado em cada experimento realizado.
Os resultados obtidos no experimento aqui descrito forneceu informações sobre o
comportamento das medidas de caracterização. Dentre essas informações é possı́vel destacar
a separação entre as medidas de caracterização que sofreram alteração com a redução dos
conjuntos de dados e as medidas de caracterização que se mantiveram constantes com as
reduções nos conjuntos de dados realizadas neste experimento.
A ferramenta desenvolvida também poderá ser usada para realizar outros experimentos
com reduções de tamanhos e conjuntos de dados diferentes do realizado nesse experimento,
aumentando assim os dados que descrevem o comportamento das medidas de caracterização.
Além do experimento e dos resultados obtidos a construção da aplicação web propor-
cionou a ampliação das habilidades de desenvolvimento de software, possibilitando a integração
entre o conhecimento prático de codificação nas tecnologias utilizadas com o conhecimento
adquirido a partir da pesquisa ciêntifica no campo das medidas de caracterização e a sua
importancia no avanço dos estudos na área de meta-aprendizado.
A aplicação da ferramenta MFE: Meta-Feature Extractor pode ser uma limitação
especı́fica em termos de quais meta-caracterı́sticas ela extrai e como lida com conjuntos de
dados especı́ficos. A compreensão das limitações dessa ferramenta é crucial para interpretar os
resultados.
Também existe a limitação dos resultados obtidos no experimento serem especı́ficos
para os conjuntos de dados utilizados e para as caracterı́sticas extraı́das. A generalização desses
resultados para diferentes domı́nios ou tipos de conjuntos de dados pode ser limitada.
A abordagem de redução de custos computacionais por meio da diminuição do tamanho
do conjunto de dados pode ter implicações na qualidade das meta-caracterı́sticas. Identificar os
limites aceitáveis de redução sem comprometer a representatividade das meta-caracterı́sticas
pode ser desafiador.

5.2 TRABALHOS FUTUROS

Para futuros desenvolvimentos desta aplicação, é possı́vel considerar a incorporação de


diversas técnicas de redução de tamanho de conjuntos de dados. Uma abordagem promissora
Capı́tulo 5. CONCLUSÃO 25

seria explorar métodos como a redução por seleção de instâncias mais representativas ou a
redução por agrupamento. Isso ampliaria as opções disponı́veis para os usuários, permitindo
uma customização mais refinada do processo de redução, levando em consideração diferentes
caracterı́sticas e padrões especı́ficos dos conjuntos de dados.
Além disso, uma melhoria significativa pode ser alcançada ao explorar métricas de avali-
ação adicionais, indo além dos coeficientes de variação. Investigar o uso de métricas estatı́sticas
adicionais ou medidas de distância proporcionaria uma compreensão mais aprofundada de como
as medidas de caracterização variam durante o processo de redução dos conjuntos de dados. A
inclusão de novas abordagens pode oferecer insights adicionais sobre o comportamento das
caracterı́sticas e seu impacto nas tarefas de aprendizado de máquina, contribuindo para uma
análise mais abrangente.
Essas extensões propostas podem enriquecer a aplicação, tornando-a mais versátil e
capaz de lidar com uma variedade maior de cenários e tipos de dados. Além disso, a exploração de
diferentes métricas de avaliação proporcionaria uma compreensão mais refinada do desempenho
das meta-caracterı́sticas em contextos diversos, melhorando assim a utilidade e robustez da
aplicação.
26

Referências

BENSUSAN, H.; GIRAUD-CARRIER, C.; KENNEDY, C. A higher-order approach to meta-


learning. In: Proceedings of the ECML’2000 workshop on Meta-Learning: Building
Automatic Advice Strategies for Model Selection , Method Combination. [S.l.]:
ECML’2000, 2000. p. 109 – 117. Other page information: 109-117 Conference Proceedings/Title
of Journal: Proceedings of the ECML’2000 workshop on Meta-Learning: Building Automa-
tic Advice Strategies for Model Selection , Method Combination Other identifier: 1000471.
Nenhuma citação no texto.
CASTIELLO, C.; CASTELLANO, G.; FANELLI, A. M. Meta-data: Characterization of input
features for meta-learning. In: TORRA, V.; NARUKAWA, Y.; MIYAMOTO, S. (Ed.). Modeling
Decisions for Artificial Intelligence, Second International Conference, MDAI 2005,
Tsukuba, Japan, July 25-27, 2005, Proceedings. Springer, 2005. (Lecture Notes in
Computer Science, v. 3558), p. 457–468. Disponı́vel em: <https://doi.org/10.1007/11526018\
45>. Nenhuma citação no texto.
FACELI, K.; LORENA A. C., G. J.; CARVALHO, A. C. P. L. F. Inteligência artificial: uma
abordagem de aprendizado de máquina. Rio de Janeiro: LTC, 2011. Nenhuma citação no
texto.
GIL, A. C. Como elaborar projetos de pesquisa. 4th. ed. São Paulo: Atlas, 2002. Bibliografia.
ISBN 85-224-3169-8. Nenhuma citação no texto.
GIRAUD-CARRIER CHRISTOPHE, V. R. B. P. Introduction to the Special Issue on Meta-
Learning. Machine Learning, v. 54, p. 187–193, March 2004. Nenhuma citação no texto.
HORTA, D.; CAMPELLO, R. J. G. B. Automatic aspect discrimination in data clustering.
Pattern Recognition, v. 45, p. 4370–4388, 2012. Nenhuma citação no texto.
PFAHRINGER, B.; BENSUSAN, H.; GIRAUD-CARRIER, C. Meta-learning by landmarking
various learning algorithms. In: Proceedings of the Seventeenth International Confe-
rence on Machine Learning, ICML’2000. [S.l.]: Morgan Kaufmann, 2000. p. 743 – 750.
ISBN 1558607072. Conference Proceedings/Title of Journal: Proceedings of the Seventeenth
International Conference on Machine Learning, ICML’2000. Nenhuma citação no texto.
RIVOLLI ADRIANO, G. L. P. S. C. V. J. C. A. Towards reproducible empirical research in
meta-learning. August 2018. Nenhuma citação no texto.
RIVOLLI ADRIANO, G. L. S. C. V. J. C. A. Meta-features for meta-learning. Knowledge-
Based Systems, v. 240, p. 108101, 2022. ISSN 0950-7051. Disponı́vel em: <https://www.
sciencedirect.com/science/article/pii/S0950705121011631>. Nenhuma citação no texto.
RIVOLLI ADRIANO, G. L. S. C. V. J. d. C. A. Characterizing classification datasets: a study of
meta-features for meta-learning. Information Sciences, v. 520, p. 197–217, 2020. Nenhuma
citação no texto.
SOARES, C. Learning Rankings of Learning Algorithms: Recommendation of Algo-
rithms with Meta-Learning. Tese (Doutorado) — Departamento de Ciência da Computação,
Faculdade de Ciências, Universidade do Porto, Porto, Portugal, 2004. Nenhuma citação no
texto.
Referências 27

VILALTA, R.; DRISSI, Y. A Perspective View and Survey of Meta-Learning. Artificial In-
telligence Review, v. 18, p. 77–95, 2002. Disponı́vel em: <https://doi.org/10.1023/A:
1019956318069>. Nenhuma citação no texto.

WOLPERT, D. H. The Lack of A Priori Distinctions Between Learning Algorithms. Neural


Computation, v. 8, n. 7, p. 1341–1390, October 1996. Nenhuma citação no texto.

WOLPERT, D. H.; MACREADY, W. G. No Free Lunch Theorems for Search. Sante Fe,
NM, USA, 1995. Nenhuma citação no texto.
Anexos

Você também pode gostar