Extracaoanalisemetacaracteristicas

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ
DEPARTAMENTO ACADÊMICO DE COMPUTAÇÃO

CURSO DE ENGENHARIA DE SOFTWARE
DANIEL GONÇALVES DA SILVA
EXTRAÇÃO E ANÁLISE DE META-CARACTERÍSTICAS EM

CONJUNTOS DE DADOS PARA PROBLEMAS DE
CLASSIFICAÇÃO
TRABALHO DE CONCLUSÃO DE CURSO
CORNÉLIO PROCÓPIO
2023
DANIEL GONÇALVES DA SILVA
EXTRAÇÃO E ANÁLISE DE META-CARACTERÍSTICAS EM

CONJUNTOS DE DADOS PARA PROBLEMAS DE
CLASSIFICAÇÃO
Trabalho de Conclusão de Curso apresentado ao Curso de

Engenharia de Software da Universidade Tecnológica Federal
do Paraná, como requisito parcial para a obtenção do tı́tulo
de Bacharel.
Orientador: Adriano Rivolli da Silva
CORNÉLIO PROCÓPIO
2023
Esta licença permite remixe, adaptação e criação a partir do trabalho para fins não comerciais,
desde que sejam atribuı́dos créditos ao(s) autor(es) e que licenciem as novas criações sob
termos idênticos. Conteúdos elaborados por terceiros, citados e referenciados nesta obra não
4.0 Internacional são cobertos pela licença.
UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ
DEPARTAMENTO ACADÊMICO DE COMPUTAÇÃO
CURSO DE ENGENHARIA DE SOFTWARE
TERMO DE APROVAÇÃO
Extração e Análise de meta-caracterı́sticas em conjuntos de dados

para problemas de classificação
por
Daniel Gonçalves da Silva
Este Trabalho de Conclusão de Curso de graduação foi julgado adequado para obtenção
do Tı́tulo de “Bacharel” e aprovado em sua forma final pelo Programa de Curso de Engenharia
de Software da Universidade Tecnológica Federal do Paraná.
Cornélio Procópio, seis de dezembro de 2023
Prof. Dr. Adriano Rivoli
Profa. Dr. Rogério Santos Pozza
Prof. Dr. Cleber Gimenez Correa
“A Folha de Aprovação assinada encontra-se na Coordenação do Curso”

RESUMO
GONÇALVES, Daniel. Extração e Análise de meta-caracterı́sticas em conjuntos de dados para

problemas de classificação. 2023. 27 f. Trabalho de Conclusão de Curso – Curso de Engenharia
de Software, Universidade Tecnológica Federal do Paraná. Cornélio Procópio, 2023.
Em aprendizado de máquina, um conjunto de dados é uma coleção que representa os fenômemos
que se deseja aprender por meio de um processo indutivo. A caracterização destes conjuntos
é frequentemente utilizada para a compreensão de suas caracterı́sticas e também para o uso
em estudos de meta-aprendizado, por isso os valores que caracterizam um conjunto de dados
são chamados de meta-caracterı́sticas. Este trabalho reporta a investigação realizada visando
compreender o comportamento das meta-caracterı́sticas em conjuntos de dados de classificação
quando os conjuntos são reduzidos. A partir desse objetivo foi desenvolvido um software que
realiza reduções aleatórias dos conjuntos, submete-os ao processo de caracterização utilizando
a ferramenta Meta Feature Extractor (MFE), salva os resultados e gera gráficos que permite
realizar uma análise do comportamento das medidas após as reduções realizadas. O sistema
permite a comparação das medidas em relação a sua variabilidade e tamanho de redução,
além de listar as medidas que não se alteram com as perturbações realizadas. A análise
do comportamento das meta-caracterı́sticas com os conjuntos de dados reduzidos, permite
identificar a escolha de medidas de caracterização apropriadas para problemas em aprendizado
de máquina e meta-aprendizado, proporcionando uma possı́vel redução do custo computacional
no processo de meta-apresendizado.
Palavras-chave: Meta-caracterı́sticas. Meta-aprendizado. Conjunto de dados.
ABSTRACT
GONÇALVES, Daniel. Analysis and extraction of meta-features in classification problems.

2023. 27 f. Trabalho de Conclusão de Curso – Curso de Engenharia de Software, Universidade
Tecnológica Federal do Paraná. Cornélio Procópio, 2023.
In machine learning, a dataset is a collection that represents the phenomena you want to
learn about through an inductive process. The characterization of these sets is often used
to understand their characteristics and so for use in meta-learning studies, which is why the
values that characterize a data set are called meta-features. This paper reports on research to
understand meta-feature behavior in classification data sets when the sets are reduced. With
this objective in mind, a software was developed that performs random reductions of the sets,
submits them to the characterization process using the Meta Feature Extractor (MFE) tool,
saves the results and generates graphs to analyze the behavior of the measurements after
the reductions have been made. The system allows the measures to be compared in terms of
their variability and reduction size, as well as listing the measures that do not change with the
perturbations made. The analysis of the behavior of the meta-features when the data sets are
reduced makes it possible to identify the choice of appropriate characterization measures for
problems in machine learning and meta-learning.
Keywords: Meta-features. Meta-learning. Dataset.
LISTA DE FIGURAS
Figura 1 –
Diagrama de caso de uso. . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Figura 2 –
T ela inicial da aplicação. . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Figura 3 –
T ela Gerar experimento. . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Figura 4 –
Listar experimento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Figura 5 –
Tela visualizar experimento. . . . . . . . . . . . . . . . . . . . . . . . . . 14
Figura 6 –
T ela vizualizar graficos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Figura 7 –
Figura 8 –
Figura 9 T ela de vizualização do Ranking das 25 menores coeficientes de variação
–
das medidas por conjunto de dados. . . . . . . . . . . . . . . . . . . . . . 17
Figura 10 – T ela de vizualização do Ranking das medidas que não tiverem variações em
relação ao conjunto de dados sem redução de tamanho. . . . . . . . . . . 17
Figura 11 – T ela de vizualização do Ranking das 25 menores coeficientes de variação
das medidas por conjunto de dados e redução. . . . . . . . . . . . . . . . 18
Figura 12 – T ela de vizualização do Ranking geral de variações de medidas por tamanho
de redução com todos os conjunto de dados. . . . . . . . . . . . . . . . . 18
LISTA DE TABELAS
Tabela 1 – Dados do Experimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

Tabela 2 – Ranking com os 25 menores coefientes de variação para o conjunto de dados
Iris. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Tabela 3 – Ranking com os 25 maiores coefientes de variação entre as medidas para o
conjunto de dados Iris. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Tabela 4 – A tabela 4 mostra o Ranking das 25 primeiras medidas de caracterização
que permaneceram constantes após as reduções para o conjunto de dados
Iris. Foram consideradas medidas constantes as medidas de caracterização
que após as reduções apresentaram os mesmos valores das medidas de
caracterizações dos conjuntos de dados originais que não passaram por
redução. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
SUMÁRIO
1 – INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 CONTEXTO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 PROBLEMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.3 JUSTIFICATIVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4 OBJETIVOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4.1 OBJETIVOS GERAIS . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4.2 OBJETIVOS ESPECÍFICOS . . . . . . . . . . . . . . . . . . . . . . 2
1.5 ORGANIZAÇAO DO TRABALHO . . . . . . . . . . . . . . . . . . . . . . 3
2 – REVISÃO DE LITERATURA . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1 MFE: EXTRATOR DE META-CARACTERÍSTICAS . . . . . . . . . . . . . 5
3 – DESENVOLVIMENTO DO PROJETO . . . . . . . . . . . . . . . . . . . . 7
3.1 RECURSOS UTILIZADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.3 REQUISITOS FUNCIONAIS . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.4 DIAGRAMA DE CASO DE USO . . . . . . . . . . . . . . . . . . . . . . . 11
3.5 PROTÓTIPOS DE TELAS DA APLICAÇÃO . . . . . . . . . . . . . . . . . 12
4 – RESULTADOS GERADOS EM UM EXPERIMENTO . . . . . . . . . . . 19

4.1 PARÂMETROS DO EXPERIMENTO . . . . . . . . . . . . . . . . . . . . . 19
4.2 RESULTADOS DO EXPERIMENTO . . . . . . . . . . . . . . . . . . . . . 19
5 – CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.1 CONSIDERAÇÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.2 TRABALHOS FUTUROS . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Anexos 26
ANEXO A–Lista de Conjuntos de dados . . . . . . . . . . . . . . . . . . . . 27

1
1 INTRODUÇÃO
Dentro da área de inteligência artificial, destaca-se o aprendizado de máquina, que

é uma área de pesquisa que visa o desenvolvimento de programas de computador com a
capacidade de aprender a executar uma dada tarefa por meio de experiências passadas (??).
1.1 CONTEXTO
O aprendizado de máquina busca apresentar uma solução de software que utiliza as

experiências adquiridas anteriormente para realizar o treinamento que pode ser reconhecer,
diferenciar e classificar caracterı́sticas de objetos e seres. Esse processo assemelha-se ao processo
de aprendizagem dos seres humanos, pois o sistema aprende a diferenciar essas variedades de
caracterı́sticas observando o seu próprio conhecimento acumulado (??).
Esse conhecimento acumulado também é utilizado na área de meta-aprendizado que
investiga como os sistemas de aprendizado de máquina podem melhorar sua eficácia a partir
da experiência. Seu principal objetivo é automatizar o aprendizado para que ele seja capaz de
se adaptar dinamicamente a diferentes domı́nios ou tarefas (??).
Representar adequadamente os problemas é parte fundamental do sucesso de meta-
aprendizado e este, está relacionado diretamente com a performance dos meta-modelos, ou
seja, o modelo preditivo utilizado para realizar as recomendações em nı́vel meta (??). Assim,
as meta-caracterı́sticas podem ser relevantes para a construção de sistemas de recomendação
por meio de meta-aprendizado (??).
1.2 PROBLEMA
As meta-caracterı́sticas são medidas organizadas em grupos, que definem de um modo

geral, a abordagem de extração e caracterı́sticas principais (??). Como exemplo desses grupos,
é possı́vel citar: as medidas simples, medidas estatı́sticas, medidas baseadas em teoria da
informação, e medidas baseadas em modelos.
Em uma revisão da literatura, (??), encontraram lacunas para serem exploradas acerca
das medidas de caracterização tradicionais. Assim, é importante buscar responder essas questões,
no intuito de confirmar e validar práticas tradicionais. Uma dessas lacunas é a respeito da
aplicação das meta-caracterı́sticas, que de forma geral são aplicadas utilizando todo o conjunto
de dados, e isso demanda um certo custo computacional.
Neste sentido, este trabalho visa compreender a variabilidade das medidas de carac-
terização e a viabilidade de diminuir o custo computacional de caracterização, por meio da
redução do tamanho do conjunto de dados.
Este trabalho busca explorar quais são os limites aceitáveis de redução do conjunto
de dados, tendo em consideração que uma medida ainda continue fazendo sentido. Este tipo
Capı́tulo 1. INTRODUÇÃO 2
de pesquisa pode elucidar as questões em relação às meta-caracterı́sticas e sua utilização em

aplicações de meta-aprendizado e análise de resultados.
1.3 JUSTIFICATIVA
Um desafio para pesquisadores e desenvolvedores tem sido tratar os dados de forma a

prepará-los para construir modelos de aprendizado de máquina. Pensando nisso, este trabalho
busca contribuir com o entendimento do funcionamento das meta-caracterı́sticas e explorar
quais os limites de redução aceitáveis para que as meta-caracterı́stica continuem fazendo
sentido.
De acordo com (??), em geral, as meta-caracterı́sticas das bases de dados devem
conter informações relevantes para determinar o desempenho relativo entre os algoritmos de
classificação e assim poder diminuir o custo computacional das soluções por meio da construção
de sistemas de recomendação.
1.4 OBJETIVOS
A seguir são apresentados os objetivos gerais e especı́ficos definidos para o presente

trabalho.
1.4.1 OBJETIVOS GERAIS
Pretende-se neste trabalho desenvolver um sistema para extrair meta-caracterı́sticas

em conjuntos de dados, com o objetivo de analisar como as medidas de caracterização se
comportam a partir de variações de redução de tamanho do conjunto de dados. Busca-se
observar a variabilidade das medidas, conforme a redução dos conjuntos de dados, o que
permitirá identificar as caracterı́sticas mais e menos robustas a este tipo de perturbação dos
dados.
1.4.2 OBJETIVOS ESPECÍFICOS
Os objetivos especı́ficos a serem alcançados são:
• Desenvolver um sistema que fará a redução aleatória das instâncias dos conjuntos de
dados
• Realizar a extração das meta-caracterı́sticas nos conjuntos de dados.
• Analisar as meta-caracterı́sticas extraı́das dos conjuntos de dados originais.
• Analisar as meta-caracterı́sticas extraı́das dos conjuntos de dados após a redução do
conjunto de dados gerado pelo sistema desenvolvido.
• Analisar e comparar resultados obtidos a partir da execução de um estudo empı́rico
utilizando o sistema desenvolvido.
Capı́tulo 1. INTRODUÇÃO 3
1.5 ORGANIZAÇAO DO TRABALHO
Além deste capı́tulo introdutório, o presente trabalho conta com os seguintes capı́tulos:
• Capı́tulo 2: REVISÃO DE LITERATURA

Esse capı́tulo revisa conceitos essenciais sobre aprendizado de máquina, apresenta a
importância do meta-aprendizado e descreve a ferramenta MFE: Meta-Feature Extractor
como uma solução para a extração de meta-caracterı́sticas de conjuntos de dados.
• Capı́tulo 3: DESENVOLVIMENTO DO PROJETO

Nesse capı́tulo é apresentado as seções que descrevem os processos realizados neste
projeto e as atividades que direcionam o desenvolvimento da aplicação. Também há
uma descrição das ferramentas utilizadas, metodologias e atividades automatizadas pela
aplicação. Por fim o capı́tulo traz as seções com os requisitos funcionais, diagramas e
protótipos de telas da aplicação desenvolvida.
• Capı́tulo 4: RESULTADOS GERADOS EM UM EXPERIMENTO

Esse capı́tulo apresenta os resultados de um experimento realizado usando a aplicação
desenvolvida. Esses resultados foram classificados em oito Rankings, que contemplam
agregações de dados organizdas pelas medidas que variaram por conjunto de dados e
por tamanho de redução, pelas medidas que se mantiveram constantes a pertubação de
redução dos conjuntos de dados e apenas por redução do conjuntos de dados.
• Capı́tulo 5: CONCLUSÃO
Neste capı́tulo encontra-se as considerações finais sobre o trabalho e aponta possı́veis
trabalhos futuros.
4
2 REVISÃO DE LITERATURA
O aprendizado de máquina é um ramo de estudo da Inteligência artificial que assemelha-

se ao processo de aprendizagem dos seres humanos, pois o sistema usa o seu conhecimento
acumulado para aprender a diferenciar as variedades das caracterı́sticas observadas (??).
O aprendizado de máquina pode ser organizado em dois grandes grupos, os problemas
descritivos e preditivos. Nas questões descritivas, uma das principais tarefas é o agrupamento
de dados, que busca separar os dados de maneira que dados semelhantes fiquem em um mesmo
grupo (??).
As tarefas preditivas podem ser divididas em tarefas de classificação e tarefas de
regressão. Nas tarefas de classificação, busca-se atribuir categorias predefinidas a dados. Nas
tarefas de regressão, pretende-se prever o valor de uma variável numérica (atributo de saı́da),
dadas outras variáveis (atributos de entrada). Assim, no lugar de encontrar uma classe associada,
como na classificação, deve-se encontrar uma função que mapeie um exemplo para um número.
Diversos algoritmos de aprendizado de máquina podem ser aplicados para resolver um
problema de classificação. Considerando que cada algoritmo tem suas particularidades, cada
algoritmo se adequará melhor a um determinado tipo de problema ou distribuição de dados.
Dessa forma, não é possı́vel que um único algoritmo seja sempre melhor que os demais, pois o
desempenho dos algoritmos depende das propriedades dos dados disponı́veis (??).
Pesquisadores possuem diferentes visões sobre o significado do termo meta-aprendizado.
Mas o que todas as definições têm em comum é que são fundamentadas no teorema No Free
Lunch (NFL), em que nenhum algoritmo de aprendizado pode ser melhor que os demais para
todos os problemas, ou seja, não existe uma solução ótima e genérica para todos os problemas
(??).
De forma geral, o meta-aprendizado tem como foco a relação entre domı́nios ou tarefas,
e estratégias de aprendizado. Uma das principais aplicações de métodos de meta-aprendizado
é a geração de regras capazes de relacionar o desempenho de algoritmos de aprendizado de
máquina com as propriedades das bases de dados. Essa abordagem mostra-se de grande ajuda
na criação de sistemas que forneçam ao usuário sugestões sobre que algoritmos utilizar em
determinadas situações (??).
A caracterização das bases de dados ocorre por meio do uso das meta-caracterı́sticas,
pois elas visam extrair de um conjunto de dados caracterı́sticas que possam ter influência no
desempenho dos algoritmos de aprendizado. Essas meta-caracterı́sticas posteriormente podem
ser usadas para melhorar a recomendação dos algoritmos de aprendizado mais promissores
para um determinado conjunto de dados. Diversas meta-caracterı́sticas diferentes têm sido
estudadas para caracterização direta de dados (??).
É possı́vel citar que um dos principais desafios da área de meta-aprendizado está relaci-
onado a como encontrar as meta-caracterı́sticas adequadas que representem as particularidades
Capı́tulo 2. REVISÃO DE LITERATURA 5
dos problemas investigados e, consequentemente, possibilite que o aprendizado a partir da

experiência possa ocorrer (??). As caracterı́sticas devem ser representativas e o cálculo de cada
uma das medidas não pode gerar um alto custo computacional.
As meta-caracterı́sticas podem ser organizadas em três grupos (??): Caracterização
direta, Baseadas nos modelos e Baseadas em avaliação do desempenho de modelos.
As medidas de caracterização direta podem ser divididas em três grupos: (i) Geral:
também conhecidas como medidas simples, extraem informações gerais relacionadas ao conjunto
de dados, como número de instâncias, atributos e classes; (ii) Estatı́stica: são as medidas
estatı́sticas padrão para descrever as propriedades numéricas de uma distribuição de dados; (iii)
Teoria da informação: descreve atributos discretos (categóricos) e sua relação com as classes.
As medidas baseadas nos modelos são obtidas a partir da indução de modelos de
aprendizado (??). Por exemplo, a partir da indução de uma árvore de decisão é possı́vel utilizar
informações da árvore gerada para caracterizar o conjunto de dados. As medidas compreendem,
por exemplo, o número de nós, folhas, profundidade da árvore, entre outras (??).
Medidas de landmarking correspondem aos resultados do desempenho preditivo e de
performance computacional obtidos pela aplicação de algoritmos de aprendizado simples e
rápidos, como por exemplo, Naive Bayes (NB) ou K Nearest Neighbors (KNN), utilizando
k = 1 (??). Além dessas medidas existem outras medidas como as de complexidade, que
permitem a caracterização da separabilidade e distribuição dos dados sob diferentes perspectivas,
capturando a complexidade dos mesmos.
Para extrair as meta-caracterı́sticas de um conjunto de dados a ferramenta MFE:
Meta-Feature Extractor(MFE) segue a padronização proposta em (??), que implementa em sua
totalidade as meta-caracterı́sticas pertencentes aos grupos mencionados anteriormente, incluindo
mais de 90 medidas e 12 funções de sumarização. As meta-caracterı́sticas implementadas e a
sua classificação taxonômica e definições matemáticas são apresentadas em (??).
2.1 MFE: EXTRATOR DE META-CARACTERÍSTICAS
O pymfe (Python Meta-Feature Extractor) é uma ferramenta dedicada à extração de

meta-caracterı́sticas de conjuntos de dados, proporcionando suporte essencial para o desenvol-
vimento de sistemas de recomendação baseados em meta-aprendizado. As meta-caracterı́sticas,
também conhecidas como medidas de caracterização, desempenham um papel crucial ao
fornecer insights sobre a complexidade dos conjuntos de dados e estimativas de desempe-
nho de algoritmos. Este pacote não apenas abrange as medidas tradicionais, mas também
incorpora medidas mais recentes de caracterização, garantindo uma abordagem abrangente na
caracterização de dados.
A versão Python desta ferramenta utiliza bibliotecas de código-fonte aberto, como
numpy e scipy. A implementação pymfe, inspirada em sklearn, oferece dois métodos principais: (i)
mef.fit, responsável por calcular todas as transformações de dados e pré-computações necessárias
para as meta-caracterı́sticas selecionadas; e (ii) mfe.extract, que extrai e aplica as medidas de
Capı́tulo 2. REVISÃO DE LITERATURA 6
caracterização, seguidas de sumarização, resultando nas valiosas meta-caracterı́sticas.

Este pacote proporciona uma gama extensa de funções de extração de meta-caracterı́sticas,
permitindo uma caracterização abrangente de dados. O pymfe não apenas disponibiliza medidas
padrão, mas também incorpora aquelas mais recentes na literatura, mantendo-se atualizado com
as tendências e avanços mais recentes. A utilização de métodos consolidados e a capacidade de
extrair meta-caracterı́sticas especı́ficas ou aplicar intervalos de confiança utilizando bootstrap
são caracterı́sticas distintivas desta ferramenta.
Ao possibilitar a extração sistemática de meta-caracterı́sticas, a arquitetura do pymfe
visa gerar conjuntos robustos de meta-caracterı́sticas. Sua flexibilidade permite a definição de
diferentes medidas e funções de resumo, juntamente com a medição automática do tempo decor-
rido. Além disso, o pymfe segue as diretrizes recentes na formalização de meta-caracterı́sticas,
promovendo a reprodutibilidade nas tarefas de meta-aprendizado.
Em resumo, o pymfe oferece uma solução abrangente para a extração de meta-
caracterı́sticas, desempenhando um papel fundamental na caracterização e compreensão de
conjuntos de dados, contribuindo assim para o avanço da meta-aprendizagem e AutoML em
geral.
A ferramenta MFE: Meta-Feature Extractor pode ser encontrada no Github nas versões
em Python e R, nos respectivos respositórios:
• A biblioteca pymfe1 é uma ferramenta útil para extrair caracterı́sticas de dados em

Python.
• A biblioteca mfe2 é outra opção para extração de caracterı́sticas.
1
<https://github.com/ealcobaca/pymfe>
2
<https://github.com/rivolli/mfe>
7
3 DESENVOLVIMENTO DO PROJETO
Com o objetivo de observar o comportamento das meta-caracterı́sticas em relação

à variabilidade das medidas, foi conduzido um experimento utilizando 40 conjuntos de dados
públicos, que são frequentemente utilizados para aprendizado de máquina. A análise feita
observa o comportamento das medidas de caracterização conforme é realizada a redução das
instâncias dos conjuntos de dados analisados. Para tanto, foi desenvolvido um sistema que
automatiza o processo de extração das meta-caracteristicas utilizando a ferramenta MFE. O
sistema reduz de forma aleatória as instâncias de cada conjunto de dados e gera a vizualização
dos resultados por meio da ordenação das medidas das maiores até as menores variações
obtidas. Também possibilita a vizualização do gráfico individual de cada medida, mostrando o
seu comportamento conforme o tamanho da redução do conjunto de dados aumenta.
O repositório com o código fonte e os conjuntos de dados utilizados no projeto pode
ser acessado em:
<https://github.com/danielsilva83/tcc >.
3.1 RECURSOS UTILIZADOS
Nesta seção é apresentada uma sucinta descrição das ferramentas que foram utilizadas
no desenvolvimento deste projeto:
• JavaScript versão ECMAScript 6 : tecnologia escolhida para linguagem de desenvolvimento
front-end da aplicação, Pode ser usada para projetar e programar o comportamento de
uma página web a partir da ocorrência de um evento. O JavaScript é uma linguagem
baseada em protótipos, multi-paradigma e dinâmica, suportando estilos de orientação a
objetos, imperativos e declarativos (como por exemplo a programação funcional) ( MDN
CONTRIBUTORS,2021)
• AmCharts 4.0: é uma biblioteca com suporte para JavaScript e TypeScript: e foi usada
para criação de gráficos a partir dos dados gerados.
• SQLite 3.0: é uma biblioteca em linguagem C que implementa uma base de dados
SQL embutida. Foi usado para armazenar os dados relacionados aos experimentos e as
meta-caracterı́scticas extraı́das.
• Python 3 : linguagem de programação de alto nı́vel, interpretada de script, imperativa,
orientada a objetos, funcional, de tipagem dinâmica e forte. Esta linguagem foi escolhida
porque propicia o uso do pacote MFE Meta-Feature de forma nativa.
• Django 3.2: Um f ramework para desenvolvimento rápido para web, escrito em Python,
que utiliza o padrão model-template-view. Framework escolhido pela necessidade do
desenvolvimento emPython.
Capı́tulo 3. DESENVOLVIMENTO DO PROJETO 8
• API Django Rest Framework: A estrutura Django REST é um kit de ferramentas

poderoso e flexı́vel para construir APIs da Web.
• Pandas: uma biblioteca usada como ferramenta de análise e manipulação de dados de
código aberto rápida, poderosa, flexı́vel construı́da sobre a linguagem de programação
Python.
• Github: plataforma de hospedagem de código-fonte e arquivos com controle de versão
usando o Git (sistema de controle de versões distribuı́do). A plataforma foi usada para
armazenar e compartilhar o código fonte do projeto.
• MFE : fornece um conjunto abrangente de meta-caracterı́sticas implementadas em Python.
A arquitetura do MFE foi pensada para fazer a extração de forma sistêmica, o que pode
produzir um conjunto robusto de medidas utilizadas para caracterizar conjuntos de dados
utilizados em problemas de aprendizado de máquina.
3.2 METODOLOGIA
Neste trabalho foi usada a metodologia de pesquisa bibliográfica juntamente com

a condução de uma pesquisa experimental, que consiste em manipular e controlar variáveis,
com o objetivo de identificar qual é a variável independente que determina a causa variável do
fenômeno em estudo (??).
As atividades desenvolvidas ao longo do experimento compreendem as atividades
inerentes ao usuário da aplicação, as atividades realizadas pela aplicação e a atividade realizada
pelo pacote MFE.
O usuário da aplicação inı́cia o experimento, após fazer o upload dos arquivos contendo
os conjuntos de dados escolhidos. Com os arquivos carregados, cria-se um experimento ao
informar os parâmetros para esse experimento: nome do experimento, o número de vezes que
o experimento irá se repetir, o tamanho das reduções que serão realizadas nos conjuntos de
dados, e iniciar o processo.
A aplicação faz a leitura e armazenamento desses conjuntos de dados, e gera um
objeto DataFrame para cada conjunto de dados, esses Dataframes passam pelas reduções
informadas pelo usuário, assim aplica uma amostragem em cada um dos Dataframes. Para
cada tamanho de redução informado o sistema irá repetir essa redução o número de vezes
informado pelo usuário. Ao final deste passo a aplicação terá todas as meta-caracterı́sticas
necessárias para as análises.
Assim para cada repetição (RP) será realizada (Ns) reduções de tamanho (RT), onde
(NRTs) é a quatidade de reduções de tamanho. E RP x NRTs é o número de conjunto de
dados gerados para cada conjunto de dados(CD) do experimento, Assim (RP x NRTs x CD) é a
quantidade total de iterações de redução que irão passar pela extração das meta-caracterı́sticas.
Exemplo: Experimento com RP=30 e RT=[0.10,0.11,0.12,0.13,0.14,0.15, 0.16, 0.17,
0.18, 0.19, 0.20] e com 40 conjuntos de dados(CD), tem-se NRTs=11, portanto serão gerados
ao todo (RD x NRTs x CD) conjuntos, ou seja,(30 x 11 x 40) = 13.200 iterações de redução
nos conjuntos de dados que foram reduzidos e caracterizados.

Após o processo de caracterização pode-se visualizar os resultados individuais de cada
medida de caracterização por meio dos gráficos das medidas. O gráfico da medida mostra
em seu eixo X os tamanhos de redução e no eixo Y os valores da medida. Sendo o ponto
de intersecção entre os eixos X e Y o valor da medida de caracterização para o determinado
valor de diminuição. Esse gráfico possibilita visualizar o comportamento da medida conforme a
dimininuição do conjunto de dados acontece.
Outra visualização dos dados disponivel na aplicação são os Rankings das medidas
de caracterização, que organiza as medidas pelos maiores e menores scores. Os scores são
caculados com base no coeficiente de variação das medidas, que é a divisão entre o desvio
padrão e a média aritmética do conjunto das medidas. As medidas podem ser visualizadas de
três maneiras:
• Por conjunto de dados (não leva o tamanho de redução em consideração)
• Por conjunto de dados e tamanho de redução
• Por tamanho de redução (união dos resultados de todos os conjunto de dados)
3.3 REQUISITOS FUNCIONAIS
Os requisitos funcionais(RF) para a aplicação estão listados a seguir:
• RF01: Carregar conjunto de dados em formato CSV

Possibilitar o carregamento dos conjuntos de dados por upload de arquivos CSVs.
• RF02: Criar experimento

Possibilitar a criação de um experimento com nome, numero de repetições do experimento,
e os tamanhos de redução que serão realizados.
• RF03: Caracterizar os conjuntos de dados originais

Enviar os conjuntos de dados sem reduções para o MFE e manter as meta-caracterı́sticas
extraı́das de cada conjunto de dados.
• RF04: Realizar reduções aleatórias nos conjuntos de dados

Realizar reduções de instâncias em cada conjunto de dados carregados.
• RF05: Caracterizar os conjuntos de dados reduzidos

Enviar os conjutnos de dados para o MFE e manter as meta-caracterı́sticas extraı́das de
cada conjunto de dados.
• RF06: Exportar as metas-caracterı́sticas em CSV para download

Possibilitar a exportação das metas-caracterı́sticas em formato CSV.
• RF07: Visualizar o Gráfico de cada medida do experimento

Possibilitar a visulização do gráfico da medida após as reduções.
• RF08: Mostrar o ranking ds medidas de caracterização

Exibir o ranking das medidas de caracterização por conjunto de dados e tamanhos de
redução.
3.4 DIAGRAMA DE CASO DE USO
Segue nesta seção os casos de uso geral do sistema desenvolvido, criado a partir dos
requisitos funcionais:
• Carregar conjuntos de dados:
O usuário irá carregar arquivos no formato CSV com os conjutos de dados.
• Visualizar resultados em tabelas:
O usuário irá visualizar os resultados obtidos das medidas de caracterização após as
extrações em tabelas com rankings das medidas.
• Download dos conjuntos de dados:
O usuário irá pode realizar o download com dos resultados em formato CSV.
• Visualizar os resultados em gráficos:
O usuário podera visualizar os resultados de cada medida atraz de gráficos.
O diagrama com os casos de uso descritos estão presentes a seguir:

Figura 1 – Diagrama de caso de uso.
Fonte: Autoria Própria.
3.5 PROTÓTIPOS DE TELAS DA APLICAÇÃO
Esta seção traz as imagens das tela desenvolvidas e uma breve descrição sobre elas.
Devido a questão experimental do desenvolvimento não foi necessário focar na parte visual de
estilização das telas apresentadas.
A Figura 2 apresenta a tela inicial da aplicação, nesta tela inicial é possı́vel visualizar os
arquivos já carregados, escolher novos arquivos para carregar e carrega-los no sistema. Também
é possı́vel iniciar um experimento clicando em Gerar Experimento ou Listar Experimentos já
realizados. Outro acesso possı́vel nesta tela é o acesso a área do administrador.
Figura 2 – T ela inicial da aplicação.
Na representação gráfica apresentada na Figura 3, observa-se a interface que viabiliza

a concepção de um experimento. Nesse contexto, o usuário é incumbido de atribuir um nome
ao experimento, indicar o número de repetições a serem efetuadas e especificar os tamanhos
de redução a serem aplicados nos conjuntos de dados.
Figura 3 – T ela Gerar experimento.

A Figura 4 apresenta a tela que lista os resultados dos experimentos e possibilita

vizualizar as medidas em nı́vel individual, agrupadas por conjunto de dados, por conjunto de
dados e redução, e apenas por redução do conjunto de dados.
Figura 4 – Listar experimento.
A Figura 5 apresenta a tela que mostra as caracterı́sticas do experiemto e a lista de

botões com as todas as medidas de caracterização extraı́das.
Figura 5 – Tela visualizar experimento.

Por fim, nas Figuras 7, 8, 9 são apresentadas as telas para vizualização do gráfico.
O gráfico é orientado pelo valor da medida no eixo vertical (y) e o tamanho da redução no
conjunto de dados no eixo (x), onde cada ponto de intersecção entre os eixo representa o valor
da medida em cada uma das repetições realizada.
O gráfico da figura 6 apresenta os resultados obtidos da medida de caracterização
attr-concad e mostra as porcentagens de redução aplicadas aos conjunto de dados no eixo x, e
no eixo y o valor da medida para cada redução realizada. Neste gráfico a medida attr-concad
revelou-se ser uma medida que sofre alterações de valores com as repetições e alterações de
tamanho no conjunto de dados, pois o valores da medida variam entre todos os tamanhos de
reduções realizadas.
O gráfico Figura 7 apresenta a medida attri-ent.sd que revelou-se ser uma medida
que sofre poucas alterações de valores com as repetições e alterações de tamanho no conjunto
de dados, visto que a variação de valores desta medida passa a ocorrer apenas entre 18 a 20
por cento de redução.
O gráfico da Figura 8 apresenta a medida attri-conc.max e revelou-se ser uma medida
que não sofre alterações de valores com as repetições e alterações de tamanho no conjunto de
dados, visto que a não há variação de valores entre as repetições e as reduções realizadas.
Figura 6 – T ela vizualizar graficos.


Figura 9 – T ela de vizualização do Ranking das 25 menores coeficientes de variação das

medidas por conjunto de dados.
Figura 10 – T ela de vizualização do Ranking das medidas que não tiverem variações em relação
ao conjunto de dados sem redução de tamanho.

Figura 11 – T ela de vizualização do Ranking das 25 menores coeficientes de variação das

medidas por conjunto de dados e redução.
Figura 12 – T ela de vizualização do Ranking geral de variações de medidas por tamanho de

redução com todos os conjunto de dados.

19
4 RESULTADOS GERADOS EM UM EXPERIMENTO
Neste capı́tulo são apresentados os resultados gerados a partir de um experimento

realizado com a ferramenta desenvolvida. O experimento objetiva observar o comportamento
das meta-caracterı́sticas extraı́das de quarenta diferentes conjuntos de dados públicos para
aprendizado de máquina, retirados do repositório Irvine Machine Learning Repository e pode
ser encontrado no endereço <https://archive.ics.uci.edu/>, a lista dos conjunto de dados
utilizado encontra-se na seção Anexo A.
4.1 PARÂMETROS DO EXPERIMENTO
Os parâmetros usados no experimento foram aplicados a todos os conjuntos de dados,

os valores de número de repetições e número de conjuntos de dados foram definidos empirica-
mente e também foi considerada as limitações de hardware disponı́vel para o processamento.
Tabela 1 – Dados do Experimento

Campo Valor
Nome do Experimento experimento1
Número de Repetições 30
Número de Conjuntos de Dados 40
[0.10, 0.11, 0.12, 0.13, 0.14, 0.15
Tamanhos de Redução nos Conjuntos de Dados
, 0.16, 0.17, 0.18, 0.19, 0.20]
4.2 RESULTADOS DO EXPERIMENTO
Na presente seção, são apresentados os resultados obtidos no decorrer do experimento

conduzido. Ao total, foram realizadas 13.200 iterações de redução nos conjuntos de dados,
utilizando 40 conjuntos de dados distintos.
A análise efetuada permitiu destinguir as medidas de caracterização que apresentaram
variação em decorrência da redução do tamanho dos conjuntos de dados e aquelas que se
mantiveram invariáveis frente a tal redução.
O resultado da análise culminou na elaboração de textitrankings com base no coeficiente
de variação (CV) das medidas, foi escolhidaa a média por ser uma medida de centralidade
sensı́vel a valores extremos no conjunto de dados e o coeficiente de variação (CV), calculado
como o desvio padrão dividido pela média, fornece uma medida relativa de dispersão. Isso é
útil para comparar a variabilidade entre conjuntos de dados que têm médias diferentes.
Inicialmente, calculou-se o desvio padrão ( std) de cada medida de caracterização
utilizando a função std() no DataFrame que incorpora as referidas medidas. Esse desvio padrão
reflete a variabilidade dos dados.
Capı́tulo 4. RESULTADOS GERADOS EM UM EXPERIMENTO 20
Posteriormente, o coeficiente de variação foi calculado pela divisão do desvio padrão

pela média da medida, multiplicado por 100 para expressar o resultado em percentagem. O
cálculo é formulado da seguinte maneira:
CV=(std/média-medida)×100
Por fim, o coeficiente de variação foi arredondado para duas casas decimais e organizado
em ordem de classificação com base nos valores obtidos.
Esse procedimento metodológico visa fornecer uma compreensão mais aprofundada
acerca da variabilidade das medidas analisadas, permitindo a identificação das tendências
observadas com relação à redução do conjunto de dados.
O coeficiente de variação mede a variabilidade relativa de um conjunto de dados em
relação à sua média, sendo expresso como a razão entre o desvio padrão e a média. Construir
um ranking dos 25 menores e maiores coeficientes de variação para o conjunto de dados Iris
permite identificar as variáveis mais consistentes e menos sujeitas a flutuações, priorizando
aquelas com menor dispersão em relação às médias.
Para ilustrar os resultados as tabelas 1,2 e 3 a seguir trazem os ranks gerados para o
conjunto de dados Íris.
Tabela 2 – Ranking com os 25 menores coefientes de variação para o conjunto de dados Iris.
Rank Dataset Medida Redução Std Medida CV (%) Rank CV

0 Iris skewness.max 0.12 4.516810e-16 [0.0] 2.5
1 Iris var.median 0.10 3.350153e-17 [0.0] 2.5
2 Iris cor.median 0.14 2.061632e-17 [0.0] 2.5
3 Iris var.min 0.18 1.771422e-17 [0.0] 2.5
4 Iris sparsity.sd 0.19 8.777950e-04 [1.0] 9.5
14 Iris cor.sd 0.19 3.098669e-03 [2.0] 24.0
15 Iris skewness.mean 0.18 8.066000e-02 [2.0] 24.0
16 Iris attr ent.mean 0.16 6.682692e-02 [2.0] 24.0
20 Iris cor.sd 0.20 3.429114e-03 [2.0] 24.0
21 Iris cor.sd 0.12 3.858465e-03 [2.0] 24.0
22 Iris cor.sd 0.14 3.848367e-03 [2.0] 24.0
23 Iris cor.sd 0.15 2.757639e-03 [2.0] 24.0
24 Iris cor.sd 0.16 3.372988e-03 [2.0] 24.0
Tabela 3 – Ranking com os 25 maiores coefientes de variação entre as medidas para o conjunto
de dados Iris.
Rank Dataset Medida Redução Std Medida CV (%) Rank CV
758 Iris min.sd 0.13 7.316116e-01 [79.0] 758.0
759 Iris cov.min 0.12 1.523175e-03 [83.0] 760.0
760 Iris min.sd 0.19 7.821355e-01 [84.0] 761.0
761 Iris min.max 0.12 5.865935e+00 [85.0] 762.0
762 Iris min.sd 0.12 8.008101e-01 [86.0] 763.0
763 Iris min.mean 0.12 1.097687e-01 [87.0] 764.0
764 Iris min.max 0.19 6.328552e+00 [91.0] 765.0
765 Iris cor.min 0.17 6.733840e-03 [93.0] 766.0
766 Iris min.max 0.10 6.816225e+00 [98.0] 767.0
767 Iris cov.min 0.10 1.804995e-03 [99.0] 768.0
768 Iris cor.min 0.15 7.407877e-03 [102.0] 769.5
769 Iris cor.min 0.16 7.409640e-03 [102.0] 769.5
770 Iris min.sd 0.10 1.015293e+00 [109.0] 771.0
771 Iris eigenvalues.median 0.20 3.861207e-17 [111.0] 772.0
772 Iris min.mean 0.10 1.514364e-01 [120.0] 773.0
773 Iris min.mean 0.15 1.542580e-01 [123.0] 774.0
774 Iris min.sd 0.15 1.162934e+00 [125.0] 775.0
775 Iris min.max 0.15 8.780595e+00 [127.0] 776.0
776 Iris min.max 0.11 1.001407e+01 [144.0] 777.0
777 Iris cor.min 0.13 1.133713e-02 [156.0] 778.0
778 Iris min.sd 0.11 1.483393e+00 [159.0] 779.5
779 Iris cor.min 0.12 7.255829e-03 1.154610e-02 779.5
780 Iris min.mean 0.11 2.204153e-01 [175.0] 781.0
781 Iris cor.min 0.11 1.366439e-02 [188.0] 782.0
782 Iris cor.min 0.10 1.550308e-02 [214.0] 783.0
Tabela 4 – A tabela 4 mostra o Ranking das 25 primeiras medidas de caracterização que

permaneceram constantes após as reduções para o conjunto de dados Iris. Foram
consideradas medidas constantes as medidas de caracterização que após as reduções
apresentaram os mesmos valores das medidas de caracterizações dos conjuntos de
dados originais que não passaram por redução.
Posição do Rank Dataset Medida Valor da Medida Redução

0 Iris median.median 0.0 0.15
1 Iris h mean.min 0.0 0.15
7 Iris iq range.median 0.0 0.10
12 Iris h mean.median 0.0 0.12
14 Iris g mean.median 0.0 0.12
23 Iris sparsity.min 0.0 0.10
24 Iris sparsity.min 0.0 0.11
24
5 CONCLUSÃO
5.1 CONSIDERAÇÕES FINAIS
Este trabalho buscou obter resultados estatı́sticos sobre o comportamento das medidas
de caracterização em conjuntos de dados conforme acontece a redução do número de instâncias
desses conjuntos. Para isto foi desenvolvido um sistema web que automatiza os experimentos,
realiza as reduções nos conjuntos de dados, e faz as extrações das medidas de caracterização
para cada redução de tamanho informada, depois repete o processo pelo número de vezes
informado em cada experimento realizado.
Os resultados obtidos no experimento aqui descrito forneceu informações sobre o
comportamento das medidas de caracterização. Dentre essas informações é possı́vel destacar
a separação entre as medidas de caracterização que sofreram alteração com a redução dos
conjuntos de dados e as medidas de caracterização que se mantiveram constantes com as
reduções nos conjuntos de dados realizadas neste experimento.
A ferramenta desenvolvida também poderá ser usada para realizar outros experimentos
com reduções de tamanhos e conjuntos de dados diferentes do realizado nesse experimento,
aumentando assim os dados que descrevem o comportamento das medidas de caracterização.
Além do experimento e dos resultados obtidos a construção da aplicação web propor-
cionou a ampliação das habilidades de desenvolvimento de software, possibilitando a integração
entre o conhecimento prático de codificação nas tecnologias utilizadas com o conhecimento
adquirido a partir da pesquisa ciêntifica no campo das medidas de caracterização e a sua
importancia no avanço dos estudos na área de meta-aprendizado.
A aplicação da ferramenta MFE: Meta-Feature Extractor pode ser uma limitação
especı́fica em termos de quais meta-caracterı́sticas ela extrai e como lida com conjuntos de
dados especı́ficos. A compreensão das limitações dessa ferramenta é crucial para interpretar os
resultados.
Também existe a limitação dos resultados obtidos no experimento serem especı́ficos
para os conjuntos de dados utilizados e para as caracterı́sticas extraı́das. A generalização desses
resultados para diferentes domı́nios ou tipos de conjuntos de dados pode ser limitada.
A abordagem de redução de custos computacionais por meio da diminuição do tamanho
do conjunto de dados pode ter implicações na qualidade das meta-caracterı́sticas. Identificar os
limites aceitáveis de redução sem comprometer a representatividade das meta-caracterı́sticas
pode ser desafiador.
5.2 TRABALHOS FUTUROS
Para futuros desenvolvimentos desta aplicação, é possı́vel considerar a incorporação de

diversas técnicas de redução de tamanho de conjuntos de dados. Uma abordagem promissora
Capı́tulo 5. CONCLUSÃO 25
seria explorar métodos como a redução por seleção de instâncias mais representativas ou a
redução por agrupamento. Isso ampliaria as opções disponı́veis para os usuários, permitindo
uma customização mais refinada do processo de redução, levando em consideração diferentes
caracterı́sticas e padrões especı́ficos dos conjuntos de dados.
Além disso, uma melhoria significativa pode ser alcançada ao explorar métricas de avali-
ação adicionais, indo além dos coeficientes de variação. Investigar o uso de métricas estatı́sticas
adicionais ou medidas de distância proporcionaria uma compreensão mais aprofundada de como
as medidas de caracterização variam durante o processo de redução dos conjuntos de dados. A
inclusão de novas abordagens pode oferecer insights adicionais sobre o comportamento das
caracterı́sticas e seu impacto nas tarefas de aprendizado de máquina, contribuindo para uma
análise mais abrangente.
Essas extensões propostas podem enriquecer a aplicação, tornando-a mais versátil e
capaz de lidar com uma variedade maior de cenários e tipos de dados. Além disso, a exploração de
diferentes métricas de avaliação proporcionaria uma compreensão mais refinada do desempenho
das meta-caracterı́sticas em contextos diversos, melhorando assim a utilidade e robustez da
aplicação.
26
Referências
BENSUSAN, H.; GIRAUD-CARRIER, C.; KENNEDY, C. A higher-order approach to meta-

learning. In: Proceedings of the ECML’2000 workshop on Meta-Learning: Building
Automatic Advice Strategies for Model Selection , Method Combination. [S.l.]:
ECML’2000, 2000. p. 109 – 117. Other page information: 109-117 Conference Proceedings/Title
of Journal: Proceedings of the ECML’2000 workshop on Meta-Learning: Building Automa-
tic Advice Strategies for Model Selection , Method Combination Other identifier: 1000471.
Nenhuma citação no texto.
CASTIELLO, C.; CASTELLANO, G.; FANELLI, A. M. Meta-data: Characterization of input
features for meta-learning. In: TORRA, V.; NARUKAWA, Y.; MIYAMOTO, S. (Ed.). Modeling
Decisions for Artificial Intelligence, Second International Conference, MDAI 2005,
Tsukuba, Japan, July 25-27, 2005, Proceedings. Springer, 2005. (Lecture Notes in
Computer Science, v. 3558), p. 457–468. Disponı́vel em: <https://doi.org/10.1007/11526018\
45>. Nenhuma citação no texto.
FACELI, K.; LORENA A. C., G. J.; CARVALHO, A. C. P. L. F. Inteligência artificial: uma
abordagem de aprendizado de máquina. Rio de Janeiro: LTC, 2011. Nenhuma citação no
texto.
GIL, A. C. Como elaborar projetos de pesquisa. 4th. ed. São Paulo: Atlas, 2002. Bibliografia.
ISBN 85-224-3169-8. Nenhuma citação no texto.
GIRAUD-CARRIER CHRISTOPHE, V. R. B. P. Introduction to the Special Issue on Meta-
Learning. Machine Learning, v. 54, p. 187–193, March 2004. Nenhuma citação no texto.
HORTA, D.; CAMPELLO, R. J. G. B. Automatic aspect discrimination in data clustering.
Pattern Recognition, v. 45, p. 4370–4388, 2012. Nenhuma citação no texto.
PFAHRINGER, B.; BENSUSAN, H.; GIRAUD-CARRIER, C. Meta-learning by landmarking
various learning algorithms. In: Proceedings of the Seventeenth International Confe-
rence on Machine Learning, ICML’2000. [S.l.]: Morgan Kaufmann, 2000. p. 743 – 750.
ISBN 1558607072. Conference Proceedings/Title of Journal: Proceedings of the Seventeenth
International Conference on Machine Learning, ICML’2000. Nenhuma citação no texto.
RIVOLLI ADRIANO, G. L. P. S. C. V. J. C. A. Towards reproducible empirical research in
meta-learning. August 2018. Nenhuma citação no texto.
RIVOLLI ADRIANO, G. L. S. C. V. J. C. A. Meta-features for meta-learning. Knowledge-
Based Systems, v. 240, p. 108101, 2022. ISSN 0950-7051. Disponı́vel em: <https://www.
sciencedirect.com/science/article/pii/S0950705121011631>. Nenhuma citação no texto.
RIVOLLI ADRIANO, G. L. S. C. V. J. d. C. A. Characterizing classification datasets: a study of
meta-features for meta-learning. Information Sciences, v. 520, p. 197–217, 2020. Nenhuma
citação no texto.
SOARES, C. Learning Rankings of Learning Algorithms: Recommendation of Algo-
rithms with Meta-Learning. Tese (Doutorado) — Departamento de Ciência da Computação,
Faculdade de Ciências, Universidade do Porto, Porto, Portugal, 2004. Nenhuma citação no
texto.
Referências 27
VILALTA, R.; DRISSI, Y. A Perspective View and Survey of Meta-Learning. Artificial In-
telligence Review, v. 18, p. 77–95, 2002. Disponı́vel em: <https://doi.org/10.1023/A:
1019956318069>. Nenhuma citação no texto.
WOLPERT, D. H. The Lack of A Priori Distinctions Between Learning Algorithms. Neural

Computation, v. 8, n. 7, p. 1341–1390, October 1996. Nenhuma citação no texto.
WOLPERT, D. H.; MACREADY, W. G. No Free Lunch Theorems for Search. Sante Fe,
NM, USA, 1995. Nenhuma citação no texto.
Anexos

Extracaoanalisemetacaracteristicas

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Extracaoanalisemetacaracteristicas

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ

DEPARTAMENTO ACADÊMICO DE COMPUTAÇÃO

DANIEL GONÇALVES DA SILVA

EXTRAÇÃO E ANÁLISE DE META-CARACTERÍSTICAS EM

TRABALHO DE CONCLUSÃO DE CURSO

EXTRAÇÃO E ANÁLISE DE META-CARACTERÍSTICAS EM

Trabalho de Conclusão de Curso apresentado ao Curso de

Orientador: Adriano Rivolli da Silva

Extração e Análise de meta-caracterı́sticas em conjuntos de dados

Daniel Gonçalves da Silva

Cornélio Procópio, seis de dezembro de 2023

Prof. Dr. Adriano Rivoli

Profa. Dr. Rogério Santos Pozza

Prof. Dr. Cleber Gimenez Correa

“A Folha de Aprovação assinada encontra-se na Coordenação do Curso”

GONÇALVES, Daniel. Extração e Análise de meta-caracterı́sticas em conjuntos de dados para

GONÇALVES, Daniel. Analysis and extraction of meta-features in classification problems.

Tabela 1 – Dados do Experimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4 – RESULTADOS GERADOS EM UM EXPERIMENTO . . . . . . . . . . . 19

ANEXO A–Lista de Conjuntos de dados . . . . . . . . . . . . . . . . . . . . 27

Dentro da área de inteligência artificial, destaca-se o aprendizado de máquina, que

O aprendizado de máquina busca apresentar uma solução de software que utiliza as

As meta-caracterı́sticas são medidas organizadas em grupos, que definem de um modo

de pesquisa pode elucidar as questões em relação às meta-caracterı́sticas e sua utilização em

Um desafio para pesquisadores e desenvolvedores tem sido tratar os dados de forma a

A seguir são apresentados os objetivos gerais e especı́ficos definidos para o presente

1.4.1 OBJETIVOS GERAIS

Pretende-se neste trabalho desenvolver um sistema para extrair meta-caracterı́sticas

1.4.2 OBJETIVOS ESPECÍFICOS

Os objetivos especı́ficos a serem alcançados são:

1.5 ORGANIZAÇAO DO TRABALHO

• Capı́tulo 2: REVISÃO DE LITERATURA

• Capı́tulo 3: DESENVOLVIMENTO DO PROJETO

• Capı́tulo 4: RESULTADOS GERADOS EM UM EXPERIMENTO

O aprendizado de máquina é um ramo de estudo da Inteligência artificial que assemelha-

dos problemas investigados e, consequentemente, possibilite que o aprendizado a partir da

2.1 MFE: EXTRATOR DE META-CARACTERÍSTICAS

O pymfe (Python Meta-Feature Extractor) é uma ferramenta dedicada à extração de

caracterização, seguidas de sumarização, resultando nas valiosas meta-caracterı́sticas.

• A biblioteca pymfe1 é uma ferramenta útil para extrair caracterı́sticas de dados em

Com o objetivo de observar o comportamento das meta-caracterı́sticas em relação

3.1 RECURSOS UTILIZADOS

• API Django Rest Framework: A estrutura Django REST é um kit de ferramentas

Neste trabalho foi usada a metodologia de pesquisa bibliográfica juntamente com

nos conjuntos de dados que foram reduzidos e caracterizados.

3.3 REQUISITOS FUNCIONAIS

Os requisitos funcionais(RF) para a aplicação estão listados a seguir:

• RF01: Carregar conjunto de dados em formato CSV

• RF02: Criar experimento

• RF03: Caracterizar os conjuntos de dados originais

• RF04: Realizar reduções aleatórias nos conjuntos de dados

• RF05: Caracterizar os conjuntos de dados reduzidos

• RF06: Exportar as metas-caracterı́sticas em CSV para download

• RF07: Visualizar o Gráfico de cada medida do experimento

• RF08: Mostrar o ranking ds medidas de caracterização

3.4 DIAGRAMA DE CASO DE USO

O diagrama com os casos de uso descritos estão presentes a seguir:

Figura 1 – Diagrama de caso de uso.

Fonte: Autoria Própria.

3.5 PROTÓTIPOS DE TELAS DA APLICAÇÃO

Figura 2 – T ela inicial da aplicação.

Fonte: Autoria Própria.

Na representação gráfica apresentada na Figura 3, observa-se a interface que viabiliza