Escolar Documentos
Profissional Documentos
Cultura Documentos
CORNÉLIO PROCÓPIO
2023
DANIEL GONÇALVES DA SILVA
CORNÉLIO PROCÓPIO
2023
Esta licença permite remixe, adaptação e criação a partir do trabalho para fins não comerciais,
desde que sejam atribuı́dos créditos ao(s) autor(es) e que licenciem as novas criações sob
termos idênticos. Conteúdos elaborados por terceiros, citados e referenciados nesta obra não
4.0 Internacional são cobertos pela licença.
UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ
DEPARTAMENTO ACADÊMICO DE COMPUTAÇÃO
CURSO DE ENGENHARIA DE SOFTWARE
TERMO DE APROVAÇÃO
por
Este Trabalho de Conclusão de Curso de graduação foi julgado adequado para obtenção
do Tı́tulo de “Bacharel” e aprovado em sua forma final pelo Programa de Curso de Engenharia
de Software da Universidade Tecnológica Federal do Paraná.
In machine learning, a dataset is a collection that represents the phenomena you want to
learn about through an inductive process. The characterization of these sets is often used
to understand their characteristics and so for use in meta-learning studies, which is why the
values that characterize a data set are called meta-features. This paper reports on research to
understand meta-feature behavior in classification data sets when the sets are reduced. With
this objective in mind, a software was developed that performs random reductions of the sets,
submits them to the characterization process using the Meta Feature Extractor (MFE) tool,
saves the results and generates graphs to analyze the behavior of the measurements after
the reductions have been made. The system allows the measures to be compared in terms of
their variability and reduction size, as well as listing the measures that do not change with the
perturbations made. The analysis of the behavior of the meta-features when the data sets are
reduced makes it possible to identify the choice of appropriate characterization measures for
problems in machine learning and meta-learning.
Keywords: Meta-features. Meta-learning. Dataset.
LISTA DE FIGURAS
Figura 1 –
Diagrama de caso de uso. . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Figura 2 –
T ela inicial da aplicação. . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Figura 3 –
T ela Gerar experimento. . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Figura 4 –
Listar experimento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Figura 5 –
Tela visualizar experimento. . . . . . . . . . . . . . . . . . . . . . . . . . 14
Figura 6 –
T ela vizualizar graficos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Figura 7 –
T ela vizualizar graficos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Figura 8 –
T ela vizualizar graficos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Figura 9 T ela de vizualização do Ranking das 25 menores coeficientes de variação
–
das medidas por conjunto de dados. . . . . . . . . . . . . . . . . . . . . . 17
Figura 10 – T ela de vizualização do Ranking das medidas que não tiverem variações em
relação ao conjunto de dados sem redução de tamanho. . . . . . . . . . . 17
Figura 11 – T ela de vizualização do Ranking das 25 menores coeficientes de variação
das medidas por conjunto de dados e redução. . . . . . . . . . . . . . . . 18
Figura 12 – T ela de vizualização do Ranking geral de variações de medidas por tamanho
de redução com todos os conjunto de dados. . . . . . . . . . . . . . . . . 18
LISTA DE TABELAS
1 – INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 CONTEXTO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 PROBLEMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.3 JUSTIFICATIVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4 OBJETIVOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4.1 OBJETIVOS GERAIS . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4.2 OBJETIVOS ESPECÍFICOS . . . . . . . . . . . . . . . . . . . . . . 2
1.5 ORGANIZAÇAO DO TRABALHO . . . . . . . . . . . . . . . . . . . . . . 3
2 – REVISÃO DE LITERATURA . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1 MFE: EXTRATOR DE META-CARACTERÍSTICAS . . . . . . . . . . . . . 5
3 – DESENVOLVIMENTO DO PROJETO . . . . . . . . . . . . . . . . . . . . 7
3.1 RECURSOS UTILIZADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.3 REQUISITOS FUNCIONAIS . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.4 DIAGRAMA DE CASO DE USO . . . . . . . . . . . . . . . . . . . . . . . 11
3.5 PROTÓTIPOS DE TELAS DA APLICAÇÃO . . . . . . . . . . . . . . . . . 12
5 – CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.1 CONSIDERAÇÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.2 TRABALHOS FUTUROS . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Anexos 26
1 INTRODUÇÃO
1.1 CONTEXTO
1.2 PROBLEMA
1.3 JUSTIFICATIVA
1.4 OBJETIVOS
• Desenvolver um sistema que fará a redução aleatória das instâncias dos conjuntos de
dados
• Realizar a extração das meta-caracterı́sticas nos conjuntos de dados.
• Analisar as meta-caracterı́sticas extraı́das dos conjuntos de dados originais.
• Analisar as meta-caracterı́sticas extraı́das dos conjuntos de dados após a redução do
conjunto de dados gerado pelo sistema desenvolvido.
• Analisar e comparar resultados obtidos a partir da execução de um estudo empı́rico
utilizando o sistema desenvolvido.
Capı́tulo 1. INTRODUÇÃO 3
Além deste capı́tulo introdutório, o presente trabalho conta com os seguintes capı́tulos:
• Capı́tulo 5: CONCLUSÃO
Neste capı́tulo encontra-se as considerações finais sobre o trabalho e aponta possı́veis
trabalhos futuros.
4
2 REVISÃO DE LITERATURA
1
<https://github.com/ealcobaca/pymfe>
2
<https://github.com/rivolli/mfe>
7
3 DESENVOLVIMENTO DO PROJETO
Nesta seção é apresentada uma sucinta descrição das ferramentas que foram utilizadas
no desenvolvimento deste projeto:
• JavaScript versão ECMAScript 6 : tecnologia escolhida para linguagem de desenvolvimento
front-end da aplicação, Pode ser usada para projetar e programar o comportamento de
uma página web a partir da ocorrência de um evento. O JavaScript é uma linguagem
baseada em protótipos, multi-paradigma e dinâmica, suportando estilos de orientação a
objetos, imperativos e declarativos (como por exemplo a programação funcional) ( MDN
CONTRIBUTORS,2021)
• AmCharts 4.0: é uma biblioteca com suporte para JavaScript e TypeScript: e foi usada
para criação de gráficos a partir dos dados gerados.
• SQLite 3.0: é uma biblioteca em linguagem C que implementa uma base de dados
SQL embutida. Foi usado para armazenar os dados relacionados aos experimentos e as
meta-caracterı́scticas extraı́das.
• Python 3 : linguagem de programação de alto nı́vel, interpretada de script, imperativa,
orientada a objetos, funcional, de tipagem dinâmica e forte. Esta linguagem foi escolhida
porque propicia o uso do pacote MFE Meta-Feature de forma nativa.
• Django 3.2: Um f ramework para desenvolvimento rápido para web, escrito em Python,
que utiliza o padrão model-template-view. Framework escolhido pela necessidade do
desenvolvimento emPython.
Capı́tulo 3. DESENVOLVIMENTO DO PROJETO 8
3.2 METODOLOGIA
Segue nesta seção os casos de uso geral do sistema desenvolvido, criado a partir dos
requisitos funcionais:
• Carregar conjuntos de dados:
O usuário irá carregar arquivos no formato CSV com os conjutos de dados.
• Visualizar resultados em tabelas:
O usuário irá visualizar os resultados obtidos das medidas de caracterização após as
extrações em tabelas com rankings das medidas.
• Download dos conjuntos de dados:
O usuário irá pode realizar o download com dos resultados em formato CSV.
• Visualizar os resultados em gráficos:
O usuário podera visualizar os resultados de cada medida atraz de gráficos.
Esta seção traz as imagens das tela desenvolvidas e uma breve descrição sobre elas.
Devido a questão experimental do desenvolvimento não foi necessário focar na parte visual de
estilização das telas apresentadas.
A Figura 2 apresenta a tela inicial da aplicação, nesta tela inicial é possı́vel visualizar os
arquivos já carregados, escolher novos arquivos para carregar e carrega-los no sistema. Também
é possı́vel iniciar um experimento clicando em Gerar Experimento ou Listar Experimentos já
realizados. Outro acesso possı́vel nesta tela é o acesso a área do administrador.
Capı́tulo 3. DESENVOLVIMENTO DO PROJETO 13
Por fim, nas Figuras 7, 8, 9 são apresentadas as telas para vizualização do gráfico.
O gráfico é orientado pelo valor da medida no eixo vertical (y) e o tamanho da redução no
conjunto de dados no eixo (x), onde cada ponto de intersecção entre os eixo representa o valor
da medida em cada uma das repetições realizada.
O gráfico da figura 6 apresenta os resultados obtidos da medida de caracterização
attr-concad e mostra as porcentagens de redução aplicadas aos conjunto de dados no eixo x, e
no eixo y o valor da medida para cada redução realizada. Neste gráfico a medida attr-concad
revelou-se ser uma medida que sofre alterações de valores com as repetições e alterações de
tamanho no conjunto de dados, pois o valores da medida variam entre todos os tamanhos de
reduções realizadas.
O gráfico Figura 7 apresenta a medida attri-ent.sd que revelou-se ser uma medida
que sofre poucas alterações de valores com as repetições e alterações de tamanho no conjunto
de dados, visto que a variação de valores desta medida passa a ocorrer apenas entre 18 a 20
por cento de redução.
O gráfico da Figura 8 apresenta a medida attri-conc.max e revelou-se ser uma medida
que não sofre alterações de valores com as repetições e alterações de tamanho no conjunto de
dados, visto que a não há variação de valores entre as repetições e as reduções realizadas.
Figura 10 – T ela de vizualização do Ranking das medidas que não tiverem variações em relação
ao conjunto de dados sem redução de tamanho.
CV=(std/média-medida)×100
Por fim, o coeficiente de variação foi arredondado para duas casas decimais e organizado
em ordem de classificação com base nos valores obtidos.
Esse procedimento metodológico visa fornecer uma compreensão mais aprofundada
acerca da variabilidade das medidas analisadas, permitindo a identificação das tendências
observadas com relação à redução do conjunto de dados.
O coeficiente de variação mede a variabilidade relativa de um conjunto de dados em
relação à sua média, sendo expresso como a razão entre o desvio padrão e a média. Construir
um ranking dos 25 menores e maiores coeficientes de variação para o conjunto de dados Iris
permite identificar as variáveis mais consistentes e menos sujeitas a flutuações, priorizando
aquelas com menor dispersão em relação às médias.
Para ilustrar os resultados as tabelas 1,2 e 3 a seguir trazem os ranks gerados para o
conjunto de dados Íris.
Capı́tulo 4. RESULTADOS GERADOS EM UM EXPERIMENTO 21
Tabela 2 – Ranking com os 25 menores coefientes de variação para o conjunto de dados Iris.
Tabela 3 – Ranking com os 25 maiores coefientes de variação entre as medidas para o conjunto
de dados Iris.
Rank Dataset Medida Redução Std Medida CV (%) Rank CV
758 Iris min.sd 0.13 7.316116e-01 [79.0] 758.0
759 Iris cov.min 0.12 1.523175e-03 [83.0] 760.0
760 Iris min.sd 0.19 7.821355e-01 [84.0] 761.0
761 Iris min.max 0.12 5.865935e+00 [85.0] 762.0
762 Iris min.sd 0.12 8.008101e-01 [86.0] 763.0
763 Iris min.mean 0.12 1.097687e-01 [87.0] 764.0
764 Iris min.max 0.19 6.328552e+00 [91.0] 765.0
765 Iris cor.min 0.17 6.733840e-03 [93.0] 766.0
766 Iris min.max 0.10 6.816225e+00 [98.0] 767.0
767 Iris cov.min 0.10 1.804995e-03 [99.0] 768.0
768 Iris cor.min 0.15 7.407877e-03 [102.0] 769.5
769 Iris cor.min 0.16 7.409640e-03 [102.0] 769.5
770 Iris min.sd 0.10 1.015293e+00 [109.0] 771.0
771 Iris eigenvalues.median 0.20 3.861207e-17 [111.0] 772.0
772 Iris min.mean 0.10 1.514364e-01 [120.0] 773.0
773 Iris min.mean 0.15 1.542580e-01 [123.0] 774.0
774 Iris min.sd 0.15 1.162934e+00 [125.0] 775.0
775 Iris min.max 0.15 8.780595e+00 [127.0] 776.0
776 Iris min.max 0.11 1.001407e+01 [144.0] 777.0
777 Iris cor.min 0.13 1.133713e-02 [156.0] 778.0
778 Iris min.sd 0.11 1.483393e+00 [159.0] 779.5
779 Iris cor.min 0.12 7.255829e-03 1.154610e-02 779.5
780 Iris min.mean 0.11 2.204153e-01 [175.0] 781.0
781 Iris cor.min 0.11 1.366439e-02 [188.0] 782.0
782 Iris cor.min 0.10 1.550308e-02 [214.0] 783.0
Capı́tulo 4. RESULTADOS GERADOS EM UM EXPERIMENTO 23
5 CONCLUSÃO
Este trabalho buscou obter resultados estatı́sticos sobre o comportamento das medidas
de caracterização em conjuntos de dados conforme acontece a redução do número de instâncias
desses conjuntos. Para isto foi desenvolvido um sistema web que automatiza os experimentos,
realiza as reduções nos conjuntos de dados, e faz as extrações das medidas de caracterização
para cada redução de tamanho informada, depois repete o processo pelo número de vezes
informado em cada experimento realizado.
Os resultados obtidos no experimento aqui descrito forneceu informações sobre o
comportamento das medidas de caracterização. Dentre essas informações é possı́vel destacar
a separação entre as medidas de caracterização que sofreram alteração com a redução dos
conjuntos de dados e as medidas de caracterização que se mantiveram constantes com as
reduções nos conjuntos de dados realizadas neste experimento.
A ferramenta desenvolvida também poderá ser usada para realizar outros experimentos
com reduções de tamanhos e conjuntos de dados diferentes do realizado nesse experimento,
aumentando assim os dados que descrevem o comportamento das medidas de caracterização.
Além do experimento e dos resultados obtidos a construção da aplicação web propor-
cionou a ampliação das habilidades de desenvolvimento de software, possibilitando a integração
entre o conhecimento prático de codificação nas tecnologias utilizadas com o conhecimento
adquirido a partir da pesquisa ciêntifica no campo das medidas de caracterização e a sua
importancia no avanço dos estudos na área de meta-aprendizado.
A aplicação da ferramenta MFE: Meta-Feature Extractor pode ser uma limitação
especı́fica em termos de quais meta-caracterı́sticas ela extrai e como lida com conjuntos de
dados especı́ficos. A compreensão das limitações dessa ferramenta é crucial para interpretar os
resultados.
Também existe a limitação dos resultados obtidos no experimento serem especı́ficos
para os conjuntos de dados utilizados e para as caracterı́sticas extraı́das. A generalização desses
resultados para diferentes domı́nios ou tipos de conjuntos de dados pode ser limitada.
A abordagem de redução de custos computacionais por meio da diminuição do tamanho
do conjunto de dados pode ter implicações na qualidade das meta-caracterı́sticas. Identificar os
limites aceitáveis de redução sem comprometer a representatividade das meta-caracterı́sticas
pode ser desafiador.
seria explorar métodos como a redução por seleção de instâncias mais representativas ou a
redução por agrupamento. Isso ampliaria as opções disponı́veis para os usuários, permitindo
uma customização mais refinada do processo de redução, levando em consideração diferentes
caracterı́sticas e padrões especı́ficos dos conjuntos de dados.
Além disso, uma melhoria significativa pode ser alcançada ao explorar métricas de avali-
ação adicionais, indo além dos coeficientes de variação. Investigar o uso de métricas estatı́sticas
adicionais ou medidas de distância proporcionaria uma compreensão mais aprofundada de como
as medidas de caracterização variam durante o processo de redução dos conjuntos de dados. A
inclusão de novas abordagens pode oferecer insights adicionais sobre o comportamento das
caracterı́sticas e seu impacto nas tarefas de aprendizado de máquina, contribuindo para uma
análise mais abrangente.
Essas extensões propostas podem enriquecer a aplicação, tornando-a mais versátil e
capaz de lidar com uma variedade maior de cenários e tipos de dados. Além disso, a exploração de
diferentes métricas de avaliação proporcionaria uma compreensão mais refinada do desempenho
das meta-caracterı́sticas em contextos diversos, melhorando assim a utilidade e robustez da
aplicação.
26
Referências
VILALTA, R.; DRISSI, Y. A Perspective View and Survey of Meta-Learning. Artificial In-
telligence Review, v. 18, p. 77–95, 2002. Disponı́vel em: <https://doi.org/10.1023/A:
1019956318069>. Nenhuma citação no texto.
WOLPERT, D. H.; MACREADY, W. G. No Free Lunch Theorems for Search. Sante Fe,
NM, USA, 1995. Nenhuma citação no texto.
Anexos