Você está na página 1de 10

INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DO CEARÁ –

CAMPUS MARACANAÚ
EIXO TECNOLÓGICO DA INDÚSTRIA

FRANCISCO ERICK DE OLIVEIRA SOUSA


BRUNO PEREIRA TAKAZONO

TRABALHO 03 DE INTELIGÊNCIA COMPUTACIONAL APLICADA (ICA)

RECONHECIMENTO DE PADRÕES - 2023.1

MARACANAÚ
2023
FRANCISCO ERICK DE OLIVEIRA SOUSA
BRUNO PEREIRA TAKAZONO

TRABALHO 03 DE INTELIGÊNCIA COMPUTACIONAL APLICADA (ICA)

RECONHECIMENTO DE PADRÕES - 2023.1

Trabalho apresentado ao Curso de


Engenharia de Controle e Automação
do Instituto Federal de Educação,
Ciência e Tecnologia do Ceará – IFCE
Campus Maracanaú, como requisito
parcial para aprovação na disciplina de
Inteligência Computacional Aplicada.
.

MARACANAÚ
2023
SUMÁRIO

1. Introdução...........................................................................................................................3
2. Metodologia........................................................................................................................ 3
3. Resultados.......................................................................................................................... 5
3.1 Resultados da base de dados Dermatologia............................................................... 5
3.2 Resultados base de dados Coluna Vertebral............................................................... 6
4. Conclusão........................................................................................................................... 8
5. Apêndice............................................................................................................................. 9
1. Introdução

O objetivo deste relatório é apresentar uma análise comparativa do


desempenho de dois tipos de redes neurais artificiais na tarefa de classificação de
padrões: Perceptron Simples (PS) e Multilayer Perceptron (MLP), utilizando duas
bases de dados: Dermatología e Coluna Vertebral.
A base de dados Dermatologia contém informações de seis classes
(psoriasis, seboreic dermatitis, lichen planus, pityriasis rosea, cromic dermatitis,
pityriasis rubra pilaris) e com trinta e quatro atributos. O objetivo é classificar
corretamente cada amostra de acordo com sua patologia.
Já a base de dados Coluna Vertebral contém informações de seis
características biomecânicas usadas para classificar pacientes ortopédicos em 3
classes: normal (100 pacientes), hérnia de disco (60 pacientes) ou espondilolistese
(150 pacientes). O objetivo é classificar corretamente cada amostra de acordo com
sua categoria.
Cada rede neural apresenta suas peculiaridades para a execução da tarefa
de classificação, e espera-se que a análise comparativa dos resultados dos
experimentos permita identificar qual dos algoritmos apresenta o melhor
desempenho para cada base de dados e suas limitações.

2. Metodologia

Para a realização dos experimentos, as bases de dados Coluna Vertebral e


Dermatologia foram carregadas utilizando a biblioteca Pandas do Python. A
biblioteca NumPy foi utilizada para manipulação e processamento dos dados onde
houve uma checagem se as bases de dados possuíam dados faltantes, além disso
foi performado uma normalização dos dados de entrada usando o MinMaxScaler da
biblioteca scikit-learn,que transforma os dados numa escala de 0 a 1 e sua fórmula
é representada na Fig. (1).

Figura 1: A fórmula geral para um min-max de [0, 1]

3
Foi aplicado o One-Hot Encoder à variável alvo, cada categoria é
representada por uma coluna binária separada. Essa técnica garante que a
representação da categoria seja adequada para fins de classificação, com um valor
de 1 atribuído à categoria correspondente na coluna e valores de 0 nas demais
colunas para indicar a não pertinência às outras categorias.
A base de dados foi dividida em uma proporção de 80% para treinamento e
20% para teste.
No contexto da classificação, dois modelos de RNA foram utilizados: PS e
MLP. Ambos os modelos foram treinados com um número fixo de épocas, que
representa o número de vezes que o algoritmo percorre todo o conjunto de
treinamento durante o processo de aprendizagem. Para determinar o desempenho
ideal do modelo, o passo de aprendizagem foi selecionado com base em
experimentos empíricos.
No caso específico das duas bases de dados mencionadas (Coluna Vertebral
e Dermatologia), foram escolhidos os mesmos valores para learning rate e número
de épocas:
● Número de épocas: 100
● Learning rate: 0.01
No caso específico da MLP, além das épocas e do passo de aprendizagem, é
necessário especificar o número de neurônios na camada oculta. Essa decisão foi
tomada por meio de experimentação, explorando diferentes configurações de
números de neurônios em um range de 2 a 32 e avaliando o desempenho
resultante. O objetivo era encontrar a combinação mais adequada que resultasse
em um desempenho otimizado para o modelo.
● Número de neurônios na camada oculta (Dermatologia): 10
● Número de neurônios na camada oculta (Coluna Vertebral): 16
Todas as escolhas feitas em relação ao passo de aprendizagem, número de
épocas e número de neurônios na camada oculta foram baseadas em uma
abordagem experimental. Diferentes configurações foram avaliadas e comparadas
para identificar a combinação que resulta em um desempenho otimizado.
Essa abordagem experimental permite ajustar os parâmetros do modelo para
obter resultados mais precisos e aprimorar o desempenho geral da RNA na tarefa
de classificação.
Após o treinamento do modelo, ele foi avaliado utilizando os dados de treino

4
e teste. Essa etapa de avaliação com os dados de teste é essencial para verificar a
capacidade do modelo de generalizar o aprendizado e avaliar seu desempenho em
dados totalmente desconhecidos.

3. Resultados

3.1 Resultados da base de dados Dermatologia

Para validar os resultados e comparar o desempenho dos classificadores,


foram calculadas as taxas de acurácia médias após 50 rodadas e seus respectivos
desvios padrão. Esses valores foram organizados na Tabela 1. Além disso, foram
geradas matrizes de confusão a partir da soma de 50 iterações do experimento, as
quais estão apresentadas nas Tabelas 2 e 3. Essas tabelas fornecem uma visão
detalhada e abrangente do desempenho dos classificadores em relação à base de
dados analisada.

Tabela 1 - Resultados média accuracy da base de dados dermatologia após 50 rodada

Training Phase Test Phase


Classifiers Mean Std Mean Std
PS 0,972797 0,004383 0,969167 0,017412
MLP 0,978531 0,003831 0,974167 0,015217

Tabela 2 - Matrizes Confusão da base de dados dermatologia na rede PS após 50 rodadas

Classifier Prediction - Training Classifier Prediction - Test


Real Label 1 2 3 4 5 6 Real Label 1 2 3 4 5 6
1 4420 0 0 0 0 0 1 1130 0 0 0 0 0
2 73 2248 0 39 0 0 2 27 602 0 11 0 0
3 35 0 2823 0 0 0 3 0 0 677 0 0 0
4 0 124 0 1820 0 0 4 0 26 0 430 0 0
5 0 0 0 0 1842 0 5 8 10 0 0 458 0
6 36 0 0 0 0 758 6 14 0 0 0 0 192

5
Tabela 3 - Matrizes Confusão da base de dados dermatologia na rede MLP após 50 rodadas.

Classifier Prediction - Training Classifier Prediction - Test


Real Label 1 2 3 4 5 6 Real Label 1 2 3 4 5 6
1 4477 0 0 0 0 0 1 1073 0 0 0 0 0
2 0 2330 0 79 0 0 2 0 570 0 21 0 0
3 0 0 2809 0 0 0 3 0 0 741 0 0 0
4 0 195 0 1702 0 0 4 0 55 0 448 0 0
5 0 0 0 0 1909 0 5 0 0 0 0 491 0
6 33 0 0 0 0 766 6 17 0 0 0 0 184

A rede MLP demonstrou um desempenho superior em comparação à rede


PS, como evidenciado pela Tabela 1. Além disso, essa constatação é reforçada pela
análise das matrizes de confusão apresentadas nas Tabelas 2 e 3, nas quais se
observa um maior número de amostras classificadas erroneamente, especialmente
em relação às classes 2 e 4

3.2 Resultados base de dados Coluna Vertebral

A fim de validar os resultados e comparar o desempenho dos classificadores,


foram compiladas as taxas de acerto médias e seus respectivos desvios padrão e
dispostos na Tabela 4. Além disso, foram geradas matrizes de confusão a partir da
soma de 50 iterações do experimento, sendo apresentadas nas Tabelas 5 e 6.
Essas tabelas fornecem uma visão detalhada do desempenho dos classificadores
em relação à base de dados utilizada.

Tabela 4 - Resultados média accuracy da base de dados coluna vertebral após 50 rodada

Training Phase Test Phase


Classifiers Mean Std Mean Std
PS 0,817097 0,01 0,812258 0,04
MLP 0,828952 0,10942 0,813226 0,043768

6
Tabela 5 - Matrizes Confusão da base de dados coluna vertebral na rede PS após 50 rodadas.

Classifier Prediction - Training Classifier Prediction - Test


Real Label 1 2 3 Real Label 1 2 3
1 1962 253 205 1 488 47 45
2 1380 2506 125 2 370 594 25
3 232 73 5664 3 68 27 1436

Tabela 6 - Matrizes Confusão da base de dados coluna vertebral na rede MLP após 50 rodadas.

Classifier Prediction - Training Classifier Prediction - Test


Real Label 1 2 3 Real Label 1 2 3
1 1502 900 0 1 348 250 0
2 398 3399 165 2 102 901 35
3 150 508 5378 3 50 142 1272

A rede Multilayer Perceptron (MLP) demonstrou um desempenho superior


quando comparada à rede Perceptron Simples (PS), conforme evidenciado na
Tabela 4. Além disso, uma observação adicional pode ser feita ao analisar a matriz
de confusão da rede MLP, na qual os erros foram distribuídos de maneira mais
uniforme em relação à rede PS, como indicado nas Tabelas 5 e 6.

7
4. Conclusão

● A rede MLP apresentou um desempenho superior em relação à rede


PS na classificação das bases de dados de Dermatologia e Coluna
Vertebral.
● Os resultados quantitativos, como a acurácia, mostraram que a MLP
obteve melhores resultados do que a rede PS como mostrado nas
Tabelas 1 e 4.
● A análise das matrizes de confusão também evidenciou que a MLP
teve maior precisão e um menor número de amostras classificadas
erroneamente como pode ser visto nas tabelas 2, 3, 5 e 6.
● Portanto, para as bases de dados de dermatologia e coluna vertebral,
a rede MLP é a escolha mais adequada em termos de eficiência e
precisão na classificação.
● No entanto, embora a MLP seja geralmente preferida para problemas
não lineares e a PS para problemas linearmente separáveis, os
resultados dessa análise específica indicam que ambas as redes
podem ser eficazes e produzir resultados próximos em determinadas
situações. Cabe ressaltar que a escolha entre as duas redes
dependerá das características do problema e do conjunto de dados
específicos a serem tratados.
● É fundamental destacar que essas conclusões são específicas para as
bases de dados em análise e podem não ser generalizadas para
outros conjuntos de dados ou contextos de aplicação.

8
5. Apêndice

Código rede PS:


https://colab.research.google.com/drive/1e6H5qFwXLSgzQhbCl2zTyaFsrqNFi
U6L

Código rede MLP:


https://colab.research.google.com/drive/1gKIl3KFIgJB1-YST_z8DbkhIpd2OW
Uzj

Base de Dados Coluna Vertebra:


https://www.kaggle.com/code/caesarlupum/starter-vertebral-column-dataset

Base de Dados Dermatologia


Dermatology dataset | Kaggle

Você também pode gostar