Escolar Documentos
Profissional Documentos
Cultura Documentos
Page 2
1 Classificação de clientes
Uma instituição financeira (fictı́cia) possui uma base de dados com o histórico de crediário
oferecido aos seus clientes. Baseado neste histórico, a instituição deseja investigar a criação
de modelos de classificação para inferir se um novo cliente que submeteu uma requisição
de empréstimo pagará ou não a dı́vida, caso o banco resolva realizar esse empréstimo. O
objetivo é predizer se um novo cliente pagaria ou não uma dı́vida contraı́da, tendo como base
as caracterı́sticas desse novo cliente. Uma vez treinado, um modelo de classificação para
esse problema poderá inferir se um novo cliente irá ou não honrar um eventual empréstimo
concedido a ele.
O conjunto de dados a ser utilizado para treinamento possui 1500 exemplos, e contém
dados relativos a créditos (empréstimos) concedidos aos clientes da instituição financeira.
Esses registros estão contidos no arquivo credtrain.txt, que é fornecido juntamente com
esse documento. Para cada cliente, são definidos 11 atributos (variáveis, caracterı́sticas).
Além disso, a última coluna de cada exemplo informa se o cliente honrou ou não o pagamento
do empréstimo. Na Tabela 1, encontramos a descrição dos atributos.
Repare que esse conjunto de dados contém diversos atributos que não são numéricos.
Repare também que, dentre os atributos numéricos, há uma grande discrepância entre as
suas respectivas faixas de valores. Modelos de redes neurais não podem ser treinados sobre
atributos que não são numéricos. Além disso, é sabido que diferenças grandes entre as faixas
de valores dos atributos atrapalha o processo de treinamento. Sendo assim, antes de iniciar
o treinamento, é preciso realizar diversos passos de pré-processamento sobre esses dados.
Esses passos já são fornecidos em um notebook Jupyter.
Você deve criar o modelo de classificação de clientes por meio de uma rede neural MLP
(multi-layer perceptron) com propagação do erro (error backpropagation). Você deve definir
os hiperparâmetros da rede neural. Como dica, dada a baixa complexidade do problema,
você pode usar uma rede MLP de uma única camada oculta. Em seu relatório, apresente os
Page 3
detalhes dos hiperparâmetros selecionados (quantidade de épocas de treinamento, tamanho
do lote, taxa de aprendizado, quantidade de neurônios na camada oculta, otimizador, funções
de ativação, etc). Apresente a curva de aprendizado correspondente ao treinamento do
modelo.
Após o treinamento, você deve avaliar a qualidade preditiva do modelo de rede neural
gerado. Para isso, você deve usar os exemplos contidos no arquivo credtest.txt. Isso
permitirá que você avalie o quão efetivo foi o passo de treinamento da rede neural, ou seja, o
quão adequado é o modelo de classificação. Produza a matriz de confusão (confusion matrix )
relativa aos resultados da fase de testes (credtest). Apresente também o resultado produ-
zido pela função classification report do Scikit-Learn. Produza a matriz de confusão
(confusion matrix ) relativa aos resultados da fase de testes (credtest). Apresente também
o resultado produzido pela função classification report do Scikit-Learn.
Page 4
dos pode ser obtido em https://www.kaggle.com/zalando-research/fashionmnist. Ou-
tro link relevante para esta parte do trabalho é https://github.com/zalandoresearch/
fashion-mnist.
Após ler os conjuntos de dados, você deve treinar dois modelos de classificação utilizando
o PyTorch, conforme descrito a seguir:
• Uma rede completamente conectada de uma única camada oculta e com uma camada
de saı́da de duas unidades com softmax.
Page 5