Você está na página 1de 1

UNIVERSIDADE FEDERAL DE MINAS GERAIS

INSTITUTO DE CIÊNCIAS EXATAS


DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
Algoritmos para Bioinformática – Primeiro Semestre 2019

Mineração de dados utilizando álgebra linear


Trabalho Prático

Observações

1) O trabalho é estritamente individual. Trabalhos julgados iguais terão nota zero sem prejuízo das
demais sanções.
2) Data limite para entrega: 25/04/2019; valor 25 pontos. Entregar na secretaria do DCC (quinto
andar do Anexo U)
3) A documentação é parte fundamental do trabalho; favor inteirar-se do formato sugerido para o
relatório.
4) Sinta-se à vontade em procurar-me para esclarecer dúvidas e/ou resolver problemas. Estarei à
disposição às terças e quintas na sala 7313 no Anexo U do ICEx.

Roteiro

Sejam os problemas Cancer Wisconsin (Diagnostic), Seeds e Iris do repositório


archive.ics.uci.edu/ml. Eles também estão presentes na outra base de dados, o Kaggle.

i) Disponibilizar as informações dos problemas no seu ambiente de trabalho. Isto é, vá


ao ‘Data Folder’ do repositório, baixe os dados (copy/paste funciona bem aqui) e
importe os dados para o ambiente de prototipagem escolhido (Scilab ou MatLab). Os
resultados deste item deverão ser matrizes de números onde as colunas representam as
características e as linhas os indivíduos de cada um dos problemas. Isto é, cada
elemento de uma das 3 bases será caracterizado pelo seu conjunto de features
(características). As colunas que não interessam à classificação (como a primeira e
última colunas – identificação e classe – do problema de câncer) deverão ser retiradas.

ii) No caso do câncer, a coluna de número 7, quando da importação que eu fiz,


apareceram 10 indivíduos com valores inválidos na coluna 7. Sinta-se à vontade para,
ou retirar os indivíduos com este problema (por volta de 10), ou para retirar esta coluna
da matriz - ignorar esta coluna. Por facilidade, eu retirei esta coluna: A(:, 7) = [];

iii) Fazer a decomposição por valores singulares para cotejar o número de grupos e
providenciar a visualização.

iv) Fazer um modelo de regressão logística para classificar uma das categorias de cada
uma de suas bases de dados.

v) Usar o kmeans para separar os dados, mostrando os resultados em um gráfico. Claro,


tirar proveito da decomposição por valores singulares para executar resolver este item

Marcos Augusto dos Santos

Você também pode gostar