Você está na página 1de 5

Mineração de dados utilizando álgebra linear

Trabalho Prático 2
Aluna: Jéssica Rodrigues Ribeiro
Matrícula: 2017091744

1. Introdução

Este trabalho visa colocar em prática a mineração de dados utilizando álgebra linear com a
utilização MatLab como ambiente de prototipagem que foi trabalhado e explorado em sala.

A decomposição em valores singulares é uma das técnicas mais importantes na álgebra


linear. Suas aplicações são vastas e é muito utilizado como um passo em muitos algoritmos por
causa do grande número de informações que podem ser obtidas através desta decomposição

O objetivo desse trabalho é utilizar um problema extraído do repositório


archive.ics.uci.edu/ml cujo problema selecionado aborda as características da planta Iris. A partir
disso iremos visualizar e analisar como a matriz se comporta a partir da decomposição por
valores singulares e elaborar um modelo de regressão logística para classificar uma das
categorias de cada uma de suas bases de dados.

Atributo previsto: classe da planta da íris.

Iris é um género de plantas com flor, muito apreciado pelas suas diversas espécies, que
ostentam flores de cores muito vivas. As íris são plantas perenes, crescendo a partir de rizomas
rastejantes ou, em climas mais secos, de bulbos. Têm hastes de flores longas e eretas que
podem ser simples ou ramificadas, sólidas ou ocas, achatadas ou com uma secção transversal
circular. As espécies geralmente têm de 3 a 10 folhas em forma de espada basal crescendo em
aglomerados densos ou, têm folhas basais cilíndricas. Dessa forma, a Iris pode ser classificada
por diversos critérios:

a) Comprimento da sépala em cm
b) Largura da sépala em cm
c) Comprimento da pétala em cm
d) Largura da pétala em cm
e) Classe:
 Iris Setosa
 Iris Versicolour
 Iris Virginica
2. Métodos

Foi utilizado o Matlab para a disponibilização dos dados do problema em um ambiente de


prototipagem. A partir disso, conseguimos visualizar as matrizes e as informações que
transmitem, isto é, as características e os indivíduos.

Posteriormente fez-se a decomposição por valores singulares para cotejar o número de


grupos e permitir visualização.
Para resolver o sistema Ax = b usando o SVD, temos que a matriz 'vec2' foi feita a partir da
classificação da Iris Setosa, onde os valores de posição 1 a 50 eram classificados como a
desejada, então foi criada uma matriz de 1:150 onde as 50 primeiras posições foram preenchida
com log(0,9999⁄(1 − 0,9999)) sendo a classificação desejada. Assim foi resolvido o problema
linear usando SVD.

3. Discussão dos Resultados

A partir dos procedimentos citados e dos autovalores apresentados na matriz S, podemos


então determinar que um SVD truncado usando apenas duas colunas da matriz U e duas linhas
da matriz 𝑉 𝑡 gera uma reprodução aceitável da matriz original A sem muita perda de conteúdo.

Como cada coluna da matriz U representa uma característica da flor podemos então
observar que a primeira e segunda coluna representam aquelas que contem características mais
importantes. Já, com as linhas da matriz 𝑉 𝑡 podemos comparar o grau que cada característica se
encaixa em cada caracterização, ou seja, o quanto cada característica está pertencendo àquela
caracterização, sendo cada coluna uma característica da planta e as linhas as caracterizações
(tamanho da pétala, largura...).
Foi feita a regressão usando log(0,9999⁄(1 − 0,9999)) para verdadeiro '1' (classe que
quero) e log(0,0001⁄(1 − 0,0001)) para falso '0' (classe que não quero).Com o resultado da
regressão achamos a matriz “beta” na qual poderemos fazer a previsão de futuras flores da
classe Iris Setosa.

A seguir um gráfico para termos uma melhor visualização da classificação das flores
(vermelho a que queremos classificar; verde e azul as outras). O gráfico foi feito através da
multiplicação da matriz de autovalores pela matriz de autovetores esquerdos (matriz 'S' pela
matriz 'U').
4. Conclusões

Com essa prototipagem conseguimos observar o comportamento da matriz a partir do SVD


e a grande quantidade de informações que podem ser obtidas a partir desse método de
decomposição.

Também podemos observar que o Matlab é uma ótima ferramenta para fazer cálculos de
matrizes de ordem grandes e análise de dados.

5. Referências

OLIVEIRA, Juliano. Estudo da Decomposição em Valores Singulares e Análise Dos Componentes


Principais. Disponível em:
<https://app.uff.br/riuff/bitstream/1/4173/1/Juliano%20Vieira%20de%20Oliveira%202016-1.PDF>

UC Irvine Machine Learning Repository. Disponível em: <http://archive.ics.uci.edu/ml/index.php>

Iris (plant). Disponível em: <https://en.wikipedia.org/wiki/Iris_(plant)>

Você também pode gostar