Você está na página 1de 3

COC 786 – Análise Inteligente de Dados

Exercícios Computacionais - 2004

A avaliação da disciplina COC 786 será realizada a partir de um relatório contendo as

conclusões obtidas com o desenvolvimento de 4 exercícios computacionais:

Exercício 01: Caracterização e visualização de bases de dados.

Exercício 02: Classificação supervisionada por métodos estatísticos.

Exercício 03: Classificação supervisionada por métodos “inteligentes”.

Exercício 04: Classificação não supervisionada.

A cada exercício computacional corresponde um ou mais scripts Matlab que abordam

tópicos vistos em aula e que serão distribuídos ao longo do curso. A relação entre

exercícios, scripts, tópicos e datas previstas de apresentação são as seguintes:

Ex.

Scipts

Tópicos

Data

01

vebase.m

Caracterização e Préprocessamento

09/03/2004

02

Bayes.m

Métodos Estatísticos de Classificação Supervisionada

30/03/2004

disclinear.m

03

rede1.m

Redes Neurais Sistemas Fuzzy Sistemas Neuro-Fuzzy

20/04/2004

fuzzy1.m

11/05/2004

nfuzzy1.m

25/05/2004

04

kmeans.m

Análise de Agrupamentos

18/05/2004

fcmeans.m

kohonen.m

O

aluno deverá escolher pelo menos um script correspondente a cada exercício e realizar

as alterações necessárias para realizar a análise das seguintes bases de dados:

well:

6 atributos e 3 classes, (sem descrição)

diabetes:

8 atributos e 2 classes,

glass:

9 atributos e 7 classes,

cancer :

9 atributos e 2 classes,

heart:

14 atributos e 2 (ou 4) classes

Cada conjunto de dados (exceto o primeiro) é formado por um arquivo <nome>.data contendo os dados e um arquivo <nome>.names contendo uma descrição do problema. os dois últimos dois conjuntos de dados possuem valores incompletos, necessitam de um pre-tratamento (retirar os registros contendo valores incompletos).

Cada exercício deve ser executado sobre os 4 conjuntos de dados. Desta forma, considerando ao menos 1 script por exercício e 4 conjuntos de dados, o relatório deverá conter as conclusões sobre, no mínimo, 16 experimentos computacionais. Entretanto recomenda-se fortemente que sejam realizados um número maior de experimentos computacionais visando uma análise exploratória do desempenho dos diversos algoritmos nas diversas bases de dados.

Para evitar erros irrecuperáveis, é aconselhável criar um subdiretório para cada conjunto de dados, alterar os scripts no interior de cada subdiretório.

O objetivo do Exercício 01 é explorar os conjuntos de dados visando entender melhor a base. Um objetivo secundário é a familiarização com o ambiente Matlab e a sua programação. O roteiro sugerido para o exercício é o seguinte:

1. Avaliar o efeito da normalização das variáveis sobre os gráficos.

2. Verificar a correlação entre variáveis através dos gráficos de projeção.

3. Avaliar o efeito do número de divisões sobre os histogramas.

4. Estimar quais variáveis podem ser melhores para a classificação.

Observem que estes conjuntos de dados possuem um número grande de atributos, de forma que pode ser muito trabalhoso realizar todas as combinações 2 a 2 nos gráficos de projeção. Esta é uma dificuldade real que encontrada frequentemente na pratica. Uma saída pode ser a redução do numero de atributos através da ACP.

Para os demais exercícios, o roteiro sugerido para cada um dos conjuntos de dados é o seguinte:

1. Particionar (aleatoriamente) o conjunto de dados em conjuntos de treinamento e teste. A validação cruzada é o procedimento mais indicado, entretanto tendo em vista que isso pode aumentar consideravelmente o volume de trabalho, pode-se particionar a base nas proporções de aproximadamente 70% e 30%, respectivamente para treinamento e teste.

2.

Executar cada classificador para o conjunto de treinamento e salvar os parâmetros correspondentes.

3. Gerar o código do classificador para o conjunto de teste, lendo os parâmetros registrados no passo anterior.

4. Executar os passos 2 e 3 examinando diversas alternativas de classificadores (observe que o classificador utilizado na fase de testes deve ser o mesmo que foi utilizado para o treinamento)

5. Explicar (na medida do possível) o comportamento dos classificadores, baseando- se na teoria e nos resultados obtidos no Exercício 01.

Uma vez que a visualização de dados deverá facilitar a interpretação dos resultados dos classificadores, é mais interessante realizar a seqüência de exercícios para cada base de dados que executar cada exercício para todas as bases de dados.

Os relatórios deverão ser entregues até o dia 04/06/2004, preferivelmente em formato PDF, (ou MS Word) embora versões impressas também serão aceitas. Os relatórios entregues em PDF ou MS Word ou serão posteriormente compilados em um único volume e disponibilizados aos demais alunos.