Você está na página 1de 107

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

INSTITUTO DE INFORMTICA
PROGRAMA DE PS-GRADUAO EM COMPUTAO

SANDRO DA SILVA CAMARGO

Um Modelo Neural de Aprimoramento


Progressivo para Reduo de
Dimensionalidade

Tese apresentada como requisito parcial para a


obteno do grau de Doutor em Cincia da
Computao

Prof. Dr. Paulo Martins Engel


Orientador

Porto Alegre, junho de 2010.

CIP CATALOGAO NA PUBLICAO

Camargo, Sandro da Silva


Um Modelo Neural de Aprimoramento Progressivo para
Reduo de Dimensionalidade / Sandro da Silva Camargo Porto
Alegre: Programa de Ps-Graduao em Computao, 2010.
107 f.:il.
Tese (doutorado) Universidade Federal do Rio Grande do Sul.
Programa de Ps-Graduao em Computao. Porto Alegre, BR
RS, 2010. Orientador: Paulo Martins Engel.
1. Heurstica 2. Wrapper 3. Reduo de dimensionalidade 4.
Seleo de caractersticas 5. Modelagem neural.. I. Engel, Paulo
Martins. III. Ttulo.

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL


Reitor: Prof. Carlos Alexandre Netto
Vice-Reitor: Prof. Rui Vicente Oppermann
Pr-Reitor de Ps-Graduao: Prof. Aldo Bolten Lucion
Diretor do Instituto de Informtica: Prof. Flvio Rech Wagner
Coordenador do PPGC: Prof. lvaro Freitas Moreira
Bibliotecria-Chefe do Instituto de Informtica: Beatriz Regina Bastos Haro

AGRADECIMENTOS
Este trabalho deve muito a algumas pessoas e instituies que eu gostaria de
agradecer especialmente:
Ao meu orientador, Prof. Dr. Paulo Martins Engel, por todo o estmulo,
compreenso e auxlio realizao deste trabalho.
Ao professores do Instituto de Informtica por terem contribudo com a minha
formao.
Aos professores do Centro de Biotecnologia que, acima de tudo, me mostraram a
cincia sob uma perspectiva diferente e fascinante.
Aos grandes amigos que fiz em todo o perodo de minha formao no instituto de
informtica.
minha famlia, por todo apoio, carinho, amor e por suportarem pacientemente
minha luta durante todos estes ltimos anos.
Ao Exrcito Brasileiro, especialmente ao 1 CTA, que teve papel fundamental no
suporte financeiro realizao deste meu sonho.
Obrigado.

SUMRIO
AGRADECIMENTOS ......................................................................................... 3
LISTA DE ABREVIATURAS E SIGLAS ............................................................ 6
LISTA DE FIGURAS .......................................................................................... 7
LISTA DE TABELAS ......................................................................................... 9
RESUMO.......................................................................................................... 10
ABSTRACT...................................................................................................... 11
1 INTRODUO ........................................................................................... 12
1.1
1.2
1.3

Objetivos e Escopo da Proposta ......................................................................... 14


Aplicaes da abordagem proposta ................................................................... 14
Organizao da Proposta.................................................................................... 15

2 DESCOBERTA DE CONHECIMENTO EM BANCO DE DADOS .............. 16


2.1 Excesso de informao: Panorama atual........................................................... 16
2.2 A hierarquia de contedo da mente humana.................................................... 17
2.3 Inteligncia artificial e aprendizado de mquina ............................................. 19
2.3.1 Aplicaes de aprendizado de mquina.............................................................. 20
2.4 Descoberta de Conhecimento em Banco de Dados ........................................... 21
2.4.1 Pr-Processamento ............................................................................................. 22
2.4.2 Minerao de Dados ........................................................................................... 27
2.4.3 Avaliao da fase de minerao de dados .......................................................... 30
2.4.4 Ps-Processamento ............................................................................................. 36
3 REDES NEURAIS ARTIFICIAIS ................................................................ 38
3.1 Inspirao biolgica............................................................................................. 38
3.2 O neurnio artificial ............................................................................................ 40
3.2.1 Funes de ativao............................................................................................ 41
3.3 A Rede Neural Artificial ..................................................................................... 43
3.3.1 Arquiteturas de rede............................................................................................ 43
3.3.2 Algoritmos de treinamento ................................................................................. 45
3.3.3 Codificao de entradas e sadas ........................................................................ 48
4 REDUO DE DIMENSIONALIDADE DOS DADOS ................................ 49
4.1

Panorama atual.................................................................................................... 49

4.2 Maldio da dimensionalidade e o fenmeno do pico ...................................... 49


4.3 Classificao das tcnicas de RDD ..................................................................... 51
4.3.1 Extrao de caractersticas.................................................................................. 53
4.3.2 Construo de caractersticas.............................................................................. 54
4.4 Seleo de caractersticas: fundamentos e estado da arte ............................... 56
4.4.1 Os sub-processos da SSC ................................................................................... 56
4.4.2 Seleo de ponto de partida ................................................................................ 56
4.4.3 Seleo da Funo de Avaliao ........................................................................ 57
4.4.4 Seleo da estratgia de busca............................................................................ 62
4.4.5 Formas de funcionamento .................................................................................. 66
4.4.6 Seleo do Critrio de Parada............................................................................. 70
5 O MODELO NEURAL DE APRIMORAMENTO PROGRESSIVO.............. 72
5.1 Fundamentao terica e estrutura do modelo ................................................ 72
5.2 Avaliao da proposta sobre dados sintticos................................................... 78
5.2.1 Conjunto de dados sinttico XOR ...................................................................... 78
5.2.2 Conjunto de dados sinttico SENO .................................................................... 80
5.3 Avaliao da proposta sobre dados reais .......................................................... 82
5.3.1 Sries Temporais ................................................................................................ 83
5.3.2 Regresso............................................................................................................ 86
5.3.3 Classificao....................................................................................................... 96
6 CONCLUSES E TRABALHOS FUTUROS ............................................. 99
REFERNCIAS.............................................................................................. 102

LISTA DE ABREVIATURAS E SIGLAS


ACP

Anlise de Componentes Principais

ACI

Anlise de Componentes Independentes

ADL

Anlise de Discriminantes Lineares

AG

Algoritmos Genticos

BP

Backpropagation

CBR

Case Based Reasoning, ou Raciocnio Baseado em Casos

CCS

Contagem de Clulas Somticas

DCBD

Descoberta de Conhecimento em Banco de Dados

EB

Exabyte

DAM

Desvio Absoluto Mdio

EQM

Erro Quadrado Mdio

GLS

Generalized Least Squares

IA

Inteligncia Artificial

kNN

k Nearest Neighbor, ou k-simo vizinho mais prximo

MB

Megabyte

MD

Minerao de Dados

MLP

Multi Layer Perceptron

OLS

Ordinary Least Squares

PLI

Programao em Lgica Indutiva

RDD

Reduo de Dimensionalidade dos Dados

RGS

Regression Gradient guided feature Selection

RNAs

Redes Neurais Artificiais

ROC

Receiver Operating Characteristic

SSC

Seleo de Subconjunto de Caractersticas

TLFN

Time Lagged Feed-Forward Network

LISTA DE FIGURAS
Figura 2.1: Hierarquia de contedo da mente humana................................................... 17
Figura 2.2: Relao dos dados com a compreenso e a conectividade .......................... 18
Figura 2.3: Relao entre aprendizado e seu valor......................................................... 21
Figura 2.4: O modelo clssico do processo de DCBD ................................................... 22
Figura 2.5: O espao ROC.............................................................................................. 35
Figura 2.6: Curva Lift ..................................................................................................... 35
Figura 3.1: O neurnio biolgico ................................................................................... 39
Figura 3.2: O neurnio artificial ..................................................................................... 40
Figura 3.3: Funes de ativao ..................................................................................... 42
Figura 3.4: Exemplo tpico de uma RNA multicamada ................................................. 45
Figura 4.1: Taxa de erro em funo da dimensionalidade.............................................. 50
Figura 4.2: Fenmeno do Pico........................................................................................ 51
Figura 4.3: Abordagem de filtros ................................................................................... 67
Figura 4.4: Abordagem de wrappers.............................................................................. 68
Figura 4.5: Abordagem embutida................................................................................... 69
Figura 5.1: RNA do tipo MLP........................................................................................ 73
Figura 5.2: Seqncia de atividades do modelo neural de aprimoramento progressivo 76
Figura 5.3: Seqncia das atividades que compem o clculo do melhor subconjunto de
caractersticas.................................................................................................................. 77
Figura 5.4: Escores para cada uma das 20 caractersticas de entrada............................. 80
Figura 5.5: Escores para cada uma das 50 caractersticas de entrada............................. 81
Figura 5.6: Predio dos valores da srie temporal usando 48 caractersticas de entrada
........................................................................................................................................ 85
Figura 5.7: Escores das caractersticas de entrada.......................................................... 85
Figura 5.8: Predio dos valores da srie temporal usando o conjunto reduzido de
caractersticas de entrada ................................................................................................ 86
Figura 5.9: Resultado desejado x resultado obtido de macroporosidade para cada uma
das 48 amostras por meio da regresso com 60 entradas na rede................................... 88
Figura 5.10: Erro de predio de macroporosidade para cada uma das 48 amostras
usando 60 caractersticas como entrada da rede............................................................. 88
Figura 5.11: Pesos sinpticos de cada uma das 60 caractersticas da camada de entrada
usados para predio de macroporosidade. .................................................................... 89
Figura 5.12: Resultado desejado x resultado obtido de macroporosidade por meio da
regresso com 3 entradas na rede. .................................................................................. 91
Figura 5.13: Erros de predio de macroporosidade com 3 e 60 caractersticas de
entrada. ........................................................................................................................... 91
Figura 5.14: Resultado desejado x resultado obtido de porosidade petrofsica por meio
da regresso com 70 entradas na rede. ........................................................................... 92

Figura 5.15: Erro de predio de porosidade petrofsica para cada um das 48 amostras
usando 70 caractersticas como entrada da rede............................................................. 93
Figura 5.16: Pesos sinpticos de cada uma das 70 caractersticas da camada de entrada
usadas para predio de porosidade petrofsica.............................................................. 93
Figura 5.17: Resultado desejado x resultado obtido de porosidade petrofsica por meio
da regresso com 2 entradas na rede. ............................................................................. 95
Figura 5.18: Erros de predio de porosidade petrofsica com 2 e 70 caractersticas de
entrada. ........................................................................................................................... 96
Figura 5.19: Escores das 39 caractersticas de entrada................................................... 97
Figura 5.20: Desempenho relativo dos modelos com diferentes quantidades de
caractersticas.................................................................................................................. 97

LISTA DE TABELAS
Tabela 2.1: Erro de classificao binria........................................................................ 33
Tabela 2.2: Matriz de confuso ...................................................................................... 34
Tabela 4.1: Exemplos de tcnicas de extrao de caractersticas................................... 54
Tabela 5.1: Distncia euclidiana entre os valores ideais de escore e os valores obtidos
com cada uma das abordagens utilizadas no problema do XOR.................................... 79
Tabela 5.2: Distncia euclidiana entre os valores ideais de escore e os valores obtidos
com cada uma das abordagens utilizadas no problema do SIN...................................... 82
Tabela 5.3: Matriz de regresso criada com o vetor de entrada ..................................... 83
Tabela 5.4: Caractersticas mais importantes para a predio da macroporosidade ...... 89
Tabela 5.5: Variao da taxa de erro em funo do nmero de caractersticas de entrada
........................................................................................................................................ 90
Tabela 5.6: Caractersticas mais importantes para a predio da porosidade petrofsica94
Tabela 5.7: Variao da taxa de erro em funo do nmero de caractersticas de entrada
........................................................................................................................................ 95
Tabela 5.8: Comparao de 2 modelos gerados com a abordagem proposta e modelo
original com todas as caractersticas. ............................................................................. 98

RESUMO
Nas ltimas dcadas, avanos em tecnologias de gerao, coleta e armazenamento
de dados tm contribudo para aumentar o tamanho dos bancos de dados nas diversas
reas de conhecimento humano. Este aumento verifica-se no somente em relao
quantidade de amostras de dados, mas principalmente em relao quantidade de
caractersticas descrevendo cada amostra. A adio de caractersticas causa acrscimo
de dimenses no espao matemtico, conduzindo ao crescimento exponencial do
hipervolume dos dados, problema denominado maldio da dimensionalidade. A
maldio da dimensionalidade tem sido um problema rotineiro para cientistas que, a fim
de compreender e explicar determinados fenmenos, tm se deparado com a
necessidade de encontrar estruturas significativas ocultas, de baixa dimenso, dentro de
dados de alta dimenso. Este processo denomina-se reduo de dimensionalidade dos
dados (RDD). Do ponto de vista computacional, a conseqncia natural da RDD uma
diminuio do espao de busca de hipteses, melhorando o desempenho e simplificando
os resultados da modelagem de conhecimento em sistemas autnomos de aprendizado.
Dentre as tcnicas utilizadas atualmente em sistemas autnomos de aprendizado, as
redes neurais artificiais (RNAs) tm se tornado particularmente atrativas para
modelagem de sistemas complexos, principalmente quando a modelagem difcil ou
quando a dinmica do sistema no permite o controle on-line. Apesar de serem uma
poderosa tcnica, as RNAs tm seu desempenho afetado pela maldio da
dimensionalidade. Quando a dimenso do espao de entradas alta, as RNAs podem
utilizar boa parte de seus recursos para representar pores irrelevantes do espao de
busca, dificultando o aprendizado. Embora as RNAs, assim como outras tcnicas de
aprendizado de mquina, consigam identificar caractersticas mais informativas para um
processo de modelagem, a utilizao de tcnicas de RDD frequentemente melhora os
resultados do processo de aprendizado.
Este trabalho prope um wrapper que implementa um modelo neural de
aprimoramento progressivo para RDD em sistemas autnomos de aprendizado
supervisionado visando otimizar o processo de modelagem. Para validar o modelo
neural de aprimoramento progressivo, foram realizados experimentos com bancos de
dados privados e de repositrios pblicos de diferentes domnios de conhecimento. A
capacidade de generalizao dos modelos criados avaliada por meio de tcnicas de
validao cruzada. Os resultados obtidos demonstram que o modelo neural de
aprimoramento progressivo consegue identificar caractersticas mais informativas,
permitindo a RDD, e tornando possvel criar modelos mais simples e mais precisos. A
implementao da abordagem e os experimentos foram realizados no ambiente Matlab,
utilizando o toolbox de RNAs.
Palavras-Chave: Heurstica, wrapper, reduo de dimensionalidade, seleo de
caractersticas, modelagem neural, aprimoramento progressivo.

A Progressive Enhancement Neural Model for dimensionality


reduction

ABSTRACT
In recent decades, advances on data generation, collection and storing technologies
have contributed to increase databases size in different knowledge areas. This increase
is seen not only regarding samples amount, but mainly regarding dimensionality, i.e. the
amount of features describing each sample. Features adding causes dimension
increasing in mathematical space, leading to an exponential growth of data
hypervolume. This problem is called the curse of dimensionality. The curse of
dimensionality has been a routine problem for scientists, that in order to understand and
explain some phenomena, have faced with the demand to find meaningful low
dimensional structures hidden in high dimensional search spaces. This process is called
data dimensionality reduction (DDR). From computational viewpoint, DDR natural
consequence is a reduction of hypothesis search space, improving performance and
simplifying the knowledge modeling results in autonomous learning systems.
Among currently used techniques in autonomous learning systems, artificial neural
networks (ANNs) have becoming particularly attractive to model complex systems,
when modeling is hard or when system dynamics does not allow on-line control.
Despite ANN being a powerful tool, their performance is affected by the curse of
dimensionality. When input space dimension is high, ANNs can use a significant part of
their resources to represent irrelevant parts of input space making learning process
harder. Although ANNs, and other machine learning techniques, can identify more
informative features for a modeling process, DDR techniques often improve learning
results.
This thesis proposes a wrapper which implements a Progressive Enhancement
Neural Model to DDR in supervised autonomous learning systems in order to optimize
the modeling process. To validate the proposed approach, experiments were performed
with private and public databases, from different knowledge domains. The
generalization ability of developed models is evaluated by means of cross validation
techniques. Obtained results demonstrate that the proposed approach can identify more
informative features, allowing DDR, and becoming possible to create simpler and more
accurate models. The implementation of the proposed approach and related experiments
were performed in Matlab Environment, using ANNs toolbox.
Keywords: Heuristics, wrapper, dimensionality reduction, feature selection, neural
modeling.

1 INTRODUO

Nas ltimas dcadas, o desenvolvimento de novas tecnologias de gerao e


aquisio de dados e a facilidade de obteno de dados atravs de simulao, aliadas
reduo do custo de armazenamento, tm contribudo para uma sobrecarga de
informao nas mais diversas reas de conhecimento humano. A quantificao desta
sobrecarga foi foco de uma pesquisa realizada por Lyman e Varian (2003), onde foi
evidenciado que a quantidade de informao digital produzida e armazenada ao redor do
mundo dobrou entre 1999 e 2002, tendo crescido 30% a cada ano. Lyman e Varian
tambm concluem que o mundo produz entre 1 e 2 EB de informao no redundante
por ano, o que representaria aproximadamente 250MB para cada ser humano.
Alm da grande quantidade de dados, tambm tem se tornado comum a alta
dimensionalidade, ou seja, a anlise de cada amostra em relao a um grande nmero de
caractersticas, que podem atingir quantidades de milhares ou at de milhes. Como
conseqncia disso, diversos domnios da cincia, tais como: bioinformtica,
telecomunicaes, astronomia, climatologia, computao, economia, geologia e
medicina esto frente a frente com um enorme desafio: aprender a nadar em um imenso
mar de dados, ao invs de afogar-se nele. A busca de algum sentido e de compreenso
dos dados armazenados torna-se uma necessidade premente, sendo esta busca uma
tarefa relativamente trivial para cientistas que estejam muito bem familiarizados com o
domnio do problema. Por outro lado, as reas clssicas do conhecimento humano j
esto saturadas, havendo pouco a ser descoberto, fazendo com que os cientistas
busquem explorar novas fronteiras do conhecimento em territrios desconhecidos, onde
ainda no existem especialistas do domnio. Nestes novos territrios, a busca por
conhecimento em grandes bancos de dados geralmente longa e rdua, sendo notria a
carncia por ferramentas automticas eficientes para a explorao destes dados.
Alm da carncia de especialistas do domnio, medida que aumenta a quantidade
de dados, a dificuldade de compreenso dos dados tambm incrementada. Isto ocorre
porque o aumento linear da quantidade de caractersticas conduz a um crescimento
exponencial do hipervolume dos dados. Bellman (1961) criou o termo maldio da
dimensionalidade para referenciar o problema do crescimento exponencial do
hipervolume como funo da dimensionalidade dos dados.
Para superar o desafio de compreender sistemas a partir dos dados gerados por eles,
cientistas tm utilizado em larga escala tcnicas de modelagem. Os modelos
matemticos criados so usados para controle de processos contnuos, investigao de
propriedades dinmicas de processos, otimizao de processos, ou para clculo de
condies timas de funcionamento de processos (MIKLES E FIKAR, 2007). A
utilizao de tcnicas de modelagem matemtica consiste atualmente em um dos pilares
da evoluo cientfica.

13

A maldio da dimensionalidade um fator desafiador na modelagem matemtica


visto que, para um hiperplano cartesiano com d dimenses de entrada onde cada
dimenso de entrada particionada em s clulas, o nmero total de clulas seria de sd
(BELLMAN, 1961). Como conseqncia disso, a criao de modelos destes dados
necessita considerar espaos de busca inerentemente esparsos (LAROSE, 2006). Desta
forma, os cientistas constantemente tm se deparado com a necessidade de encontrar
estruturas significativas ocultas, de baixa dimenso, dentro de dados de alta dimenso,
sendo tal tcnica denominada de reduo de dimensionalidade dos dados (RDD).
Analogamente, o crebro humano se confronta com o mesmo problema em suas
percepes dirias, extraindo, de forma eficiente, um pequeno nmero de estmulos
relevantes a partir de aproximadamente 30.000 fibras nervosas sensoriais
(TENENBAUM et al., 2000). Dada a capacidade limitada do crebro humano de lidar
com a complexidade, esta RDD consiste em um fator chave para permitir a
generalizao de conceitos transformando as experincias dirias em conhecimento e
idias (TSIEN, 2007). Adicionalmente, a quantidade de exemplos necessrios para
adaptar um modelo multivariado cresce exponencialmente em relao quantidade de
caractersticas que representam cada amostra.
Sob o ponto de vista computacional, a RDD um processo utilizado a fim de
conduzir a uma reduo do espao de busca de hipteses, permitindo melhorar o
desempenho e simplificar os resultados do processo de modelagem (WANG e XIUJU,
2005). Alm disso, o uso de muitas variveis no modelo preditivo pode dificultar a
interpretao da anlise e viola o princpio da parcimnia, podendo tambm facilmente
conduzir a uma superadaptao (LAROSE, 2006). Embora os algoritmos de minerao
de dados j apliquem internamente a seleo das caractersticas mais informativas,
ignorando as menos informativas, a aplicao de tcnicas de RDD geralmente melhora
o desempenho destes algoritmos (WITTEN e FRANK, 2005).
Existem diversas tcnicas para modelagem matemtica em sistemas autnomos de
aprendizado (ALPAYDIN, 2010). Dentre estas tcnicas, as RNAs foram desenvolvidas
como uma generalizao de um modelo matemtico da cognio humana. RNAs tm se
tornado particularmente atrativas para modelagem de sistemas complexos quando a
modelagem difcil ou quando a dinmica do sistema no permite o controle on-line.
RNAs criam modelos que representam um mapeamento de um espao de entradas para
um espao de sadas, servindo como aproximador universal de funes contnuas.
Apesar de serem uma poderosa ferramenta, as RNAs tm seu desempenho afetado pela
maldio da dimensionalidade.
De acordo com Bishop (1995), em tcnicas de modelagem neural a maldio da
dimensionalidade manifesta-se de duas formas:

A existncia de muitas caractersticas irrelevantes, fator caracterstico de


dados com alta dimensionalidade, faz com que a rede utilize quase todos seus
recursos para representar pores irrelevantes do espao de busca.

Mesmo que a rede consiga focar em caractersticas importantes, uma maior


quantidade de amostras ser necessria para identificar que caractersticas
so mais ou menos importantes.

Para minimizar o problema da maldio da dimensionalidade, podem ser adotadas


duas tcnicas: utilizao de informao a priori ou RDD. Em muitos casos, pela
indisponibilidade de informao que possa ser utilizada a priori, a RDD a nica
alternativa vivel.

14

A utilizao eficiente de tcnicas de RDD na modelagem neural, possivelmente, ir


diminuir a dimensionalidade do espao de entradas. A conseqncia disso que uma
rede com menos entradas tem menos parmetros adaptativos a serem determinados, e
estes so mais suscetveis a serem propriamente determinados por um conjunto de dados
de tamanho limitado. Isto conduziria a uma rede com melhores propriedades de
generalizao. Adicionalmente, uma rede com menor quantidade de pesos pode ser mais
rpida de treinar.
Entretanto, na maioria das situaes, a RDD do vetor de entradas poder resultar em
perda de informao. O grande desafio no projeto de uma boa estratgia de RDD
assegurar que o mximo de informao relevante seja retida. Se muita informao
perdida ento a reduo resultante no desempenho maior que qualquer melhora obtida
com a RDD.
Conforme Ye (2003), a RDD pode ser dividida em trs categorias: seleo
subconjunto de caractersticas, extrao de caractersticas e construo
caractersticas. Esta proposta est focada especificamente na categoria de seleo
subconjunto de caractersticas, em virtude de esta categoria permitir a criao
modelos mais facilmente explicveis.

de
de
de
de

1.1 Objetivos e Escopo da Proposta


O objetivo geral deste trabalho apresentar e validar um modelo neural de
aprimoramento progressivo para reduo de dimensionalidade a fim de permitir a
construo de modelos preditivos mais precisos e simples de forma mais rpida.
A fim de atingir este objetivo, so apresentados conceitos bsicos sobre os processos
de descoberta de conhecimento em bancos de dados, pr-processamento, minerao de
dados e avaliao de modelos. Sero tratados os fundamentos bsicos das RNAs e o
algoritmo backpropagation para tarefas de aprendizado supervisionado.
Adicionalmente, so abordados alguns problemas gerados pela alta dimensionalidade,
os fundamentos das tcnicas de RDD e especialmente a seleo de subconjunto de
caractersticas. Tambm so relatados alguns experimentos que comprovam
empiricamente a eficincia da abordagem proposta em diferentes bases de dados.

1.2 Aplicaes da abordagem proposta


A abordagem aqui proposta j foi aplicada em problemas de diversos domnios de
conhecimento, durante o desenvolvimento desta pesquisa:
a) Predio de sries temporais: a abordagem proposta foi aplicada a dois bancos
de dados de sries temporais utilizados para comparao de desempenho em
uma competio de redes neurais. Os resultados obtidos nos experimentos
levaram o nosso trabalho a ficar entre os trs selecionados para apresentao no
evento (CAMARGO e ENGEL, 2005).
b) Regresso: a abordagem proposta foi aplicada a problemas de regresso em
bases de dados da rea de petrologia visando criao de modelos preditivos de
qualidade de reservatrios de hidrocarbonetos. Esta aplicao est descrita em
um relatrio de pesquisa (CAMARGO, 2005) e trs artigos (CAMARGO e
ENGEL, 2009, 2010-a, 2010-b) e deu origem a um projeto de pesquisa aprovado
para financiamento pelo CNPq (ENGEL, 2005). Outra aplicao desta

15

abordagem foi realizada em uma base de dados metablicos de bovinos de leite,


visando a criao de modelos preditivos de qualidade do leite. Estes resultados
foram apresentados em Campos et al. (2006).
c) Classificao: tambm na rea de veterinria, foram realizados experimentos de
classificao visando identificar fatores que possam contribuir para a existncia
de mastite em bovinos de leite. Tais resultados ainda no foram publicados.

1.3 Organizao da Proposta


Esta proposta est organizada da seguinte forma. No captulo 2 so apresentados os
fundamentos bsicos sobre aprendizado de mquina, sobre o processo de descoberta de
conhecimento em banco de dados e suas fases, abordando pr-processamento e
minerao de dados, assim como as formas de validar e comparar os modelos criados.
No captulo 3 os fundamentos bsicos de redes neurais so apresentados. So
abordados conceitos dos neurnios naturais, neurnio artificial, funes de ativao,
arquiteturas de redes neurais e o algoritmo backpropagation.
No captulo 4 so apresentados os maiores problemas e os conceitos fundamentais a
respeito de RDD. So apresentadas algumas tcnicas de RDD, sendo abordadas
extrao, construo e seleo de caractersticas. Uma nfase especial dada sobre as
tcnicas de Seleo de Subconjunto de Caractersticas (SSC). feita uma anlise do
estado da arte em tcnicas de RDD.
No captulo 5 apresentada a proposta de um modelo neural de aprimoramento
progressivo para reduo de dimensionalidade. So apresentadas tambm as evidncias
experimentais do funcionamento da abordagem e os resultados de experimentos sobre
bancos de dados reais para validar a proposta. Estes experimentos foram executados em
bancos de dados privados e de repositrios pblicos visando descobrir diferentes tipos
de conhecimento. Os experimentos foram divididos em trs classes de problemas: sries
temporais, classificao e regresso.
O captulo 6 apresenta as concluses da tese e aponta as direes a serem exploradas
nos trabalhos futuros.

16

2 DESCOBERTA DE CONHECIMENTO EM BANCO DE


DADOS

Este captulo aborda as principais caractersticas do processo de descoberta de


conhecimento em banco de dados. Inicialmente apresentada uma viso geral sobre o
panorama atual do excesso de informao e, logo aps, discutida a hierarquia de
contedo da mente humana, a fim de delimitar alguns dos principais termos discutidos
no trabalho. A seguir delineada uma breve contextualizao sobre as reas da
inteligncia artificial e aprendizado de mquina. Posteriormente, abordada a rea de
descoberta de conhecimento em banco de dados e suas fases, descrevendo as tarefas
especficas que podem ser realizadas no pr-processamento e no ps-processamento. Os
principais tipos de conhecimento que podem ser buscados na fase de minerao de
dados tambm so comentados.

2.1 Excesso de informao: Panorama atual


Nas ltimas dcadas, a constante evoluo das tecnologias de gerao e coleta de
dados, aliada progressiva reduo do custo de armazenamento e ampla utilizao de
tecnologias de comunicao, tem contribudo para que a quantidade de dados
armazenados de forma eletrnica cresa exponencialmente, conduzindo a uma
sobrecarga de informao na maioria das reas de conhecimento humano.
Lyman e Varian (2003), a fim de estimar a quantidade de informao gerada e
armazenada no mundo, pesquisaram as mdias mais comuns para disseminao de
informao. Neste trabalho foi evidenciado que a quantidade de informao digital
produzida e armazenada ao redor do mundo dobrou entre 1999 e 2002, tendo crescido
30% a cada ano. Eles tambm concluram que o mundo produz entre 1 e 2 EB de
informao no redundante por ano, o que representaria aproximadamente 250MB para
cada ser humano.
Outros trabalhos, como o realizado por Resta (2002), estudaram esta nova sociedade
global baseada em conhecimento. Entre os fatos mais marcantes evidenciados, o autor
salienta que:

O conhecimento do mundo dobra a cada 2 ou 3 anos.

7000 artigos tcnicos e cientficos so publicados a cada dia.

Dados enviados de satlites que orbitam o planeta transmitem dados


suficientes para preencher 19 milhes de volumes, de 650MB, a cada duas
semanas.

17

Estudantes de escolas de ensino mdio em pases industrializados so


expostos a mais informao que seus avs foram durante toda a vida.

Haver mais mudanas nas prximas 3 dcadas que nos ltimos 3 sculos.

Adicionalmente, a grande maioria das pesquisas focadas em discutir a sobrecarga de


informao chega ao consenso que na atual era do desenvolvimento humano, processos
como criao, distribuio, difuso, uso e manipulao da informao tornaram-se uma
importante atividade econmica, poltica e cultural. Tal sobrecarga de informao levou
a criao de rtulos como sociedade da informao e sociedade do conhecimento,
para referir-se a esta era que vivenciamos, onde a gerao e o acmulo de dados tm se
tornado quase uma obstinao. Pelo fato da informao e do conhecimento terem um
papel central na maioria das atividades humanas, tem-se a percepo de que o
conhecimento um fator chave para o sucesso em vrias reas, sejam elas comerciais,
governamentais ou cientficas.
Apesar da evidente importncia do conhecimento, existe uma clara distncia entre a
capacidade de gerao e armazenamento de dados e a capacidade de analisar estes
dados a fim de se obter o conhecimento. Alm disso, tambm comum no existir uma
compreenso clara do que efetivamente o conceito de conhecimento, e de que forma
ele se diferencia dos conceitos de dados e informao. Na seo 2.2 abordada a
hierarquia do contedo da mente humana, esboando o limite destes conceitos.

2.2 A hierarquia de contedo da mente humana


Segundo Ackoff (1989), o contedo da mente humana pode ser dividido em cinco
categorias: dados, informao, conhecimento, compreenso e sabedoria, conforme
apresentado na figura 2.1. Estas categorias so discutidas a seguir, em ordem crescente
de complexidade.

Figura 2.1: Hierarquia de contedo da mente humana


Dados: so smbolos que representam as propriedades de objetos, eventos,
fenmenos ou do ambiente em um determinado contexto. So entidades em uma forma
bruta, originadas de simples observao, desprovidas de significado e sem relao com
outras entidades.

18

Informao: so os dados processados de forma que seja possvel agregar-lhes


algum significado. A informao descritiva e permite relacionar passado e presente
atravs da identificao de alguma maneira de relacionamento. Aps o processamento, a
informao gerada deve fornecer respostas a questes do tipo: Quem, O que,
Onde, Quando e Quantos; de forma a permitir que a informao possa ter alguma
utilidade prtica.
Conhecimento: obtido atravs da coleta de informaes apropriadas com o
objetivo de serem teis. O conhecimento representa um padro que fornece uma base
para predio do futuro com certo grau de confiana, baseado na informao sobre o
passado e o presente. O conhecimento tambm pode ser imaginado como um conjunto
de conceitos obtidos a partir de dados e informaes a fim de responder a questes que
comeam com Como. A aquisio de conhecimento feita atravs de um processo
denominado aprendizado. O processo de aprender como o funcionamento de um
sistema, a fim de criar um modelo que simule tal sistema, um dos pilares da evoluo
cientfica nos tempos atuais.
Compreenso: permite a gerao de conhecimento novo a partir do conhecimento
prvio. A compreenso permite responder questes que comeam com Por que. A
existncia de uma categoria de compreenso no um consenso entre os pesquisadores
da rea. Muitos autores consideram que a compreenso um processo que permite a
transio entre cada categoria e a categoria imediatamente superior na hierarquia. A
figura 2.2 apresenta graficamente esta outra concepo.
Sabedoria: A sabedoria considerada o entendimento da dinmica do sistema como
um todo e de seus princpios de funcionamento. Enquanto a inteligncia a habilidade
de aumentar a eficincia, o entendimento sistmico obtido atravs da sabedoria permite
aumentar a efetividade.
Embora haja algumas crticas sobre esta hierarquia de conhecimento da mente
humana, ela ainda amplamente aceita e difundida entre muitos tericos da rea de
computao (FRICK, 2009).

Figura 2.2: Relao dos dados com a compreenso e a conectividade


A figura 2.2 permite supor que existe um processo para transformar um nvel no
nvel superior. J a partir da pirmide apresentada na figura 2.1, que apresenta a
organizao hierrquica, possvel supor que um nvel no existe sem o nvel inferior.
Esta estrutura em forma piramidal mostra que medida que aumenta a quantidade de
dados e informao, existe uma tendncia que a quantidade de conhecimento tambm
aumente. Tal conhecimento pode aumentar alm de um limiar gerencivel e

19

manipulvel, de forma a perderem-se seus relacionamentos estruturais, o que implica na


reduo de sua utilidade.
Dentro desta hierarquia de contedo apresentada, o presente trabalho est inserido
entre o segundo e o terceiro nvel, ou seja, na transformao de informao em
conhecimento atravs da compreenso de padres expressos nos dados.

2.3 Inteligncia artificial e aprendizado de mquina


Desde que os computadores foram criados, nutriu-se o desejo de faz-los exibir um
comportamento inteligente. Logo aps 1950, com o advento dos computadores
programveis, foram desenvolvidos os primeiros programas com a inteno de imitar o
processo de pensamento humano. O crescente interesse por esta rea culminou, em
1956, na criao do termo inteligncia artificial para denotar um novo tpico de
pesquisa na rea de computao preocupado em simular a inteligncia humana
(RUSSELL e NORVIG, 1995).
Segundo Luger e Stubblefield (1998), a inteligncia artificial (IA) pode ser
conceituada como o ramo da cincia da computao que se preocupa com a
automatizao do comportamento inteligente. Atualmente, a rea de IA engloba uma
ampla variedade de sub-campos, dentre eles, uma das mais frteis reas de pesquisa o
aprendizado de mquina, que se preocupa com a construo de sistemas de alto
desempenho capazes de aprender atravs da experincia e obter conhecimento a partir
de dados.
Segundo Konar (2000), h quatro diferentes classes de aprendizado de mquina:
aprendizado supervisionado, aprendizado no supervisionado, aprendizado por reforo e
aprendizado por programao em lgica indutiva.
O aprendizado supervisionado refere-se a uma classe de algoritmos que visam
aprender um relacionamento entre entradas e sada. Este relacionamento geralmente
descreve uma dependncia ou funo fo(x) presente de forma implcita em um conjunto
de treinamento D = {[x(i), y(i)] x , i = 1, ..., l} consistindo de l pares (x1, y1), (x2,
y2), ..., (xl, yl). As entradas x consistem em um vetor n-dimensional onde x , e as
sadas y consistem em um vetor 1-dimensional onde y . Dependendo do valor a ser
predito o aprendizado supervisionado pode ser de dois tipos: regresso quando os
valores de sada so contnuos, e classificao quando os valores de sada so discretos
(KECMAN, 2001). Durante o processo de treinamento, as amostras so sucessivamente
submetidas ao algoritmo de aprendizado. Para cada amostra de entrada, o algoritmo
tenta predizer a sada. A sada predita pelo algoritmo comparada com a sada real, a
diferena entre elas utilizada para reajustar os parmetros do modelo. Desta forma, o
algoritmo iterativamente ajusta seus parmetros para criar um modelo que faa um
mapeamento das entradas para a sada. Aps o processo de aprendizado supervisionado,
criado um modelo que pode ser utilizado para simular o conhecimento do especialista
do domnio.
J no aprendizado no supervisionado, o objetivo agrupar l amostras em k grupos,
e k determinado pelos dados e geralmente no conhecido antes da aplicao do
algoritmo. O conjunto de treinamento formado por D = {[x(i)] , i = 1, ..., l}
consistindo de l amostras (x1), (x2), ..., (xl). As entradas x consistem em um vetor ndimensional onde x . Os algoritmos so treinados para descobrir caractersticas
estatisticamente salientes das amostras e aprender a aloc-los nos diferentes grupos de

20

acordo com sua similaridade. Desta forma, a idia agrupar as amostras de forma a
minimizar a distncia intra-grupos e maximizar a distncia inter-grupos.
No aprendizado por reforo, o sistema de aprendizado no sabe qual a sada
desejada para cada conjunto de entradas, sabendo apenas se a sada obtida est correta
ou no. Porm, o sistema recebe apenas uma punio ou recompensa do ambiente para
cada sada predita. Pelo fato do algoritmo receber uma resposta para cada uma de suas
aes, alguns autores consideram o aprendizado por reforo um caso especial de
aprendizado supervisionado (MITRA e ACHARYA, 2003).
No aprendizado por programao em lgica indutiva (PLI) h uma combinao do
aprendizado de mquina indutivo com a programao em lgica. De maneira formal, a
PLI pode ser definida da seguinte forma: tem-se C como um conhecimento prvio do
domnio expresso na forma de um conjunto de predicados, exemplos positivos E+ e
exemplos negativos E-. O objetivo da PLI encontrar uma forma de predicado lgico H,
tal que todos os exemplos em E+ possam ser logicamente derivados de C^H, e nenhum
exemplo em E- possa ser logicamente derivados de C^H. A diferena marcante entre a
PLI e o aprendizado indutivo convencional a utilizao do conhecimento prvio do
domnio.
Dentre estas abordagens de aprendizado apresentadas, o foco deste trabalho foi
definido sobre o aprendizado supervisionado.
2.3.1 Aplicaes de aprendizado de mquina
Devido aos avanos da tecnologia, que tm conduzido a uma constante evoluo das
tecnologias de gerao, coleta e armazenamento de dados, vivenciamos uma sobrecarga
de informao na maioria das reas de conhecimento humano. H diversos domnios do
conhecimento humano em que grandes volumes de dados so coletados e armazenados.
Alguns exemplos incluem: bioinformtica, telecomunicaes, astronomia, climatologia,
computao, economia e geologia (MITRA e ACHARYA, 2003). Pelo fato de as
tcnicas de anlise destes dados no evolurem to rapidamente quanto as tcnicas de
coleta e armazenamento, surge uma importante demanda por ferramentas automticas
para analisar estes dados em tempo aceitvel. Tais ferramentas so o foco de pesquisa
da rea de aprendizado de mquina.
Alm das aplicaes na rea cientfica, a explorao de grandes bancos de dados
comerciais tambm representa um claro interesse econmico. Isto ocorre principalmente
porque a maioria das empresas utiliza computadores para interagir com seus clientes. A
reduo constante do custo de armazenamento contribuiu para que as empresas
passassem a armazenar em banco de dados um histrico das interaes com seus
clientes, criando-se bancos de dados cada vez maiores com um histrico da atividade da
empresa. Este histrico torna-se uma mina com valiosas informaes sobre a
atividade da empresa e pode ser explorado a fim de servir como um poderoso suporte ao
processo de tomada de deciso, permitindo a descoberta de padres de perfis e
tendncias escondidas no banco de dados (CAMARGO e ENGEL, 2002). Quanto mais
a empresa aprende sobre seus dados, maior o valor agregado deste aprendizado, e
maiores so as possibilidades de converter o aprendizado em lucro. Esta idia
representada na figura 2.3.

21

Figura 2.3: Relao entre aprendizado e seu valor


A necessidade da indstria da informao de aplicar o aprendizado de mquina em
grandes bancos de dados para obter informao e conhecimento criou uma nova rea de
pesquisa. Esta nova rea, que recebeu o nome de Descoberta de Conhecimento em
Bancos de Dados, discutida a seguir.

2.4 Descoberta de Conhecimento em Banco de Dados


O termo Descoberta de Conhecimento em Bancos de Dados (DCBD) foi introduzido
no final da dcada de 1980 para se referir ao amplo processo de encontrar conhecimento
a partir de dados e enfatizar o mais alto nvel de aplicaes particulares de minerao de
dados (FAYYAD et al., 1996). Adicionalmente, outros conceitos de DCBD j fazem
uma referncia explcita ao tamanho dos bancos de dados. Conforme Sarker et al.
(2002), DCBD o processo de modelar abstraes de grandes bancos de dados atravs
da pesquisa por padres vlidos, novos e no triviais sobre um modelo abstrato.
A necessidade de conhecimento multidisciplinar evidente no complexo processo
de DCBD. A fim de atingir seus objetivos, o campo de DCBD rene pesquisadores de
diversas reas de pesquisa, tais como: banco de dados, aprendizado de mquina,
reconhecimento de padres, estatstica, teoria da informao, inteligncia artificial,
raciocnio sobre incerteza, aquisio de conhecimento para sistemas especialistas,
visualizao de dados e computao de alto desempenho.
A literatura apresenta vrios modelos que definem os passos bsicos para o processo
de DCBD sob diversos nveis de abstrao diferentes, variando entre modelos altamente
abstratos e altamente detalhados. A figura 2.4 apresenta o modelo clssico de DCBD
que, sob um mais alto nvel de abstrao, pode ser dividido em trs etapas distintas
(FAYYAD et al., 1996):

22

Pr-processamento: que inclui atividades como seleo, limpeza e


transformao dos dados para torn-los aptos a serem utilizados na etapa de
minerao de dados.

Minerao de dados (MD): que o ncleo do processo de DCBD, onde


efetivamente so aplicados os algoritmos para extrao de padres.

Ps-processamento: que envolve a interpretao e avaliao dos padres


visando a obteno de conhecimento.

O termo minerao de dados frequentemente usado como sinnimo para o


processo de DCBD ainda que ele se refirae apenas a um passo dentro do amplo processo
de DCBD. MD refere-se efetivamente ao processo de aplicao do algoritmo de
descoberta nos dados (SARKER et al., 2002).

Figura 2.4: O modelo clssico do processo de DCBD


A DCBD um processo de melhoria incremental, onde so realizados os seguintes
passos: selecionar os dados, preparar os dados, construir o modelo, avaliar os resultados,
preparar novamente os dados de forma a melhorar o modelo, e assim sucessivamente at
que sejam obtidos resultados relevantes.
A seguir passam a ser detalhadas as trs etapas do processo de DCBD.
2.4.1 Pr-Processamento
A fase de pr-processamento corresponde preparao dos dados para o processo de
MD. O pr-processamento consome entre 60 e 90% do tempo total do processo de
DCBD. Uma fase de pr-processamento bem realizada contribui entre 75 e 90% do
sucesso de um projeto de minerao, enquanto a no realizao desta fase pode ser
100% responsvel pelo insucesso do projeto (YE, 2003).
Isto ocorre porque a maioria das tcnicas de minerao de dados requer que os dados
estejam consolidados em uma nica tabela, limpos, consistentes e completos. Porm,
esta situao raramente ocorre em bancos de dados reais. Desta forma, os dados devem
ser pr-processados para melhorar a eficincia dos algoritmos de MD e,
consequentemente, de todo o processo de DCBD. A forma de coleta e preparao dos

23

dados, assim como as decises tomadas nesta etapa so crticas para a qualidade dos
resultados obtidos nas fases subseqentes (MYATT, 2007).
Tarefas bsicas na fase de pr-processamento incluem seleo de dados, integrao,
limpeza, reduo de rudo, deteco de outliers, transformao, e reduo de
dimensionalidade. O algoritmo que ser utilizado na fase de MD influi fortemente nas
tarefas que devem ser executadas no pr-processamento. Como exemplo, pode ser
citado que a maioria das redes neurais necessita que todos os dados sejam numricos,
sendo a tarefa de transformao responsvel por converter dados no numricos em
numricos. Por outro lado, rvores de deciso usualmente necessitam que todos os
dados sejam categricos, de forma que valores numricos devem ser representados de
maneira categrica.
2.4.1.1 Seleo
A primeira tarefa a ser realizada na fase de pr-processamento a seleo dos dados.
Supe-se que os dados j foram coletados de alguma forma e geralmente o responsvel
pelo processo de DCBD no tem nenhuma influncia sobre esta coleta.
Havendo uma quantidade muito grande de dados disponveis, faz-se necessria a
seleo de quais caractersticas e quais registros devero ser utilizados no processo de
MD.
Dentre as atividades realizadas nesta fase esto (YE, 2003):

Seleo de caractersticas de entrada relevantes: nesta atividade devem ser


selecionadas as caractersticas que, segundo o conhecimento do especialista
do domnio, contm dados potenciais para o processo de MD. Quando
houver poucas caractersticas disponveis, esta tarefa tende a ser irrelevante,
Porm, quando a quantidade de caractersticas for muito alta, esta tarefa de
importncia crucial para a criao de bons modelos. Algumas vezes, no h
especialista do domnio ou esta pessoa no tem um conhecimento profundo
do problema a ponto de conseguir saber quais caractersticas so relevantes
ou no. Neste caso, faz-se necessria a utilizao de tcnicas de reduo de
dimensionalidade, que so abordadas posteriormente neste captulo, na seo
2.4.1.6.

Evitar a seleo de caractersticas de entrada redundantes: deve-se evitar a


utilizao de caractersticas que tenham um alto ndice de correlao entre si.
Isto tende a dificultar o aprendizado durante a fase de MD. O acrscimo de
caractersticas redundantes somente recomendado se o nvel de rudo destas
caractersticas for alto, de forma que a redundncia poder compensar o
rudo.

Selecionar registros aleatoriamente: a seleo de registros deve ser feita de


maneira aleatria de forma a evitar que os registros selecionados representem
alguma tendncia pontual em detrimento de tendncias globais. Outra forma
de seleo de registros tambm a seleo estratificada de registros de
acordo com os princpios estatsticos.

Assegurar que os registros representam a realidade: poucos registros, que


representam uma parte especfica do todo, podem simplesmente representar
uma tendncia local expressa atravs dos valores de suas caractersticas, e
no uma tendncia global. A soluo para este problema a utilizao de

24

mais dados. Alm disso, deve ter-se sempre em mente que a maior fonte de
rudo a insuficincia de dados. Os problemas gerados por uma quantidade
pequena de dados em relao uma grande quantidade de caractersticas so
discutidos em Bellman (1961).
2.4.1.2 Integrao
possvel antes da execuo do processo de MD seja necessria a integrao de
dados oriundos de vrias fontes diferentes em um nico arquivo. Uma grande
quantidade de problemas pode surgir durante esta integrao. Faz-se necessria a
integrao dos esquemas das diferentes fontes onde podem surgir problemas como:

Identificao de entidades.

Redundncias entre caractersticas.

Duplicao de caractersticas.

Inconsistncias na forma de conflitos de valores de dados para uma mesma


caracterstica.

Estes problemas vo alm do escopo deste trabalho e so foco de uma importante e


ampla rea de pesquisa chamada de integrao de esquemas de banco de dados.
A execuo bem sucedida do processo de integrao tem influncia determinante
nos resultados do processo de DCBD.
2.4.1.3 Limpeza
Dados do mundo real tendem a ser incompletos, ruidosos e inconsistentes. A
limpeza dos dados visa reparar estes problemas de qualidade. Este objetivo atingido
por meio do preenchimento de valores inexistentes e correo de inconsistncias nos
dados.
Completar valores omitidos consiste em um srio problema, pois qualquer incluso,
alterao ou excluso de dados estar modificando, talvez erroneamente, os dados de
entrada e, consequentemente, alterando o resultado do processo de MD. Porm esta
pode ser a nica alternativa para algoritmos que no conseguem lidar com valores
omitidos. Dentre as tcnicas mais populares para reparar dados incompletos podem ser
citadas (SOUMEN, 2009):

Ignorar o registro completo.

Preencher os valores omitidos manualmente.

Usar uma constante global, tal como ?, para preencher os valores omitidos.

Usar o valor mdio do atributo para preencher o valor omitido.

Usar o valor mdio do atributo, considerando somente os registros


pertencentes mesma classe, para preencher o valor omitido.

Usar o valor mais provvel para preencher o valor omitido.

2.4.1.4 Reduo de rudo e deteco de outliers


Rudo um erro ou varincia aleatria na medio de uma varivel. As razes mais
comuns para existncia de rudo so: problemas ocorridos durante as fases de coleta,

25

entrada ou transmisso de dados; falhas em instrumentos e limitaes de tecnologia;


inconsistncias nas convenes de nomenclatura de caractersticas e existncia de
registros duplicados (SYMEONIDIS e MITKAS, 2005). Para realizar a remoo de
rudo geralmente so utilizadas tcnicas de suavizao. Tais tcnicas incluem binning e
regresso.

Binning: O processo de binning executado a partir de um conjunto


ordenado dos valores assumidos por uma varivel. Estes valores so
divididos em grupos com o mesmo nmero de elementos. A partir da os
valores originais so substitudos pela mdia, mediana ou valores mnimo e
mximo de cada grupo.

Regresso linear: por meio desta tcnica os valores de uma caracterstica so


suavizados a partir de uma combinao linear dos valores de outra
caracterstica. Tambm pode ser utilizada a regresso linear mltipla para
suavizar o valor de uma caracterstica a partir do valor de diversas outras
caractersticas.

Outliers so valores extremos que esto fora dos limites de um intervalo de dados ou
esto destoando da tendncia dos valores de um determinado atributo. Os outliers
podem ser originados de erros no processo de entrada dos dados, sendo chamados de
outliers invlidos, ou tambm podem representar dados vlidos, sendo chamados de
outliers vlidos. Para outliers invlidos, deve ser feito um esforo para descobrir seu
valor correto. Caso isto no seja possvel, este valor pode ser tratado como um valor
omitido. Outliers vlidos no devem ser descartados, pois representam o
comportamento real do sistema. A existncia de outliers, sejam eles vlidos ou
invlidos, pode ser um fator que prejudica o desempenho dos algoritmos de minerao
de dados tornando os resultados instveis.
Histogramas ou scatter plots bidimensionais so tcnicas utilizadas para deteco de
outliers, porm a abordagem mais simples a definio de limites aceitveis para o
valor da caracterstica. Alm destas tcnicas, a normalizao, que abordada na seo
2.4.1.5, tambm pode diminuir os problemas causados pela existncia de outliers.
2.4.1.5 Transformao
Os dados que sero minerados geralmente no esto em uma forma adequada para
maximizar o desempenho dos algoritmos de minerao. Faz-se necessria ento a
realizao do processo de transformao, onde os dados so transformados ou
consolidados para as fases seguintes. Dentre as tcnicas mais populares utilizadas nesta
fase esto (HAN e KAMBER, 2001):

Agregao: em alguns casos, pode ser necessria a utilizao de alguma


varivel que no est explicitamente representada, mas que pode ser derivada
a partir de outras variveis a partir de qualquer operao matemtica. Esta
tcnica tipicamente utilizada quando o processo de minerao for
executado em mltiplas granularidades. Outro exemplo pode ser o campo de
data, cujo valor absoluto pode ser completamente sem utilidade, porm a
utilizao do dia da semana, que pode ser obtida atravs do campo data, pode
ser de grande utilidade.

26

Generalizao: os valores originais dos dados so substitudos por conceitos


com um significado dentro de uma hierarquia de conceitos. Esta tcnica
permite a minerao em vrios nveis de abstrao.

Normalizao: onde os valores do atributo so normalizados para ficarem


dentro de um intervalo especfico de valores, tal como de -1 e 1, ou de 0 e 1.

A normalizao pode ser executada atravs de trs tcnicas distintas :

Normalizao min-max ou escalonamento: executa uma transformao linear


sobre os dados originais, com base nos valores mximo e mnimo de um
dado atributo A. Esta normalizao mapeia um valor v de A para um valor v
no intervalo [novo_minA , novo_maxA ] atravs da seguinte frmula:
v = ((v minA) / (maxA minA))(novo_maxA novo_minA) + novo_minA
onde minA e maxA so respectivamente os valores mnimo e mximo do
atributo A. Exemplo: supondo-se que valores mnimos e mximos para a
caracterstica salrio so respectivamente R$1.000 e R$9.000. Pretende-se
mapear esta caracterstica para o intervalo [0,1]. Pela normalizao, um
salrio de R$6.200 transformado da seguinte forma:
6.200 1.000
(1 0) + 0 = 0.65
9.000 1.000

Normalizao z-score: tambm conhecida por normalizao de mdia zero.


Nesta tcnica, os valores de um dado atributo A, so normalizados com base
em sua mdia e desvio padro. Um valor v de A normalizado atravs da
seguinte frmula:
v = (v meanA) / std_devA
onde meanA e std_devA so respectivamente a mdia e o desvio padro dos
valores do atributo A. Esta tcnica, alm de ser uma elegante forma de
tratamento de outliers, tambm permite que valores omitidos sejam
simplesmente preenchidos com 0 atribuindo a estas omisses a mdia dos
valores do atributo. Quando os valores mximo e mnimo do atributo A forem
desconhecidos esta tcnica muito til. Exemplo: supondo-se que a mdia e
o desvio padro dos valores da caracterstica salrio so respectivamente
R$4.200 e R$1.000. Com a normalizao z-score, o salrio de R$ 6.200
transformado da seguinte forma:
6.200 4.200
= 1.25
1.000

Normalizao em escala decimal: os dados so transformados movendo-se o


ponto decimal para todos os valores do atributo. Um valor v normalizado
para v atravs da seguinte frmula:
v = v / 10j

onde j o menor nmero inteiro tal que Max(|v|) < 1. Exemplo: supondo-se
que os valores mximo e mnimo da caracterstica salrio so respectivamente
R$ 9.000 e R$1.000. Para normalizar por uma escala decimal, poderia se dividir

27

estes valores por 10.000, ou seja, j = 4. Com a normalizao em escala decimal,


um salrio de R$6.200 seria transformado da seguinte forma:
6.200
= 0,62
10 4

Alm das atividades abordadas anteriormente, tambm h outra atividade de extrema


importncia realizada nesta fase que a converso de tipos de dados. So poucos os
algoritmos que podem manipular tanto dados categricos quanto dados numricos. O
caso mais comum que o algoritmo tenha habilidade de manipular somente um destes
tipos de dado. Algoritmos orientados a nmeros necessitam que os dados categricos
sejam transformados para numricos, em contrapartida algoritmos orientados a
categorias necessitam que dados numricos sejam transformados em categricos.
Apesar da perda de informao implcita realizao desta atividade, ela possibilita a
utilizao, no processo de MD, de dados que seriam descartados por serem de um tipo
que o algoritmo no consegue tratar.
A transformao de dados numricos para categorias geralmente realizada atravs
de tcnicas de binning, sendo que o valor resultante considerado de forma categrica.
Tcnicas de binning j foram abordadas anteriormente neste captulo. J a
transformao de dados categricos para numricos pode ser feita de duas formas:

Codificao direta: faz-se mediante a atribuio de um valor numrico para


cada categoria. Quando houver uma relao de ordenao entre as categorias,
os valores numricos devem tambm representar esta ordenao, de forma
que o valor 0 represente a primeira categoria, o valor 1 represente a ltima, e
as categorias intermediria assumam valores dentro deste intervalo.

Codificao 1 para n cdigos: se no houver uma relao de ordenao entre


as categorias, supondo-se que a caracterstica possua n categorias possveis,
mais usual criar n caractersticas, uma relativa a cada categoria, atribuindo o
valor 0 quando a amostra no pertence a n-sima categoria ou 1, caso
contrrio.

2.4.1.6 Reduo de Dimensionalidade


Dados utilizados para MD podem conter centenas ou at milhares de caractersticas,
sendo muitas delas irrelevantes ou redundantes. Apesar da maioria dos algoritmos de
MD conseguirem identificar as caractersticas mais e menos relevantes durante o
processo de aprendizado, a execuo da reduo de dimensionalidade durante a fase de
pr-processamento geralmente melhora os resultados obtidos pelos algoritmos de MD.
Alm disso, uma menor quantidade de caractersticas irrelevantes ou redundantes
conduz a um menor gasto de tempo pelo algoritmo. Uma discusso mais aprofundada
sobre reduo de dimensionalidade realizada no captulo 4.
2.4.2 Minerao de Dados
A entrada na fase de minerao de dados pressupe que o pr-processamento dos
dados foi realizado com sucesso e tem-se razovel nvel de confiabilidade em relao
qualidade dos dados pr-processados. Este pressuposto um fator fundamental para se
atingir um bom desempenho durante a fase de minerao de dados.
A fase de minerao de dados, tambm chamada de fase de modelagem, pode ser
definida como o processo de descobrir novas correlaes, padres e tendncias

28

significativos atravs da minerao de grandes quantidades de dados usando tcnicas


estatsticas, de aprendizado de mquina, de inteligncia artificial, de bancos de dados e
de visualizao de dados (SUMATHI e SIVANANDAM, 2006). As tcnicas aplicadas
nesta fase geralmente esto implementadas na forma de algoritmos bem conhecidos.
Um algoritmo de minerao de dados um procedimento bem definido que a partir de
dados de entrada produz sadas na forma de modelos ou padres (HAND et al., 2001).
Para atingir seus objetivos, um algoritmo de minerao de dados geralmente possui
quatro componentes bsicos:

Estrutura de modelos ou de padres que determina o esqueleto bsico ou as


formas funcionais que so procuradas nos dados.

Uma funo de avaliao que ir julgar a qualidade do modelo criado pelo


algoritmo.

Mtodos de otimizao e pesquisa cujos objetivos so otimizar a funo de


avaliao e pesquisar diferentes estruturas de modelos ou de padres.

Uma estratgia de gerenciamento de dados para permitir uma manipulao


eficiente dos dados durante a busca ou otimizao.

Conforme Berry e Linoff (2004), as tcnicas de minerao de dados podem


descobrir diferentes tipos de conhecimento a partir da execuo de um conjunto
limitado de tarefas, que podem ser divididas em seis classes distintas: classificao,
regresso, predio, regras de associao, agrupamento por similaridade e descrio.
Para descobrir estas diversas formas de conhecimento podem ser aplicadas
diferentes tcnicas para execuo das tarefas de minerao, tais como: rvores de
deciso, redes neurais, raciocnio baseado em memria e algoritmos genticos.
2.4.2.1 Classificao
A classificao uma tarefa de aprendizado supervisionado muito comum em
minerao de dados, alm de ser uma tarefa caracterstica da inteligncia humana. Esta
tarefa pode ser dividida em dois passos. No primeiro passo, uma parte do conjunto de
dados, chamado conjunto de treinamento, utilizado para construir um modelo que
mapeie os dados de treinamento em um conjunto de classes previamente definido pelo
especialista do domnio. Justamente por ser uma tarefa de aprendizado supervisionado,
supe-se que para cada amostra do conjunto de treinamento, a sua respectiva classe
conhecida. No segundo passo, o modelo usado para analisar dados ainda no
conhecidos, que podem constituir um conjunto de teste, e aloc-los a uma das classes.
Os modelos criados podem representar o conhecimento obtido de vrias formas,
entre elas: regras na forma SE-ENTO, rvores de deciso ou outros formalismos
matemticos. De uma maneira mais formal, tem-se um conjunto de objetos O = {o1, o2,
..., on} e um conjunto de classes C = {c1, c2, ..., cm}. Um modelo de classificao tem
como objetivo aproximar uma funo f, tal que f(oi) = cj.
rvores de deciso, redes neurais, redes bayesianas e raciocnio baseado em
memria so tcnicas que se ajustam muito bem classificao (SYMEONIDIS e
MITKAS, 2005).

29

2.4.2.2 Regresso
O processo de regresso semelhante ao processo de classificao, a principal
diferena entre ambos que a classificao lida com valores discretos enquanto a
regresso, com valores contnuos. Como conseqncia disso temos que, atravs do
processo de regresso, possvel ordenar registros individualmente. Por exemplo, se
pelo processo de classificao classificamos registros como 0 ou 1, pelo processo de
regresso possvel classificarmos registros com qualquer valor real entre 0 e 1. Redes
neurais se ajustam muito bem a tarefas de regresso.
2.4.2.3 Predio
O processo de predio tambm semelhante aos processos anteriores exceto pelo
fato de que os registros possuem dados temporais e so classificados de acordo com
alguma predio de comportamento futuro ou predio de valor futuro. Tanto
classificao como regresso podem ser adaptadas para uso em predio atravs dos
exemplos de treinamento onde os valores passados das variveis a serem preditas so
conhecidos, de acordo com os dados histricos para estes exemplos. Os dados histricos
so usados para construir um modelo que explica o comportamento corrente observado.
A tcnica de anlise da cesta de compras, usada para descobrir que itens provavelmente
sero comprados juntos, pode ser adaptada ao modelo de que compras futuras ou aes
tendem a ser tomadas de acordo com os dados correntes. As tcnicas de anlise da cesta
de compras, raciocnio baseado em memria, rvores de deciso e redes neurais podem
ser utilizadas no processo de predio.
2.4.2.4 Regras de associao
A extrao de regras de associao o processo de encontrar padres, associaes,
correlaes ou estruturas causais freqentes entre conjuntos de itens ou objetos em
bancos de dados. Esta tarefa frequentemente aplicada a bancos de dados de transaes
onde se deseja extrair regras denotando que a ocorrncia de um subconjunto de itens
implica a ocorrncia de outro subconjunto, disjunto do primeiro, na mesma transao.
De uma maneira formal, tem-se I = {i1, i2, ..., in} sendo um conjunto de objetos
chamados itens. Tem-se D = {T1, T2, ..., Tm} sendo um conjunto de transaes, onde
cada transao T uma coleo de itens, com T I. Tem-se Ia e Ib sendo conjuntos de
itens. Uma regra de associao um relacionamento na forma Ia Ib, onde Ia I, Ib
I e Ia Ib = . A regra de associao r tem um suporte s, se sr o percentual de
transaes em D que contm Ia Ib, ou seja, sr a probabilidade P(Ia Ib). Uma regra
tem confiana c sobre D, se c o percentual de transaes em D que contm Ia e Ib, ou
seja, c a probabilidade condicional P(Ia | Ib).
Para a gerao de regras de associao o algoritmo mais utilizado o Apriori, porm
j foram propostas diversas outras abordagens derivadas deste algoritmo para executar
esta tarefa (CAMARGO e ENGEL, 2002).
Esta tarefa tambm frequentemente referenciada na literatura como anlise de
cesta de compras e agrupamento por afinidade.
2.4.2.5 Agrupamento por similaridade ou clusterizao
O processo de agrupamento por similaridade consiste em dividir uma populao
heterognea em grupos de objetos similares. Um grupo um conjunto de elementos

30

desta populao com alto nvel de similaridade entre si, e baixo nvel de similaridade
com elementos de outros grupos. Desta forma, o objetivo principal desta tarefa de
minerao de dados atingir duas mtricas: maximizar a similaridade entre elementos
intra-grupo e minimizar de similaridade entre elementos inter-grupos. Estes grupos no
so pr-definidos e tambm no h exemplos assim como ocorre no processo de
classificao. Agrupamento por similaridade pode muitas vezes ser utilizado como
preparao para alguma outra forma de minerao de dados.
De uma maneira mais formal, a tarefa de agrupamento consiste em, dado um nmero
inteiro k, encontrar uma forma de particionar os dados em k grupos c1, c2, ..., ck que
otimize um dado critrio de particionamento.
Para a tarefa de agrupamento, um dos algoritmos mais utilizados o k-means (XU e
WUNSCH, 2009).
2.4.2.6 Descrio
O processo de descrio tem como propsito simplesmente descrever os padres e
tendncias implcitas a algum conjunto de dados a fim de aumentar a nossa
compreenso sobre sistemas, fenmenos ou processos. Um bom processo de descrio
de um padro ou tendncia freqentemente ir sugerir uma explicao para tal padro
ou tendncia.
2.4.3 Avaliao da fase de minerao de dados
Aps a aplicao dos algoritmos de minerao de dados sobre os dados de
treinamento, o passo seguinte a avaliao do modelo criado a fim de verificar sua
qualidade.
A avaliao do modelo uma atividade complexa que exige formas sistemticas de
trabalho. Os algoritmos de minerao de dados frequentemente exigem a configurao
de um conjunto de parmetros, os quais exercem uma influncia determinante nos
resultados obtidos. Diferentes valores dos parmetros geram diferentes modelos. Alm
disso, necessria a aplicao de tcnicas que possam avaliar o desempenho preditivo
do modelo em dados que no foram previamente vistos (OLSON e DELEN, 2008).
2.4.3.1 Particionamento dos dados
Para avaliar como os modelos iro se comportar na predio de dados no vistos,
geralmente o conjunto de dados disponvel dividido em duas partes, sendo uma para
treinar o modelo e outra para avali-lo. Dentre as formas de particionamento, as
principais so as seguintes (BISHOP, 1995):
Holdout
Quando h uma grande quantidade de dados disponvel para o processo de
minerao a avaliao teoricamente simples. Neste caso, geralmente utilizada a
tcnica chamada holdout onde os dados so divididos aleatoriamente em duas parties
independentes e sem sobreposio: uma de treinamento e outra de teste. A partio de
treinamento usada para construir o modelo, e a partio de teste utilizada para
avaliar a capacidade de generalizao do modelo. Em relao ao tamanho das parties,
geralmente a partio de treinamento contm 75% dos dados; e a de teste, 25%. Uma
variao da tcnica holdout a subamostragem aleatria, onde os conjuntos de
treinamento e teste so particionados de maneira aleatria, sendo o procedimento

31

repetido k vezes. A exatido do mtodo estimada pela mdia da exatido obtida em


todas das k repeties.
Validao Cruzada
Quando h uma quantidade limitada de dados, so mais recomendados os mtodos
de validao cruzada. Dada a limitao da quantidade de dados, todas as amostras so
utilizadas para teste e para treinamento, mas no ao mesmo tempo. As tcnicas mais
utilizadas so n-fold e leave-one-out (HASTIE et al., 2001).
Na tcnica n-fold, os dados so divididos em n parties de tamanhos iguais ou
similares e o procedimento repetido n vezes. Em cada repetio, a partio n
utilizada para teste e as demais parties so utilizadas para treinamento. A diviso dos
dados em 10 parties tem se tornado um procedimento padro visto que, testes em
vrios bancos de dados, com diferentes tcnicas de minerao, tem mostrado que 10
seria um nmero ideal para obteno de uma melhor estimativa de erro (WITTEN e
FRANK, 2005).
A tcnica chamada leave-one-out ou jackknifing pode ser considerada um caso
especfico da n-fold, onde o valor de n igual ao nmero de amostras do banco de
dados. Desta forma, em cada iterao, so utilizadas n-1 amostras para treinamento e 1
amostra para teste. A exatido do modelo calculada medindo a exatido na predio
da amostra de teste. A exatido final do modelo dada pela mdia da exatido de todos
os n experimentos. O ponto negativo desta tcnica de avaliao seu custo
computacional, visto que o processo de treinamento ser realizado n vezes, cada uma
delas utilizando n-1 amostras. Porm, este procedimento tem grande utilidade para
pequenos bancos de dados.
Outra tcnica de validao cruzada o bootstrap, que baseada no procedimento
estatstico de amostragem com substituio. Segundo esta tcnica, as amostras do banco
so selecionadas por amostragem para fazerem parte ou do conjunto de treinamento ou
de teste. Este processo repetido vrias vezes. Muitos especialistas consideram esta a
melhor tcnica de avaliao de modelos, apesar de seu alto custo computacional (RUD,
2001).
Adicionalmente, algumas vezes, pode ser necessria uma terceira partio de dados
que auxiliaria o refinamento dos modelos criados. Esta partio se chama de partio de
validao e seria utilizada em um passo intermedirio entre o treinamento e o teste do
modelo. Dados presentes na partio de validao tambm so independentes e sem
sobreposio em relao s outras parties.
2.4.3.2 Medio do erro
Com a aplicao das tcnicas de particionamento dos dados passa a ser possvel
medir o erro de predio dos modelos criados. Existem diversas mtricas para avaliar a
qualidade preditiva de um modelo, que passam a ser descritas a seguir.
Erro de regresso
A tarefa de regresso visa predizer um valor numrico contnuo para uma varivel
dependente. Para avaliar o erro de regresso, deve ser calculada a diferena entre o valor
predito pelo modelo e o valor real desta varivel para cada uma das amostras. O erro
mdio do modelo ento calculado pela mdia de erro para todas as amostras
(THEODORIDIS e KOUTROUMBAS, 2003). As duas medidas mais utilizadas para

32

avaliar o erro de regresso so: o erro quadrado mdio (EQM) e o desvio absoluto
mdio (DAM).
Tendo-se xi a i-sima entrada, p(xi) o valor predito para a amostra i, yi o valor
real de sada e n a quantidade de amostras, o EQM definido pela seguinte equao:
1
EQM =
n

( p( x ) y )
i

i =1

O DAM, por outro lado, simplesmente dado pelos valores absolutos dos erros
individuais. O DAM obtido atravs da seguinte equao:
DAM =

1
n

| p( x ) y |
i

i =1

Erro de classificao
A tarefa de classificao visa predizer valores categricos de uma varivel
dependente. Uma amostra classificada incorretamente se o valor predito pelo modelo
diferente do valor real da varivel. Por outro lado, se o valor predito igual ao valor
real, a amostra foi classificada corretamente. O desempenho de um modelo preditivo
calculado atravs do nmero de erros e do nmero total de amostras (YE, 2003).
Tendo-se que Em o erro de classificao do modelo, e a quantidade de amostras
classificadas incorretamente e n a quantidade total de amostras, o erro de classificao
do modelo dado pela seguinte equao:
Em =

e
n

Exatido
A exatido de um classificador uma medida complementar ao erro de
classificao. Desta forma, a exatido do modelo dada pela quantidade de amostras
classificadas corretamente divididas pela quantidade total de amostras.
Falsos positivos, falsos negativos e matriz de classificao binria
A classificao de um conjunto de amostras em duas classes a aplicao mais
comum quando se trata de classificao, embora seja possvel aplicar esta tcnica
quando houver um maior conjunto de classes.
Quando a classificao realizada a um problema com duas classes distintas, o
desempenho preditivo do modelo pode ser descrito atravs de uma matriz quadrada de
ordem 2.
A construo desta matriz parte dos seguintes pressupostos: tem-se o rtulo de
classe real Cr+ sendo verdadeiro, e o rtulo de classe real Cr- sendo falso. Tem-se Cp+
como a classe predita verdadeira, e Cp- como a classe predita falsa. H quatro
combinaes possveis, estando as combinaes corretas na diagonal principal da matriz
e as combinaes incorretas na diagonal secundria. Os valores de verdadeiros positivos
(VP) e verdadeiros negativos (VN) correspondem as respostas corretas e os valores de
falsos positivos (FP) e falsos negativos (FN) correspondem as respostas incorretas. A
tabela 2.1 apresenta uma tabela de erro de classificao binria (HAND et al., 2001).

33

Tabela 2.1: Erro de classificao binria


Cp +

Cp -

Cr+

VP

FN

Cr-

FP

VN

Preciso, Revocao e medida F


Ainda no caso de classificao binria, em muitas aplicaes, pode haver uma
grande quantidade de exemplos negativos e uma pequena quantidade de exemplos
positivos. Nestes casos, um modelo poderia alcanar uma exatido muito alta
simplesmente classificando todos os dados como negativos. Da mesma forma, tambm
poderia ser obtido um baixo erro de classificao.
Para evitar esta armadilha, podem ser utilizadas outras trs mtricas: preciso,
revocao e medida F. A preciso denota a proporo entre a quantidade de exemplos
que foram corretamente classificados e a quantidade de exemplos classificados como
positivos, sejam eles corretos ou no. J a revocao denota a proporo entre a
quantidade de exemplos que foram corretamente classificados como positivos e a
quantidade de exemplos que deveriam ter sido classificados como positivos. A medida
F obtida atravs da mdia harmnica de preciso e revocao (YE, 2003).
preciso =

VP
VP + FP

revocao =

VP
VP + FN

MedidaF =

2
1
preciso

1
revocao

Sensibilidade e especificidade
So duas mtricas amplamente utilizadas para avaliao de diagnsticos em
medicina. A sensibilidade idntica a revocao e reflete o quanto bom o modelo na
identificao de exemplos positivos (HAND et al., 2001). J a especificidade reflete o
quanto bom o modelo na identificao de exemplos negativos. Sensibilidade e
especificidade so dadas pelas seguintes equaes:
sensibilidade =

VP
VP + FN

especificidade =

VN
VN + FP

Teoricamente, as mtricas de sensibilidade e especificidade so independentes e


ambas podem atingir 100% em um mesmo modelo. Porm, na maioria dos problemas
prticos, este patamar difcil de ser atingido.

34

Matriz de confuso
Como grande parte dos problemas de classificao envolve apenas duas classes, a
tabela 2.1 cobre a maioria dos casos (HAND et al., 2001). Porm, em outros casos, a
quantidade de classes pode ser superior a duas. Desta forma, podem ser criadas matrizes
com ordem maior que 2, de modo que a ordem da matriz seja igual quantidade de
classes do problema. Esta matriz chamada de matriz de confuso ou tabela de
contingncia.
A tabela 2.2 ilustra uma matriz de confuso para um modelo preditivo de quatro
classes, onde Cpx representa a classe predita x, e Cry representa a classe real y. O valor de
cada clula dado por Zi,j, onde i denota a classe real do exemplo e j denota a classe
predita pelo modelo. Para todo Zi,j onde i = j, o exemplo foi corretamente predito.
Tabela 2.2: Matriz de confuso
Cp1

Cp2

Cp3

Cp4

Cr1

Z1,1

Z1,2

Z1,3

Z1,4

Cr2

Z2,1

Z2,2

Z2,3

Z2,4

Cr3

Z3,1

Z3,2

Z3,3

Z3,4

Cr4

Z4,1

Z4,2

Z4,3

Z4,4

Curvas ROC
A teoria das curvas ROC (Receiver Operating Characteristic) originou-se na teoria
de deteco de sinais (HAND et al., 2001). A curva ROC representa a sensibilidade e o
complemento da especificidade em um grfico para um sistema de classificao binrio
cujo limiar de distino entre as duas classes varivel. A anlise deste grfico permite
a identificao dos modelos provavelmente timos e dos modelos sub-timos.
O espao ROC, que definido pelo complemento da especificidade em funo da
sensibilidade, apresenta a relao custo (especificidade) x benefcio (sensibilidade) dos
modelos medida que o limiar alterado. A figura 2.5 apresenta o espao ROC e a
representao de quatro modelos distintos: A, B, C e C.
O modelo ideal estaria representado na coordenada (0,1) do espao ROC, indicando
que todos os exemplos positivos foram encontrados e que nenhum exemplo negativo foi
predito como positivo. A incerteza mxima est representada no espao ROC pela linha
diagonal secundria. Pontos acima da diagonal secundria indicam que o modelo
consegue representar algum nvel de conhecimento a partir dos exemplos, enquanto
pontos abaixo desta diagonal indicam que o modelo ruim.
O modelo representado pelo ponto A mostra os melhores resultados em comparao
com os pontos B e C. O ponto B, que est sobre a diagonal secundria, indica que o
modelo atinge um nvel de 50% de acerto. J o ponto C representa o pior modelo, pois a
maioria de suas decises incorreta. Porm, se todas suas decises forem tomadas ao
contrrio, seria criado um novo modelo C que seria o melhor modelo entre os quatro
modelos gerados.

35

Figura 2.5: O espao ROC


Curva lift
Curvas lift so uma abordagem grfica para avaliar e comparar a utilidade de
diferentes modelos de classificao. O caso mais comum da aplicao de uma curva lift
para comparar as respostas entre o modelo criado e a resposta que seria obtida sem a
utilizao de um modelo. Desta forma, o lift permite quantificar a proporo entre os
casos positivos encontrados pelo modelo e os casos positivos existentes dentre todos os
exemplos (LAROSE, 2005).
A figura 2.6 apresenta um exemplo de curva lift. Neste caso, a figura mostra que
10% dos exemplos pertencem classe em estudo, fato mostrado pela linha base. O
grfico tambm apresenta o comportamento com a utilizao de um modelo preditivo X.

Figura 2.6: Curva Lift

36

2.4.3.3 Outras mtricas de desempenho


Apesar do objetivo principal do processo de MD ser a criao de modelos que
possam explicar os dados com maior preciso possvel, algumas outras mtricas
tambm podem ser analisadas no momento de tomar a deciso sobre qual a melhor
abordagem para modelar um problema (YE, 2003).
Tempo de Treinamento
O tempo de treinamento refere-se ao tempo necessrio para construir o modelo a
partir dos dados de treinamento. Segundo Witten e Frank (2005), quando a quantidade
de dados muito grande, duas dimenses distintas tornam-se crticas: espao e tempo.
O espao torna-se crtico porque algumas abordagens necessitam que todos os dados
estejam na memria principal durante o treinamento e/ou teste. J o tempo torna-se
crtico porque muitos dos algoritmos de treinamento no tm escalabilidade linear com
o aumento da quantidade de exemplos de treinamento. J outros algoritmos tm
dificuldade em lidar com uma grande quantidade de caractersticas de entrada.
O tempo de treinamento de redes neurais, por exemplo, tipicamente bem maior que
o tempo de treinamento de algoritmos de rvores de deciso.
Alm do tempo de treinamento, tambm pode ser levado em considerao o tempo
de re-treinamento, em ambientes onde o aprendizado no possa ser incremental.
Algumas tcnicas de MD tm a necessidade de realizar novamente todo o processo de
treinamento se uma nova amostra de treinamento apresentada.
Tempo de aplicao
O tempo de aplicao refere-se ao tempo necessrio para usar o modelo a fim fazer
alguma predio sobre um exemplo previamente desconhecido.
Enquanto algumas tcnicas tm um tempo de treinamento alto e um tempo de
aplicao baixo, outras tcnicas no tm tempo de treinamento, mas sua aplicao em
quantidades muito grandes de dados pode ser impossvel devido ao consumo dos
crticos recursos de memria e tempo. Aplicaes de DCBD devem levar em conta tanto
o tempo de treinamento quanto o tempo de aplicao. Quando a quantidade de dados
utilizada nos processos de treinamento e aplicao for pequena, os recursos de espao e
tempo deixam de ser crticos.
2.4.4 Ps-Processamento
Esta fase tem por objetivos traduzir o conhecimento obtido como resultado da
aplicao dos algoritmos para uma linguagem passvel de compreenso e assegurar a
qualidade deste conhecimento descoberto.
Interessabilidade
A interessabilidade do modelo refere-se a sua capacidade de gerar conhecimento que
seja interessante para o usurio. As medidas de interesse podem ser subjetivas, objetivas
ou imparciais. O interesse subjetivo leva em conta explicitamente as necessidades
especficas do usurio e conhecimento prvio. O interesse objetivo mede a relevncia de
um padro a partir de sua estrutura e dos dados usados no processo de descoberta de
conhecimento porm, ainda requer certo nvel de interveno do usurio. O interesse
imparcial refere-se a medidas que podem ser aplicadas autonomamente sobre o
resultado do algoritmo a fim de reduzir a quantidade de regras no interessantes,

37

independentemente do domnio do problema, da tarefa ou dos usurios (MAIMON e


ROKACH, 2005).
Interpretabilidade
A interpretabilidade do modelo refere-se a sua capacidade de poder ser traduzido
para uma linguagem compreensvel pelo ser humano. A interpretabilidade tambm pode
consistir em um importante fator a ser considerado na seleo do melhor modelo, pois
permitiria as pessoas envolvidas como o processo de MD obterem algum conhecimento
sobre os dados e corrigir alguma eventual falha deste processo.
Modelos baseados em regras so facilmente interpretveis, j modelos de caixa
preta, tais como as redes neurais, tm grande dificuldade de interpretao. Porm,
especificamente no caso das redes neurais, j h diversas propostas na literatura para
extrao de regras a partir de modelos neurais, embora nenhuma delas seja amplamente
aceita e utilizada.
Avaliao do especialista
Em alguns domnios, os modelos criados pelo processo de DCBD tm aplicabilidade
prtica, podendo ser aplicados sobre dados reais e obtendo resultados que podem ser
facilmente avaliados. Porm, em reas onde o especialista em DCBD tem pouco
conhecimento, o envolvimento de um especialista do domnio um fator que pode
contribuir decisivamente para o sucesso do trabalho.
Em reas crticas, tais como as que lidam diretamente com a sade humana, tambm
h uma grande dependncia do especialista do domnio. Alm disso, nessas reas, o
especialista do domnio certamente no basearia suas crenas em um sistema caixa
preta para tomar sua deciso e a utilizao do modelo certamente estaria ligada a
existncia de alguma forma de consulta aos fatos utilizados pelo modelo para
fundamentar sua deciso.
Divergncias entre os resultados do modelo e as decises tomadas pelo especialista
do domnio, ainda que raras, podem existir. O modelo criado simplesmente ir
representar o conhecimento expresso nos dados de treinamento. A existncia de algum
vis nestes dados de treinamento ir implicar na possibilidade de decises incorretas. A
existncia de algum vis nas decises do especialista do domnio pouco provvel,
pois, possivelmente, sua experincia esteja baseada em um conjunto muito maior de
exemplos do que o restrito conjunto de treinamento utilizado pelo processo de DCBD.
Teste de campo
Aps a criao de modelos atravs do processo de DCBD a grande incgnita sobre
o desempenho futuro deste modelo na predio de dados reais. Sem dvida, a avaliao
final do modelo se dar atravs de sua aplicao sobre dados reais e previamente
desconhecidos. Dados reais consistiro em uma valiosa forma de testar a robustez do
modelo. Isto ocorre porque dados do mundo real podem ter peculiaridades adicionais
em relao aos dados pr-processados e utilizados previamente para treinamento e teste
que podem fazer o modelo comportar-se de modo inesperado.
Neste captulo foram abordados os principais conceitos de descoberta de
conhecimento em banco de dados e as fases deste processo. No prximo captulo, sero
apresentados os principais conceitos sobre as RNAs.

38

3 REDES NEURAIS ARTIFICIAIS

Do ponto de vista fsico, um computador moderno pode ser considerado como um


artefato constitudo de um conjunto de componentes eletrnicos com a capacidade de
executar tarefas algortmicas. Porm, a dificuldade do computador realizar tarefas de
natureza no-algortmica notria. J o crebro dos seres vivos, principalmente dos
seres humanos, tem uma peculiar capacidade para solucionar problemas de natureza no
algortmica. Nada mais natural que se desenvolvesse um modelo para soluo de
problemas no algortmicos com inspirao no funcionamento do crebro humano.
Desta forma, surgiu o paradigma das Redes Neurais Artificiais (RNAs).
As RNAs consistem um uma poderosa abordagem para aprendizado de valores reais,
discretos ou vetoriais. Esta abordagem implementa aspectos importantes de sistemas de
reconhecimento de padres, tais como robustez, adaptatividade, velocidade e
aprendizado. O aprendizado realizado atravs de exemplos discriminando as
caractersticas entre os vrios padres de entrada. A partir destes exemplos, a RNA
iterativamente reduz o erro e automaticamente descobre os relacionamentos inerentes
aos dados (MITRA e ACHARYA, 2003). Estudos realizados sobre as redes neurais
humanas constataram que populaes neurais envolvidas na codificao de memrias
tambm extraem uma espcie de conceitos generalizados que nos permitem transformar
nossas experincias dirias em conhecimento e idias (TSIEN, 2007). Diversos
trabalhos disponveis na literatura cientfica relatam o sucesso da aplicao das RNAs
nos mais diversos problemas (MITCHELL, 1997). Dentre as tarefas de minerao de
dados que podem ser executadas pelas redes neurais esto: classificao de padres,
agrupamento, aproximao de funes, regresso e controle (MITRA e ACHARYA,
2003).
Este captulo aborda os conceitos fundamentais a respeito das RNAs, a inspirao
biolgica, o neurnio artificial, arquiteturas bsicas das RNAs e as principais formas de
treinamento.

3.1 Inspirao biolgica


O sistema nervoso central humano consiste de unidades celulares bsicas chamadas
de neurnios, os quais compem o crebro, a retina e a medula espinhal. Os neurnios
so altamente estimulveis, sendo capazes de captar mnimas variaes eltricas que
ocorrem ao seu redor, process-las e gerar sinais para outros neurnios vizinhos. Estas
variaes eltricas so chamadas de impulsos nervosos.

39

O funcionamento de um neurnio biolgico, que decide a natureza de seu sinal de


sada como uma funo de seus sinais de entrada, ainda no plenamente conhecida
(KONAR, 2000). Apesar disso, existe um consenso entre os pesquisadores da rea
biolgica que o neurnio, aps receber um conjunto de sinais de entrada, estima uma
mdia ponderada destes sinais e limita a amplitude resultante do sinal processado
atravs de uma funo de inibio no linear. A razo da no linearidade a
concentrao de ons de potssio dentro da clula e de sdio fora da clula, que causam
uma diferena de potencial eltrico atravs da membrana celular. Esta diferena de
potencial pode assumir valores diferentes para cada um dos neurnios vizinhos devido
s diferentes concentraes inicas locais. Quando um neurnio recebe sinais de seus
vizinhos, cada um destes sinais atenuado diferentemente pelas diferenas de potencial
locais. Conseqentemente, estas diferenas de concentrao inica agem como
ponderadores na determinao da mdia dos estmulos que ser feita pelo neurnio em
questo.
Para executar suas funes, um neurnio biolgico tem trs componentes estruturais
bsicos: os dendritos, o corpo da clula e o axnio. Os dendritos so um conjunto de
ramificaes que partem do corpo do neurnio e agem como receptores, recebendo os
sinais dos neurnios vizinhos e transmitindo-os para o corpo do neurnio. O corpo do
neurnio, tambm chamado de soma, recebe os sinais coletados, processa-os e envia o
sinal resultante por uma longa fibra chamada axnio. Na extremidade do axnio esto as
terminaes sinpticas, onde agem os inibidores. As terminaes sinpticas, ou
sinapses, controlam o fluxo dos impulsos nervosos do neurnio atual para os dendritos
dos neurnios vizinhos.

Figura 3.1: O neurnio biolgico


O crebro humano um sistema de processamento paralelo composto por
aproximadamente 1011 neurnios, sendo que cada um deles pode receber estmulos de

40

em torno de 103 a 104 dendritos e, aps o processamento, gera somente uma nica sada.
O fluxo dos impulsos nervosos se d no sentido das setas, conforme figura 3.1.

3.2 O neurnio artificial


O neurnio artificial consiste na unidade bsica de processamento de informao de
uma RNA. A figura abaixo apresenta o modelo do neurnio artificial, que a unidade
fundamental de uma RNA. Tal como seu anlogo biolgico, o neurnio artificial tem
trs elementos bsicos (FREEMAN e SKAPURA, 1991):

Um conjunto de sinapses, sendo cada uma delas caracterizada por um peso.


Tendo-se uma sinapse de entrada j conectada ao neurnio k, seu valor de
entrada xj multiplicado pelo seu peso sinptico wkj.

Uma funo de propagao, tipicamente representada por um somatrio do


produto dos sinais de entrada pelos seus respectivos pesos.

Uma funo de ativao que limita a amplitude do valor de sada do


neurnio.

A figura 3.2 apresenta a estrutura bsica de um neurnio artificial.

Figura 3.2: O neurnio artificial


A partir da analogia com o neurnio biolgico, a descrio matemtica do neurnio
artificial baseia-se em um modelo com valores das n caractersticas de entrada
representando os dendritos, sendo elas: {x1, x2, x3, ..., xn}. Tipicamente os valores de x
variam nos intervalos entre [0,1] ou [-1,1]. Existe tambm um valor de sada
representando o axnio, sendo ele: yk. Com a finalidade de simular o comportamento
das sinapses, as caractersticas de entrada possuem pesos sinpticos acoplados, sendo
eles: {wk1, wk2, wk3, ..., wkn}. Os pesos sinpticos podem assumir valores positivos para
sinapses excitatrias, ou negativos, para sinapses inibitrias.
O modelo neural tambm inclui um vis aplicado externamente, denotado por bk,
cuja finalidade aumentar ou diminuir a entrada da rede da funo de ativao, e yk o
sinal de sada do neurnio. De uma maneira mais formal, um neurnio k pode ser
descrito pelo seguinte conjunto de equaes:

41

uk = wkj x j
j =1

= (u k + bk )

Onde x1, x2, x3, ..., xn so os sinais de entrada; wk1, wk2, wk3, ..., wkn so os pesos
sinpticos do neurnio k; vk a sada do combinador linear gerada pelos sinais de
entrada; bk o vis; a funo de ativao; e yk o sinal de sada do neurnio
(HAYKIN, 1999).
3.2.1 Funes de ativao
Cada neurnio propaga seu resultado para outros neurnios conectados a sua sada.
Porm, este resultado, antes de ser repassado para outros neurnios, tem seu valor
influenciado pela chamada funo de ativao.
Enquanto a funo de propagao de um neurnio artificial, que representa corpo da
clula neural biolgica, modelado por uma funo linear, a funo de ativao, que
representa a sua sinapse, pode ser de natureza linear ou no linear. O tipo de funo de
ativao depende do problema que o neurnio est tentando resolver. Em problemas
lineares so utilizadas funes de ativao lineares.
Em problemas que possuam no linearidade, a sinapse do neurnio pode ser
modelada por uma funo de inibio no linear a fim de limitar a amplitude do sinal
processado pela funo de propagao. Desta forma, a utilizao de funes de ativao
nos neurnios ocultos de uma rede neural artificial necessria para inserir a no
linearidade na rede.
A funo de ativao, denotada por (yk), na figura 3.2 define o valor de sada yk de
um neurnio.
Os tipos bsicos de funes de ativao so:

Funo de limiar: esta funo define a sada do neurnio para os valores 0 ou


1, sendo usada para classificar entradas em duas categorias distintas. A
funo de limiar, apresentada na figura 3.3 a), definida da seguinte forma:

(v ) =

1
0

se v 0
se v < 0

Funo linear: a sada de uma funo de ativao linear igual a sua entrada,
conforme apresentado na figura 3.3 b), e sua funo de sada dada por:

(v ) = v

Funo de saturao: esta funo, apresentada na figura 3.3 c), definida da


seguinte forma:

se v < 0

se 0 v 1
se v > 1

(v ) = v

42

Funo sigmide logartmica: esta funo possui a propriedade de


diferenciabilidade contnua. Sua desvantagem a de restringir sua sada a
somente valores positivos. A funo sigmide logartmica apresentada na
figura 3.3 d), sendo definida por:

(v ) =

1
1 + exp( v )

Funo tangente hiperblica: esta funo similar a sigmide, mas tem


como vantagem o fato de sua sada gerar valores positivos e negativos. Esta
funo, apresentada na figura 3.3 e), definida por:

(v ) =

2
1
(1 + exp( 2v ) )

a)

b)

c)

d)

e)
Figura 3.3: Funes de ativao

43

Alm dos tipos bsicos apresentados, h inmeras outras funes de ativao,


utilizadas em casos mais especficos (HAGAN et al., 1995), que no foram aqui
mencionadas.

3.3 A Rede Neural Artificial


Uma rede neural artificial um modelo computacional abstrato do crebro humano.
Assim como o crebro, uma RNA composta por um conjunto de neurnios artificiais,
ou nodos, que so unidades de processamento dotadas de parmetros adaptativos. Estes
nodos so interconectados atravs de ligaes direcionais, que refletem uma relao
causal entre os nodos de suas extremidades. Os neurnios esto distribudos em
camadas sendo que os neurnios pertencentes mesma camada funcionam de forma
paralela. De uma maneira mais formal, uma rede neural artificial pode ser vista como
um grafo dirigido com pesos. Neste grafo os neurnios artificiais so os nodos e as
arestas dirigidas so as conexes entre os neurnios (HAYKIN, 1999). A forma na qual
a RNA est estruturada discutida na seo 3.4.1.
Um organismo dito como inteligente se ele consegue aprimorar seu
comportamento medida que aumenta sua experincia. Um comportamento aprimorado
ir fazer com que o organismo inteligente melhore os resultados de suas aes com o
passar do tempo. A expresso da inteligncia de uma RNA pode se dar por dois
motivos: alterao na estrutura da rede ou alterao nos pesos sinpticos. Quase que a
totalidade dos algoritmos de aprendizado de RNAs agem somente a nvel de alterao
de pesos sinpticos.
3.3.1 Arquiteturas de rede

A arquitetura de uma RNA definida pelas caractersticas de um nodo e pelas


caractersticas de conectividade dos nodos da rede. As arquiteturas so escolhidas de
acordo com as caractersticas do problema a ser tratado. Alm disso, a forma pela qual
os neurnios esto distribudos tambm tem uma estreita relao com o algoritmo de
treinamento que ser utilizado. Dentre as propriedades que caracterizam as diferentes
arquiteturas esto:

Quantidade de camadas:
o Camada nica: em redes de camada nica existe somente um nodo
entre qualquer entrada e qualquer sada da rede neural.
o Mltiplas camadas: em redes de mltiplas camadas existe mais de um
nodo entre qualquer entrada e qualquer sada da rede neural.

Conexes dos nodos:


o Alimentadas a diante: a sada de um nodo da i-sima camada da rede
no pode ser usada como entrada de outro nodo da j-sima camada,
tal que j <= i.
o Retroalimentadas: a sada de um nodo da i-sima camada da rede
utilizada como entrada de outro nodo da j-sima camada, tal que j <=
i.

Conectividade da rede:

44

o Fracamente conectada: nem todos os nodos da i-sima camada esto


conectado com os nodos da j-sima camada, tal que i = j+1.
o Totalmente conectada: todos os nodos da i-sima camada esto
conectado com os nodos da j-sima camada, tal que i = j+1.

A partir da combinao destas propriedades bsicas, algumas arquiteturas so mais


comuns sendo aplicadas na grande maioria dos problemas. So elas:

Redes de camada nica.

Redes multicamadas, alimentadas adiante, totalmente conectadas.

Redes retro-alimentadas.

Em termos da arquitetura de rede, as RNAs so muito diferentes do crebro humano


principalmente pelo fato das RNAs terem uma estrutura organizada e hierrquica. Em
termos de escala, o crebro humano atinge uma escala muito maior que qualquer RNAs
j projetada. Porm, mantidas as devidas propores, as RNAs conseguem paralelizar o
processamento da informao de uma forma pretensamente similar ao crebro humano.
Esta paralelizao permite que as RNAs consigam executar tarefas muito especficas
que requerem inteligncia.
O presente trabalho tem como foco de aplicao as redes multicamadas. Embora
tambm seja possvel a aplicao da tcnica proposta em outras arquiteturas, no foram
feitos experimentos que pudessem comprovar tal possibilidade.
3.3.1.1 Redes Multicamadas
Como mencionado anteriormente, as redes multicamadas caracterizam-se pela
presena de mais de um neurnio entre suas entradas e suas sadas. As camadas de uma
rede multicamadas so classificadas em trs grupos:

Camada de entrada: onde os padres so apresentados rede.

Camadas ocultas: onde realizada a maior parte do processamento da rede.


Pode haver uma ou mais camadas ocultas.

Camada de sada: onde o resultado final obtido e apresentado.

As camadas ocultas e de sada so compostas por neurnios, o que significa que elas
tm capacidade de processamento. A camada de entrada composta por elementos que
somente repassam para a camada seguinte o seu estmulo de entrada, sem realizar
nenhum processamento com sua entrada. Alm disso, as redes multicamadas so
obrigatoriamente alimentadas adiante, e podem ser tanto fracamente conectadas quanto
totalmente conectadas.
A quantidade de neurnios nas camadas ocultas e de sada, assim como a quantidade
de camadas ocultas, variam de acordo com a natureza do problema a ser aprendido e
devem ser definidas durante o projeto da rede. A definio da quantidade de neurnios
na camada de sada trivial. Em tarefas de regresso geralmente utilizado somente um
neurnio na camada de sada. Em tarefas de classificao geralmente so utilizados
tantos neurnios quantas forem as classes a serem preditas. J as decises referentes
camada oculta so as mais difceis, no existindo regras plenamente aceitas para isso,
porm existe um consenso que dificilmente devem ser necessrias mais de duas
camadas ocultas (MUNAKATA, 2008). A deciso da quantidade de neurnios na

45

primeira camada oculta e na segunda, caso ela seja necessria, geralmente tomada
aps a anlise de diversas configuraes de valores distintas. Desta forma, so criadas
diversas RNAs, cada uma delas com diferentes configuraes de camadas ocultas. A
configurao que obtiver melhor resultado na modelagem do problema ser utilizada.
Existem tambm algumas abordagens hbridas que utilizam algoritmos genticos para
definir estas configuraes (TAYLOR, 2006).
A figura 3.4 apresenta um exemplo tpico de uma RNA multicamada, alimentada
adiante, totalmente conectada, com 7 entradas, 1 camada oculta com 10 neurnios, e 3
neurnios na camada de sada.

Figura 3.4: Exemplo tpico de uma RNA multicamada


3.3.2 Algoritmos de treinamento

O objetivo dos algoritmos de treinamento fazer a RNA aprender os conceitos


expressos nos dados de treinamento. O processo de aprendizado pode ser definido como
a pesquisa pelo modelo mais adequado, ou hiptese, descrevendo um conjunto de dados
(GUYON, 2006). A definio do modelo mais adequado pode ser vista como uma
funo na forma:

f : X Y
onde X representa o conjunto de exemplos de treinamento, e Y representa os valores
alvo da funo, e f representa o modelo que faz o mapeamento. Tal modelo geralmente
depende de parmetros adaptativos, e o processo de aprendizado consiste em pesquisar
os valores timos para estes parmetros adaptativos. Os algoritmos de treinamento das
redes neurais consistem em abordagens heursticas para vasculhar grandes espaos de
pesquisa a fim de definir os valores destes parmetros adaptativos.

46

Existem diferentes algoritmos de treinamento para RNAs. Estes algoritmos tm uma


estreita relao com o tipo de problema que a RNA ir tratar. As RNAs podem ser
aplicadas a trs tipos de problemas de aprendizado: supervisionado, no supervisionado
ou por reforo. Neste trabalho o foco voltado a problemas de aprendizado
supervisionado. Nestes casos, o algoritmo mais utilizado o backpropagation. O
algoritmo backpropagation requer uma rede com topologia multicamada alimentada a
diante totalmente conectada. Embora no existam pesquisas que comprovem este fato,
acredita-se que em torno de 90% das aplicaes comerciais e industriais de redes
neurais utilizem o algoritmo backpropagation ou suas variantes (MUNAKATA, 2008).
Dado que o treinamento ser supervisionado, todas as sadas so conhecidas para
cada entrada. Partindo-se deste princpio, para um determinado padro de entrada, o
valor de sada estimado atravs de uma propagao do vetor que representa esta
entrada para frente na rede. Ao final desta propagao, o vetor de erro na camada de
sada estimado a partir da diferena entre a sada obtida e a sada desejada. A funo
de erro dos nodos da camada de sada ento retro-propagada atravs da rede para cada
camada ajustando os pesos na camada. A poltica de adaptao de pesos no algoritmo
backpropagation derivada da abordagem do gradiente descendente de encontrar o
mnimo de uma funo multi-valorada. Durante a aplicao do algoritmo
backpropagation possvel ento identificar dois tipos distintos de sinais na rede: os
sinais funcionais, que so propagados no sentido da entrada para a sada; e os sinais de
erro, que so propagados no sentido da sada para a entrada.
Didaticamente, o funcionamento do algoritmo backpropagation pode ser dividido
em trs fases: iniciao, treinamento e critrio de parada.
Na fase de iniciao so definidos a estrutura da RNA e os valores de alguns
parmetros bsicos para o processo de treinamento:
1. Definir a estrutura da RNA, em termos de quantidade de camadas, de
quantidade de neurnios em cada camada, e definir a funo de ativao que
ser utilizada em cada camada;
2. Definir o nmero mximo de pocas de treinamento;
3. Definir a forma de iniciao dos valores dos pesos sinpticos, que por
padro, assumem valores aleatrios entre -1 e 1;
4. Definir os valores do momento e da taxa de aprendizado;
5. Definir um valor alvo para o EQM;
Muitas vezes somente a execuo dos passos 1 e 2, descritos anteriormente,
necessria, j que os parmetros definidos nos passos de 4 a 5 podem utilizar valores
padro.
Na fase de treinamento efetivamente ocorre o aprendizado da RNA, ou seja, ocorre a
adaptao dos pesos. Nesta fase podem ser enfatizados os seguintes passos do
algoritmo:
1. Apresentar o vetor de entradas do conjunto de treinamento rede.
2. Para cada exemplo de entrada deve ser executado um ciclo completo de
propagao da entrada e retropropagao do erro;
3. Quando todos os exemplos de entrada do conjunto de treinamento tiverem
sido apresentados rede, est finalizada uma poca de treinamento.

47

4. Inicia-se uma nova poca de treinamento, apresentando todo o vetor de


entradas rede at que o critrio de parada seja atingido.
O critrio de parada pode ser atingido de vrias formas distintas:
1. O EQM atingiu um valor suficientemente baixo. Este EQM deve ser
calculado com base no erro de todos os exemplos do conjunto de
treinamento.
2. O EQM atingiu um valor abaixo do limiar definido na fase de iniciao.
3. A variao do EQM atingiu um valor suficientemente baixo, ou seja, a cada
nova poca aprende-se muito pouco em relao poca anterior.
4. A quantidade mxima de pocas de treinamento foi atingida, caso este valor
tenha sido definido na fase de iniciao.
O passo 2 da fase de treinamento ainda pode ser mais bem detalhado, sendo
executados os seguintes sub-processos:
1. Apresentar as entradas do prximo exemplo de treinamento para a camada
de entrada.
2. Passar estes valores para a camada seguinte.
3. Realizar o somatrio ponderado pelos pesos e calcular as ativaes.
4. Apresentar as ativaes para a prxima camada, repetindo os passos 3 e 4
at atingir a camada de sada.
5. Ao atingir a camada de sada da rede, calcular o erro comparando a sada da
rede com o valor desejado para o padro.
6. Propagar o erro para a camada anterior, ajustando os pesos, at atingir a
camada de entrada.
7. Repetir os passos de 1 a 6, at que todos os exemplos do conjunto de
treinamento tenham sido vistos.
O sub-processo 6, descrito logo acima, o que efetivamente ajusta os pesos da
RNA. Este ajuste dos pesos obedece regra delta generalizada, que foi proposta por
Rumelhart e McClelland (1986). Segundo esta regra, dado um vetor d(k) com as
respostas de sada desejadas para um determinado conjunto k de treinamento, onde d(k)
= [d1(k), d2(k), ..., dm(k)]T, e um vetor y(k) com as respostas de sada obtidas pela RNA
para este conjunto de treinamento, onde y(k) = [y1(k), y2(k), ..., ym(k)]T, a regra delta
generalizada executa um processo de otimizao tal que cada erro de sada seja
minimizado, assumindo-se que o erro definido pela diferena entre os vetores d(k) e
y(k).
Uma funo de erro instantneo para a rede dada pela soma dos quadrados dos
erros de sada para todas as unidades de sada atravs da seguinte equao:
2

E=

1 m
1 m 2
[
d
(
k
)

y
(
k
)]
=
j
e j (k )
j
2 j =1
2 j =1

onde o erro de sada ej descreve o erro entre a j-sima resposta desejada e a j-sima
sada da rede, e dado por:
ej = (dj - yj)

48

e a constante 1/2 foi introduzida para convenincia no clculo das derivadas.


Finalmente, se aps a execuo do algoritmo backpropagation no tiverem sido
atingidos resultados razoveis, conveniente a reformulao das decises tomadas no
passo 1 da fase de iniciao, que extremamente dependente de cada problema a ser
modelado. Alm disso, supe-se que o conjunto de treinamento representativo em
relao ao conjunto de teste.
3.3.3 Codificao de entradas e sadas

Tambm importante salientar que as RNAs somente tem capacidade de tratar


caractersticas numricas. Tanto os valores de entrada fornecidos quanto os valores de
sada obtidos de uma rede neural devem ser transformados de forma a ficarem nos
intervalos [0,1] ou [-1,1], dependendo da funo de ativao utilizada.
Para variveis contnuas, devem ser utilizadas as tcnicas de normalizao. Para
variveis discretas ordenadas devem ser utilizadas as tcnicas de binning. Para variveis
categricas devem ser utilizadas as tcnicas de converso de tipos de dados. Estas
tcnicas so mostradas na seo 2.4.1.5.
Apesar da grande flexibilidade das redes neurais, que permitem a modelagem de
uma grande variedade de problemas tanto de natureza linear quanto no linear, esta
tcnica sofre pesadas crticas pela dificuldade de compreenso dos modelos gerados, o
que leva a uma dificuldade de interpretao de seus resultados (LAROSE, 2005). Ainda
no existe uma abordagem amplamente aceita que possa extrair o conhecimento
armazenado em uma rede neural, embora existam numerosas pesquisas neste sentido.
Neste captulo foram abordados os principais conceitos sobre as RNAs. No prximo
captulo ser abordado o processo da reduo de dimensionalidade dos dados, com
nfase na apresentao das tcnicas para execuo deste processo.

49

4 REDUO DE DIMENSIONALIDADE DOS DADOS

Este captulo apresenta os conceitos bsicos a respeito da reduo de


dimensionalidade dos dados. O problema da maldio da dimensionalidade e o
fenmeno do pico, que so as principais justificativas para utilizao de tcnicas de
reduo de dimensionalidade, so comentados. Tambm so apresentadas as tcnicas de
reduo de dimensionalidade e suas respectivas classificaes, dando nfase especial
seleo de subconjunto de caractersticas (SSC), que o foco principal deste trabalho.

4.1 Panorama atual


Nos dias atuais, durante a investigao de fenmenos ou processos, os cientistas
constantemente tm se deparado com a necessidade de encontrar estruturas
significativas ocultas, de baixa dimenso, dentro de dados de alta dimenso, sendo tal
tcnica denominada de reduo de dimensionalidade dos dados (RDD). Analogamente,
o crebro humano se confronta com o mesmo problema em suas percepes dirias,
extraindo, de forma eficiente, um pequeno nmero de estmulos relevantes a partir de
aproximadamente 30.000 fibras nervosas sensoriais (TENENBAUM et al., 2000).
Na maioria das vezes em que esto lidando com dados de alta dimenso, os
cientistas tm buscado auxlio em tcnicas autnomas de modelagem, tais como as
redes neurais. A alta dimenso dos dados manifesta-se atravs de uma grande
quantidade de exemplos e de caractersticas descrevendo cada exemplo. medida que a
quantidade de caractersticas incrementa, as tcnicas de modelagem tornam-se menos
precisas e mais lentas. O tempo do processo freqentemente aumenta em escala
exponencial ou polinomial em relao ao incremento da quantidade de caractersticas.
Um dos grandes desafios para a aplicao da modelagem neural e de outras tcnicas de
modelagem maldio da dimensionalidade, que ser abordada na prxima seo.

4.2 Maldio da dimensionalidade e o fenmeno do pico


A maldio da dimensionalidade, tambm conhecida por problema da
dimensionalidade ou comportamento de curva em U, foi um problema descoberto por
Bellman (1961). Tal problema tm sido frequentemente observado na literatura, sendo
observado que o acrscimo de caractersticas geralmente degrada o desempenho de um
classificador ou regressor se a quantidade de exemplos de treinamento for pequena em
relao quantidade de caractersticas.
Adicionalmente, o uso de muitas variveis de entrada para modelar um conjunto de
dados pode desnecessariamente complicar a interpretao dos modelos criados e viola o
princpio da parcimnia. De acordo com este princpio, sempre que possvel, deve ser
considerado um menor nmero de variveis no modelo, de forma que ele possa ser mais

50

facilmente interpretado (LAROSE, 2006). O princpio da parcimnia tambm


amplamente conhecido como navalha de Occam.
O efeito da curva em U apresenta trs regies com comportamentos distintos do erro
em relao dimensionalidade dos dados de entrada, so elas:

Regio inicial (RI): onde o incremento de caractersticas implica uma reduo na


taxa de erro. Isto ocorre porque os conjuntos de caractersticas muito pequenos
geralmente no possuem a informao suficiente para a distino dos padres de
entrada. Cada caracterstica adicionada d muita informao relevante ao
classificador ou regressor, permitindo a diminuio da taxa de erro;

Regio mdia (RM): onde a taxa de erro atinge um nvel de estabilidade mesmo
com o incremento de caractersticas. As caractersticas com muita informao
relevante j foram inseridas na regio anterior, j as caractersticas inseridas
neste ponto tm pouca informao relevante para a distino dos padres. A
incluso destas caractersticas ento tende a alterar sutilmente a taxa de erro.

Regio final (RF): a regio onde se manifesta o problema da dimensionalidade,


onde o incremento de caractersticas provoca um incremento tambm na taxa de
erro. Cada caracterstica adicionada aumenta a quantidade de parmetros a
serem adaptados. Se a caracterstica no possui nenhuma informao relevante
para a distino dos padres e ocorre o aumento dos parmetros a serem
adaptados, a tendncia uma piora na capacidade preditiva do modelo.

A figura 4.1 representa a curva em U.

Figura 4.1: Taxa de erro em funo da dimensionalidade


A maldio da dimensionalidade pode influenciar todos os classificadores e
regressores mais comumente usados. Adicionalmente, o desempenho do classificador
ou regressor depende no somente da quantidade de caractersticas que descrevem cada
exemplo, mas tambm da quantidade de exemplos, da quantidade de padres de entrada,
e da quantidade de parmetros do classificador ou regressor a serem adaptados.
Infelizmente muito difcil estabelecer a relao entre a taxa de erro, a quantidade de

51

exemplos de treinamento, a quantidade de caractersticas e a quantidade de parmetros


adaptativos do classificador ou regressor (JAIN et al., 2000). Porm, a fim de evitar os
problemas inerentes maldio da dimensionalidade, recomendada a utilizao de 10
a 20 exemplos de treinamento para cada caracterstica do exemplo (BELLMAN, 1961).
Por outro lado, o fenmeno do pico observado quando a taxa de erro atinge o valor
mximo para um determinado nmero de caractersticas, mas decrementa com o
acrscimo de caractersticas. Este problema denota que a quantidade de exemplos de
treinamento pode crescer exponencialmente em relao quantidade de caractersticas
descrevendo cada exemplo (HUA et al., 2005). Conseqentemente, para um
determinado problema, sempre existe uma quantidade ideal de caractersticas para um
determinado nmero de exemplos onde a taxa de erro a menor possvel. A figura 4.2
mostra o fenmeno do pico, e a linha preta representa os pontos com menor taxa de erro
para uma determinada combinao de caractersticas e exemplos.

Figura 4.2: Fenmeno do Pico


Alm disso, principalmente em espaos de entradas de alta dimensionalidade ou em
problemas onde a relao entre a quantidade de exemplos e a quantidade de
caractersticas no seja a recomendada, a investigao da dimensionalidade ideal
geralmente um fator muito importante na otimizao do classificador ou regressor. A
maneira de fazer esta investigao seria treinar e testar diversos tamanhos de
subconjuntos de caractersticas a fim de identificar qual tamanho minimiza o erro do
classificador ou regressor. Esta atividade deve ser realizada utilizando as tcnicas de
RDD, que so descritas em mais detalhes na seo a seguir.

4.3 Classificao das tcnicas de RDD


A reduo de dimensionalidade dos dados (RDD) um processo que visa encontrar
uma estrutura mais compacta de representao dos dados atravs do mapeamento de
cada exemplo para um vetor de menor dimenso. Alm disso, a RDD no deve resultar
em perda de informao relevante em relao aos dados originais, ou pelo menos, os

52

benefcios obtidos com a RDD devem ser maiores que o prejuzo da perda de
informao.
Sob um alto nvel de abstrao, as tcnicas de RDD geralmente so aplicadas com
algum dos seguintes objetivos:

Visualizao de dados de alta dimenso: a necessidade de visualizao de


dados de alta dimenso uma grande necessidade atualmente em diversas
reas do conhecimento humano. Neste caso a reduo da quantidade de
dimenses dos dados permite projet-los em espaos bi ou tridimensionais de
forma a visualiz-los na tela do computador.

Compresso de dados: reduzir a quantidade de dimenses dos dados implica


em uma menor necessidade de espao de armazenamento e transmisso mais
rpida ou com menor largura de banda.

Pr-processamento para minerao de dados: a aplicao de tcnicas de RDD


antes da anlise de dados geralmente aumenta a eficincia de processos de
classificao e regresso automticos. Alm disso, o desempenho de tais
processos tambm normalmente incrementado devido ao problema
chamado de maldio da dimensionalidade.

A anlise de dados reais pode conter centenas de caractersticas, sendo que muitas
delas so irrelevantes para a minerao de dados (HAN e KAMBER, 2001). Apesar de
ser possvel o especialista do domnio selecionar as caractersticas que ele julga mais
informativas, esta tarefa geralmente demanda um grande consumo de tempo.
principalmente no caso dos dados no serem conhecidos. Por outro lado, se a rea de
pesquisa inovadora, provavelmente no haja especialistas do domnio e nenhum
conhecimento prvio poder ser explorado a fim de selecionar as caractersticas mais
informativas.
Conforme Cios et al. (2007), especificamente na rea de descoberta de
conhecimento em bancos de dados, as tcnicas de RDD realizam principalmente as
seguintes atividades:

Remover redundncias nos dados.

Obter padres transformados e reduzidos contendo apenas conjuntos


relevantes de caractersticas que ajudam a projetar classificadores com
melhores capacidades de generalizao.

Descobrir variveis intrnsecas dos dados que ajudem o projeto de um


modelo dos dados, e melhorar a compreenso do fenmeno que gera os
padres.

Projetar dados com alta dimenso, preservando a topologia intrnseca aos


dados, em um espao de baixa dimenso, a fim de facilitar a descoberta de
relacionamentos nos dados.

Neste escopo, o resultado prtico da aplicao de tcnicas de RDD uma reduo do


espao de busca de hipteses, com a consequente melhora do desempenho e
simplificao dos resultados do processo de minerao de dados (WANG e XIUJU,
2005).
A RDD especialmente til quando h uma grande quantidade de caractersticas
descrevendo cada exemplo no banco de dados, fato peculiar aos bancos de dados

53

cientficos. Nestes casos, a quantidade de exemplos necessrios para adaptar um modelo


multivariado cresce exponencialmente em relao quantidade de caractersticas.
Porm, muitas vezes, a obteno de mais exemplos difcil devido grande dificuldade
ou ao grande custo deste processo. Alm disso, o uso de muitas variveis no modelo
preditivo pode dificultar a interpretao da anlise e viola o princpio da parcimnia.
Outro fator importante que muitas variveis podem mais facilmente conduzir a uma
superadaptao do modelo preditivo (LAROSE, 2006).
Embora os algoritmos de minerao de dados j implementem internamente tcnicas
de RDD, eles geralmente pecam no quesito escalabilidade (YE, 2003). Desta forma, a
aplicao de tcnicas especficas de RDD em combinao com os algoritmos de
minerao geralmente conduz a melhores resultados.
As tcnicas de RDD pode ser divididas em trs categorias: extrao de
caractersticas, construo de caractersticas e seleo de subconjunto de caractersticas.
Apesar da diviso didtica, tanto a extrao de caractersticas quanto a construo de
caractersticas geralmente so sucedidas pela seleo. Isto ocorre porque tanto a
extrao quanto a construo criam novas caractersticas.
4.3.1 Extrao de caractersticas

O processo de extrao de caractersticas visa extrair um conjunto de caractersticas


novas a partir do conjunto de caractersticas originais atravs de algum mapeamento
funcional (YE, 2003). De uma maneira mais formal, a extrao de caractersticas pode
ser definida da seguinte forma: tem-se um conjunto C de n caractersticas originais tal
que C = {c1, c2, ..., cn}, e aps o processo de extrao de caractersticas, ser gerado um
novo conjunto de caractersticas D, com m caractersticas, tal que D = {d1, d2, ..., dm} e
m < n. Tambm tem-se que di = Fi(cj, ck, ..., cl), onde F uma funo de mapeamento, di
a nova caracterstica extrada, e cj, ck, cl fazem parte do conjunto de caractersticas
originais. O mapeamento funcional realizado mediante uma transformao linear ou
no linear sobre as caractersticas originais.
O objetivo principal da extrao de caractersticas encontrar um conjunto mnimo
de novas caractersticas que obedea alguma medida de desempenho. Para atingir este
objetivo geralmente faz-se necessria uma busca intensiva, que naturalmente ser
demorada e com alto custo computacional. Alm disso, a definio de uma medida de
desempenho tambm uma atividade muito complexa. A finalidade da medida de
desempenho avaliar se uma caracterstica construda boa ou no.
Dentre os problemas oriundos da aplicao de tais tcnicas podem ser salientados:

Este processo consome muito tempo pela necessidade de pesquisar novas


caractersticas que satisfaam o critrio de desempenho. Desta forma deve
ser analisada a relao custo x benefcio entre o tempo gasto e a otimizao
obtida no processo de classificao ou regresso.

As caractersticas originais devem ser mantidas, o que significa que a


aplicao desta tcnica conduz a um aumento de dimensionalidade dos
dados. Tal problema faz com que a aplicao posterior de alguma tcnica de
seleo de caractersticas seja necessria, de forma que seja efetivamente
reduzida a dimensionalidade dos dados de entrada.

O modelo de classificao ou regresso gerado a partir de caractersticas


extradas de mais difcil compreenso. A dificuldade de compreenso d-se

54

pelo fato de que o processo que deu origem a estas novas caractersticas
extradas, pode no ser bem conhecido.
Os algoritmos de extrao de caractersticas podem ser classificados em termos de
tipo de transformao: linear e no linear; e em termos do tipo de aprendizado:
supervisionado ou no supervisionado. A tabela 4.1 apresenta algumas tcnicas de
extrao de caractersticas e suas respectivas classificaes.
Tabela 4.1: Exemplos de tcnicas de extrao de caractersticas
Tipo de transformao
Linear
- Anlise de Componentes
Principais (ACP)

Natureza do
Aprendizado

No
Supervisionado -Anlise de Componentes
Independentes (ACI)

- Anlise de Discriminantes
Supervisionado Lineares (ADL)

No Linear
- Anlise de
Componentes
Principais No Linear

- RNAs multicamadas

- RNAs de camada nica


Em problemas de natureza no linear, a extrao de caractersticas frequentemente
envolve a aplicao de transformaes no lineares. Estes mtodos de transformao
no lineares so eficientes na aproximao de funes e robustos no tratamento de
problemas reais no lineares. A extrao de caractersticas, por criar um novo conjunto
de caractersticas, dificulta a compreenso dos resultados obtidos (WANG e XIUJU,
2005).
4.3.2 Construo de caractersticas

A construo de caractersticas um processo que visa descobrir informao omitida


sobre os relacionamentos entre as caractersticas originais e aumentar o espao de
caractersticas atravs da inferncia ou criao de caractersticas adicionais (YE, 2003).
De uma maneira mais formal, a construo de caractersticas pode ser definida da
seguinte forma: tem-se um conjunto C de n caractersticas originais tal que C = {c1, c2,
..., cn}, e aps o processo de construo de caractersticas, poder ser gerado um novo
conjunto de m caractersticas adicionais cn+1, cn+2, ..., cn+m.
De uma forma geral, a construo de caractersticas visa descobrir novas
caractersticas que simplifiquem ao mximo o modelo gerado. Alternativamente,
tambm possvel aplicar a construo de caractersticas para criar modelos que tenham
uma maior preciso, ao invs de uma maior simplicidade.
As vrias abordagens para construo de caractersticas podem ser divididas em
quatro classes: orientada a dados, orientada a hipteses, baseadas em conhecimento e
abordagens hbridas. A abordagem orientada a dados constri novas caractersticas
atravs da anlise das caractersticas j existentes e da aplicao de operadores. A
abordagem orientada a hipteses constri novas caractersticas atravs de hipteses

55

geradas previamente. Estas hipteses podem ser geradas por alguma outra tcnica de
aprendizado indutivo, tal como rvores de induo ou regras de associao. Abordagens
baseadas em conhecimento constroem novas caractersticas atravs da aplicao de
conhecimento j existente sobre o problema, geralmente obtido atravs do especialista
do domnio. Abordagens hbridas utilizam uma combinao das abordagens
previamente citadas.
Os operadores, citados previamente, assumem um papel fundamental no somente
na abordagem orientada a dados, mas tambm nas demais abordagens de construo de
caractersticas. Existe uma quantidade muito grande de operadores, e eles so
classificados de acordo com o tipo de dado a que sero aplicados. Os operadores mais
comuns aplicados a caractersticas nominais so: conjuno, disjuno, negao,
condicional (se-ento) e bicondicional (se-e-somente-se). J os operadores mais comuns
para caractersticas numricas so os operadores algbricos bsicos, tais como: adio,
subtrao, multiplicao, diviso; os operadores relacionais, tais como: igual, diferente,
maior, menor; e as funes de agregao, tais como: mximo, mnimo, soma e mdia.
Existe uma grande quantidade de operadores que podem ser utilizados na construo
de atributos. Aliado a isso, pode haver tambm uma grande quantidade de
caractersticas de entrada. A exploso combinatorial causada pelas possveis
combinaes entre caractersticas e operadores torna a construo de caractersticas uma
tarefa extremamente difcil. Isto faz com que a busca exaustiva pelo espao de
caractersticas construtveis provavelmente torne-se proibitiva. O desenvolvimento de
abordagens que possam explorar este espao de forma inteligente e eficiente uma
necessidade premente, j que a carncia por tais abordagens notria.
Dada a mecnica do processo de construo de caractersticas, comentadas no
pargrafo anterior, possvel neste processo a gerao de uma grande quantidade de
novas caractersticas. Porm, dentre as caractersticas construdas, algumas devem
melhorar o desempenho do modelo de classificao ou regresso, e outras no. Por este
motivo, existe a necessidade da identificao de quais caractersticas construdas devem
efetivamente ser adicionadas ao modelo. Esta identificao deve ser realizada com base
em alguma mtrica de avaliao das novas caractersticas. Esta mtrica deve estar
relacionada com a finalidade do modelo, seja ele de regresso ou de classificao.
Dentre as tcnicas atualmente utilizadas para construo de caractersticas podem
ser citados os algoritmos genticos, como exemplo de uma abordagem orientada a
dados, e o uso de rvores de deciso e regras de associao, como abordagens
orientadas a hipteses. Por outro lado a aplicao de abordagens baseadas em
conhecimento, que utilizam algum conhecimento prvio do domnio, provavelmente
apresente melhores resultados. Porm esta abordagem nem sempre passvel de
utilizao.
A construo de caractersticas, assim como ocorre com a extrao, tambm deve
manter as caractersticas originais, fazendo com que ocorra um aumento da
dimensionalidade dos dados de entrada. Assim sendo, faz-se necessria a aplicao
posterior de alguma tcnica de seleo de caractersticas, de forma que seja
efetivamente reduzida a dimensionalidade dos dados de entrada.
A seleo de subconjunto de caractersticas, que a terceira categoria de tcnicas de
reduo de dimensionalidade, comentada na prxima seo.

56

4.4 Seleo de caractersticas: fundamentos e estado da arte


O problema de seleo de caractersticas pode ser definido como o processo de
encontrar um conjunto relevante de M caractersticas dentre as N caractersticas
originais, onde M N, para definir os dados a fim de maximizar a exatido preditiva do
modelo (LIU e SETIONO, 1996). A seleo das caractersticas que apresentam uma
maior diferena entre as classes afeta decisivamente o desempenho do classificador. Da
mesma forma, no caso de regressores, a seleo das variveis mais representativas
tambm conduziria a um melhor desempenho. Tais fatos fazem com que a seleo de
caractersticas seja um problema chave no processo de reconhecimento de padres
(FUKUNAGA, 1990).
Se toda a informao necessria para a criao do modelo fornecida, pode parecer
que a escolha de um subconjunto timo de caractersticas de entrada no uma tarefa
crtica. Porm, uma correta adequao da dimenso dos dados de entrada, com a
conseqente reduo da quantidade de caractersticas de entrada, pode conduzir a uma
significante melhora na qualidade do modelo e no tempo de treinamento (SARKER et
al., 2002). Embora os algoritmos de minerao de dados j apliquem internamente a
seleo das caractersticas mais informativas, ignorando as menos informativas, a
utilizao de tcnicas especficas para seleo de caractersticas alm de melhorarem o
desempenho destes algoritmos, tambm permite uma melhor escalabilidade (WITTEN e
FRANK, 2005).
Segundo Ye (2003), os objetivos da SSC em aprendizado de mquina so: 1)
Reduzir a dimensionalidade do espao de caractersticas; 2) Acelerar o aprendizado dos
algoritmos de minerao de dados; 3) Melhorar a capacidade preditiva dos algoritmos; e
4) Melhorar a compreensibilidade dos resultados obtidos.
4.4.1 Os sub-processos da SSC

Sob um alto nvel de abstrao, o processo de SSC pode ser visualizado como uma
busca em um espao de estados. O processo de SSC pode ser resumido em 4 subprocessos bem definidos, sendo eles:

Seleo do ponto de partida.

Seleo da funo de avaliao.

Seleo da estratgia de busca.

Seleo do critrio de parada.

Para cada um destes 4 sub-processos, existem diversas alternativas possveis de


soluo. A combinao destas diversas alternativas gera uma enorme gama de
abordagens para realizar a seleo de subconjunto de caractersticas.
4.4.2 Seleo de ponto de partida

Para dados de entrada descritos por n caractersticas, h potencialmente 2n


possibilidades de pontos de partida para o processo de seleo de caractersticas. H trs
alternativas mais comumente usadas como ponto de partida, so elas: conjunto com
todas as caractersticas, conjunto vazio, ou um conjunto selecionado aleatoriamente.
Alm destas alternativas, tambm pode ser selecionado algum conjunto que atenda
alguma restrio especfica, por exemplo, o conjunto com as k caractersticas mais

57

relevantes. Porm, neste caso, ainda seria necessrio definir o parmetro k e definir a
funo de avaliao de relevncia.
4.4.3 Seleo da Funo de Avaliao

Vrias formas de avaliar a evoluo do processo de seleo de caractersticas so


propostas na literatura. De acordo com seu foco de aplicao, as funes de avaliao
so divididas em dois grandes grupos: as funes de critrios independentes e as
funes de critrios dependentes.
4.4.3.1 Critrios independentes
Os critrios independentes visam avaliar a qualidade preditiva individual das
caractersticas de entrada em relao caracterstica de sada. Estes algoritmos
frequentemente geram como sada uma lista ordenada das caractersticas de entrada,
sem preocupao em definir o conjunto mnimo de caractersticas a ser utilizado. Em
razo de sua forma de funcionamento, estes algoritmos tambm so chamados de
algoritmos de ordenamento de caractersticas.
Adicionalmente, os critrios independentes podem ser sub-divididos em: mtricas de
distncia, mtricas de teoria da informao, mtricas de dependncia e mtricas de
consistncia.
Mtricas de Distncia
As mtricas de distncia so tambm referenciadas como mtricas de separabilidade,
de divergncia ou de discriminao. Entre estas mtricas podem ser citadas: distncia
euclidiana, distncia euclidiana com pesos, chebyshev, city block ou manhattan e
mahalanobis (YAMPOLSKIY e GOVINDARAJU, 2006).

Distncia Euclidiana: uma das mtricas de distncia mais populares. A


distncia euclidiana entre dois vetores pode assumir valores a partir de 0. O
valor 0 indica que os vetores so idnticos. A distncia euclidiana definida
pela raiz quadrada do somatrio das diferenas entre dois vetores X e Y, onde
n o tamanho dos vetores.
n

dE =

(x

yi )

i =1

Distncia Euclidiana com pesos: uma mtrica que aproveita o


conhecimento de um especialista do domnio para melhorar o resultado da
distncia euclidiana padro. Esta mtrica permite ao especialista do domnio
determinar pesos a cada uma das caractersticas de entrada, de forma que
caractersticas com mais informao discriminatria possam ter pesos
maiores. Como aspecto negativo, esta mtrica tem uma alta dependncia da
qualidade das decises, muitas vezes empricas, do especialista do domnio.

Distncia de Chebyshev: uma mtrica que define a distncia entre dois


vetores como sendo a maior distncia entre os pares de elementos dos
vetores. Esta mtrica definida por:
DC = max( xi y i
i

58

Distncia Manhattan: uma mtrica baseada na soma dos tamanhos das


projees do segmento de linha entre os pontos no eixo das coordenadas.
Desta forma, a mtrica retorna a soma das diferenas absolutas de dois
vetores. A distncia Manhattan calculada da seguinte forma:
n

d M = xi y i
i =1

Distncia de Mahalanobis: uma mtrica baseada na correlao entre


vetores, pela qual padres podem ser identificados e analisados. Esta mtrica
pode ser definida como distncia de dissimilaridade entre dois vetores
aleatrios X e Y, da mesma distribuio, com a matriz de covarincia S
d M ( x ) = ( x u ) T S 1 ( x u )

Mtricas de teoria da informao


As mtricas de teoria da informao determinam o ganho de informao de uma
caracterstica. Existem diversas mtricas de ordenao de importncia de caractersticas
que utilizam conceitos de teoria da informao. Muitas destas caractersticas so
baseadas em estimativas empricas da informao mtua entre cada uma das
caractersticas de entrada e a caracterstica de sada. As formas de clculo da informao
mtua podem ser de duas classes distintas: funes baseadas em distribuio de
probabilidade, aplicveis a caractersticas com valores discretos, e funes baseadas em
densidade de probabilidade, aplicveis a caractersticas com valores contnuos. As
funes baseadas em distribuio de probabilidade so bem mais difundidas e mais
simples de serem aplicadas. J as funes baseadas em densidade de probabilidade, por
sua complexidade, no so to utilizadas. Quando as caractersticas so contnuas,
comumente elas passam por um processo de discretizao, sendo posteriormente
aplicadas as funes baseadas em distribuio de probabilidade (COVER e THOMAS,
2006).
Entre as mtricas baseadas em distribuio de probabilidade podem ser citadas:
entropia, entropia conjunta, entropia condicional, informao mtua e ganho de
informao, tambm chamado de entropia relativa ou divergncia Kullback-Leibler
(MACKEY, 2003).
Entropia: dada uma caracterstica X, que assuma valores aleatrios, a sua
entropia ir quantificar a incerteza intrnseca aos valores assumidos
por esta caracterstica. A entropia de uma caracterstica X dada por:

H ( X ) = px log 2 ( px )
x

Entropia conjunta, que pode ser utilizada para calcular quanta entropia existe
entre duas caractersticas X e Y, cujos valores sejam discretos. A
entropia conjunta dada por:
H ( X , Y ) = p x , y log 2 ( p x , y )
x, y

Entropia condicional, que quantifica a entropia de uma caracterstica de sada


Y, dada uma caracterstica de entrada X.
H (Y | X ) = H (Y , X ) H ( X )

59

Informao mtua: que permite medir a quantidade de informao que pode


ser obtida sobre uma caracterstica, com base na observao de outra
caracterstica. A informao mtua dada por:
MI ( X , Y ) = H ( X ) + H (Y ) H ( X | Y )

Ganho de informao: esta mtrica permite calcular a medida de divergncia


entre duas caractersticas, sejam elas discretas ou contnuas. O ganho
de informao dado por:

DKL ( p( X ) || q( X )) = p( x) log
xx

p( x)
q ( x)

Entre as mtricas baseadas em densidade de probabilidade pode ser citada a entropia


diferencial. A entropia diferencial dada por:
h( X ) = f ( x) log f ( x)dx
x

Mtricas de dependncia ou correlao:


Este conjunto de mtricas permite quantificar o quanto a variao do valor de uma
caracterstica pode ser predito atravs do valor de outra caracterstica. Existem diversas
mtricas de dependncia ou correlao, estando elas divididas em dois grandes grupos:
mtricas lineares e no lineares.
A mtrica de correlao linear mais comum o coeficiente de correlao de
Pearson. Este coeficiente pode ser considerado a mais simples abordagem para a
filtragem de caractersticas relevantes, sendo amplamente difundido principalmente na
rea da estatstica (DALGAARD, 2002). Considerando-se a predio de uma
caracterstica y, em funo de uma caracterstica de entrada x, o coeficiente de
correlao de Pearson definido como:
R(i ) =

cov( X , Y )
var( X ) var(Y )

onde X o vetor de entrada, Y o vetor com os valores de sada, cov significa a


covarincia e var significa a varincia das caractersticas. O coeficiente de correlao
definido apenas se o desvio padro de ambas as caractersticas finito e diferente de
zero. O valor de R(i) pode assumir valores no intervalo [-1, 1]. O valor 1 indica que as
variveis tm uma correlao direta, e o valor -1 indica que as variveis tm uma
correlao inversa. Valor 0 indica que as variveis so totalmente independentes.
Valores de R(i) entre estes extremos indicam o grau de relacionamento entre as
variveis, ou seja, o quando da varincia total da caracterstica y que explicada pela
relao entre x e y. Alm disso, um valor absoluto de correlao pode ser fornecido pelo
uso de R(i)2, de forma a permitir a utilizao de uma ordenao da importncia das
caractersticas de entrada na predio do valor da caracterstica de sada.
Alm desta mtrica linear, na literatura tambm so propostas algumas outras que
so extenses do coeficiente de correlao de Pearson para o caso especfico de tarefas
de classificao onde existam apenas duas classes. Dentre estas extenses pode ser
citados o critrio de Fischer.
O critrio de Fisher, ou discriminante linear de Fisher, um mtodo de reduo de
dimensionalidade que projeta dados de alta dimenso em um espao unidimensional.

60

Este processo de projeo maximiza a distncia entre as mdias das duas classes e
minimiza a varincia dentro cada classe (DALGAARD, 2002). O critrio de Fisher pode
ser definido como:
J ( w) =

m1 m2

s12 + s22

Onde J representa o processo de projeo, m1 e m2 representam as mdias das


classes 1 e 2, e s12 e s22 representam as varincias das classes 1 e 2.
J o coeficiente de Gini uma medida de disperso estatstica, muito difundida para
calcular desigualdades de distribuio de renda ou de riqueza. O coeficiente de Gini
pode assumir valores no intervalo entre 0 e 1. O valor 0 indica a igualdade perfeita entre
as distribuies, j o valor 1 indica a desigualdade perfeita.
Tendo-se que n o nmero de elementos e o tamanho mdio dos conjuntos, o
coeficiente de Gini dado por:
n

| x

G=

xj |

i =1 j =1

2n 2

Como mencionado anteriormente, os critrios de correlao linear podem detectar


apenas dependncias lineares entre as caractersticas. Uma das formas mais simples de
diminuir esta restrio a realizao de uma adaptao no linear das variveis antes da
utilizao do critrio de correlao. Entre as possveis adaptaes no lineares podem
ser citadas: potenciao, radiciao, transformaes logartmicas e transformao
inversa (GUYON, 2003).
Quando o problema a ser tratado reconhecidamente no linear, ou quando as
tcnicas lineares no tm sucesso em identificar as caractersticas mais relevantes,
podem ser utilizadas as mtricas no lineares, tais como: o chi-quadrado, e os
coeficientes de Spearman, Kendall e Goodman-Kruskal.
O coeficiente de correlao de Spearman uma medida de correlao no
paramtrica que no faz suposies sobre a distribuio de freqncia das variveis.
diferentemente do coeficiente de Pearson, no requer que a relao entre as variveis
seja linear (DALGAARD, 2002).
Supondo-se que di a diferena entre cada valor correspondente de x e y, e n o
nmero de valores dos vetores, o coeficiente de Spearman dado por:

=1

2
i

n(n 2 1)

O critrio de correlao de Kendall um mtodo no paramtrico usado para medir


o grau de correspondncia entre duas listas ordenadas e avaliar o grau de significncia
desta correspondncia (DALGAARD, 2002). Tendo-se que nc o nmero de pares
concordantes e nd o nmero de pares discordantes, o coeficiente de kendall pode ser
definido por:

61

nc nd
1
n(n 1)
2

O coeficiente de Kendall pode assumir valores no intervalo [-1,1]. O valor -1


obtido pelo total desacordo entre os vetores e o valor 1 obtido pela similaridade total
entre os vetores. O valor 0 obtido pela independncia completa entre os vetores.
Valores entre estes extremos indicam um maior ou menor desacordo entre os vetores.
Assim como o coeficiente de Kendall, o coeficiente de Goodman/Kruskal tambm
uma mtrica de correlao estatstica que visa definir o grau de correspondncia entre
duas listas ordenadas. O clculo do coeficiente tambm realizado pela anlise dos
pares em vetores e verificao se eles so congruentes ou discordantes. Este coeficiente
dado pela diferena entre a probabilidade de obter-se um par concordante e de obter-se
um par discordante. O coeficiente de Goodman/Kruskal dado por:

nc nd
nc + nd

Mtricas de consistncia
As mtricas de consistncia tm caractersticas diferentes das mtricas tratadas
anteriormente. Dentre elas pode ser citada a mtrica Min-Feature bias, utilizada pelo
algoritmo Focus (FOUNTAIN et al., 1991). Este algoritmo realiza uma busca exaustiva
no espao de estados de caractersticas a fim de encontrar um conjunto mnimo de
atributos que seja suficiente para descrever a classe de todos os exemplos de
treinamento. Como restrio a utilizao deste algoritmo, tem-se o fato dele ter sido
proposto para domnios booleanos sem rudo.
Outro algoritmo que se enquadra na categoria de mtricas de consistncia o
algoritmo Relief. Este algoritmo foi desenvolvido por Kira e Rendell (1992) e possui
uma funo de avaliao de caractersticas mais complexa que o algoritmo Focus. Relief
eficiente para a estimao da qualidade dos atributos a partir de dependncias
encontradas entre eles.
O algoritmo Relief original pode tratar caractersticas tanto discretas quanto
contnuas. Por outro lado, ele pode ser aplicado apenas a problemas de classificao
com somente duas classes. Quando aplicado a caractersticas discretas, o algoritmo
retorna 1 se os valores so diferentes, ou 0, se os valores so iguais. Quando aplicado a
caractersticas contnuas, o algoritmo retorna a diferena normalizada no intervalo [0,1].
O algoritmo Relief pode ter seu desempenho fortemente afetado por dados
redundantes e ruidosos, tornando seus resultados pouco confiveis. Para superar esta
restrio, foi proposta uma extenso deste algoritmo, chamada Relief-A que consegue
tratar dados com rudo e dados omitidos.
A extenso Relief-D permite a utilizao desta abordagem em problemas de
classificao com mais de duas classes.
Outra extenso do algoritmo original a Relief-F, proposta por Kononenko (1994).
Relief-F pode tratar problemas de regresso e tambm permite o tratamento de
problemas com valores omitidos.

62

4.4.3.2 Critrios dependentes


Os critrios dependentes visam avaliar a qualidade preditiva de um conjunto de
caractersticas de entrada em relao caracterstica de sada. Algoritmos inseridos
neste grupo buscam gerar como resultado o subconjunto mnimo de caractersticas de
entrada, sem ter nenhuma preocupao sobre a relevncia individual das caractersticas.
Como resultado prtico, as caractersticas que esto no subconjunto mnimo so
consideradas relevantes, e todas as demais caractersticas, irrelevantes (KANTARDZIC,
2002).
Porm, antes de avaliar a qualidade do subconjunto de caractersticas, outra deciso
de extrema importncia a seleo da estratgia de busca que ser utilizada para
explorar o espao de busca de subconjuntos. Este assunto discutido na prxima seo.
4.4.4 Seleo da estratgia de busca

No caso da funo de avaliao ser aplicada a um conjunto de caractersticas e no a


todas as caractersticas individualmente, a seleo da estratgia de busca torna-se uma
deciso necessria. Existem diversas alternativas para estratgias de busca, que so
divididas em trs grupos distintos: completa, heurstica e no determinstica.
A tarefa de seleo de subconjunto de caractersticas pode ser vista sob o ponto de
vista de uma busca no super-conjunto das possveis solues para o problema. Dado um
conjunto de dados com n caractersticas de entrada, o super-conjunto das possveis
solues para o problema seria composto de todas as combinaes possveis de
atributos, ou seja, 2n - 1 possibilidades.
A busca pode ser realizada de trs formas distintas: I) para frente: partindo de um
conjunto mnimo, acrescentando-se caractersticas a cada passo; II) para trs: partindo
de um conjunto mximo, eliminando-se caractersticas a cada passo; III) bidirecional:
partindo-se de um conjunto de tamanho mdio, acrescentando ou eliminando-se
caractersticas a cada passo.
4.4.4.1 Estratgias de busca completa
Estratgias enquadradas nesta categoria so consideradas completas pois garantem
encontrar uma soluo para o problema, caso esta soluo exista. Tambm so
consideradas timas pois garantem encontrar a melhor soluo, quando h diversas
solues diferentes. Como inconveniente, estas estratgias geralmente necessitam
pesquisar todo o espao de busca a fim de encontrar o melhor subconjunto de
caractersticas. Assim, se h n caractersticas, devem ser gerados 2n subconjuntos.
Porm, a complexidade de tempo e de espao para encontrar a melhor soluo pode
tornar a aplicao desta estratgia proibitiva caso a quantidade de caractersticas seja
muito grande. Caso esta estratgia encontre vrias solues possveis, ou seja, vrios
subconjuntos com a melhor avaliao, o subconjunto escolhido ser aquele com menor
quantidade de caractersticas (LUGER e STUBBLEFIELD, 1998).
Estratgias completas no necessariamente so exaustivas. Se o critrio de avaliao
possuir determinadas propriedades, tais como monotonicidade, possvel encontrar o
melhor subconjunto de caractersticas sem avaliar todo o espao de busca.

63

4.4.4.2 Estratgias de busca heurstica


Como, muitas vezes, vasculhar todo o espao de busca pode ser invivel, podem ser
aplicadas algumas formas alternativas para pesquisar seletivamente o espao de busca.
Estas formas so conhecidas como heursticas. Pretensamente, uma heurstica ir guiar a
busca, segundo algumas restries, e ter uma alta probabilidade de sucesso na busca de
melhor soluo para o problema (LUGER e STUBBLEFIELD, 1998).
Dentre as estratgias de busca mais utilizadas para seleo de subconjuntos de
caractersticas a estratgia heurstica a mais utilizada. Estas estratgias utilizam
alguma abordagem para vasculhar o espao de caractersticas e encontrar o melhor
subconjunto.
A estratgia da heurstica geralmente pode estar implementada na forma de um
algoritmo de aprendizado, tais como algoritmos genticos ou redes neurais, ou pode ser
uma regra que auxilie a busca pelo melhor subconjunto de caractersticas, tais como
entropia ou anlise de componentes principais.
As trs primeiras tcnicas abordadas acima mencionam as expresses melhor
caracterstica e pior caracterstica. A determinao de quais so a melhor e a pior
caracterstica em um determinado passo do algoritmo geralmente determinada pela
anlise da sensitividade das caractersticas. A anlise de sensitividade permite definir
uma ordenao das caractersticas de entrada de acordo com sua importncia em relao
predio da caracterstica de sada. Para realizar a anlise de sensitividade, deve-se
criar um modelo com todas as caractersticas de entrada e calcular a sua preciso de
acordo com a mtrica desejada. A partir da, deve ser eliminada uma caracterstica de
entrada e calculada novamente a preciso do modelo. A diferena de preciso entre o
modelo com todas as caractersticas e entrada e o modelo com uma caracterstica de
entrada a menos, ir determinar a importncia da caracterstica eliminada. Este processo
deve ser repetido com todas as caractersticas de entrada, e a partir da ser possvel
criar a ordenao da importncia das caractersticas.
4.4.4.3 Estratgias no-determinsticas
As estratgias no-determinsticas so aplicveis a problemas de otimizao. O
ponto positivo destas estratgias sua capacidade de superar as limitaes dos mtodos
determinsticos em muitos problemas de otimizao, principalmente quando o objetivo
admite um grande nmero de solues sub-timas. O principal ponto negativo dos
mtodos no-determinsticos que eles so computacionalmente caros e, em
conseqncia, mais lentos que mtodos clssicos de otimizao.
Os mtodos no-determinsticos geram conjuntos de solues candidatas para o
problema e seu propsito convergir probabilisticamente a candidatos que maximizem
a funo objetivo.
Dentre as estratgias de busca no-determinsticas podem ser citados: subida de
encosta, recozimento simulado e algoritmos genticos.
Subida de Encosta (Hill Climbing)
A abordagem de subida de encosta uma tcnica de otimizao de busca local que
utiliza um procedimento de melhora iterativa.
O algoritmo inicia selecionando uma soluo aleatria no espao de busca. Tal
soluo inicial geralmente ruim. Seguindo o princpio da perturbao mnima, durante

64

cada iterao do algoritmo, um novo ponto, vizinho do ponto atual, selecionado. Se o


novo ponto constitui-se em uma soluo melhor para o problema que o ponto atual, o
novo ponto torna-se o atual. Por outro lado, se o novo ponto constitui-se em uma
soluo pior que o ponto atual, o novo ponto ignorado e selecionado aleatoriamente
um outro ponto vizinho do ponto atual. O mtodo termina sua execuo ao passar um
determinado nmero de iteraes sem obter-se nenhuma melhora na soluo. Assim, o
ponto atual retornado como a melhor soluo para o problema (MICHALEWICZ e
FOGEL, 2000).
Esta classe de algoritmos considerada de busca local porque permite que sejam
encontrados valores localmente timos, alm de o algoritmo ser altamente dependente
da qualidade da soluo inicial e do posicionamento da soluo inicial em relao ao
timo global. A existncia de muitos timos locais dificulta que seja encontrado o timo
global. Uma forma de diminuir o impacto destes problemas fazer com que o algoritmo
seja executado diversas vezes, com pontos iniciais em diferentes posies do espao de
busca. Espera-se que ao menos uma das solues iniciais conduza ao timo global.
H diversas variaes do algoritmo original de subida de encosta. Estas variaes
diferem principalmente no modo pelo qual um novo ponto selecionado para
comparao com o ponto corrente. Dentre as variaes do algoritmo original a mais
eficiente a subida de encosta pela trilha mais ngreme. Esta variao examina cada um
dos possveis vizinhos do ponto atual. O ponto adjacente que possuir a melhor avaliao
selecionado e comparado com o ponto atual. Caso o melhor ponto adjacente tenha
melhor avaliao que o ponto atual, o adjacente torna-se o ponto atual. Caso contrrio, o
ponto atual retornado como a soluo do problema.
esperado que a aplicao de algoritmos de subida de encosta encontre uma soluo
muito prxima da soluo tima, porm no correto supor que este algoritmo ir
encontrar a soluo tima.
Recozimento Simulado (Simulated Annealing)
O recozimento simulado constitui-se em uma classe de algoritmos que utilizam uma
metaheurstica para otimizao baseada na metfora de um processo trmico, utilizado
na rea de metalurgia, a fim de obter-se estados de baixa energia em slidos. O
recozimento simulado dividido em duas etapas. Na primeira etapa, a temperatura do
slido aumentada para um valor mximo na qual o slido ir se fundir. Na segunda
etapa, a temperatura do material reduzida lentamente at que o material se solidifique.
Durante a segunda fase, os tomos que compe o slido organizam-se em uma estrutura
uniforme com energia mnima (LEE e EL-SHARKAWI, 2008).
A metaheurstica proposta pela abordagem de recozimento simulado muito
parecida com o reincio aleatrio aplicado abordagem de subida de encosta. Partindo
do princpio que algoritmos de busca locais geralmente iro retornar algum timo local,
o recozimento simulado melhora estes algoritmos pela insero de um reincio em
alguma outra posio aleatria no espao de busca. Desta forma, o recozimento
simulado implementado como um passo externo a qualquer algoritmo de busca local,
permitindo um melhor desempenho desta classe de algoritmos.
O recozimento simulado obriga a definio prvia de um nmero mximo de
reincios como forma de impedir que o algoritmo continue a ser executado
indefinidamente. A soluo final do algoritmo a soluo com a melhor avaliao
dentre as n solues, dado que n o nmero mximo de reincios.

65

Algoritmos genticos
Os algoritmos genticos (AG) consistem em uma classe de algoritmos de otimizao
estocsticos inspirados nos princpios biolgicos de gentica e de seleo natural
(HAUPT e HAUPT, 2004). Tais princpios fundamentam uma forma robusta de
evoluo bem sucedida de organismos, definindo uma heurstica que permite a uma
populao, composta de muitos indivduos, evoluir atravs da aplicao regras de
seleo especficas. Esta evoluo se d para um estado que maximize uma funo de
adaptao. Tal funo de adaptao, dado um indivduo, retorna um valor contnuo que
permite avaliar o nvel de adaptao deste indivduo ao ambiente no qual ele est
inserido.
Segundo as regras de seleo natural, os organismos menos adaptados ao ambiente
morrem, enquanto os que esto mais bem adaptados ao ambiente iro viver e
reproduzir-se, transferindo suas caractersticas para seus descendentes atravs da
herana gentica. Cada nova gerao estaria mais bem adaptada ao ambiente que a
gerao anterior. Ocasionalmente, mutaes aleatrias podem ocorrer durante a
reproduo, o que geralmente conduz a morte dos indivduos mutados, mas tambm
pode conduzir a novas espcies melhor adaptadas. Tambm pode ocorrer a
recombinao, ou crossover, que faz com que durante o processo de reproduo, dois
cromossomos sejam cortados em alguma posio randmica e suas partes cortadas
sejam trocadas.
Outra possibilidade importante a criao de solues hbridas combinando
mtodos no-determinsticos e mtodos tradicionais, tais como a perturbao aleatria.
Estas abordagens combinam as vantagens de mtodos determinsticos e nodeterminsticos e aceleram a convergncia dos algoritmos estocsticos.
4.4.4.4 Busca sequencial
Qualquer uma das estratgias de busca mencionadas anteriormente pode aplicar uma
das seguintes tcnicas de busca seqencial:

Seleo passo a passo para frente, ou incremento seqencial: Procedimentos


que aplicam esta tcnica partem de um conjunto de caractersticas
selecionadas (CCS) que estar vazio, e um conjunto de caractersticas
originais (CCO), que conter todas as caractersticas de entrada disponveis.
A partir da, a melhor caracterstica do CCO adicionada ao CCS. A cada
passo, a melhor das caractersticas restantes no CCO adicionada ao CCS. O
procedimento acaba quando o conjunto CCO estiver vazio, ou quando for
atingido um critrio de parada pr-estabelecido.

Eliminao passo a passo para trs, ou poda seqencial: O procedimento


inicia com o CCS contendo todas as caractersticas de entrada disponveis. A
cada passo, a pior caracterstica removida do CCS. O procedimento acaba
quando o CCS for vazio, ou for atingido o critrio de parada prestabelecido.

Combinao de seleo para frente e eliminao para trs: O procedimento


combina as tcnicas anteriores, iniciando a partir do CCS vazio, e do CCS
com todas as caractersticas de entrada disponveis. A cada passo do
algoritmo a melhor caracterstica do CCO adicionada ao CCS, e a pior

66

caracterstica do CCO eliminada. O procedimento acaba quando o conjunto


CCO estiver vazio ou quando for atingido o critrio de parada.
4.4.5 Formas de funcionamento

Em relao forma de funcionamento, os algoritmos de SSC geralmente so


classificados, de acordo com a abordagem que utilizam, como filtros, wrappers ou
embutidos (GUYON, 2006). Abordagens de filtro so utilizadas na fase de prprocessamento. Abordagens de wrapper funcionam como uma espcie de invlucro ao
redor do algoritmo de induo. Diferentemente dos filtros, os wrappers funcionam
intimamente ligados com alguma classe especfica de algoritmos de aprendizado. O
wrapper ir procurar bons subconjuntos de caractersticas e submete-los ao prprio
algoritmo de aprendizado, que ser utilizado como funo de avaliao destes
subconjuntos. O melhor subconjunto ser aquele em que o algoritmo de aprendizado
atingir a menor taxa de erro. J as abordagens embutidas, modificam o algoritmo de
aprendizado de forma a otimizar suas funes de SSC.
Apesar de terem uma classificao clara, estas diversas classes de algoritmos podem
ser utilizadas em combinao. A seguir so detalhadas cada uma das formas de
funcionamento dos algoritmos de SSC.
4.4.5.1 Abordagens de filtro
Antes da seleo de qual filtro poder ser utilizado em um determinado problema,
deve-se analisar a natureza das variveis envolvidas. Com aplicabilidade em
aprendizado supervisionado, que o foco deste trabalho, as abordagens de filtro
geralmente so divididas em trs grandes grupos distintos: mtricas de correlao,
mtricas baseadas em conceitos de tecnologia da informao e mtricas bayesianas.
Tambm existem algumas outras abordagens pontuais, que no estariam includas em
nenhum destes grupos, tais como o bootstrap e algoritmo do vizinho mais prximo.
Abordagens de filtro fazem a SSC somente baseadas nas informaes contidas nos
dados, tais como a separabilidade interclasse. Ou seja, toda e qualquer mtrica utilizada
para avaliar a relevncia de uma caracterstica calculada somente com base nos dados
originais submetidos ao filtro. Em processos de minerao de dados, os filtros so
utilizados na fase de pr-processamento, e por serem completamente independentes do
algoritmo de minerao de dados que ser utilizado, no recebem deste algoritmo
nenhuma retro-alimentao sobre a qualidade das caractersticas que foram selecionadas
no processo de filtragem. Basicamente, a funo dos filtros eliminar caractersticas
que potencialmente tero pouca relevncia na fase de minerao de dados (GUYON,
2006).
Justamente por serem aplicadas no pr-processamento, e consequentemente no
incorporarem nenhuma relao com a tarefa de aprendizado, os filtros tornam-se menos
custosos computacionalmente que algoritmos aplicando as outras abordagens. A
independncia que os filtros tm do algoritmo de minerao tem dois aspectos
importantes. Se por um lado os filtros raramente permitem a obteno dos melhores
resultados por no explorarem as melhores capacidades dos algoritmos, por outro, um
mesmo filtro pode ser utilizado em combinao com diversos algoritmos de minerao
diferentes.
De uma maneira mais formal, um filtro pode ser definido da seguinte forma: tem-se
um conjunto C de n caractersticas originais tal que C = {c1, c2, ..., cn}, e tem-se um

67

conjunto E, com m exemplos, tal que E = {e1, e2, ..., em}. Um filtro pode ser definido
como uma funo f que retorna um valor de relevncia J(Ci|E) que estima, com base no
conjunto de exemplos E, o nvel de relevncia de uma dada caracterstica ci. Tal tarefa
geralmente ser de classificao ou regresso. As m caractersticas que obtiverem um
maior valor de relevncia sero passadas ao algoritmo de minerao na forma de um
conjunto Xopt = {x1, x2, ..., xm}, onde X C. Desta forma, o filtro gera como sada o
conjunto de caractersticas Xopt ordenado pelas suas respectivas relevncias da seguinte
forma: J(x1) J(x2) ... J(xm). J as caractersticas com menor valor de relevncia sero
filtradas e no sero repassadas ao algoritmo de minerao. Com a realizao da
filtragem, o algoritmo de treinamento no mais receberia o conjunto inicial de exemplos
E, mas sim o conjunto EXopt que seria o conjunto original com a dimensionalidade
reduzida de acordo com as caractersticas selecionadas pelo filtro. Por tambm
realizarem uma ordenao das caractersticas originais, segundo alguma mtrica de
relevncia, diz-se que alguns filtros realizam o processo de feature ranking.
A definio de um limiar para separar as caractersticas relevantes das no
relevantes no uma tarefa trivial, de forma que ainda pode ser necessria a utilizao
de um wrapper para definir este limiar de acordo com o algoritmo de minerao que
ser utilizado. A utilizao de uma abordagem hbrida de filtro seria realizada de forma
que fossem gerados n diferentes subconjuntos de caractersticas, cada um deles
contendo as n caractersticas mais informativas, de forma que o primeiro subconjunto
conteria apenas a caracterstica mais informativa, o segundo subconjunto conteria as
duas caractersticas mais informativas, e assim sucessivamente. A funo do wrapper
seria testar qual destes n subconjuntos gerados o melhor.
Adicionalmente, os filtros ainda podem ser classificados em locais e globais. Os
filtros globais avaliam as caractersticas levando em conta todos os dados disponveis,
independentemente de seu contexto. Neste caso, supondo uma tarefa de classificao,
todos os dados de entrada seriam tratados igualmente, independentemente de suas
respectivas classes. J os filtros locais, no mesmo caso previamente citado, seriam
aplicados diversas vezes a cada uma das classes do problema, analisando somente os
exemplos pertencentes quela classe especfica. No caso da aplicao de filtros locais
em tarefas de regresso, poderiam ser aplicados vrios filtros diferentes, sendo um deles
aplicado a uma faixa especfica de valores de sada.

Figura 4.3: Abordagem de filtros


Adaptado de Cios et al. (2007)

68

A figura 4.3 representa a abstrao de um filtro e sua interao com os demais


processos tpicos de um processo de minerao de dados. As caixas com fundo cinza
representam os processos realizados por um filtro.
4.4.5.2 Abordagens de wrapper
A idia de wrapper foi proposta originalmente por Kohavi e John (1997).
Abordagens de wrappers determinam o quo bom um subconjunto de caractersticas
atravs da efetiva avaliao deste subconjunto pelo algoritmo de aprendizado. Desta
forma, a partir de conjunto de dados de entrada podem ser gerados diversos
subconjuntos. Cada um destes subconjuntos deve ser submetido ao algoritmo de
minerao de dados, sendo executado um ou mais ciclos completos de
treinamento/teste. O melhor subconjunto de caractersticas ser aquele no qual o
algoritmo de minerao obtiver uma maior exatido preditiva. O mtodo de avaliao
dos subconjuntos geralmente a validao cruzada. Alternativamente, para selecionar o
melhor subconjunto de caractersticas, pode ser utilizada alguma outra mtrica de
desempenho, tais como as abordadas na seo 2.4.3.3.
A figura 4.4 representa a abstrao de um wrapper, sendo que as caixas com fundo
cinza representam o wrapper, as demais caixas representam as atividades convencionais
de um processo de minerao de dados.

Figura 4.4: Abordagem de wrappers


Adaptado de Cios et al. (2007)

O cerne das abordagens de wrappers est na forma pela qual os subconjuntos so


gerados e avaliados. Esta forma definida atravs da estratgia de busca utilizada pelo
wrapper. As estratgias de buscas utilizadas em abordagens wrapper podem ser
classificadas em estratgias timas, estratgias de seleo seqencial e estratgias
estocsticas.

69

4.4.5.3 Abordagens embutidas


Abordagens embutidas de SSC esto inseridas dentro do algoritmo de aprendizado,
ou seja, tem total interao com o aprendizado, diferentemente das abordagens de filtros
e wrappers. Em virtude desta caracterstica, no h a necessidade de criar novos
processos dentro da estrutura de minerao de dados.
A figura 4.5 apresenta a estrutura bsica da abordagem embutida.

Figura 4.5: Abordagem embutida.


Algoritmos que utilizam abordagem embutida podem ser divididos em duas classes:
algoritmos gulosos (greedy) e algoritmos preguiosos (lazy). Os algoritmos gulosos
substituem gulosamente os exemplos de treinamento pelo conceito que foi aprendido.
Posteriormente, somente o conceito aprendido utilizado para classificar novos
exemplos. So exemplos mtodos gulosos de abordagens embutidas os algoritmos ID3
(QUINLAN, 1986) e C4.5 (QUINLAN, 1993). Os algoritmos ID3 e C4.5 geram rvores
de deciso. Estes algoritmos classificam instncias ordenando-as da raiz da rvore em
direo a suas folhas. As caractersticas mais relevantes posicionam-se mais perto da
raiz da rvore. medida que a relevncia da caracterstica diminui, esta caracterstica
posicionada mais longe da raiz e mais prxima s folhas. Aps o processo de
aprendizado, pode ser executado algum processo de poda da rvore, que ir eliminar as
caractersticas menos informativas que compe a rvore (MITCHELL, 1997).
Por outro lado, algoritmos preguiosos usam o conjunto de treinamento para
predizer o comportamento de novas instncias. Estes algoritmos so assim chamados
porque atrasam o processamento at que uma nova instncia necessite ser classificada.
Os algoritmos preguiosos possuem as seguintes caractersticas bsicas (MITCHELL,
1997):

O processo de aprendizado consiste simplesmente no armazenamento dos


exemplos de treinamento. O processo de generalizao adiado, at que haja
a necessidade de predio do comportamento de uma nova instncia.

So dirigidos pela demanda, ou seja, cada vez que uma nova instncia
submetida, seu relacionamento com as instncias de treinamento analisado.

No armazenam a consulta construda e no armazenam resultados


intermedirios.

So exemplos de mtodos preguiosos de abordagens embutidas o algoritmo do ksimo vizinho mais prximo (kNN), proposto por Cover e Hart (1967) e o algoritmo de

70

raciocnio baseado em casos (CBR), proposto por Kolodner (1993), assim como suas
respectivas variaes.
Navot et al (2005) apresentam o algoritmo RGS (Regression, Gradient guided,
feature Selection). Este algoritmo realiza a seleo de caractersticas de entrada baseado
na tcnica do k-simo vizinho mais prximo. O RGS pode ser utilizado como um filtro
para outros algoritmos de regresso, ou como um wrapper para estimao pelo
algoritmo kNN. O algoritmo utiliza uma verso do algoritmo do k-simo vizinho mais
prximo que atribui pesos as caractersticas de entrada. O mtodo captura dependncias
complexas da funo alvo em relao a suas entradas e usa o erro leave-one-out como
uma regularizao natural. no linear. Tem implementao e funcionamento
relativamente simples.
Por outro lado, o algoritmo RGS tem algumas limitaes, entre elas podem ser
citadas as seguintes:

Sua utilizao no apropriada para tarefas de classificao.

H a necessidade de definio de alguns parmetros para o funcionamento do


algoritmo, so eles:
o k: nmero de vizinhos;
o : Fator de decaimento gaussiano;
o T: nmero de iteraes;
o {t}Tt=1 : esquema de decaimento do tamanho do passo.

A utilizao de diferentes valores para estes parmetros conduz a diferentes


resultados no processo de seleo de caractersticas. A definio destes
valores pode ser feita empiricamente, ou atravs da realizao de um
conjunto de experimentos para identificar quais os valores seriam os mais
apropriados para o problema sendo tratado.

A alta dimenso do espao de entradas outro fator que deteriora o


desempenho do algoritmo. Sua aplicao em ambientes com baixa
dimensionalidade geralmente bem sucedida (GERTHEISS e TUTZ, 2008).

4.4.6 Seleo do Critrio de Parada

O critrio de parada define quando o processo de SSC deve ser finalizado e deve
retornar a melhor soluo encontrada. O critrio de parada uma deciso crtica, pois,
caso ele seja definido erroneamente, podem ocorrer dois problemas extremos. No
primeiro, se o critrio de parada for muito restritivo, uma poro muito grande do
espao de busca seria analisada, o que resultaria em uma grande quantidade de tempo
para alcanar uma soluo tima. No segundo, caso o critrio de parada seja pouco
restritivo, o tempo da busca seria pequeno, porm haveria grande probabilidade que a
soluo encontrada no fosse satisfatria.
Dentre os critrios de parada mais utilizados podem ser citados:

Parar de incluir ou excluir caractersticas quando este processo no traz


nenhuma melhora ao desempenho do modelo.

Parar de incluir ou excluir caractersticas quando uma quantidade


previamente definida de caractersticas for atingida.

71

Gerar uma determinada quantidade de subconjuntos de caractersticas, e


selecionar o melhor subconjunto dentre os gerados.

Neste captulo foram abordados os principais conceitos a respeito da RDD,


abrangendo desde a justificativa para a sua execuo, at as principais tcnicas
utilizadas para realizao deste processo. No prximo captulo ser apresentado o
Modelo Neural de Aprimoramento Progressivo e alguns resultados de sua aplicao.

5 O MODELO NEURAL DE APRIMORAMENTO


PROGRESSIVO

Neste captulo abordado o modelo neural de aprimoramento progressivo. So


apresentadas a fundamentao terica e a estrutura do modelo proposto. Tambm so
descritos os experimentos realizados sobre bancos de dados sintticos e reais seguidos
da avaliao e discusso dos resultados obtidos.

5.1 Fundamentao terica e estrutura do modelo


O foco principal deste trabalho a proposta de um modelo neural de aprimoramento
progressivo para reduo de dimensionalidade em problemas de aprendizado
supervisionado, baseado na ordenao da importncia das caractersticas de entrada. A
importncia das caractersticas dada por um escore baseado nos pesos da camada
oculta de uma rede previamente treinada. Este modelo aplicvel em RNAs, do tipo
MLP com uma camada oculta, treinadas atravs do algoritmo Backpropagation. Dentro
deste escopo, a presente proposta visa elucidar a seguinte hiptese de pesquisa: Os
pesos das sinapses que ligam a camada de entrada primeira camada oculta teriam
relao direta com a importncia que cada caracterstica de entrada possui para a
predio da caracterstica de sada.
Esta hiptese foi formulada a partir da anlise de 3 problemas evidenciados na
literatura:
1) Embora as RNAs, assim como os demais algoritmos de minerao de dados, j
apliquem internamente a reduo de dimensionalidade, ignorando as caractersticas
menos informativas, a utilizao de abordagens de reduo de dimensionalidade
geralmente melhora o desempenho destes algoritmos (WITTEN e FRANK, 2005).
2) De acordo com Bishop (1995) a existncia de muitas caractersticas de entrada
irrelevantes faz com que a rede utilize quase todos seus recursos para representar
pores irrelevantes do espao de busca. Por outro lado, mesmo que a rede consiga
focar em caractersticas importantes, uma maior quantidade de amostras ser necessria
para identificar que caractersticas so mais ou menos importantes.
3) Em pesquisas experimentais sobre o sistema nervoso, que so realizadas em
cobaias, a ligao entre estmulo e resposta pode ser estudada de duas formas distintas.
Uma delas atravs da codificao neural, que estuda como os estmulos so
codificados em potenciais de ativao neurais. A outra forma a decodificao neural
que estuda como a resposta a um estmulo gerada a partir destes potenciais de ativao

73

(PANINSKI et al., 2007). Funcionalmente, em uma rede MLP, tambm podem ser
reconhecidas estas duas reas distintas: a rea codificadora e a rea decodificadora.
Quando uma RNA treinada com os dados relativos a algum problema, os padres
expressos nestes dados ficam representados nos pesos sinpticos. Os pesos sinpticos
entre a camada de entrada e a primeira camada oculta agem como codificadores dos
estmulos recebidos, que expressam os padres encontrados nos dados de entrada. J os
pesos sinpticos entre a ltima camada oculta e a camada de sada agem como
decodificadores, reconstruindo um valor de sada a partir dos padres extrados dos
dados de entrada pela RNA (ALPAYDIN, 2010).
Assim, dada esta realidade, prope-se que a definio da importncia de cada
caracterstica seja dada por um escore que se baseia nos pesos sinpticos da regio
codificadora da rede, ou seja, os pesos sinpticos que ligam a camada de entrada
primeira camada oculta. A partir da definio da importncia que cada caracterstica de
entrada tem na predio do valor da sada da rede neural ento proposta uma
abordagem de reduo de dimensionalidade para otimizar a criao dos modelos
neurais.
Considere-se uma RNA do tipo MLP, com N entradas, L unidades ocultas e uma
nica sada, conforme figura 5.1, treinada para uma tarefa de regresso pelo algoritmo
Backpropagation (BP) com um conjunto de P dados de treinamento. Para tanto, a
funo de ativao das unidades da camada oculta a tangente hiperblica, e a da sada
linear. Considera-se ainda que as entradas foram normalizadas, de modo que tenham
mdia zero.

Figura 5.1: RNA do tipo MLP

74

Dentro deste escopo, deseja-se ordenar as entradas pela sua importncia em relao
predio da sada da rede. Para isso, propomos utilizar apenas a informao dos
valores dos pesos das unidades da camada oculta ajustados pelo algoritmo BP para a
tarefa de interesse.
Os pesos da camada oculta so os parmetros usados na transformao no linear do
espao original de entrada para o espao intermedirio definido pelas unidades ocultas.
As sadas da camada oculta formam um vetor de caractersticas que serve de base para a
regresso linear efetuada pela unidade de sada, onde os pesos so os parmetros do
regressor linear de sada. Durante o treinamento, o algoritmo BP ajusta os pesos da
camada oculta de modo a formar caractersticas intermedirias timas para o problema
de regresso, que realizado pela camada de sada. Como os pesos da camada de sada
so compartilhados por todas as unidades da camada oculta, a nossa suposio que os
pesos da camada oculta fornecem a informao necessria para a ordenao da
importncia das entradas no problema de regresso. A partir destas consideraes,
derivamos a seguir a expresso para o clculo do escore utilizado na ordenao das
entradas.
O clculo do escore dado pela seguinte frmula:
si =

1 L o
w ji
L j =1

Tendo-se que:

O escore da caracterstica i dado por si.

H L neurnios na primeira camada oculta.

woji o peso da sinapse entre o i-simo neurnio da camada de entrada e o jsimo neurnio da primeira camada oculta.

A escolha da funo de mdia para definir o escore das caractersticas de entrada


inspirada na neurocincia. Na literatura so descritos diversos esquemas de codificao
de informao, dentre eles, o mais difundido o rate coding. Este esquema de
codificao assume que quase toda, seno toda, informao sobre os estmulos est
contida na taxa de ativao dos neurnios e, o clculo da taxa de ativao dado atravs
de uma funo de mdia aritmtica (KANDEL, SCHWARTZ e JESSELL, 2000).
Ento, presume-se que a partir do clculo do escore seria possvel identificar a
importncia de cada uma das caractersticas de entrada, o que fornece o subsdio para a
aplicao do modelo neural de aprimoramento progressivo.
Como base terica para demonstrar a validade da nossa hiptese de pesquisa,
mostraremos a seguir a relao do escore proposto com a sensibilidade mdia (si) para
todas as sadas da camada oculta em relao entrada xi. Postulamos que a importncia
de uma entrada xi est relacionada com a mdia das sensibilidades de cada sada da
camada oculta em relao a esta entrada, definida como sji. O valor de sji pode ser
calculado pela propagao de uma pequena variao xi sobre o valor mdio (nulo) da
entrada, at a sada da camada oculta, mantendo as outras entradas em zero.
Inicialmente a propagao de xi pelo neurnio j da camada oculta produz uma variao
do seu potencial de ativao dada por:

75

v oj = xi woji
Como a funo de ativao tangente hiperblica prximo a zero tem ganho unitrio,
segue que a variao na sada do neurnio j dada por:

i j = v oj = xi w oji
Com isso, a sensibilidade sji, da sada da camada oculta ij em relao entrada xi
dada diretamente pelo peso desta conexo:

s ji =

i j
xi

= w oji

Para calcularmos a sensibilidade mdia si para todas as sadas da camada oculta em


relao entrada xi, no podemos simplesmente somar todas as contribuies
individuais de cada sada, pois elas possuem sinal. Sendo assim, optou-se por definir a
sensibilidade si, como a mdia dos valores absolutos dos sji, ou seja:

si =

1 L
1 L o
s
=
w ji
ji L
L j =1
j =1

As mtricas de reduo de dimensionalidade propostas na literatura e abordadas na


seo 4.4.3 ou analisam individualmente a relevncia de cada caracterstica de entrada
em relao caracterstica de sada, ou necessitam da configurao de parmetros
adicionais para serem utilizadas. A abordagem proposta neste trabalho utiliza uma
mtrica de escore que:
1) permite identificar as dependncias entre diversas caractersticas de entrada em
relao predio da sada;
2) no necessita de configurao de parmetros adicionais; e
3) pode ser integrada ao aprendizado atravs de redes neurais de maneira direta e
pouco custosa em termos de implementao.
A estrutura do modelo

A estrutura do modelo neural de aprimoramento progressivo bastante similar


estrutura terica de um wrapper, que foi apresentada na figura 4.4. A figura 5.2
apresenta estrutura da abordagem proposta. Esta estrutura de aprimoramento
progressivo similar a estrutura proposta por Effroymson, (1960). A maior diferena
entre as duas abordagens consiste na mtrica de ordenao dos atributos pois, enquanto

76

a abordagem de Effroymson baseada em regresso mltipla, nossa abordagem


baseada no escore neural aqui proposto.

Figura 5.2: Seqncia de atividades do modelo neural de aprimoramento progressivo


Conforme apresentado na figura 5.2, a abordagem baseada em cinco passos
distintos: 1) Treinar a rede neural com os dados de treinamento incluindo todas as
caractersticas disponveis; 2) Calcular os escores de cada uma das caractersticas de
entrada; 3) Definir o melhor subconjunto de caractersticas; 4) Reduzir a
dimensionalidade dos dados de treinamento + teste com base no melhor subconjunto de
caractersticas encontrado; 5) Treinar novamente a rede neural com os dados de
treinamento + teste com dimensionalidade reduzida para gerar a melhor configurao de
modelo. Os trs primeiros passos so executados sobre os dados de treinamento,
enquanto os demais so executados sobre os dados de treinamento + teste.
Na atividade 3 realizada a avaliao dos subconjuntos de atributos atravs da
criao de modelos incrementais, a partir do modelo mais simples com o atributo de
maior escore, de forma que cada novo modelo contenha um atributo a mais que o
modelo anterior. A cada nova caracterstica acrescentada ao modelo, realizada
novamente a reduo de dimensionalidade dos dados de treinamento originais, a rede
neural treinada, e seu resultado avaliado. Este processo realizado iterativamente at
que seja atingido o critrio de parada. A figura 5.3 apresenta o detalhamento da
atividade 3.

77

Figura 5.3: Seqncia das atividades que compem o clculo do melhor subconjunto de
caractersticas
Tendo-se que os dados originais so representados em uma matriz m x n, onde m a
quantidade de amostras e n a quantidade de variveis descrevendo cada amostra, a
abordagem proposta visa transformar os dados em uma nova matriz m x o, onde o < n.
Esta nova matriz denotada por EXopt. O conjunto Xopt que contm as o caractersticas
selecionadas para este modelo so aqueles com maiores escores, e a inteno que o
modelo com o caractersticas de entrada atinja um maior nvel de exatido preditiva que
o modelo com n caractersticas.
Adicionalmente, salienta-se que a abordagem proposta pode ser aplicada tanto em
tarefas de classificao quanto de regresso, conforme evidenciado na avaliao de
desempenho, e funciona com alto nvel de eficincia tanto em problemas lineares
quanto em problemas no lineares. Uma relevante restrio aplicao da abordagem
proposta que a RNA treinada com todas as caractersticas de entrada dever produzir
um modelo com desempenho no mnimo equivalente a um aprendiz fraco (HAYKIN,
1999). Caso o modelo inicial no consiga aprender absolutamente nada sobre os dados,
ento no haver nenhum conhecimento relevante expresso nos pesos sinpticos e as
sadas geradas pela rede sero, em mdia, iguais incerteza mxima. Se esta restrio
no for obedecida, a aplicao do modelo neural de aprimoramento progressivo no ir
gerar nenhum benefcio adicional em relao ao modelo inicial.

78

5.2 Avaliao da proposta sobre dados sintticos


Para realizar a avaliao de desempenho de nossa abordagem foram realizados
alguns experimentos de classificao e regresso sobre ambientes plenamente
controlados, sendo gerados conjuntos de dados fictcios com relaes no lineares bem
conhecidas entre entradas e sadas. Uma forma sistemtica de avaliao de desempenho
importante para que sejam obtidos resultados confiveis permitindo a comparao e,
principalmente, a reproduo dos experimentos por outros pesquisadores.
Para modelar estes problemas foi utilizada uma RNA treinada com o algoritmo
Resilient Backpropagation proposto por Riedmiller e Braun (1993). Para obter-se uma
significncia estatstica, os experimentos foram repetidos 20 vezes sobre condies
idnticas de execuo. O processo de validao cruzada foi realizado sendo utilizada a
tcnica 10-fold. Todos os experimentos demonstrados nos resultados preliminares foram
realizados na ferramenta Matlab, utilizando o toolbox de redes neurais.
5.2.1 Conjunto de dados sinttico XOR

Para este experimento foi gerado um conjunto de dados no qual estava expresso o
problema do XOR, que um problema clssico na rea de redes neurais (HAYKIN,
1999). O problema do XOR um problema de natureza no linear, no qual a aplicao
de tcnicas lineares no eficiente. Alm disso, no conjunto de entradas foram includas
diversas caractersticas irrelevantes para a soluo do problema. O objetivo deste
experimento comprovar a capacidade da abordagem proposta para identificar as
caractersticas mais informativas e melhorar os resultados obtidos pela rede neural que
utiliza todas as caractersticas de entrada.

5.2.1.1 Banco de Dados


Foi gerado um banco de dados fictcio com 20 caractersticas e 100 amostras. O
valor de cada caracterstica para uma dada amostra pode assumir aleatoriamente os
valores 0 ou 1. O conjunto de entradas input_data dado por:

input_data = round(rand(features,samples))
onde features o nmero de caractersticas para cada amostra, definido como 20; e
samples o nmero de amostras do conjunto de dados, definido como 100. Foram
gerados diversos conjuntos de dados com diferentes valores de features e samples. Nos
experimentos realizados foram definidos os valores 20 e 100 pois permitiam um bom
balanceamento entre quantidade de amostras e dificuldade do problema; alm de ser
obtido um problema de razovel dificuldade.
Os valores de sada para este conjunto de amostras so dados por uma funo XOR
dos valores da primeira e da segunda coluna:

output_data = xor(input_data(1,:),input_data(2,:))
Adicionalmente, tanto os valores de entrada quando os de sada so escalonados de
forma que o valor mnimo seja -1 e o valor mximo seja 1, em virtude deste ser um dos
requisitos das redes neurais utilizadas. A funo de escalonamento dada pela seguinte
frmula:

pe = 2*(p-minp)/(maxp-minp) 1

79

onde minp o valor mnimo assumido pela caracterstica em todas as amostras, maxp
o valor mximo assumido pela caracterstica em todas as amostras, p o valor da
caracterstica na amostra atual, e pe o valor p escalonado.

5.2.1.2 Resultados
Aps a concluso do processo de treinamento da rede, foram calculados os escores
para cada uma das caractersticas de entrada. A figura 5.4 mostra estes escores, onde
percebe-se que a abordagem conseguiu indentificar as caractersticas de entrada mais
relevantes para a predio do valor de sada da rede.
Enquanto o modelo neural criado com todas as 20 caractersticas de entrada obteve
28% de taxa de erro, o modelo criado aps a utilizao do modelo neural de
aprimoramento progressivo obteve 2,85% de taxa de erro, conseguindo ser mais exato
com uma menor quantidade de caractersticas.
Tabela 5.1: Distncia euclidiana entre os valores ideais de escore e os valores obtidos
com cada uma das abordagens utilizadas no problema do XOR
Abordagem

Distncia

Escore proposto

0,28812

Mahalanobis

1,69662

GLS

2,12132

OLS

2,12132

Internal Product

2,12132

Covariance

2,12132

Kendall

2,12314

Spearman

2,12314

Correlation coefficient

2,12314

T Test Regression

2,80792

Regression

2,80792

Welch Test

2,88818

T Test

2,88818

Wilcoxon

2,94615

U Test

2,95901

Kruskal Wallis

2,95901

Sign

2,99669

Chi-square

3,01954

Entropy

3,35720

Var Test

3,70111

Bartlett

4,01253

80

Figura 5.4: Escores para cada uma das 20 caractersticas de entrada


Alm do clculo dos escores de cada uma das 20 caractersticas pela abordagem
proposta, outras outras abordagens descritas na literatura foram testadas
(YAMPOLSKIY e GOVINDARAJU, 2006). Dado que somente 2 das 20 caractersticas
so entradas relevantes para a funo XOR, os escores ideais seriam: escore mximo
1 para as duas caractersticas relevantes; e escore mnimo 0 para as demais
caractersticas. Os escores finais das caractersticas, aps aplicao das diversas
abordagens, foram escalonados no intervalo [0,1]. A eficincia de cada uma das
abordagens foi baseada na distncia euclidiana entre os escores obtidos e os escores
ideais. A tabela 5.1 mostra que o escore proposto conseguiu obter valores mais
prximos dos pesos ideais que as demais abordagens utilizadas.
5.2.2 Conjunto de dados sinttico SENO

Para este experimento foi gerado um conjunto de dados sinttico no qual estava
expresso um problema proposto envolvendo operaes com a funo SENO. Da mesma
forma que no experimento anterior, no conjunto de entradas foram includas diversas
caractersticas irrelevantes para a soluo do problema. Novamente, o objetivo do
experimento comprovar a capacidade da abordagem proposta de identificar as
caractersticas mais informativas e melhorar os resultados obtidos pela rede neural que
utiliza todas as caractersticas de entrada, desta vez em um problema no linear de
regresso.

5.2.2.1 Banco de Dados


Foi gerado um banco de dados fictcio com 50 caractersticas e 200 amostras. O
valor de cada caracterstica para uma dada amostra pode assumir aleatoriamente valores
contnuos entre -1 e 1. O conjunto de entradas input_data dado por:

input_data = rand(features,samples)
onde features o nmero de caractersticas para cada amostra, definido como 50; e
samples o nmero de amostras do conjunto de dados, definido como 200. Foram
gerados diversos conjuntos de dados com diferentes valores de features e samples. Nos
experimentos realizados foram definidos os valores 50 e 200 pois permitiam um bom
balanceamento entre quantidade de amostras e dificuldade do problema; gerando um
problema de razovel dificuldade.
Os valores de sada para este conjunto de amostras so dados por uma funo SIN
dos valores da primeira e da segunda coluna:

81

output_data =
sin(input_data(10,:))-sin(input_data(20,:))+sin(input_data(30,:))+sin(input_data(40,:))
Adicionalmente, tanto os valores de entrada quando os de sada so escalonados de
forma que o valor mnimo seja -1 e o valor mximo seja 1. A funo de escalonamento
dada pela seguinte frmula:

pe = 2*(p-minp)/(maxp-minp) 1
onde minp o valor mnimo assumido pela caracterstica em todas as amostras, maxp
o valor mximo assumido pela caracterstica em todas as amostras, p o valor da
caracterstica na amostra atual, e pe o valor p escalonado.

5.2.2.2 Resultados
A figura 5.5 mostra os escores obtidos para cada uma das 50 caractersticas de
entrada. Atravs da figura, percebe-se que os escores dos atributos 10, 20, 30 e 40 tm
valores bem mais elevados que os escores dos demais atributos. Isto demonstra que o
escore proposto torna possvel quantificar, no problema sob anlise, a relevncia destes
atributos em relao sada do problema, exatamente conforme definido nas frmulas
de criao do banco de dados descritas no item anterior. Os demais escores tm valores
menores, dado que eles possuem somente rudo, conforme expresso no banco de dados
criado.
Enquanto o modelo neural criado com todas as 50 caractersticas de entrada obteve
0,0286 como o melhor valor absoluto de erro de teste, o modelo criado aps a aplicao
da abordagem proposta obteve 0,0102 de taxa de erro, conseguindo ser mais exato com
uma menor quantidade de caractersticas. Neste experimento, a reduo do erro foi de
65%.

Figura 5.5: Escores para cada uma das 50 caractersticas de entrada


Adicionalmente, foram calculados os escores de cada uma das 50 caractersticas pela
abordagem proposta e por outras abordagens descritas na literatura. Dado que somente 4
das 50 caractersticas so entradas relevantes para a funo SENO, os escores ideais
seriam: escore mximo 1 para as duas caractersticas relevantes; e escore mnimo 0
para as demais caractersticas. Os escores finais das caractersticas, aps aplicao das
diversas abordagens, foram escalonados no intervalo [0,1]. A eficincia de cada uma
das abordagens foi baseada na distncia euclidiana entre os escores obtidos e os escores

82

ideais. A tabela 5.2 mostra que a abordagem proposta conseguiu obter resultados mais
prximos aos escores ideais do que as demais abordagens utilizadas.
Tabela 5.2: Distncia euclidiana entre os valores ideais de escore e os valores obtidos
com cada uma das abordagens utilizadas no problema do SIN
Abordagem

Distncia

Escore proposto

0,92331

Covariance

1,00363

Correlation coefficient

1,00377

Kendall

1,01867

Spearman

1,01945

GLS

1,54805

OLS

1,54805

Internal Product

1,54805

Sign

1,73190

Bartlett

2,19305

Var Test

2,19311

Chi-square

2,21705

Mahalanobis

3,91332

T Test Regression

4,29966

Regression

4,29966

Entropy

6,58780

No experimento 5.2.1, a distncia euclidiana entre os valores ideais de escore a


abordagem proposta foi sensivelmente menor que as demais abordagens. Isto demonstra
que o escore sensivelmente mais eficiente que as demais abordagens no problema
proposto de natureza no linear. Por outro lado, no experimento 5.2.2, os escores
obtidos com a abordagem proposta so pouco melhores que outras abordagens,
reconhecidamente eficientes neste problema de natureza linear.

5.3 Avaliao da proposta sobre dados reais


Alm dos testes sobre dados sintticos que geraram as evidncias experimentais, a
abordagem proposta foi aplicada a problemas de diversas naturezas diferentes. Todos os
experimentos demonstrados nos resultados preliminares foram realizados na ferramenta
Matlab, utilizando o toolbox de redes neurais. Para realizar os experimentos foram
utilizadas RNAs do tipo MLP com as seguintes caractersticas comuns:
Tipo FeedForward.

3 camadas.

Soma como funo de propagao para a camada oculta.

83

Funo de transferncia sigmide tangente hiperblica para a camada oculta.

Soma como funo de propagao para a camada de sada.

Funo de transferncia linear para a camada de sada.

Pesos sinpticos randomicamente iniciados no intervalo [-1,1].

5 reinicializaes / retreinamentos.

10-fold cross-validation.

A quantidade de neurnios em cada uma das camadas varia de acordo com o


experimento, sendo estas quantidades apresentadas posteriormente.
Foram realizados testes sobre problemas de sries temporais, regresso e
classificao. Em todas as aplicaes apresentadas aqui a abordagem proposta
demonstrou ser eficiente. Os resultados das aplicao so descritos a seguir.
5.3.1 Sries Temporais

Mtodos clssicos de reconhecimento de padres, que esto entre os maiores focos


de aplicao das redes neurais, geralmente envolvem as tarefas de classificao e
regresso. Porm, outra aplicao potencial das redes neurais so as sries temporais,
que consistem no estudo da variao de um sinal durante o passar do tempo. Nesta
classe de problemas, a modelagem do aspecto temporal passa a ser um fator crtico para
a soluo do problema.
Tabela 5.3: Matriz de regresso criada com o vetor de entrada
Entradas

Sadas

x1

x2

...

xm-1

xm

xm+1

x2

x3

...

xm

xm+1

xm+2

x3

x4

...

xm+1

xm+2

xm+3

...

...

...

...

...

...

...

...

...

...

...

...

xn-m

xn-m+1

...

xn -2

xn-1

xn

O tempo pode ser modelado em uma rede neural de forma implcita ou explcita
(HAYKIN, 1999). No experimento a seguir descrito o tempo foi representado de
maneira implcita, na forma de memrias de curta durao, e foi utilizada uma rede
neural esttica do tipo MLP. Este tipo de rede denominada Time Lagged Feedforward
Network (TLFN). A memria de curta durao implementada em uma TLFN consiste
na apresentao de um sinal xn e dos m valores anteriores xn-1, xn-2,..., xn-m. A fim de
atender os requisitos desta memria de curto prazo, houve a necessidade de realizar uma
transformao sobre os dados de entrada, que estavam em uma forma vetorial, e foram
transformados para uma forma de matriz de regresso. Supondo-se um vetor de entrada

84

X, com n elementos, e uma rede neural com m entradas, a matriz de regresso gerada
de acordo com a tabela 5.3.
5.3.1.1 Banco de Dados
Para realizar os experimentos foi utilizado um conhecido banco de dados com a
quantidade de passageiros de linhas areas nos Estados Unidos, originalmente publicado
por (BOX et al., 1976). Estes dados consistem na quantidade mensal medida durante 12
anos consecutivos, entre 1949 e 1960, totalizando 144 amostras. O foco da minerao
a predio do nmero de passageiros para os 4 anos subseqentes, de 1961 a 1964, ou
seja, as prximas 48 amostras.
Este banco de dados foi foco de uma competio de predio de sries temporais no
25th International Symposium on Forecasting, ocorrido em 2005.

5.3.1.2 Experimentos
Foram realizados experimentos com diversas configuraes de redes neurais
diferentes. Alm disso, outra deciso crtica foi em relao gerao da matriz de
regresso. O dilema enfrentado foi a determinao da quantidade de entradas a ser
utilizada para a rede neural. Esta deciso crtica devido pouca quantidade de
amostras. medida que o valor de m aumentado, a quantidade de exemplos para
treinamento/teste diminui. A relao entre a quantidade de amostras e entradas dada
da seguinte forma:

Qe = n m
Onde Qe a quantidade de amostras disponveis para treinamento.
De acordo com as diversas configuraes de matriz de regresso utilizadas, a melhor
configurao possvel foi obtida com o valor de m = 48. Esta configurao resulta na
existncia de 96 exemplos para treinamento/teste. Tal cenrio denota um problema de
alta dimensionalidade, dado que a relao entradas/caractersticas 2.
Para realizar o experimento de predio desta srie temporal, foi utilizada uma rede
neural com as seguintes caractersticas:

m neurnios na camada de entrada.

2 neurnios na camada oculta.

1 neurnio na camada de sada.

Os resultados obtidos com esta configurao de rede neural so descritos na figura


5.6. Tal resultado mostra claramente que a rede neural utilizada no conseguiu aprender
corretamente a tendncia crescente da srie temporal.

85

Figura 5.6: Predio dos valores da srie temporal usando 48 caractersticas de entrada

Figura 5.7: Escores das caractersticas de entrada


A partir do treinamento realizado, foram obtidos os escores para as caractersticas de
entrada. Tais escores so apresentados na figura 5.7. A escala negativa no eixo x do
grfico representa a quantidade de atrasos de tempo de cada caracterstica em relao
caracterstica sendo predita. O maior escore apresentado no grfico, 0.4, projetado no
eixo x no valor -3. Isto significa que a caracterstica mais informativa para predizer a
amostra xt a caracterstica xt-3. A segunda caracterstica mais informativa a xt-24, e
assim sucessivamente.

86

Figura 5.8: Predio dos valores da srie temporal usando o conjunto reduzido de
caractersticas de entrada
A figura 5.8 mostra a predio da srie temporal para as prximas 48 entradas,
somente com as 8 caractersticas de escore mais alto, de acordo com os preceitos da
abordagem proposta. Relativamente ao resultado descrito na figura 5.6, percebe-se que a
figura 5.8 mostra um resultado mais coerente, onde as amostras preditas mantm a
mesma tendncia de crescimento das amostras conhecidas.
Os resultados obtidos com a aplicao da abordagem proposta foram submetidos
competio de predio do 25th International Symposium on Forecasting e ficaram entre
os 3 melhores trabalhos (CAMARGO e ENGEL, 2005).
5.3.2 Regresso

Para realizar os experimentos de regresso foi escolhido um problema real na rea


de explorao de petrleo. Tal aplicao possui uma enorme justificativa econmica. A
importncia desta aplicao d-se pelo fato de o petrleo ser um bem vital para diversos
tipos de indstrias, alm de consistir em uma preocupao crtica para diversas naes.
Em algumas regies do planeta, o petrleo chega a ser responsvel pela gerao de mais
de 50% da energia utilizada. Toda a cadeia produtiva do petrleo, incluindo as fases de
produo, distribuio, refino e venda, representa a maior indstria do planeta em
termos financeiros.
Uma das fases primrias no processo de explorao de petrleo a perfurao.
Dentro desta fase, deve ser realizada uma estimativa do valor da reserva a ser perfurada.
A fim de permitir uma estimativa mais exata deste valor, a utilizao de modelos
preditivos da qualidade dos reservatrios seria de fundamental importncia. O foco dos
modelos preditivos est concentrado nos principais fatores de qualidade, que so:
macroporosidade, porosidade petrofsica e permeabilidade petrofsica.
O objetivo principal dos experimentos de regresso realizados desenvolver
modelos de qualidade de reservatrios de petrleo a partir de dados e interpretaes
produzidas no estudo dos arenitos da Formao de Uer, Devoniano da Bacia do
Solimes, por Lima e De Ros (2003). Os resultados parciais obtidos nestes

87

experimentos foram includos em um projeto de pesquisa submetido ao CNPq e


aprovado para financiamento (ENGEL, 2005).

5.3.2.1 Banco de Dados


O banco de dados utilizado para realizao dos experimentos composto por 96
caractersticas e 58 amostras. A tarefa de regresso foi executada a fim de predizer 3
caractersticas distintas: macroporosidade, porosidade petrofsica e permeabilidade
petrofsica. Para executar estas predies, nem todas as 93 caractersticas disponveis
foram utilizadas.
As caractersticas, representando parmetros petrogrficos e petrofsicos so
divididas em dois tipos: caractersticas atmicas e caractersticas totalizadoras. As
caractersticas atmicas so agrupadas em classes. Todas as caractersticas totalizadoras,
que so classes, podem ser obtidas atravs da soma de n caractersticas atmicas.
Tambm sabido que a soma de todas as caractersticas totalizadoras igual a 100. As
caractersticas macroporosidade, porosidade petrofsica, e permeabilidade petrofsica,
focos das prximas predies, so exemplos de caractersticas totalizadoras.
Das 58 amostras disponveis, foram excludas 10 amostras por serem consideradas
outliers. Estas amostras sero consideradas nos trabalhos futuros, pois, de acordo com o
especialista do domnio, podem ser consideradas uma classe de amostras distinta das
demais.

5.3.2.2 Experimentos
Predio de macroporosidade
Para predio de macroporosidade foram executados os experimentos descritos a
seguir.
Em adio s caractersticas apresentadas na introduo da seo 5.3, a rede neural
tinha as seguintes caractersticas particulares:

60 neurnios na camada de entrada.

4 neurnios na camada oculta.

1 neurnio na camada de sada.

Nos experimentos realizados foi obtido um erro mdio de predio da


macroporosidade de 2,1403, o que representa 20,61% de taxa de erro. A figura 5.9
apresenta os valores obtidos e desejados para cada exemplo predito.
A figura 5.10 apresenta o erro absoluto para cada um dos exemplos, em uma das
cinco repeties do experimento, sendo que a mdia dos erros foi 2,006 e o desvio
padro 1,957.

88

Figura 5.9: Resultado desejado x resultado obtido de macroporosidade para cada uma
das 48 amostras por meio da regresso com 60 entradas na rede.

Figura 5.10: Erro de predio de macroporosidade para cada uma das 48 amostras
usando 60 caractersticas como entrada da rede.
A figura 5.11 apresenta os pesos de cada uma das sinapses das caractersticas de
entrada. A mdia dos pesos foi 0,2556 e o desvio padro 0,3704. Baseados nos pesos
das sinapses foram identificadas as caractersticas mais relevantes para a tarefa de
regresso do valor da macroporosidade. As 10 caractersticas com maiores pesos so
apresentados na tabela 5.4 em ordem decrescente de importncia. As caractersticas de 1
a 3 tm pesos maiores que a mdia mais um desvio padro, indicando a sua grande
importncia para predio da macroporosidade. As caractersticas 4 e 5 tm pesos
maiores que a mdia, o que tambm mostra sua importncia. As demais caractersticas
identificam os maiores pesos, menores que a mdia.

89

Figura 5.11: Pesos sinpticos de cada uma das 60 caractersticas da camada de entrada
usados para predio de macroporosidade.
Tabela 5.4: Caractersticas mais importantes para a predio da macroporosidade
Entrada Atributo Descrio

Peso

Quartz Monocrystalline

2,5538

54

Intergranular Volume

1,5992

55

Cement Total

1,0115

56

Carbonate Total

0,5677

58

Grain Replacement Total

0,3078

21

Quartz Overgrowth

0,2446

18

Clay Ooid

0,2396

30

Silicified Secondary Matrix

0,2379

57

Silica Total

0,2375

10

27

Microquartz Rims

0,2030

A partir da identificao das caractersticas mais importantes para a predio da


macroporosidade, apresentadas na tabela 5.4, foi realizado o processo de aprimoramento
progressivo.

90

Tendo-se que a mdia do valor da macroporosidade 10,38 possvel inferir-se


uma idia do percentual de erro representado pelo erro absoluto com diferentes nmeros
de caractersticas utilizadas como entrada na rede.
Um fator que pode ser comprovado experimentalmente que o erro de predio de
macroporosidade com apenas trs caractersticas menor que o erro com todas as
sessenta caractersticas disponveis. A tabela 5.5 apresenta os valores de erro obtidos em
cada um dos experimentos com diferentes quantidades de caractersticas de entrada.
notrio que a rede possui um conjunto timo de caractersticas de entrada, com o qual o
erro mnimo, que pode ser um subconjunto das caractersticas disponveis para o
aprendizado.
Tabela 5.5: Variao da taxa de erro em funo do nmero de caractersticas de entrada
Caractersticas de Entrada Erro Absoluto Erro Percentual
1

2,7173

26,17%

2,7110

26,11%

1,8637

17,97%

1,9578

18,86%

2,0533

19,78%

60

2.1403

20,61%

A figura 5.12 apresenta os valores obtidos e desejados para cada amostra predita
utilizando somente 3 caractersticas de entrada. A figura 5.13 apresenta os valores de
erro absolutos utilizando 3 e 60 caractersticas de entrada, sendo perceptvel que o erro
de predio com 3 caractersticas quase sempre menor que com 60 caractersticas, o
que mostra indiscutivelmente a importncia das caractersticas 1, 2 e 3 da tabela 5.4.

91

Figura 5.12: Resultado desejado x resultado obtido de macroporosidade por meio da


regresso com 3 entradas na rede.

Figura 5.13: Erros de predio de macroporosidade com 3 e 60 caractersticas de


entrada.
Os resultados destes experimentos foram comparados com a abordagem de
regresso multivariada, que largamente utilizada neste problema, e os resultados so
discutidos em mais detalhes em Camargo e Engel (2009).

Predio de porosidade petrofsica


Para predio de porosidade petrofsica foram executados os experimentos descritos
a seguir.
Foi utilizada uma rede neural com as seguintes caractersticas particulares:

92

70 neurnios na camada de entrada.

4 neurnios na camada oculta.

1 neurnio na camada de sada.

Nos experimentos realizados foi obtido um erro mdio de predio da porosidade


petrofsica de 2,2367, o que representa 16,31% de taxa de erro. A figura 5.14 apresenta
os valores obtidos e desejados para cada amostra predita.

Figura 5.14: Resultado desejado x resultado obtido de porosidade petrofsica por meio
da regresso com 70 entradas na rede.
A figura 5.15 apresenta o erro absoluto, em uma das cinco repeties do
experimento, sendo que a mdia dos erros foi 2,47, e o desvio padro do erro foi 2,096.

93

Figura 5.15: Erro de predio de porosidade petrofsica para cada um das 48 amostras
usando 70 caractersticas como entrada da rede.
A figura 5.16 apresenta os pesos de cada uma das sinapses das caractersticas de
entrada. A mdia dos pesos foi 0,2043 e o desvio padro 0,2373. Baseados nos pesos
das sinapses foram identificadas as caractersticas mais relevantes para a tarefa de
regresso do valor da porosidade petrofsica. As 10 caractersticas com maiores pesos
so apresentados na tabela 5.6 em ordem decrescente de importncia. As caractersticas
de 1 e 2 tm pesos maiores que a mdia mais um desvio padro, indicando a sua grande
importncia para predio da porosidade petrofsica. As caractersticas 3 a 8 tm pesos
maiores que a mdia, o que tambm mostra sua importncia. As demais caractersticas
identificam os maiores pesos, menores que a mdia.

Figura 5.16: Pesos sinpticos de cada uma das 70 caractersticas da camada de entrada
usadas para predio de porosidade petrofsica.

94

Tabela 5.6: Caractersticas mais importantes para a predio da porosidade petrofsica


Entrada

Atributo Descrio

Peso

Quartz Monocrystalline

2,9278

54

Intergranular Porosity

0,6925

64

Intergranular Volume

0,5350

66

Carbonate Total

0,4382

65

Cement Total

0,3989

68

Grain Replacement Total

0,3381

67

Slica Total

0,2391

39

Illite Intergranular Fibrous

0,2267

20

Mud Pseudomatrix + Bioturbation Matrix

0,1833

10

21

Quartz Overgrowth

0,1723

A partir da identificao das caractersticas mais importantes para a predio da


porosidade petrofsica foram feitos diversos outros experimentos, com diversas
quantidades de caractersticas de entrada. Para cada experimento com n caractersticas
de entrada, estas n caractersticas eram os com maior peso das suas sinapses de entrada,
de acordo com a tabela 5.6.
Tendo-se que a mdia do valor da porosidade petrofsica 13,71 possvel inferirse uma idia do percentual de erro representado pelo erro absoluto com diferentes
nmeros de caractersticas utilizadas como entrada na rede.
Um fator que pode ser comprovado experimentalmente que o erro de predio de
porosidade petrofsica com apenas duas caractersticas menor que o erro com todas as
setenta caractersticas disponveis. A tabela 5.7 apresenta os valores de erro obtidos em
cada um dos experimentos com diferentes quantidades de caractersticas de entrada.
Novamente notrio o fato de que a rede possui um conjunto timo de caractersticas
de entrada, com o qual o erro mnimo, que pode ser um subconjunto das
caractersticas disponveis para o aprendizado.
A figura 5.17 apresenta os valores obtidos e desejados para cada amostra predita
utilizando somente 2 caractersticas de entrada. A figura 5.18 apresenta os valores de
erro absolutos utilizando 2 e 70 caractersticas de entrada, sendo perceptvel que o erro
de predio com 2 caractersticas quase sempre menor que com 70 caractersticas, o
que mostra indiscutivelmente a importncia das caractersticas 1 e 2 da tabela 5.6.

95

Tabela 5.7: Variao da taxa de erro em funo do nmero de caractersticas de entrada


Caractersticas
de Entrada

Erro
Absoluto

Erro
Percentual

2,8676

20,91%

2,0747

15,13%

2,0902

15,24%

2,1626

15,77%

2,1012

15,32%

70

2,2367

16,31%

Figura 5.17: Resultado desejado x resultado obtido de porosidade petrofsica por meio
da regresso com 2 entradas na rede.

96

Figura 5.18: Erros de predio de porosidade petrofsica com 2 e 70 caractersticas de


entrada.
5.3.3 Classificao

Os experimentos de classificao foram realizados a partir de um banco de dados


sobre metabolismo de vacas de um rebanho leiteiro, visando identificar a propenso de
um determinado indivduo do rebanho a ter mastite. A mastite uma inflamao da
glndula mamria. Esta doena a mais preocupante em rebanhos leiteiros em todo o
mundo devido alta incidncia de casos clnicos, alta incidncia de infeces no
perceptveis a olho n e aos prejuzos econmicos que acarreta. As leses no tecido
mamrio causadas pela mastite tornam as clulas excretoras menos eficientes, com
menor capacidade de produzir e secretar leite. Especificamente no Brasil, pesquisas
demonstram que tecidos com mastite produzem entre 25 e 42% menos de leite
(GAONA, 2005).
Em Campos et al. (2006) os resultados apresentados por esta abordagem foram
analisados e validados pelo especialista do domnio. Para dar uma maior confiabilidade
nos resultados obtidos, alm da validao do especialista do domnio, foram utilizadas
mtricas que avaliam a significncia estatstica dos resultados obtidos, tais como:
exatido, sensibilidade, especificidade e preciso. Adicionalmente, para avaliar a
capacidade do modelo predizer dados no vistos, foram utilizadas tcnicas de validao
cruzada.

5.3.3.1 Banco de Dados


Para realizar os experimentos foi utilizado um banco de dados de bovinos de um
rebanho leiteiro. As caractersticas eram indicadores do metabolismo: energtico,
protico, mineral, endcrino e do funcionamento heptico, de bovinos leiteiros de alta
produo sob condies de manejo controlado. O foco da minerao a identificao de
relacionamentos dos indicadores metablicos com a Contagem de Clulas Somticas
(CCS), fator que determina a presena ou ausncia de mastite. O banco de dados era
composto de 107 amostras, sendo 84 negativas e 23 positivas, cada uma descrita por 40
caractersticas, sendo uma destas caractersticas o alvo da predio.

97

5.3.3.2 Experimentos
O primeiro experimento executado leva em considerao todas as caractersticas
disponveis, sendo criado um modelo com 39 variveis. A figura 5.19 apresenta os
escores da camada de entrada referentes a estas 39 variveis. O segundo passo ordenar
as variveis de acordo com os seus respectivos escores. O terceiro passo criar diversos
modelos, partindo do modelo com um nico atributo, que tem o maior escore, e
inserindo-se gradativamente as prximas caractersticas com maior escore. No
experimento atual, foi utilizada a tcnica de validao cruzada leave-one-out.

Figura 5.19: Escores das 39 caractersticas de entrada

Figura 5.20: Desempenho relativo dos modelos com diferentes quantidades de


caractersticas

98

A tabela 5.8 apresenta a comparao entre dois modelos gerados com a abordagem
proposta, com 10 e 11 caractersticas, e um modelo com todas as caractersticas
presentes nos dados originais. A comparao baseada em mtricas estatsticas e
mostra os melhores resultados obtidos com modelos mais simples. Nota-se que o
modelo com 10 caractersticas mais eficiente que o modelo com 39 caractersticas de
acordo com todas as mtricas analisadas. J a partir da incluso do 11 atributo, o
modelo melhorou sensivelmente em relao s mtricas de especificidade e preciso,
todavia diminuiu sua sensibilidade, apresentando uma maior dificuldade de predio
dos casos positivos.
A figura 5.20 apresenta o desempenho relativo dos modelos com 1 at 17
caractersticas em relao ao modelo original com 39 caractersticas. O valor 0 do eixo
y representa o valor das mtricas em relao ao modelo original.
Tabela 5.8: Comparao de 2 modelos gerados com a abordagem proposta e modelo
original com todas as caractersticas.
Mtrica

10
11
39
Caractersticas Caractersticas Caractersticas

Exatido

0,83178

0,84112

0,79439

Sensibilidade

0,56522

0,47826

0,52174

Especificidade

0,90476

0,94048

0,86905

Preciso

0,61905

0,68750

0,52174

Os resultados obtidos com estes experimentos esto detalhadamente descritos em


Campos et al. (2006). Alm deste experimento de classificao previamente descrito,
tambm foram realizados, sobre este banco de dados, outros experimentos de regresso
visando identificar as caractersticas que mais contribuem para a obteno de leite de
alta qualidade. Tais experimentos de regresso esto descritos em detalhes em Gaona
(2005).

99

6 CONCLUSES E TRABALHOS FUTUROS

Nesta tese foi abordado o problema de reduo de dimensionalidade em problemas


de aprendizado neural supervisionado, utilizando MLP. Foi demonstrado que o
problema da alta dimensionalidade influi negativamente na qualidade dos modelos
gerados atravs da aplicao da tcnica de RNA. Embora as RNA consigam identificar
as caractersticas de entrada mais relevantes em relao s caractersticas de sadas que
esto sendo preditas, o aumento da quantidade de caractersticas de entrada irrelevantes
vai gradativamente deteriorando a qualidade do modelo preditivo. Dentro desta
realidade, em dados de alta dimensionalidade, a utilizao de modelos neurais pode ser
dificultada.
A necessidade de descobrir conhecimento em dados de alta dimensionalidade tem se
tornado cada vez mais comum em diversos ramos da cincia, principalmente devido
evoluo e surgimento de novas tecnologias de obteno e gerao de dados. Muitas
vezes tambm, estes dados referem-se a reas que representam a explorao de novas
fronteiras da cincia, onde ainda no existe a figura do especialista do domnio. Desta
forma, a utilizao de conhecimento prvio do especialista no processo de descoberta de
conhecimento impossvel.
Durante o processo convencional de aprendizado neural supervisionado, as redes
neurais, assim como as demais tcnicas de minerao de dados, demonstram a
capacidade de identificar as caractersticas de entrada mais ou menos informativas.
Porm, se as caractersticas de entrada pouco informativas continuarem fazendo parte
do modelo, elas passam a gerar rudo que tende a diminuir a preciso do modelo.
Adicionalmente, um modelo com mais caractersticas de entrada tem seu processo de
treinamento mais lento, e pelo fato do modelo no obedecer ao princpio da navalha de
Occam, um modelo com mais caractersticas de entrada mais complexo de ser
explicado.
Dentro desta realidade, a aplicao prvia de tcnicas de reduo de
dimensionalidade geralmente melhora o desempenho dos algoritmos de minerao de
dados. Porm, um dos fatores que dificulta a utilizao destas tcnicas que durante o
j complexo processo de descoberta de conhecimento, surge a necessidade de conhecer
e avaliar as abordagens de reduo de dimensionalidade a fim de realizar-se uma
escolha da tcnica mais indicada para o algoritmo de minerao sendo utilizado.
Neste escopo, a seguinte tese apresenta as seguintes contribuies:

100

1) A abordagem intuitiva e de fcil aplicao, podendo ser integrada ao processo


de aprendizado neural de maneira transparente e sem a necessidade de configurao de
parmetros adicionais.
2) Pode ser aplicada de maneira idntica tanto em problemas de regresso quanto de
classificao e sries temporais.
3) Pode ser aplicada de maneira idntica tanto em problemas de natureza linear
quanto no linear. As contribuies 1 e 2 j consistem em restries para aplicao de
muitas outras abordagens similares propostas na literatura.
4) A aplicao da abordagem demonstrou, nos estudos de caso apresentados, a
capacidade de gerar modelos mais precisos, mais rpidos e mais simples do que os
modelos neurais convencionais. Adicionalmente, os modelos criados so mais
facilmente explicveis devido menor quantidade de caractersticas utilizadas na
construo do modelo.
Alm destes aspectos citados anteriormente, a maior contribuio deste trabalho est
na proposio de uma arquitetura de reduo de dimensionalidade nica, aplicvel a
estes diversos tipos de problemas.
Como restries utilizao da abordagem proposta, podem ser considerados
relevantes os seguintes aspectos:
1) Deve ser realizado o escalonamento das entradas e remoo da mdia. A no
realizao deste processo far com que haja um vis nos escores, originado no processo
de treinamento do algoritmo backpropagation. Este vis tender a determinar um maior
escore para aquelas caractersticas de entrada cuja mdia absoluta tende a ser mais
prxima a 1. J as caractersticas de entrada cuja mdia absoluta for mais prxima a 0,
tendero a ter um escore tambm prximo a 0.
2) O treinamento inicial da RNA com todas as caractersticas de entrada dever
produzir um modelo com desempenho no mnimo equivalente a um aprendiz fraco.
Caso o treinamento inicial no consiga aprender absolutamente nada sobre os dados,
ento no haver nenhum conhecimento relevante expresso nos pesos sinpticos e as
sadas geradas pela rede sero, em mdia, iguais incerteza mxima. Dentro deste
escopo, a aplicao do modelo neural de aprimoramento progressivo no ir gerar
nenhum benefcio adicional em relao aos modelos convencionais de RNAs.
Com isso, conforme demonstrado no captulo 5, o escore utilizado reflete a
sensibilidade mdia das sadas da camada oculta em relao caracterstica
considerada. Logo, obedecidas as restries mencionadas anteriormente, garante-se a
validade da hiptese de pesquisa.
Como trabalhos futuros, similarmente ao que evidente na rea de neurocincia, a
rea de redes neural apresenta uma rea de estudo muito interessante que a codificao
neural. Assim, a traduo de dados para pesos sinpticos e a respectiva operao inversa
consistem em uma rea extremamente interessante e pouco explorada. A grande
restrio de muitos pesquisadores utilizao de redes neurais a criao de modelos
do tipo caixa-preta. A partir do momento que os pesos sinpticos, que representam o
conhecimento aprendido pela rede, passarem a ser mais explorados podero ser um
poderoso substrato para abrir a caixa-preta e contribuir para a interpretabilidade dos
modelos neurais.

101

Adicionalmente, pode ser explorada a aplicao da abordagem proposta a outros


algoritmos de treinamento de redes neurais MLP, a fim de demonstrar a generalidade da
proposta. A aplicao da abordagem sobre redes neurais recorrentes tambm poderia
constituir-se em uma nova fronteira a ser explorada.
Por fim, deve-se salientar que a reduo de dimensionalidade demonstra uma
realidade expressa nos dados em um determinado instante do tempo. Como o mundo
real dinmico, consequentemente modelos que visam descrever o mundo real tambm
so. Assim o processo de reduo de dimensionalidade deve ser realizado sempre que
houver uma mudana de realidade a fim de verificar o quanto a mudana impactou no
resultado do processo de descoberta de conhecimento.

REFERNCIAS
ACKOFF, R. L. From data to wisdom. Journal of Applied Systems Analysis. Vol. 16,
1989. p. 3-9.
ALPAYDIN, E. Introduction to Machine Learning. 2 ed. Cambridge: MIT Press,
2010.
BELLMAN, R. Adaptive Control Processes: A Guided Tour. Princeton: Princeton
University Press, 1961.
BERRY, M. J. A.; LINOFF, G. S. Data mining techniques for marketing, sales, and
customer relationship management. 2. ed. Indianapolis: Wiley Publishing Inc, 2004.
BISHOP, C. M. Neural networks for pattern recognition. New York: Oxford
University Press, 1995.
BOX, G. E. P.; JENKINS, G. M.; REINSEL, G. C. Time Series Analysis, Forecasting
and Control. 3. ed. Holden-Day. Series G, 1976.
CAMARGO, S. S. Minerao de dados: um estudo de caso sobre parmetros
petrogrficos e petrofsicos dos arenitos da formao de Uer. 2005. 48 f. Relatrio
de Pesquisa Instituto de Informtica, UFRGS, Porto Alegre.
CAMARGO, S. S.; ENGEL, P. M. A Heuristic Approach for Dimensionality Reduction
in Neural Modeling. In: IV International Symposium on Mathematical and
Computational Biology, Biomat, 2007.
CAMARGO, S. S.; ENGEL, P. M. MiRABIT: A new algorithm for mining association
rules. In: INTERNATIONAL CONFERENCE OF THE CHILEAN COMPUTER
SCIENCE SOCIETY, SCCC, 22, 2002, Proceedings... Copiap: IEEE Press, 2002.
CAMARGO, S. S.; ENGEL, P. M. Time Series Prediction with Focused Time Lagged
Feed-Forward Networks. In: INTERNATIONAL SYMPOSIUM ON FORECASTING,
ISF, 25, 2005, San Antonio, Texas, 2005. p. 123.
CAMARGO, S. S. ; ENGEL, P. M. Uma nova mtrica para reduo de
dimensionalidade em modelos de aprendizado neural. In: CONGRESO ARGENTINO
DE CINCIAS DE LA COMPUTACIN, CACIC, XV, 2009, Anales San Salvador
de Jujuy, 2009.
CAMARGO, S. S. ; ENGEL, P. M. A Progressive Enhancement Neural Model to
Predict Reservoir Quality in Sandstones. In: Third Southern Conference on

103

Computational Modeling, 2010, Rio Grande, Brasil. 2010 Third Southern Conference
on Computational Modeling, 2010-a. IEEE Press. (aceito para publicao)
CAMARGO, S. S. ; ENGEL, P. M.. A Progressive Enhancement Neural Model to
Predict Reservoir Quality in Sandstones. Vetor (FURG), 2010-b. (aceito para
publicao)
CAMPOS, R.; CAMARGO, S. S.; ENGEL, P. M.; SILVA, S. C.; GONZALEZ, F. H.
D. Use of metabolic indicators to predict milk quality using an artificial neural network
based model. In: CONGRESS OF THE INTERNATIONAL SOCIETY OF ANIMAL
CLINICAL BIOCHEMISTRY, ISACB, 12, 2006, Istanbul Turquia, 2006.
CIOS, K. J. et al. Data Mining: A knowledge discovery approach. New York:
Springer, 2007.
COVER, T.; HART, P. Nearest Neighbor Pattern Classification. IEEE Transactions
on Information Theory. 13, 1967. p. 21-27.
COVER, T. M.; THOMAS, J. A. Elements of Information Theory, 2. ed. New Jersey:
John Wiley and Sons, 2006.
DALGAARD, P. Introductory Statistics with R. New York: Springer, 2002.
EFFROYMSON, M. A. Multiple regression analysis, In: A. Ralston, and H. S. Wilf
(Eds), Mathematical Methods for Digital Computers, Wiley, New York, 1960.
p.191-203.
ENGEL, P. M. Criao de Modelos da Qualidade de Reservatrios pela Aplicao
de Tcnicas de Descoberta de Conhecimento sobre Parmetros Petrogrficos e
Petrofsicos de Arenitos DC3PA, 2005. 9 f. Projeto de Pesquisa Instituto de
Informtica, UFRGS, Porto Alegre.
FAYYAD, U. M. et al. From data mining to knowledge discovery: an overview. In:
Fayyad, U. M. et al. Advances in Knowledge discovery and data mining. Menlo Park:
MIT Press, 1996. p. 37-54.
FREEMAN, J. A.; SKAPURA, D. M. Neural networks: algorithms, applications and
programming techniques. New York: Addison-Wesley, 1991.
FRICK, M. The Knowledge pyramid: a critique of the DIKW hierarchy. Journal
of Information Science. Vol. 35, N. 2. 2009. p. 131-142.
FOUNTAIN, T.; ALMUALLIM, H.; DIETTERICH, T. G. Learning with many
irrelevant features. Technical Report, UMI Order Number: 91-30-04, Oregon State
University, 1991.
FUKUNAGA, K. Introduction to Statistical Pattern Recognition. 2. ed. New York:
Academic Press, 1990.
GAONA, R. C. Modelagem da composio qumica do leite atravs de indicadores
metablicos em vacas leiteiras de alta produo. 2005. 114 f. Tese de doutorado
Faculdade de Veterinria, UFRGS, Porto Alegre.

104

GERTHEISS, J.; TUTZ, G. Feature Selection and Weighting by Nearest Neighbor


Ensembles. 2008. 26 f. Technical Report Department of Statistics, University of
Munich, Munich.
GUYON, I.; ELISSEEFF, A. An Introduction to Variable and Feature Selection. In:
Journal of Machine Learning Research. v. 3, 2003. p. 1157-1182.
GUYON, I. et al. Feature Extraction: Foundations and Applications. New York:
Springer, 2006.
HAGAN, M. T.; DEMUTH, H.B.; BEALE, M. Neural Network Design. Thomson
Learning, 1995.
HAN, J.; KAMBER, M. Data mining: concepts and techniques. San Francisco:
Morgan Kauffman, 2001.
HAND, D.; MANILLA, H.; SMYTH, D. Principles of Data Mining. Cambridge: MIT
Press, 2001.
HASTIE, T.; TIBSHIRANI, R.; FRIEDMAN, J. The elements of statistical learning:
Data mining, inference and prediction. New York: Springer, 2001.
HAUPT, R. L.; HAUPT, S. E. Practical Genetic Algorithms. 2nd Edition. New Jersey:
John Wiley & Sons, 2004.
HAYKIN, S. Neural Networks: A Comprehensive Foundation. 2nd Edition. Delhi:
Prentice-Hall, 1999.
HUA, J. et al. Optimal number of features as a function of sample size for various
classification rules. Bioinformatics, v. 21, n. 8, 2005. p. 1509-1515.
JAIN, A. K.; DUIN, R. P. W.; MAO, J. Statistical Pattern Recognition: A Review. In:
IEEE Transactions on Pattern Analysis and Machine Intelligence, v. 22, n. 1, 2000.
p. 4-37.
KANDEL, E. R.; SCHWARTZ, J. H.; JESSELL, T. M. Principles of Neural Science.
4th edition. New York: McGraw-Hill Medical, 2000.
KANTARDZIC, M. Data Mining: Concepts, Models, Methods, and Algorithms.
New York: John Willey & Sons, 2002.
KECMAN, V. Learning and soft computing: support vector machines, neural
networks, and fuzzy logic models. Cambridge: MIT Press, 2001.
KIRA, K; RENDELL, L. A. The Feature Selection Problem: Traditional Methods and a
New Algorithm. In: Proc. 10th National Conf. on Artificial Intelligence, MIT Press,
1992. p. 129-134.
KOHAVI, R.; JOHN, G. H. Wrappers for feature subset selection. Artificial
Intelligence, v. 97, n. 1-2, 1997. p. 273-324.
KOLODNER, J. L. Case-Based Reasoning. San Francisco: Morgan Kaufmann, 1993.

105

KONAR, A. Artificial intelligence and soft computing: behavioral and cognitive


modeling of the human brain. Boca Raton: CRC Press, 2000.
KONONENKO, I. Estimating attributes: analysis and extensions of RELIEF. Proc.
1994 European Conf. Machine Learning, LNAI 784, 171-182, 1994.
LAROSE, D. T. Discovering knowledge in data: an introduction to data mining.
[S.l.]: John Wiley & Sons, 2005.
LAROSE, D. T. Data Mining Methods and Models. New Jersey: John Wiley & Sons,
2006.
LEE, K. Y.; EL-SHARKAWI, M. A. Modern Heuristic Optimization Techniques:
Theory and Applications to Power Systems. New Jersey: John Wiley & Sons, 2008.
LIMA R. D.; DE ROS, L. F. The role of depositional setting and diagenesis on the
reservoir quality of Devonian sandstones from the Solimes Basin, Brazilian Amazonia,
Marine and Petroleum Geology, 19, 2002. p. 1047-1071.
LIU, H.; SETIONO, R. Feature Selection and Classification: a probabilistic wrapper
approach. In: IEA-AIE, AAII, 17., 1996. Proceedings... Menlo Park, CA: Press: The
MIT Press, 1996.
LUGER, G. F.; STUBBLEFIELD, W. A. Artificial Intelligence: Structures and
Strategies for Complex Problem Solving. 3. ed. [S.l.]: Addison Wesley Longman,
1998.
LYMAN, P.; VARIAN, H. R. How Much Information. Berkeley, [s.n.]. Out. 2003.
Disponvel em: <http://www.sims.berkeley.edu/how-much-info-2003>. Acesso em:
Mai. 2007.
MACKEY, D. J. C. Information Theory, Inference and Learning Algorithms.
Cambridge: Cambridge University Press, 2003.
MAIMON, O.; ROKACH, L. (Editores) Data Mining and Knowledge Discovery
Handbook. New York: Springer, 2005.
MICHALEWICZ, Z.; FOGEL, D. B. How to Solve It: Modern Heuristics. New York:
Springer, 2000.
MIKLES, J.; FIKAR, M. Process Modeling, Identification and Control. New York:
Springer, 2007.
MITCHELL, T. M. Machine learning. New York: McGraw-Hill, 1997.
MITRA, S; ACHARYA, T. Data Mining: multimedia, soft computing and
bioinformatics. New Jersey: John Willey & Sons, 2003.
MUNAKATA, T. Fundamentals of the New Artificial Intelligence: Neural,
Evolutionary, Fuzzy and More. London: Springer-Verlag, 2008.
MYATT, G. J. Making Sense of Data: a practical guide to exploratory data analysis
and data mining. New Jersey: John Willey & Sons, 2007.

106

NAVOT, A. et al. Nearest neighbor based feature selection for regression and its
application to neural activity. In: Advances in Neural Information Processing
Systems V. 18, 2006. p. 995-1002, MIT Press.
OLSON, D. L.; DELEN, D. Advanced Data Mining Techniques. Berlin: Springer
Verlag, 2008.
PANINSKI, L.; PILLOW, J.; LEWI, J. Statistical models for neural encoding,
decoding, and optimal stimulus design. In: Progress in Brain Research V. 165, 2007.
p. 493-507, Elsevier.
QUINLAN, J. R. Induction of Decision Trees. Machine Learning. v. 1, n. 1, 1986. p.
81-106.
QUINLAN, J. R. C4.5: Programs for Machine Learning. San Mateo, CA: Morgan
Kaufmann, 1993.
RESTA, P. Information and Communication Technologies in Teacher Education:
A Planning Guide. Paris: UNESCO, 2002.
RIEDMILLER, M.; BRAUN, H. A direct adaptive method for faster backpropagation
learning: The RPROP algorithm. In Proc. of the IEEE Intl. Conf. on Neural
Networks, 1993. p. 586-591, San Francisco.
RUD, O. P. Data mining cookbook: modeling data for marketing, risk and
customer relationship management. New York: John Wiley & Sons, 2001.
RUSSELL, S.; NORVIG, P. Artificial Intelligence: A Modern Approach. New
Jersey: Prentice-Hall, 1995.
SARKER, R. A.; ABBASS, H. A.; NEWTON, C. Heuristic & Optimization for
Knowledge Discovery. London: Idea Group Publishing, 2002.
SOUMEN, C. Data Mining: Know it all. Burlington: Elsevier, 2009.
SUMATHI, S.; SIVANANDAM, S. N. Introduction to Data Mining and its
applications. Berlin: Springer-Verlag, 2006.
SYMEONIDIS, A. L.; MITKAS, P. A. Agent intelligence through data mining. New
York: Springer, 2005.
TAYLOR, B. J. (Editor) Methods and Procedures for the verification and validation
of artificial neural networks. New Jersey: Springer, 2006.
TENENBAUM, J. B., DE SILVA, V.; LANGFORD, J. C. A global geometric
framework for nonlinear dimensionality reduction. In: Science Magazine, V.290
N.5500, 2000. p. 2319-2323.
THEODORIDIS, S.; KOUTROUMBAS, K. Pattern Recognition. 2. ed. London:
Academic Press, 2003.
TSIEN, J. S. The Memory Code. Scientific American, New York, v. 297, n.1, 2007. p.
52-59.

107

WANG, L.; XIUJU, F. Data mining with computational intelligence. Berlin:


Springer-Verlag, 2005.
WEBB, A. R. Statistical Pattern Recognition. Malvern: John Wiley & Sons, 2002.
WITTEN, A. A.; FRANK, E. Data Mining: Practical Machine Learning Tools and
Techniques. San Francisco: Morgan Kaufmann Publishers, 2005.
YAMPOLSKIY, R. V.; GOVINDARAJU, V. Similarity Measure Functions for
Strategy-Based Biometrics. Proceedings of World Academy of Science, Engineering
and Technology, V. 18, 2006.
YE, N. Handbook of Data Mining. London: Lawrence Erlbaum Associates Publishers,
2003.
XU, R.; WUNSCH, D. C. Clustering. New Jersey: John Wiley & Sons, 2009.